14 2022．09

【FDA真實挑戰賽到底是多真實?!】

原創文章引用請註明出處

今天這篇文章小編感覺是不小心收了 PacBio 紅包而寫的?!
開玩笑的啦~ 人家 PacBio 就真的有實力，我們只是據實以告而已。

本文以 2022 年 5 月發表在 Cell Genome的 FDA 真實挑戰賽 V2 為主軸^[1]，跟大家分享 FDA 真實挑戰賽在做什麼，以及這次參賽選手們的表現如何~

什麼是FDA真實挑戰賽？

2015 年美國總統歐巴馬提倡精準醫療計畫 (Precision Medicine Initiative)，希望未來有一天能夠替每個人依照其獨特個人特徵及基因表現量身訂做個人化的醫療護理。由美國食品藥物管理局 (Food and drug administration, FDA) 發起的 PrecisionFDA 即因應而生，宗旨在於制定基因體學的標準，甚至延伸至多體學的部分。這個平台提供 FDA 的科學家、審查人員以及外部合作夥伴一個交流的空間，包含高性能的計算實例、專家建議、公開的可用工具及挑戰框架。

其中較有名的就是 FDA 真實挑戰賽 (Precision FDA Truth Challenge)，這個挑戰賽的目的結合基因體研究的科學家們，一起將現有的方法達到更準確且一致的結果，以朝向更佳的個人化醫療夢想。挑戰賽採自願制，通常為期一個月的投稿時間。受邀請的創新者們依照挑戰賽規定的樣品及目的，可以選擇自己想要的定序平台及分析方法，以達到最接近真實答案的結果。

以第一屆真實挑戰賽來說，主要比較偵測指定人類樣品基因變異的表現，可分成單核苷酸多型性 (Single-Nucleotide Polymorphism, SNP)、序列的插入與刪除 (insertion/deletion, indel)，分別評比針對這些變異的表現、召回率 (recall rate)、準確度等項目的結果。而第二屆的真實挑戰賽因為加入了三代定序平台，使得參賽者的工具排列組合更加有彈性。平台上的使用可分為二代定序 Illumina、三代定序 Nanopore, PacBio 三個平台，可以單一使用也可以合併使用，而生物資訊分析工具也比先前更強大更多選擇。

定序的樣品是何方神聖？

既然要進行挑戰賽，肯定要有一個標準可以比對。這個「公正的裁判」就由美國國家標準暨技術研究院 (National Institute of Standards and Technology, NIST) 成立的「瓶中基因體」策略聯盟 (Genome in a Bottle Consortium, GIAB) 負責^[2]。身為標準答案負責人，GIAB 在定序平台的選擇上也很多元，包含 ABI Solid、Illumina、PacBio、Ion Proton 等技術，在 300x 高深度的情況下，搭配多種變異偵測軟體進行分析，以達到最接近標準答案的分析結果。

定序的樣品則以 NIST ID 命名為 HG001、HG002 … 以此類推，HG001 為 NA12878 細胞株，HG002 至 HG004 為阿什肯納茲猶太人家族檢體，這些樣品皆以 hg38 資料庫為參考去偵測變異。而 FDA 真實挑戰賽則在 GIAB 尚未發布正確答案之前，先行請大家投搞定序相對應的樣品，並在 GIAB 公布序列後，在競賽結果「對答案」來找出獲勝者。以第一屆挑戰賽來說，定序的樣品為 HG002，第二屆挑戰賽的樣品為 HG003、HG004。

參賽者是誰？

以第二屆真實挑戰賽來說，總共有來自 20 個團隊、共 64 份投稿，其中有15 個團隊同意將他們所使用的 pipeline 公諸於文獻中提供給大家參考^[1]。可以從官網中發現，參賽團隊來自四面八方，有來自大藥廠羅氏 (Roche)、賽諾菲 (Sanofi)，也有知名大學與科技龍頭的合作 (UCSC CGL and Google Health)，甚至是新創公司像是出自於史丹佛大學的生物資訊分析公司 Sentieon。也附上第一屆跟第二屆的優勝者給大家參考^[3-4]。

第一屆 FDA 真實挑戰賽結果：

第二屆 FDA 真實挑戰賽結果：

比賽結果如何？

文獻中共公開 53 份投稿內容，其中有 13 份同時使用兩個或以上的定序平台。在使用單一平台的投稿中，則以 Illumina 使用率最高，接著是 PacBio、Nanopore。在使用多平台的組別中，13 份都有使用 PacBio 進行定序、Illumina 被使用於 12 份投稿中、有 5 份投稿是三個平台皆有使用。而在生物資訊分析方法上面最常被使用的為 deep-learning 方法，尤其是含有三代定序的數據中。在二代定序中表現最好的分析方法則為 statistical variant-calling algorithms with a graph reference。

以全基因體區域來看，擁有最好表現的為合併使用三個平台的投稿，接著依序為只使用 PacBio、Illumina、Nanopore。而在全比賽類別中，單一平台使用以 PacBio HiFi 表現最為優良。而在較難定序的區域中，表現排名依序為 PacBio HiFi、Nanopore、Illumina。可見 Nanopore 雖然擁有相對 PacBio HiFi 較高的錯誤率，但其長讀長的優勢還是在這方面較二代定序突出。以分析策略來看，二代定序搭配 statistical methods that utilized graph-based 擁有最佳表現，而三代定序則為 deep-learning-based 方法。

上圖中可見不同技術 Illumina (green)、Nanopore (purple)、PacBio (pink)、multiple platforms (orange) 在全區域、較難對照區域、白血球抗原序列中的表現。也可從右圖中看到整體來說，多平台的橘色點以及 PacBio 的粉紅色點有較佳的表現。

除此之外，在一些過去被認為比較難辨識變異的區域像是人類白血球抗原序列 (human leukocyte antigen, HLA)，以 Seven Bridges 提供的 Illumina graph-based pipeline^[5] 則表現得特別好。三代定序 Nanopore – NonoCaller Medaka 也在 MHC 區域有不錯的表現，特別是 SNVs 的部分。整體來說，三代定序在表現上比起只用純二代定序的結果好很多。

上圖中可見黑線之上的點顯示比起全區域或者較難對照區域，在 MHC 區域有較好表現的投稿組別，像是 Seven Bridges。

上圖比較不同版本跟挑戰賽的結果，可以從比較中看出 SNV 錯誤率以 V1 跟V4 版本做比較，其錯誤率大幅降低約 10 倍左右。而 V4 對基因體的總覆蓋率也從 V3 的 85% 上升至 92%，特別增加較難對照區域以及 MHC 區域的覆蓋率。可見定序技術及生物資訊分析方法這幾年的進步。

參考資料
1. Olson, Nathan D., et al. "PrecisionFDA Truth Challenge V2: Calling variants from short and long reads in difficult-to-map regions." Cell Genomics 2.5 (2022): 100129.
2. Genome In A Bottle (GIAB) official website. https://jimb.stanford.edu/giab
3. PrecisionFDA Truth Challenge V1 challenge results. https://precision.fda.gov/challenges/truth/results
4. PrecisionFDA Truth Challenge V2 challenge results. https://precision.fda.gov/challenges/10/results
5. Rakocevic, Goran, et al. "Fast and accurate genomic analyses using genome graphs." Nature genetics 51.2 (2019): 354-362.

圖爾思生物科技 / 微生物體研究中心

許瑄珉文案

回上一頁

您瀏覽過的文章

2022．09．14

【FDA真實挑戰賽到底是多真實?!】

原創文章引用請註明出處今天這篇文章小編感覺是不小心收了 PacBio 紅包而寫的?! 開玩笑的啦~ 人家 PacBio 就真的有實力，我們只是據實以告而已。本文以 2022 年 5 月發表在 Cell Genome的 FDA 真實挑戰賽 V2 為主軸[1]，跟大家分享 FDA 真實挑戰賽在做什麼，以及這次參賽選手們的表現如何~ 什麼是FDA...

技術分享

科研試劑品牌

生命科學儀器

latest news

最新消息

【FDA真實挑戰賽到底是多真實?!】

什麼是FDA真實挑戰賽？

定序的樣品是何方神聖？