14
2022.09
【FDA真實挑戰賽到底是多真實?!】
原創文章 引用請註明出處
今天這篇文章小編感覺是不小心收了 PacBio 紅包而寫的?!
開玩笑的啦~ 人家 PacBio 就真的有實力,我們只是據實以告而已。
本文以 2022 年 5 月發表在 Cell Genome的 FDA 真實挑戰賽 V2 為主軸[1],跟大家分享 FDA 真實挑戰賽在做什麼,以及這次參賽選手們的表現如何~
今天這篇文章小編感覺是不小心收了 PacBio 紅包而寫的?!
開玩笑的啦~ 人家 PacBio 就真的有實力,我們只是據實以告而已。
本文以 2022 年 5 月發表在 Cell Genome的 FDA 真實挑戰賽 V2 為主軸[1],跟大家分享 FDA 真實挑戰賽在做什麼,以及這次參賽選手們的表現如何~
- 什麼是FDA真實挑戰賽?
其中較有名的就是 FDA 真實挑戰賽 (Precision FDA Truth Challenge),這個挑戰賽的目的結合基因體研究的科學家們,一起將現有的方法達到更準確且一致的結果,以朝向更佳的個人化醫療夢想。挑戰賽採自願制,通常為期一個月的投稿時間。受邀請的創新者們依照挑戰賽規定的樣品及目的,可以選擇自己想要的定序平台及分析方法,以達到最接近真實答案的結果。
以第一屆真實挑戰賽來說,主要比較偵測指定人類樣品基因變異的表現,可分成單核苷酸多型性 (Single-Nucleotide Polymorphism, SNP)、序列的插入與刪除 (insertion/deletion, indel),分別評比針對這些變異的表現、召回率 (recall rate)、準確度等項目的結果。而第二屆的真實挑戰賽因為加入了三代定序平台,使得參賽者的工具排列組合更加有彈性。平台上的使用可分為二代定序 Illumina、三代定序 Nanopore, PacBio 三個平台,可以單一使用也可以合併使用,而生物資訊分析工具也比先前更強大更多選擇。
- 定序的樣品是何方神聖?
定序的樣品則以 NIST ID 命名為 HG001、HG002 … 以此類推,HG001 為 NA12878 細胞株,HG002 至 HG004 為阿什肯納茲猶太人家族檢體,這些樣品皆以 hg38 資料庫為參考去偵測變異。而 FDA 真實挑戰賽則在 GIAB 尚未發布正確答案之前,先行請大家投搞定序相對應的樣品,並在 GIAB 公布序列後,在競賽結果「對答案」來找出獲勝者。以第一屆挑戰賽來說,定序的樣品為 HG002,第二屆挑戰賽的樣品為 HG003、HG004。
- 參賽者是誰?
第一屆 FDA 真實挑戰賽結果:
第二屆 FDA 真實挑戰賽結果:
- 比賽結果如何?
以全基因體區域來看,擁有最好表現的為合併使用三個平台的投稿,接著依序為只使用 PacBio、Illumina、Nanopore。而在全比賽類別中,單一平台使用以 PacBio HiFi 表現最為優良。而在較難定序的區域中,表現排名依序為 PacBio HiFi、Nanopore、Illumina。可見 Nanopore 雖然擁有相對 PacBio HiFi 較高的錯誤率,但其長讀長的優勢還是在這方面較二代定序突出。以分析策略來看,二代定序搭配 statistical methods that utilized graph-based 擁有最佳表現,而三代定序則為 deep-learning-based 方法。