© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

23 2021.09

【從端到端,三代定序提供人類完整基因體資訊】

     原創文章     引用請註明出處

人類基因體最早在 2001 年被發布,是第一個被深度定序的脊椎動物基因體,也碰巧就是我們自身物種[1],這篇文獻目前已被引用超過兩萬六千次以上。研究集結了美國、英國、日本、法國、德國和中國, 共 20 個世界各地的單位、費時 55 個月,將人類基因體覆蓋率從 10% 提升至 90% 以上。而當時研究也有些有趣的發現:

 蛋白質譯碼基因共 30,000-40,000 個,跟蒼蠅比起來只多了一倍的數量。
 數百個人類基因有極大可能是從細菌轉移至人類。
 男人的基因突變率為女人的兩倍。
 人類基因體中有超過 140 萬個單核苷酸多態性 (SNPs)。

縱使當時有些技術上的創新如四色螢光定序[2]、標定螢光的改良[3]、定序專用聚合酶[4]、毛細管電泳技術[5]等突破。基因體組裝上仍有其難度及限制,使得將近 20 年過去,還未有完整的人類基因體序列被發布,尤其是高度複雜或重複序列的染色體區域尚待解決。先前最精準且完整的人類基因體序列資料庫為 GRCh38,卻沒有任何一個染色體是從端粒到端粒 (Telomere-to-telomere) 組裝完整的,遺留了幾百個缺口需補齊。三代定序的應用,使得近幾年陸續有端到端組裝完整的染色體序列被發布。本文來跟大家介紹 Nanopore 和 PacBio 發表的完整染色體序列文獻。


Nanopore:人類X染色體完整序列[6]
本篇文獻使用材料同人類基因資料庫 CHM13,定序由完全性葡萄胎發展而來的細胞株 CHM13hTERT,此細胞株為單一精子經由減數分裂後染色體複製而來,因此是 46, XX 同型等位基因。過去曾被用於填補人類基因體資料庫的缺口、人類基因體組裝及作為二倍體的基準、片斷重複序列的研究。

以定序結果來看,共使用 98 片 MinION 晶片,產出 155 Gb的數據,讀深平均為 50 倍,一半以上的讀長超過 70 kb,最長片段為 1.04 Mb。使用 Canu 將 Nanopore 39X 超長片段與先前 PacBio 70X 定序結果,進行 CHM13 基因體組裝。初始組裝出來的基因體大小為 2.90 Gb,一半以上的 contig 超過 75 Mb,比起 GRCh38 的 NG50 56 Mb 更長。接著依序使用 Nanopore, PacBio 進行序列拋光,使其準確度達到 99.9%,最後使用 linked-read Illumina 做插入及缺失序列的校正。可以從【圖一】中看到組裝結果,2 個 contigs 即涵蓋第 6 號染色體 90%以上序列。校正後的組裝結果共 2.94 Gb、含 448 個 contigs、NG50 為 70 Mb。
Image 1_1
【圖一】藍色和橘色條代表無缺口contig


比較 CHM13 和其他人類基因體資料庫的組裝結果,【表一】列出 Illumina, Nanopore, PacBio CLR, PacBio HiFi 及 Sanger BACs 等不同技術的組裝統計。以組裝出的總基因體大小來說,本篇組裝結果較 GRCh38 小(2.95 vs 3.27 Gb),但是組出來的序列可以對應到更多的轉錄本。用來分析結構變異時, CHM13 不像 GRCh38 會有偵測缺失變異(deletion)的偏差,其對應到的插入和缺失變異數量是較平衡的。若和其他長讀長組裝結果比較的話,GRCh38 在基因倒置變異(inversion)發現的數量為 CHM13 的兩倍,顯示出現有的人類基因序列可能有些誤導的序列存在。以完整度、連續性、準確度來評估現有的人類基因體參考序列來說,本篇 CHM13 組出的 contig 包含了 41/46 個端粒體的序列,比過去任何一個人類 de novo 組裝結果都更好。
Table 1
【表一】


X 染色體擁有著絲粒阿爾法衛星陣列(alpha satellite array)、發育過程中重要角色及孟德爾遺傳疾病相關等特性。研究團隊選擇了組裝相對完整的 X 染色體做後續研究,初步組裝後,仍遺留三個斷點需補齊:著絲粒和兩個大於 100 kb 的重複片段。為了組裝 X 染色體著絲粒,在 X 染色體上找典型衛星陣列(DXZ1)的 SNV 和結構變異作為長片段定序的路標,找到定位後使用長讀長的特性一口氣將重複片段讀過去。接著,序列拋光使用 Nanopore、先前發布的 PacBio 序列[7]以及 Illumina 校正特定小片段區域。組裝好的X染色體無任何缺口、準確度達 99.991%。然而,在大片斷重複區域準確度會較低,約為 99.3%。此研究團隊組出的 X 染色體序列,完整將過去研究[8]中 29 個缺口補齊,總長共 1,147,861 bp。


PacBio:人類第8號染色體[9]
本篇文章合併 20X Nanopore 加上 32.4X PacBio HiFi 定序 CHM13hTERT 完全性葡萄胎細胞株,樣品同上一篇 Nanopore 文獻。研究透過建庫單一獨特核苷酸(singly unique nucleotide k-mers, SUNKs)得到的 PacBio HiFi 上機數據,以 Illumina 技術驗證後,作為 barcode 去協助 Nanopore 超長定序片段組裝成 scaffold,其流程如【圖二】。藉由此方法,可以提升 Nanopore 定序結果的準確度,並且組裝出較長的染色體片段。
Image 2
【圖二】灰色為Nanopore超長定序片段、彩色條狀即代表SUNKs


第 8 號染色體從端到端共 146,259,671 個鹼基,比起之前 GRCh38,多組裝了 3,334,356 個鹼基。其餘的主要發現包含了(1)位於 8p23.1 長約 644 kb 且拷貝數目變異大的防禦素(β-defensin)基因、(2)長 2.08 Mb 含阿爾法衛星(alpha satellite)高度重複序列的著絲粒完整序列、(3)位於 8q21.2 長約 863 kb 多變串聯重複序列 (variable number tandem repeat, VNTR)、(4)兩個端粒的序列。接著作者以 Bionano、Strand-seq、Illumina WGS 數據驗證所組裝出的第 8 號染色體序列,推測染色體整體準確度落於 99.9915 至 99.9999%,Q 值為 40.70 到 63.19。後續以 Iso-seq 定序出 2,400 萬條完整人類轉錄本,共 61 個蛋白質編碼、33 個非蛋白質編碼位點,可以對應回 CHM13 結果的轉錄本優於之前可對應到 GRCh38 的結果。

為了研究著絲粒的演化,以 40-56X Nanopore 加上 25-40X PacBio HiFi 定序黑猩猩、獼猴以及猩猩的第八號染色體著絲粒,組裝後的準確度達 99.9988 至 100%。這些非人類靈長動物著絲粒中的重複序列差異可從 1.69 Mb 至 10.92 Mb,其中以黑猩猩的組成與人類最為相似。研究發現在非人類靈長動物著絲粒中的平均等位差異,在阿爾法衛星高度重複序列的突變率為一般序列的三倍,而這個現象在人類中較少見(約 1.27-1.99%)。此研究為直系同源靈長類的著絲粒提供了完整的序列比較,並為未來研究這些區域的遺傳變異和演化提供了框架。


提供兩篇組裝出單條完整染色體的文獻給大家,這兩篇文獻都以 CHM13hTERT 為材料,進行染色體的組裝。而最新的 CHM13 人類參考序列比起之前的 GRCh38 來說,多填補了 8% 的基因體序列、已知基因數目增加 0.4%、多發現了 115 個可轉譯出蛋白質的基因。其實,在今年五月底時,已經有發布消息目前人類基因體已被完整定序出來,該篇文獻目前還在peer review中,有興趣者請至傳送門:https://www.biorxiv.org/content/10.1101/2021.05.26.445798v1


參考資料

1. Lander, Eric S., et al. "Initial sequencing and analysis of the human genome." (2001).
2. Smith, Lloyd M., et al. "Fluorescence detection in automated DNA sequence analysis." Nature 321.6071 (1986): 674-679.
3. Ju, Jingyue, et al. "Fluorescence energy transfer dye-labeled primers for DNA sequencing and analysis." Proceedings of the National Academy of Sciences 92.10 (1995): 4347-4351.
4. Reeve, Michael A., and Carl W. Fuller. "A novel thermostable polymerase for DNA sequencing." Nature 376.6543 (1995): 796-797.
5. Luckey, John A., et al. "High speed DNA sequencing by capillary electrophoresis." Nucleic acids research 18.15 (1990): 4417-4421.
6. Miga, Karen H., et al. "Telomere-to-telomere assembly of a complete human X chromosome." Nature 585.7823 (2020): 79-84.
7. Vollger, Mitchell R., et al. "Improved assembly and variant detection of a haploid human genome using single‐molecule, high‐fidelity long reads." Annals of human genetics 84.2 (2020): 125-140.
8. Ross, Mark T., et al. "The DNA sequence of the human X chromosome." Nature 434.7031 (2005): 325-337.
9. Logsdon, Glennis A., et al. "The structure, function and evolution of a complete human chromosome 8." Nature 593.7857 (2021): 101-107.
圖爾思生物科技 / 微生物體研究中心
許瑄珉 文案 
 
回上一頁
標籤
三代定序
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。