© 2021 BIOTOOLS Co., Ltd. All Rights Reserved

latest news

最新消息

11 2022.05

【人類完整基因體問世】

     原創文章     引用請註明出處

去年發布從端到端,三代定序提供人類完整基因體資訊,那時還在文章中討論到五月有完整人類基因體的草稿文獻正在同濟審核中。時間飛快一年就過去了,在今年 4/1 愚人節,Science 期刊連發了六篇與人類完整基因體相關的文獻,其中登上封面的就是這篇:The complete sequence of a human genome [1]。是的!就在2022年!人類終於將歷經二十幾年的人類基因體草圖完整填補成完整基因體序列。今天的文章就來和大家談談這篇文獻吧!

【關於 CHM13 基因體序列】
不管是先前發布的 PacBio 第8號染色體序列、Nanopore 發布的 X 染色體序列,或者是本文介紹的完整人類基因體,其定序樣品皆為 CHM13 人類細胞株。CHM13 來源為完全性葡萄胎,由單一精子減數分裂後染色體複製而成的 46, XX 同型等位基因。也因為如此,本文及第一版的 CHM13 基因體僅含有性染色體中 X 染色體的序列。不用擔心的是,科學發展的步調總是迅雷不及耳的在成長,CHM13 v2.0 已經含有 Y 染色體的資料,使用的定序材料為大家常聽到的 HG002 細胞株。

【GRCh38 與 CHM13 的差異】
人類基因體序列從 2013 發布的 Genome Reference Consortium (GRC) 到 2019年的最新版本 GRCh38.p13,這些基於 bacterial artificial chromosomes (BACs) 方式建構出來的定序樣品,持續的替人類基因體序列做驗證、校正。然而,這種方法低估了重複序列的代表性、產生單倍體組裝上的鑲嵌型,也因為重複及多態性的序列使得基因體組裝上遺留一些未被解決的缺口。在 GRCh38 基因體中,含有約 151 Mb左右的序列是未知的,這些序列分布於著絲粒附近﹑次端粒區域、片段重複序列以及核醣體 DNA 陣列等在細胞形成過程中佔有必要地位的序列 (見下圖 A 色塊區域;黃色表著絲粒衛星序列、藍色表片段重複序列、紅色表新版人類基因體 CHM13 特有基因、黑色表 GRch38 含的缺口跟待解決區域)。可以從下圖 B-C 中看出比起 GRCh38,CHM13 在各染色體中填補的鹼基數,由其是完成了第 13、14、15、21 和 22 的染色體短臂序列。除了填補缺口之外,也校正了 GRCh38 的大量缺失變異。






【完整人類基因體的定序技術及策略】
比起基於 BAC 的組裝方式,長讀長霰彈槍定序方法克服了人類基因體中的結構多態性。本文中 CHM13 基因體的組裝合併了多項定序技術的應用,包含了 30xPacBio HiFi reads、120xNanopore ultralong-read、100x Illumina PCR-free sequencing、70xHi-C、BioNano、Strand-Seq。而本文的組裝策略也解決高重複性的著絲粒衛星陣列、片段重複序列等區域的定序難題。

2021年 --- PacBio的幾件重要事中有提到,本篇人類完整基因體是以 PacBio HiFi 數據做為高重複序列區域的組裝骨幹。而大部分的 HiFi 錯誤為出現於同源聚合序列 (homopolymer runs) 或簡單重複序列區域的小片段插入/缺失。為了彌補此缺點,同源聚合序列先被壓縮為單一核苷酸 (A1...An 變成 A1, n > 1)。接著將所有壓縮的 reads 去辨識及校正定序錯誤,有差異的序列會被掩蓋 (masked)。經過壓縮、校正、掩蓋後的重疊序列會被加至 string graph 中,可以從下圖中看出單一染色體的組裝結果近乎線性。圖中可見染色體的微小片段主要是因為 HiFi 定序時一些 GA 比例較高區域的覆蓋率不足,之後由 Nanopore 定序彌補了這些缺口以及將「糾纏」的區域引導至對的位置。此手法也被應用於另一個樣品 GM24385 細胞的 X 染色體組裝,組裝出的準確度可比 T2T-CHM13。




上述組裝方法雖解決了大部分的區域,仍有 5 個核醣體 DNA 陣列及其附近區域序列無法呈現於 string graph。人類核醣體 DNA 是位於人類染色體短臂上著絲粒附近約 45 kb 左右近乎相同的重複序列。一般來說,正常人類基因體被預測含有315 個核醣體 DNA copies (標準差正負 104 copies),在 CHM13 基因體中根據 Illumina 數據推測應含有 400 rDNA copies。為了組裝這複雜序列,先將核醣體 DNA 序列建構成 sparse de Bruijn graphs,把 Nanopore 數據對齊至圖後,根據序列相似度形成 morphs,每個 morphs 的拷貝數目則由對應到的 Nanopore reads 去計算,後續使用 PacBio HiFi 數據做序列拋光。

將初步組裝出的 CHM13 v0.9 使用 HiFi、Nanopore、Illumina、Strand-Seq 以及 Hi-C 數據做校正後,總共修正了 4 個大的、993 個小的錯誤,產生了 CHM13 v1.0,在人類基因體中鑑定了 44 個大的以及 3,901 個小的雜合變異。加上新解密的拋光端粒序列以及核醣體 DNA 陣列的序列後,成功的勾勒出從端粒到端粒的完整序列,形成 CHM13 v1.1 基因體參考序列。以覆蓋率來說,PacBio HiFi 平均為 34.70 ± 7.03,而 Nanopore 平均為 116.16 ± 16.96,可觀察到覆蓋率在靠近衛星陣列區域會有上升或者下降的現象。根據整個陣列序列的均勻覆蓋率,推測這個現象可能為樣品製備、定序或者是訊號解讀時造成的偏差,而不是定序錯誤。

【完整人類基因體的誕生】
T2T-CHM13 完整人類基因體共含有 22 對人類體染色體加上 X 性染色體序列,共含有 3,054,815,472 bp 細胞核內 DNA,加上 16,569 bp 粒線體DNA。在轉錄體資訊上,T2T-CHM13 草稿共註解了 63,494 個基因與 233,615 個轉錄本,其中 19,969 個被預測為蛋白編碼基因。與 GRCh38 相比,有 263 個出現於 GRCh38 的基因未在 CHM13 中被註解到,其中有 194 個是因為在 CHM13 註解中拷貝數目較低,46 個未被完整的對齊到 CHM13,23 個是在 GRCh38 中已知為假重複基因,只有 4 個為臨床相關基因 (CFHR1, CFHR3, OR51A2, UGT2B28),全是因為拷貝數目差異造成沒被註解到。而 CHM13 則比GRCh38 多註解到 3,604 個基因,大部分位於著絲粒附近或者是近端著絲粒的短臂。
整體來說,人類基因體短讀長或者長讀長定序結果的比對,不管是準確度、完整性或者是重複序列區域,CHM13 都比 GRCh38 更適合作為參考序列。 文章中重新分析了 1KGP (1000 Genomes Project) 中的 2,302 個短讀長人類定序結果,發現使用 CHM13 作為參考序列,明顯降低了偽陽性與偽陰性的基因變異數目。類似結果也在 SGDP (Simons Genome Diversity Project) 中被發現,使用 CHM13 資料庫可以更好的找到樣品中的拷貝數目變異。

【相關研究】
在人類完整基因體問世之後,不管是三代定序龍頭 PacBio 或者 Nanopore 公司,都有發下豪語,說會使用該公司定序技術完整解密人類基因體。其他相關研究也有完整人類泛基因體的計畫正在默默進行中。

如果看一篇大家還不夠過癮的話,同場閱讀同一天發布的其他五篇文獻:

1. A complete reference genome improves analysis of human genetic variation [2] 針對新增的2億個鹼基對序列去分析結構變異。糾正了數千個先前發表的錯誤結構變異,並且為臨床和人類研究解鎖了人類基因體中最複雜的區域。
全文連結: https://www.science.org/doi/10.1126/science.abl3533?url_ver=Z39.88-2003&rfr_id=ori:rid:crossref.org&rfr_dat=cr_pub%20%200pubmed

2. Segmental duplications and their variation in a complete human genome [3] 使用了完整的端粒到端粒人類基因體序列,提供人類片段重複的資訊。發現segmental duplications 佔新發現的2億多個鹼基對中三分之一,在全基因體中佔比從5.4%增加到7.0%。
全文連結: https://www.science.org/doi/10.1126/science.abj6965?url_ver=Z39.88-2003&rfr_id=ori:rid:crossref.org&rfr_dat=cr_pub%20%200pubmed

3. Complete genomic and epigenetic maps of human centromeres [4] 則針對構成人類基因體6.2%的著絲粒序列,去探討其周圍及重複序列,包括著絲粒重複陣列,解密著絲粒的位置與附近序列與人類進化之間的關係。
全文連結: https://www.science.org/doi/10.1126/science.abl4178?url_ver=Z39.88-2003&rfr_id=ori:rid:crossref.org&rfr_dat=cr_pub%20%200pubmed

4. From telomere to telomere: The transcriptional and epigenetic state of human repeat elements [5] 著重於人類參考基因體的重複序列註釋,使我們更了解人類基因體重複區域的多樣性、分布和演化。
全文連結: https://www.science.org/doi/10.1126/science.abk3112?url_ver=Z39.88-2003&rfr_id=ori:rid:crossref.org&rfr_dat=cr_pub%20%200pubmed

5. Epigenetic patterns in a complete human genome [6] 提供了先前無法定序區域的高解析度表觀遺傳資訊。對來自六個不同個體的人類著絲粒 CpG 甲基化進行研究。該分析提供了一個框架,用來研究人類基因體中最難以定序區域的表觀遺傳調控。
全文連結: https://www.science.org/doi/10.1126/science.abj5089?url_ver=Z39.88-2003&rfr_id=ori:rid:crossref.org&rfr_dat=cr_pub%20%200pubmed


參考資料

1. Nurk, Sergey, et al. "The complete sequence of a human genome." Science 376.6588 (2022): 44-53.
2. Aganezov, Sergey, et al. "A complete reference genome improves analysis of human genetic variation." Science 376.6588 (2022):eabl3533.
3. Vollger MR, Guitart X, et al. “Segmental duplications and their variation in a complete human genome.” Science 376.6588 (2022):eabj6965.
4. Altemose, Nicolas, et al. "Complete genomic and epigenetic maps of human centromeres." Science 376.6588 (2022):eabl4178.
5. Hoyt, Savannah J., et al. "From telomere to telomere: the transcriptional and epigenetic state of human repeat elements." Science 376.6588 (2022):eabk3112.
6. Gershman, Ariel, et al. "Epigenetic patterns in a complete human genome." Science 376.6588 (2022):eabj5089.  


 
圖爾思生物科技 / 微生物體研究中心
許瑄珉 文案 
 
回上一頁
標籤
三代定序
聯絡我們
CONTACT US
立即前往

抱歉,為了您的瀏覽體驗及安全性,本網站不支援IE瀏覽器,請參考下方常用瀏覽器。