16
2026.06
《Nature Microbiology》最新評估:總體基因體定序深度多少才夠?權威基準測試出爐!
總體基因體定序能同時提供微生物群落的分類學(Taxonomy)與功能層面(Functional profiling)的豐富資訊,然而,究竟需要多深的定序數據量才能滿足特定的分析需求?目前仍缺乏完整的基準測試 (Benchmarking) 指引。
2026年發表於頂尖國際期刊 Nature Microbiology 的最新研究,為此難題提供了明確的解答方向。研究團隊利用多種培養細菌的 DNA 構建出複雜的模擬群落(Mock Community,包含 13 種組合,共 70 或 24 株已知基因體細菌的模擬群落),全面涵蓋均勻豐度、梯度豐度、有無宿主背景 DNA 等關鍵實驗因子。團隊在 11 種定序深度(每個樣本 0.1 / 0.25 / 0.5 / 0.75 / 1 / 1.5 / 2 / 5 / 10 / 20 / 50 Gb)下,深度評估物種組成(依賴參考序列的物種與菌株分類)、菌株層級解析度(MAG 組裝)和功能圖譜(功能路徑分析與蛋白質註釋),並量化了不同分析流程的結果偏差。
實驗設計:

以下根據不同的分析策略,為研究人員整理定序深度的參考指南
基於參考基因體分析(Reference-based)—— 低深度的經濟選擇
針對仰賴參考基因體資料庫的低數據量 Shallow Metagenomics 分析,研究指出:
菌株層級分類:僅需 0.5–1 Gb 的數據量,即能準確實現菌株層級的物種分類。
完整覆蓋度:此策略雖具備高成本效益,卻會大幅限制功能分析的完整性。若欲獲得 > 90% 的完整基因體覆蓋度並提升可靠性,定序深度仍需 > 5 Gb。
實驗干擾因子:文庫製備與宿主 DNA 污染是影響 Shallow Metagenomics 準確度的關鍵。數據顯示,提高定序深度能有效彌補低 DNA 建庫起始量或非目標 DNA 存在所帶來的不利影響。
Reference-based taxonomic profiles:

基於 De novo 組裝分析 —— 高解析度與「嵌合體」陷阱
若研究目標是構建總體基因體組裝基因體(Metagenome-Assembled Genomes, MAGs),則面臨更高的數據量門檻與組裝挑戰:
數據量門檻:通常需要 > 10 Gb 的深度定序。儘管 MAGs 的數量會隨定序深度增加而持續上升,但研究揭露序列嵌合體仍是不容忽視的品質問題。
高品質 MAGs 的嵌合體(Chimeric MAGs)風險:即使是符合高標準(完整度 > 90% 且污染度 < 5%)的高品質 MAGs,在深度定序下也僅有約 54.5%–81.8% 的序列能完全精準代表原始菌株。這些 MAGs 實際上普遍夾雜了來自多個不同參考基因體的序列片段。
錯誤根源驗證:研究進一步使用 MEGAHIT 與 metaSPAdes 評估組裝階段,發現有 6.5%–8.9% 錯誤組裝的 Contigs,正是導致後續產生嵌合 MAGs 的主因。
功能路徑與抗藥性基因分析的「定序深度依賴性」
在功能分析方面,2Gb 數據量即可支持 mock 群落做可靠的代謝 Pathway 功能分析,其中KEGG Pathway 完整性分析在 5Gb 進入 80% 平原期,但至少要 10Gb 以上才能完成有效的蛋白質體分析 (模擬抽樣證實功能分析具有定序深度依賴性)。在另一個研究指出,至少需要 24 Gb 的定序深度才能完整恢復細菌抗藥性基因家族的全部多樣性。
Functional coverage:

結論:reference-based 至少 5Gb 定序深度, denovo-based 至少 10Gb 定序深度,總體基因體學的定序數據量原則上「多多益善」。在進行高度複雜或高精度要求的菌株層級研究時,除了加深二代短讀長定序外,亦建議評估並導入「二代 + 三代長讀長(Long-reads)」的混合定序策略(Hybrid Sequencing),以有效突破短讀長組裝所帶來的嵌合體困境,全面提升基因體組裝的精準度。
Reference:
Treichel, N.S., Pauvert, C., Séneca, J. et al. Benchmarking of shotgun sequencing depth reveals the potential and limitations of shallow metagenomics and strain-level analysis. Nat Microbiol 11, 1233–1244 (2026). https://doi.org/10.1038/s41564-026-02334-2