微生物總體基因體定序 Metagenomics Sequencing

微生物總體基因體定序 Metagenomics Sequencing

採用新一代高通量定序技術,以特定環境中的整個微生物群落作為研究對象,獲得環境微生物基因資訊總和,研究微生物的群落結構、物種分類、系統進化、基因功能及代謝網路等。
總體基因體定序擺脫了傳統研究中微生物分離培養的技術限制,直接萃取環境樣品DNA進行定序,有通量高、速度快、訊息全面等特點,在鑑定低豐富度的微生物群落及挖掘更多基因資源方面具有很大的優勢,基於定序技術和生物資訊學的快速發展,總體基因體技術優勢在微生物研究領域中愈來愈明顯,目前已廣泛應用於各種環境體系微生物研究中。

全面性微生物功能挖掘
• 物種、基因注釋
• 基因預測
• 功能富集統計、聚類分析
• 代謝網路

分析流程

基於Illumina NovaSeq 6000定序平台,不經由PCR放大或篩選將DNA樣品建庫定序。總體基因體定序資料可進行微生物群體的組成與α、β多樣性、交互作用、代謝路徑變化、基因功能差異等分析。
完整分析流程包含:品質控管、組裝、序列分群(Binning/CAGs)、基因預測、物種注釋、多變量統計、差異統計、功能資料庫分析(COG (蛋白質功能)、eggNOG (蛋白質功能)、KEGG (基因功能與代謝途徑)、CARD (細菌抗藥性基因)、VFDB (毒力因子)、NCyc (氮循環)、dbCAN2 (碳水化合物酵素)等) 。

 

服務流程

樣品通過檢測後,40個工作天(含分析)

樣品需求
  1. 樣品總量:
    DNA 總量: ≧ 500 ng (Qubit®測定)
    DNA 濃度: ≧ 10 ng/ ul (Qubit®測定)
    樣品體積: ≧ 50 ul
    ※樣品濃度定量
    Qubit®測定為主

     

  2. 樣品純度:
    OD260/OD280 = 1.8-2.0
    DNA無降解且無汙染
    建議先行以電泳膠圖確認片段大小及DNA完整度,並於送件時提供膠圖結果


    (A) DNA Marker, (B) 合格樣品 (C) 降解樣品
    (D) RNA汙染樣品 (E) 蛋白質殘留汙染樣品 (以紅框標記汙染處)


     



     

 

 

 

 

 

 

 

 

 

定序規格

Novaseq 6000, paired-end 150 bp

常見問題

Q1. Whole metagenomic sequencing (WMS, 總體基因體) 與 amplicon sequencing (16S/18S/ITS) 有什麼不同?

A: Amplicon sequencing 針對高變區定序可鑑別物種與研究多樣性,目前普遍認為可準確到屬層級。
   WMS 則是針對樣本中所有微生物基因體定序,可做功能層級探索,並可準確至種或菌株層級。


Q2. 多少樣品可做總體基因體研究?

A: 一般樣品數足夠與否的判斷是基於是否可做統計檢定,通常建議每組至少需有五個樣品。若是聚類方式採用 Canopy 群聚法 (MGS/CAG),則每組至少要有十個樣品以上。


Q3. 定序數據量應該多少才足夠?

A: 通常論文建議定序數據量至少6GB以上,若為環境樣本則建議在10GB。上述為參考值,考量宿主污染程度若經費許可建議數據量能再提高。


Q4. 為甚麼會有宿主污染?一般污染比例會有多少?

A: 總體基因體不像微生物多樣性分析是由特定高變區段經PCR擴增,而是定序樣本中所有微生物基因體,當然若含有宿主基因體也會同時被定序。因此採樣時的方法相當重要,若有大量的宿主基因體在其中,過濾掉宿主污染後可能可分析的數據量不足而需要再加定數據量。一般在人體研究中,腸道菌(糞便)約有 30% 左右的宿主污染,皮膚及口腔則會有高達 60%~90% 的宿主污染,因此採樣方法與實驗流程對總體基因體研究扮演相當重要的角色,例如糞便樣本應取中段中間位置,該位置含有較少的腸道脫落細胞宿主污染比例較低。

 

Q5: 腸道內容物、組織樣本是否能進行總體基因體研究?

A: 腸道內容物與糞便相比含有較多宿主細胞,取樣時應盡量避免刮到腸道內皮細胞,可有效降低宿主污染的比例。而組織樣本提取的 DNA 定序後會存在大量宿主污染,建議可評估後加大定序數據量,如此分析時去除宿主序列污染後,才有足夠的微生物序列進行後續分析。

 

Q6. 應該採 denovo assembly 還是 mapping?

A: 研究上 mapping 與 denovo 組裝兩種策略皆有團隊/文獻採用,做法上各有好壞之處。Mapping 可藉由已知資料庫快速對應出基因體物種名稱,而 denovo 組裝需花費長時間與高計算資源需求,但有機會發現新基因與新物種,不過前提是需要足夠的定序數據量才能完成組裝工作。


Q7. 什麼是binning

A: Binning 是聚類方法的通稱,又名分箱。概念即是將未分類排序的 contigs 利用生物特性將可能是同一個細菌基因體的序列分類在一起,通常透過四核苷酸頻率, GC含量, single copy gene 以及豐度等資訊做分類。


Q8. 什麼是 MGS/CAG? 概念為何?

A: 相關性聚類基於來源於同一細菌物種基因體的基因存在相似的豐度變化模式,進行MGS/CAG需要足夠大量的樣品數。一般定義在 CAG(Co-abundance Gene Group)內超過 700 個基因稱為 MGS(Metagenomic Species)。


Q9. 基因預測的概念

A: 根據基因模型、轉譯起始密碼子與中止密碼子預測組裝序列中的基因位置,預測出的位置稱為開放閱讀框 (open reading frame, ORF)。ORF 帶有轉譯起始密碼子及終止密碼子,因此有高機率會轉譯出蛋白質,即是基因。


Q10. 是否能分析基因表現上的改變?

A: 總體基因體為隨機採樣樣本中的細菌基因體的片段,因此序列數量的多寡反映的是細菌基因體的數量而非真實的基因數量。


Q11. 總體基因體 (shotgun metagenomic sequencing) 有哪些資料庫可分析?

A: NCBI-RefSeq (物種注釋)、COG (蛋白質功能)、eggNOG (蛋白質功能)、KEGG (基因功能與代謝途徑)、CARD (細菌抗藥性基因)、VFDB (毒力因子)、NCyc (氮循環)、dbCAN2 (碳水化合物酵素)、 BacMet (重金屬代謝基因資料庫)。

 

訂閱圖爾思電子報

您可以從電子郵件中得到我們最新的消息與資訊

訂閱服務確認

已發送 Email 驗證信給你,請點擊信件連結以完成訂閱程序

訂閱失敗

暫時無法接受訂閱,請稍候重新嘗試