微生物體16S擴增子定序 (16S Amplicon Sequencing)

微生物體16S擴增子定序 (16S Amplicon Sequencing)

16S rRNA為原核生物核糖體小亞基的重要組成,序列包含數個保守區域和9個高變區域,其中高變區具有屬或種的特異性,被認為是最適於細菌系統發育和分類鑑定的指標。因此對該區域中的序列進行定序已是研究環境微生物多樣性及群落組成差異的重要策略之一。

服務流程

服務週期:樣品通過檢測啟動後,40個工作天(含分析)

 

分析流程

基於Illumina HiSeq定序平台,利用雙端定序 (Paired-End),透過Reads拼接過濾以及OTU (Operational Taxonomic Units) 聚類,以進行物種注釋及豐度分析,不僅可以揭示樣品物種構成,還能進一步透過α多樣性分析 (Alpha Diversity) 及β多樣性分析 (Beta Diversity) 探討樣品之間的差異。
統計分析包含 LEfSe 、metastats/Metagenomeseq、 ANOSIM以及MRPP 分析,須提供分組資訊,且每組最少3個樣品

 

 

樣品需求

•DNA 濃度: ≧ 30 ng/ul

•樣品體積: ≧ 50 ul

•樣品純度: OD260/OD280 = 1.8-2.0 (DNA無降解且無汙染)

 

 

 

定序規格

HiSeq 2500, paired-end 250 bp

 

 

 

 

常見問題

 Q1: 為什麼在實驗室自行測定的 DNA 濃度很高,送到公司檢測濃度卻比較低呢? 

A1:
1)實驗室多採用 Nanodrop 對DNA濃度進行檢測,而在公司我們會結合Qubit、Nanodrop、膠體電泳三種方式分別檢測DNA樣品的總量及品質
2)由於不同檢測方法的原理不同,所以檢測結果也會存在一定的差異。其中,Nanodrop檢測法是基於分光光度計的原理進行檢測,由於樣品中可能含有部分雜質,也無法區分DNA及RNA,因此會造成讀值高估的現象;Qubit檢測法則是基於螢光標記的原理進行檢測,結果會更準確
3)當兩種檢測方法的結果出現差異時,我們以Qubit檢測得到的總量為準。

 

Q2: 什麼是16S rDNA, 18S rDNA, 高變區和保守區?

A2: 16S rRNA是原核生物核醣體小亞基的組成部分,包含10個保守區域(Conserved Regions)和9個高變區域(Hypervariable Regions),其中,保守區為細菌共有,而高變區具有種屬特異性,其基因序列隨親緣關係不同而有一定的差異。因此,16S rDNA可以作為辨別生物物種的特徵核酸序列,是細菌系統發育和分類鑑定的指標。而18S rRNA則是真核生物核醣體小亞基的組成部分,與16S rDNA類似,其序列中的高變序列區域能反映物種間的差異。對微生物群落進行分析時,16S rDNA主要用於原核生物多樣性的鑑定,而18S rDNA則主要用於真核微生物(原生動物、藻類、真菌等)多樣性的鑑定。

 

Q3:生物學重複需要嗎,多少個合適呢?
A3:為了保證資料品質和結果準確可靠,務必要注意生物學重複問題。考慮到個體差異、組間統計學分析及偏離樣本等問題,自然環境至少3個生物學重複,若條件允許建議5-7個,宿主環境,如人類腸道、糞便等建議10個以上。

 

Q4: 對於生物學重複中偏離較大的樣本,如何進行分析?

A4: 生物學重複通常建議5個以上 (至少3個)。對於重複樣品間存在較大差異的個別樣本,一般建議:
1)從樣品的準備過程進行分析,生物學重複的樣品除了和設定的分組條件有關外,可能還受到很多其他因素的影響,進而造成分析結果出現差異
2)對於出現顯著離群的個別樣本,推測可能為樣本自身的原因(如在採樣、保存、萃取、擴增等過程中樣本出現了問題),建議可考慮剔除該樣本後,再進行分析

 

Q5: 分析時總樣本數或組內樣本數是否有一定數量的限制?

A5: 分析時樣品數量的多寡或多或少會影響評估的有效性,尤以統計分析時,組內樣本數須符合可進行統計分析的最低限制,才能產生統計結果。

 

Q6: 一般做微生物分析所採用的分類注釋資料庫有哪些?哪一個比較好呢?

A6: 目前較多論文採用的資料庫有 GreenGenes、Silva、RDP、NCBI,其中 RDP 只能注釋到屬階層(genus),而其餘三種可到種(species)。目前的版本最新為 gg_13_8 (GreenGenes), v128 (Silva)。

 

Q7: 什麼是 tag,與read有什麼不同?

A7: tag 是將 pair-end reads 拼接後稱之,因此論文上所稱的tags即是雙端拼接完後的結果。

 

Q8: 分析時該怎麼選擇定序數據量?

A8: 目前提供 3萬 / 5萬 / 10萬 tags (即 6萬 / 10萬 / 20萬 reads),一般而言若進行環境微生物研究會建議採用較高數據量定序規格,或者可根據已發表文獻的定序規格做第一次的定序分析。在分析結果中,也有評估樣品數及定序數據量是否足夠的分析,可作為往後分析判斷的依據。

 

 Q9: 為什麼要做 OTU 聚類? 

A9: 高通量定序得到的16S序列有數萬條,若對每條序列都進行物種注釋,工作量大且耗時,且16S擴增、定序等過程中出現錯誤會降低結果準確性。因此OTU聚類過程可:
(1) 簡化工作量
(2) 提高分析效率
(3) 聚類過程中可去除一些定序錯誤的序列提高準確性。

 

Q10: 計算微生物群落樣品間的距離時,分別基於加權(Weighted UniFrac)與非加權(Unweighted UniFrac)兩種不同的方法有什麼不同?如何進行選擇呢?

A10:
在計算微生物群落樣品間的距離時,加權的unifrac是菌種親緣關係和其豐度的綜合指標,而未加權的unifrac只考慮菌種親緣進化關係。
1)若所進行的研究與物種的相對豐度密切相關,則使用加權的結果可能更為符合。例如:研究攝取益生菌後短期的腸道菌變化情況。由於一般認為攝取益生菌後群落組成不會發生大改變,但豐度可能會發生大變化,因此可能較適合用加權方法計算
2)若研究與豐度關係不密切,或者各組的區分與低豐度的菌種更為密切,則使用非加權的結果可能更為合適。例如:在環境樣本檢測中,由於影響因素複雜,群落間物種的組成差異更為劇烈,因此往往採用非加權方法進行分析。
3) 如果研究目的是分析控制組和實驗組的菌種種類變化(反映在菌種間親緣關係變化上),可以採用Unweighted UniFrac做為基本評估,並以Weighted UniFrac的結果判斷菌種豐度(abundance)的變化是否會造成實驗組和控制組的差異,加強實驗結論的可信度。

* 方法沒有好壞之分,主要看不同研究目的採用更為適合的方法 。若不知道哪種方法適合,有條件情況下,可同時使用多個方法分析,最終挑選最能解釋生物學問題的方案。

 

Q10: PCA分析如果圖中大部分點集中在一起,少數點在很遠的外圍,是什麼原因所造成的呢?

A10: 是因為樣本OTU分類時候,少數樣本某些菌含量特別高或特別低所造成,導致這些樣本偏離正常範圍,建議單獨拿出這些樣本觀察,檢視是否是實驗過程中產生的問題。

 

Q11: PCA分析時,不是有PC1,PC2,PC3等多種主成份座標嗎?通常分析是怎麼挑選主成份呢?

A11: PCA作圖時,會有PC1,PC2,PC3等座標,分析上是可以根據PC1 & PC2, PC1 & PC3, PC2 & PC3 分別作圖,一般是針對 PC1 & PC2 作圖,當 PC1 & PC2 圖看不出明顯的樣本分類效果時,可進一步看 PC1 & PC3 或 PC2 & PC3 的圖分類是否清楚,當然也可以繪製 PC1 & PC2 & PC3 三維立體圖(3D PCA)。

 

 Q12: PCA 與 PCoA 的差異是? 

A12: 非限制性排序中,16S和總體基因體資料分析通常採用PCA分析和PCoA分析,兩者的區別在於:PCA分析是基於原始的物種組成矩陣所做的排序分析,而PCoA分析則是基於由物種組成計算所得的距離矩陣繪製。
在PCoA分析中,計算距離矩陣的方法有很多種,包括如:Euclidean, Bray-Curtis, Jaccard 及 (un)weighted Unifrac 等,常見採用 Bray-Curtis 與 Unifrac

 

Q13: PCA 與 LDA 的差異是?

A13:
PCA 是將整組資料整體映射到最方便表示這組數據的座標軸上,映射時沒有利用任何內部的分類資訊,讓資料替自己說話,是非監督式的 (unsupervised);

LDA 是監督式 (supervised)的方式,增加了種屬之間的關係,結合顯著性差異標準測試 (Kruskal-Wallis和兩兩Wilcoxon檢驗)及線性判別分析的方法進行特徵選擇。

 

Q14: 如何選擇 T-test、 Metastats/metagenomeSeq 及 LEFSe 的結果?

A14: 由於這三種統計分析方法所使用的統計檢驗方法有所不同,因此結果也會存在差異。其中,T-test 使用的是t檢驗(Welch's t-test)的方法,Metastats/metagenomeSeq 會根據樣本情況自動調整統計的方法(秩和檢驗或fisher檢驗),而 LEfSe 則使用了秩和檢驗和線性判別分析(LDA),這3種統計分析方法篩選結果均是可信的,可以根據自己的研究背景選擇最為符合的分析結果。