RNA Sequencing (Quantification)

RNA Sequencing (Quantification)

此項RNA定序技術是針對樣本中所有mRNA做高通量定序分析,通常定序結果的涵蓋率(coverage)和深度(depth)是研究人員最關心的兩樣條件。mRNA定序的結果可以顯示基因的轉錄表現量。

服務流程

項目週期:樣品通過檢測後,27個工作天(含分析)

分析流程

定序完的下機數據 raw reads 以Trimmomatic 進行品質過濾獲得clean reads。Clean reads 以 HISAT2 比對參考序列(如:GRCh37, hg19, mm10)並以 featureCounts 計算各個基因表現量 (raw read counts),再透過 RLE / TMM / FPKM 對表現量做歸一化處理。
篩選差異基因根據是否有生物學重複區分為:(1)具生物性重複樣本,預設以組間基因 |Fold-Change| > 2 及 p-value < 0.05 (2) 沒有生物性重複樣本,預設以預設以組間基因 |Fold-Change| > 2 及 corrected p-value < 0.005 作為篩選門檻。篩選後以火山圖、熱圖以及主成分分析呈現差異基因結果,並利用 Gene Ontology、KEGG 進行下游的系統生物學分析。除了差異表現基因分析外,流程中亦提供 GSEA 及 WGCNA 兩種高級分析分別做生物調控路徑分析與關鍵基因集探索。

樣品需求
  1. Total RNA 總量: ≧ 2 ug

  2. RNA 濃度: ≧ 50 ng/ul

  3. 樣品體積: ≧ 40 ul

  4. RIN 值 ≧ 6.3 (植物或真菌)

  5. RIN 值 ≧ 6.8 (動物)

  6. Purity: OD260/OD280= 1.8-2.2, OD260/OD230 ≧ 2.0 (RNA無降解且無汙染)

定序規格
NovaSeq 6000, paired-end 150 bp
 
常見問題

Q1:RNAseq 相對 Microarray 有什麼優勢/差異性?

A:(1) 不需預先設計探針 (Probe) (2) 可偵測的動態範圍通常比 microarray 高出幾個數量級 (3) 偵測基因表現 (gene expression) 的靈敏度高,可偵測低表現量的基因 (4) 可偵測整個基因的表現狀況,array 僅能就RNA與探針雜交之序列進行偵測 (5) 若基因在與探針配對處的序列發生變異,即便基因有表現,也會因序列沒法雜交 (hybridize) 而無法偵測到基因表現,但 RNA-seq 不受此變異影響,仍可正確偵測基因表現 (6) 產生定性且定量的資料 (7) 解析度高於array (8) 背景噪音影響低於 microarray (9) 可依據新的發現重新分析資料,彈性較高


Q2:影響 RNA 定序結果的因素?

A:(1) RNA的降解會嚴重影響定序的品質 (2) RNA建庫起始量不足時,需要增加PCR擴增循環數才能獲得足夠的量用於定序,影響定序的品質 (3) Library 中 poly A 的存在會對定序信號產生干擾,影響結果的準確性


Q3:RNAseq 定序深度與組內生物學重複誰比較重要?

A:定序深度對偵測差異基因很重要,但當滿足一定的定序深度後,其提昇的效果會逐漸不顯著。但若增加生物學重複數目後,對於發現差異基因的敏感度效果會高於定序深度的提升。尤其樣本間存在異質性,增加重複數亦可以減少實驗誤差,以提高結果的可靠性,建議 3 個以上樣本重複 (最好 5 個以上)。當重複數足夠,分析時對於個別偏離的樣本,可剔除後再做基因表現差異分析。


Q4:差異基因篩選門檻值應設為多少?

A:一般判斷基因差異顯著狀況可透過 |log2Foldchange| 檢視差異倍數,或透過 p value / q value 來檢視是否統計顯著。在組內不具生物學重複的情況時,採用 DEGSeq,預設篩選條件為 |log2Foldchange| > 2 & q value < 0.005; 具生物學重複則採用 DESeq2,預設篩選條件為 |log2Foldchange| > 2 & p value < 0.05


Q5:什麼是 q value?

A:通常會以 p value 或 q value 來判定基因是否差異顯著,而常見 padj 判定 p value 是否可信 (FDR, 假陽性),例如檢驗1000次,設定 q < 0.05 則代表挑選的顯著基因有 5% 以內的比率是假陽性,其中FDR的模型使用最多的是 Benjamini-Hochberg (簡稱BH)。


Q6:在沒有生物學重複的情況下怎麼做統計檢驗?

A:DEGSeq 以 Poisson distribution (泊松分佈)對每個基因進行p-value的計算。

假設基因A對應的reads數為x,已知每個基因的表現量只佔所有基因表現量的一小部分,在這種情況下,p(x)的分佈服從 Poisson distribution。已知 Sample 1 中唯一比對到基因體的總reads數為 N1,Sample 2 中唯一比對到基因體的總reads數為 N2,Sample 1 中唯一比對到基因A的總reads數為x,Sample 2 中唯一比對到基因A的總reads數為y,則基因A在兩樣本中表現量相等的機率可由以下公式計算:

*Poisson distribution 可以做差異分析,基於卜瓦松分布(包含二項式分布和卡方檢驗)忽略了生物樣本的個體差異變異性,導致過度樂觀估計p value,結果會存在較大假陽性。


Q7:為什麼有些差異分析結果中的 q value 全部相等?

A:說明差異結果從假陽性方面看具有一致性,即使存在某些基因的 p value 較小,但是其假陽性的機率與其他基因一致,就是說其驗證差異的風險幾乎相同。


Q8:某基因在兩個樣本中表現量看似差異很大,但統計卻不顯著?

A:差異基因的篩選基於統計檢定,不能僅直觀的透過數值的大小判斷。


Q9:聚類分析有什麼用途?

A:聚類分析用於判斷差異基因在不同實驗條件下的表現模式,透過將表現模式相同或相近
的基因聚集成類,從而識別未知基因的功能或已知基因的未知功能;同類基因可能具有相似功能或共同參與同一代謝路徑與細胞通路。

Q10: 什麼是PCA分析?

A: PCA是把原本的n個特徵用數目更少的m個特徵取代,新特徵是舊特徵的線性組合,這些線性組合最大化樣本方差,盡量使新的m個特徵互不相關。


Q11: PCA分析如果圖中大部分點集中在一起,少數點在很遠的外圍,是什麼原因所造成的呢?

A: 若存在某些樣本偏離較遠,建議單獨拿出這些樣本觀察,檢視是否是實驗過程中產生的問題(例如條件、污染等造成outlier)。


Q12: PCA分析時,不是有PC1,PC2,PC3等多種主成份座標嗎?通常分析是怎麼挑選主成份呢?

A:PCA作圖時,會有PC1,PC2,PC3等座標,分析上是可以根據 PC1 & PC2, PC1 & PC3, PC2 & PC3 分別作圖,一般是針對 PC1 & PC2 作圖,當 PC1 & PC2 圖看不出明顯的樣本分類效果時,可進一步看 PC1 & PC3 或 PC2 & PC3 的圖分類是否清楚,當然也可以繪製 PC1 & PC2 & PC3 三維立體圖(3D PCA)。


Q13:功能註釋主要有哪些種類?分別可以獲得什麼生物意義的資訊?

A:RNAseq分析常藉由 Gene Ontology (GO) 和 KEGG 資料庫對顯著差異基因做 enrichment analysis,GO 主要看基因功能, KEGG 則分析生物代謝路徑。


Q14:為什麼 RNAseq 分析結果與 qPCR 驗證結果會出現不一致的情況?

A:(1) 沒有使用與RNAseq同一批樣本進行驗證 (2) 挑選的基因表現差異並不顯著,或者挑選的是差異基因但表現量較低 (3) 兩種方法本質不同,RNAseq 用於大規模篩選,反應樣本整體的基因表現變化趨勢,但不能保證每個基因的變化趨勢都與 qPCR 一致
 

Q15: 剔除掉某個基因為什麼在 RNAseq 中依然檢測到有較高的表現?

A: 基因剔除過程中,破壞的常只是目標基因的部分外顯子而不是整個編碼區,因此剩下的編碼序列有可能因可變剪切表現出一些新的 transcript,這會導致在分析結果中檢測其基因有較高的表現。


Q16:什麼是GSEA (功能基因富集分析)?

A:GSEA的特點是不需設定一個篩選門檻值挑出差異基因,而是根據整體表現量的趨勢做分析,如此分析便不會因門檻值的設定而遺漏可能有顯著意義的生物路徑(pathway)。GSEA有機會找出因上游基因的細微變化影響而導致下游基因劇烈改變的pathway,這類的現象通常難以透過差異表現基因找出,因此GSEA理論上易於發現細微變化對pathway的影響。


Q17:什麼是WGCNA (加權基因共表現網路分析)?

A:相比於常見的差異表現基因分析,適用於多分組資料,並可利用全部基因的資訊鑑定高度協同變化的基因集,利用基因共同表現網路找出穩定的調控基因群,尋找協同表現的關鍵基因模塊(module),同一個模塊內的基因在功能上認為是類似或相關的,並可藉由網絡關係篩選出關鍵基因。

 

Q18. 差異表現基因進行的 KEGG 和 GO 分析,應選擇哪一個作為功能性探討的參考?    

A: GO 和 KEGG 是兩個不同分類性質的資料庫。GO 是將基因依照它們參與的生物學過程、細胞的組成,實現的分子功能等進行分類。KEGG 是將基因依照所參與的 pathway 做分類。

訂閱電子報