轉(zhuǎn)錄組數(shù)據(jù)數(shù)據(jù)這么多,怎么辦?怎么看?和我的研究有什么關(guān)系?
如何分析?如何從大海中撈到那根針呢?
別急,小編拋磚引玉啦~
Part1 測(cè)序數(shù)據(jù)質(zhì)控評(píng)估
1.1測(cè)序數(shù)據(jù)質(zhì)控評(píng)估
測(cè)序錯(cuò)誤率與堿基質(zhì)量有關(guān),受測(cè)序儀本身、測(cè)序試劑、樣本等多個(gè)因素的共同影響。如何評(píng)估呢?可從以下幾個(gè)維度進(jìn)行測(cè)序數(shù)據(jù)質(zhì)量評(píng)估:1)用于后續(xù)分析的測(cè)序數(shù)據(jù)量(clean bases),如果數(shù)據(jù)量>6G,那么ok,基本上滿足分析要求;如果需要更多數(shù)據(jù)量進(jìn)行可變剪切或融合基因分析,沒(méi)問(wèn)題,加測(cè)即可;2)堿基質(zhì)量值(Q20/Q30)百分比,Q20/Q30>85%-90% 說(shuō)明測(cè)序質(zhì)量過(guò)關(guān)。如果測(cè)序數(shù)據(jù)量和堿基質(zhì)量值符合質(zhì)控要求,就可以放心的往下看了呢~
1.2參考基因組比對(duì)
如果物種基因組注釋比較好(如人/大鼠/小鼠等),參考基因組比對(duì)率(total mapped)一般要求是>85%(如 >85%的基因組比對(duì)率表示測(cè)序到的reads 85%以上屬于該物種,說(shuō)明測(cè)序樣本的物種信息無(wú)誤)。但如果是非常規(guī)物種或基因組注釋不那么完整,那么基因組比對(duì)率要求就會(huì)適當(dāng)?shù)鸵恍┠兀?gt;60-85%,各位看官根據(jù)實(shí)際情況進(jìn)行綜合判斷哈)。
1.3樣本生物學(xué)重復(fù)評(píng)估
假如實(shí)驗(yàn)設(shè)計(jì)(比較組)是 Case組 vs Control 組 、敲除/過(guò)表達(dá)組 vs 對(duì)照組等,如何看2個(gè)比較組在組學(xué)(mRNA)層面上是否有組間差異呢?樣本間相關(guān)性系數(shù)分析和PCA可以提供答案。
(1)相關(guān)性系數(shù)越接近1,表明樣本之間表達(dá)模式的相似度越高;對(duì)于同一組的生物學(xué)重復(fù)樣本來(lái)說(shuō)(如A1/A2/A3/A4/A5…),相關(guān)性系數(shù)越接近說(shuō)明同組內(nèi)的生物學(xué)重復(fù)越好;不同組別(A組和B組)之間的相關(guān)性系數(shù)相差越大越好,說(shuō)明不同組別之間的差別越大,組間的差異基因可能越多;
(2)同樣,同一組的樣本越接近說(shuō)明組內(nèi)生物學(xué)重復(fù)越好;不同組別的樣本在PCA中距離越遠(yuǎn)越好,說(shuō)明組間差異越大。當(dāng)然除了樣本間相關(guān)性系數(shù)分析和PCA分析外,還有其他分析方法,在此先不贅述了呢~
Part2篩選差異/候選基因及結(jié)果可視化
2.1篩選差異/候選基因
默認(rèn)將padj小于0.05,|log2(foldchange)| 大于1作為篩選差異基因的標(biāo)準(zhǔn)(見(jiàn)下表),可發(fā)現(xiàn)哪些基因在2組中發(fā)生了顯著性變化(顯著上調(diào)或者顯著下調(diào)表達(dá)),這些顯著變化基因極有可能和處理組/疾病組等顯著相關(guān),可作為后續(xù)研究的候選基因。
如果篩選出來(lái)的差異基因可能比較多怎么辦呢?通過(guò)差異倍數(shù)(FoldChange)、padj/p(越小越好)、基因在各個(gè)樣本的中表達(dá)情況(FPKM)、基因功能注釋等這些因素進(jìn)行進(jìn)一步篩。越徊剿跣『蜓』蚍段。如果差異基因較少,反其道行之,放寬篩選標(biāo)準(zhǔn),使更多的基因出現(xiàn)。當(dāng)然,實(shí)際篩選過(guò)程中,依據(jù)實(shí)際項(xiàng)目情況進(jìn)行個(gè)性化調(diào)整~
2.2 差異/候選基因可視化展示
篩選出差異/候選基因后(建議10-100個(gè)基因內(nèi)),如果對(duì)這些基因進(jìn)行可視化展示呢?熱圖、火山圖、PPI網(wǎng)絡(luò)圖來(lái)啦~
熱圖可以清楚地展示基因在各個(gè)分組/樣本中的表達(dá)情況(顏色越紅表達(dá)越高);火山圖可以特異性展示差異/候選基因的差異倍數(shù)和顯著性情況;PPI網(wǎng)路圖可以幫助展示這些基因之間的相互作用(基因A與其他基因的連線越多,說(shuō)明與其互作的基因數(shù)越多,基因A調(diào)控/受調(diào)控的基因越多,基因A的作用可能越重要)。
Part3功能富集分析及結(jié)果可視化
3.1 差異基因功能富集分析
差異基因的GO/KEGG富集散點(diǎn)圖是富集分析結(jié)果的一種可視化展示方式。默認(rèn)挑選富集顯著的 Top20 GO term/pathway進(jìn)行展示,此圖中通過(guò)Rich factor、P value 和Gene number (富集到此通路上的基因個(gè)數(shù))來(lái)衡量其富集程度。當(dāng)然,如果有特別關(guān)注/感興趣的GO term/pathway,也可以針對(duì)目標(biāo)term 進(jìn)行個(gè)性化調(diào)整,以實(shí)現(xiàn)對(duì)特定功能類別的聚焦。
3.2 GSEA富集分析
GSEA 不關(guān)注某幾個(gè)表達(dá)發(fā)生顯著改變的基因,而是整個(gè)表達(dá)數(shù)據(jù)在特定功能基因集中的表達(dá)一致性,以此來(lái)解讀數(shù)據(jù)中蘊(yùn)含的生物學(xué)信息。因此GSEA可以避免差異表達(dá)分析中閾值篩選帶來(lái)的問(wèn)題。如下圖,此圖中主要通過(guò)NES、P/FDR (顯著性,越小越顯著)來(lái)衡量其富集程度。NES正值表示在左側(cè)(A組)組別中顯著性富集,說(shuō)明該term 在A組中處于激活狀態(tài),反之在B組中處于抑制狀態(tài);NES負(fù)值表示在右側(cè)(B組)組別中顯著性富集,說(shuō)明該term 在B組中處于激活狀態(tài)。如果有特別關(guān)注/感興趣的GO term/pathway,可以單獨(dú)展示其富集情況哈~
Part4個(gè)性化分析
4.1趨勢(shì)分析
趨勢(shì)分析為梯度類文章的核心分析點(diǎn),如實(shí)驗(yàn)設(shè)計(jì)(3-5組)涉及梯度處理(時(shí)間變化、藥物濃度/劑量變化、疾病程度、生長(zhǎng)周期等),利用趨勢(shì)分析/時(shí)間序列分析將表達(dá)模式相似的基因進(jìn)行歸類,從而找到實(shí)驗(yàn)變化過(guò)程中最具有代表性的基因集及對(duì)應(yīng)的趨勢(shì)特征(如cluster),揭示在變化過(guò)程中所特有的規(guī)律。篩選到與預(yù)期表達(dá)趨勢(shì)符合的cluster后,可以對(duì)特定cluster中基因進(jìn)行針對(duì)性分析(如表達(dá)分析、互作分析、功能分析等)。
4.2 WGCNA分析
WGCNA(Weighted Gene Co-expression Network analysis),即加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析。WGCNA相當(dāng)于對(duì)多個(gè)復(fù)雜分組進(jìn)行分析,用于找尋不同分組/表型的特征基因?,從而進(jìn)行下一步分析(如可以對(duì)?檳諢蚪蠫O/KEGG富集、PPI等等)。
Tips:課題設(shè)計(jì)咨詢、詳細(xì)結(jié)果解釋/溝通、個(gè)性化分析需求等,歡迎隨時(shí)聯(lián)系九游會(huì)j9的科研顧問(wèn)或銷售小伙伴哈~