如何使用TCGAbiolinks進行數(shù)據(jù)預處理?
引言:在前面我們了解了如何使用TCGAbiolinks檢索并獲取TCGA數(shù)據(jù)庫的公開數(shù)據(jù)。今天小編就用前面涉及到的代碼,下載今天數(shù)據(jù)準備需要用到的TCGA樣本數(shù)據(jù)。
一、數(shù)據(jù)下載階段
第一步:GDCquery()篩選我們需要的數(shù)據(jù),TCGAbiolinks包下載TCGA數(shù)據(jù)進行表達差異分析-肝癌案例
library("TCGAbiolinks")
query <- GDCquery(project = "TCGA-LIHC",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts")
上圖為通過TCGA GDC鏈接中根據(jù)篩選條件查看的符合要求結果。下圖為通過GDCquery()函數(shù)中傳入對應的參數(shù)得到的結果。兩者對比,我們可以發(fā)現(xiàn),兩者是一模一樣的。說明代碼執(zhí)行正確。前面一期中,我們有詳細談及 GDCquery,可做參考。
samplesDown <- getResults(query,cols=c("cases"))
#getResults(query, rows, cols)根據(jù)指定行名或列名從query中獲取結果,此處用來獲得樣本的barcode
# 此處共檢索出424個barcodes
getResults()中用到的參數(shù):
參數(shù)用法query
來自GDCquery的結果rows用于指定特定的行cols用于指定特定的列
# 從samplesDown中篩選出TP(實體腫瘤)樣本的barcodes
# TCGAquery_SampleTypes(barcode, typesample)
# TP代表PRIMARY SOLID TUMOR;NT-代表Solid Tissue Normal(其他組織樣本可參考學習文檔)
##此處共檢索出371個TP樣本barcodes
dataSmTP <- TCGAquery_SampleTypes(barcode = samplesDown,
typesample = "TP")
# 從samplesDown中篩選出NT(正常組織)樣本的barcode
#此處共檢索出50個NT樣本barcodes
dataSmNT <- TCGAquery_SampleTypes(barcode = samplesDown,
typesample = "NT")
TCGAquery_SampleTypes中的參數(shù)詳解:
參數(shù)用法barcodeTCGA中的barcodes列表typesample用于指定篩選哪種類型的組織樣本,如腫瘤組織“TP”,正常組織“NT”
補充TCGA中的組織樣本類型:
TPPRIMARY SOLID TUMORTMMetastaticTRRECURRENT SOLID TUMORTAMAdditional MetastaticTBPrimary Blood Derived Cancer-Peripheral BloodTHOCHuman Tumor Original CellsTRBMRecurrent Blood Derived Cancer-Bone MarrowTBM Primary Blood Derived Cancer-Bone MarrowTAPAdditional-New PrimaryNB Blood Derived Normal NTSolid Tissue NormalNBCBuccal Cell Normal???NEBVEBV Immortalized NormalNBMBone Marrow Normal

請輸入評論內容...
請輸入評論/評論長度6~500個字