Recently Published
prototype PRR/ISR ATLAS
a mock “Genetic Passport” report (risk profile + predicted cytokine/ISR curves + top 1–2 knockdown recommendations with confidence scores)
Data analysis: Sharma Shobhana Master's Thesis 2026
data analysis file
ca3 group project
ca 3
STA319_Bloomdahl
R Markdown, Assignment #6
Phân tích TCGA-THCA RNA-seq để ưu tiên lựa chọn gene cho thiết kế vaccine đa epitope trong ung thư tuyến giáp thể nhú
Mô tả phương pháp nghiên cứu
Nghiên cứu được thiết kế theo hướng tin sinh học hồi cứu, sử dụng dữ liệu RNA-seq công khai của dự án TCGA-THCA từ Genomic Data Commons. Mục tiêu là so sánh biểu hiện gene giữa mô ung thư tuyến giáp và mô tuyến giáp bình thường, từ đó xác định các gene biểu hiện khác biệt và ưu tiên các gene ứng viên liên quan ung thư tuyến giáp thể nhú cho các bước thiết kế vaccine đa epitope.
Dữ liệu RNA-seq cấp gene được tải bằng package TCGAbiolinks, với nhóm dữ liệu Transcriptome Profiling, loại dữ liệu Gene Expression Quantification, workflow STAR - Counts. Dữ liệu sau khi tải được chuẩn bị dưới dạng đối tượng SummarizedExperiment, bao gồm ma trận count, thông tin mẫu và annotation gene.
Các mẫu được phân loại dựa trên mã TCGA barcode, trong đó mã 01 được xem là mẫu Primary Solid Tumor, còn mã 11 được xem là mẫu Solid Tissue Normal. Sau đó, ma trận count được lọc chỉ giữ các mẫu Tumor và Normal để phục vụ phân tích so sánh biểu hiện.
Phân tích biểu hiện khác biệt được thực hiện bằng DESeq2. Nhóm Normal được đặt làm nhóm tham chiếu, do đó log2FoldChange biểu diễn mức thay đổi biểu hiện của Tumor so với Normal. Các gene có count thấp được loại bỏ trước phân tích. DESeq2 sử dụng mô hình negative binomial generalized linear model để ước lượng size factor, dispersion, log2 fold change và giá trị p đã hiệu chỉnh. Gene được xem là biểu hiện khác biệt có ý nghĩa khi thỏa đồng thời padj < 0.05 và abs(log2FoldChange) ≥ 1.
Kết quả DESeq2 được gắn annotation bằng thông tin từ rowData, bao gồm Ensembl gene ID, gene symbol và gene type. Các gene được phân loại thành tăng biểu hiện trong Tumor, giảm biểu hiện trong Tumor hoặc không có ý nghĩa thống kê. Tiếp theo, nghiên cứu trích xuất riêng các gene liên quan PTC như BRAF, RET, NTRK1, NTRK3, RAS, TERT, TG, TPO, TSHR và các gene thuộc panel mở rộng gồm driver MAPK, fusion/kinase, gene tiến triển nguy cơ cao và gene biệt hóa tuyến giáp.
Quy trình phân tích ngắn gọn
- Khởi tạo dự án và môi trường phân tích
- Tạo thư mục lưu dữ liệu thô, dữ liệu xử lý, bảng kết quả, hình ảnh và các file đầu vào cho các phân tích miễn dịch tin sinh học về sau.
- Tải dữ liệu RNA-seq TCGA-THCA
- Sử dụng TCGAbiolinks để tải dữ liệu STAR counts từ GDC và lưu thành đối tượng SummarizedExperiment.
- Trích xuất count matrix và metadata mẫu
- Lấy raw count từ assay unstranded, kiểm tra TPM nếu có, đồng thời trích xuất thông tin mẫu từ colData.
- Phân loại mẫu Tumor và Normal
- Dựa vào mã TCGA barcode, chọn mẫu 01 là Tumor và mẫu 11 là Normal.
- Tiền xử lý và lọc gene
- Loại các gene có count thấp bằng tiêu chí count tối thiểu ≥ 10 ở ít nhất 10 mẫu.
- Phân tích biểu hiện khác biệt bằng DESeq2
- So sánh Tumor với Normal, lấy các chỉ số baseMean, log2FoldChange, pvalue, padj.
- Xác định DEG có ý nghĩa
- Chọn gene có padj < 0.05 và abs(log2FoldChange) ≥ 1.
- Gắn annotation gene
- Gộp kết quả DESeq2 với gene symbol và gene type để thuận lợi cho diễn giải sinh học.
- Trích xuất gene liên quan PTC
- Kiểm tra các gene đích và panel PTC mở rộng gồm driver, fusion/kinase, gene tiến triển và gene biệt hóa tuyến giáp.
- Trực quan hóa kết quả
- Vẽ boxplot, volcano plot và heatmap để đánh giá pattern biểu hiện giữa Tumor và Normal.
- Chấm điểm ưu tiên gene ứng viên
- Tính điểm sơ bộ dựa trên vai trò ung thư học và bằng chứng biểu hiện RNA, nhằm chọn gene phù hợp cho các bước thiết kế vaccine tiếp theo.