【Medical AI】TCGA病理全图（WSI）数据下载指南

优质文章学习记录

07 Apr 2026 — 8 min read

【start：250721】

文章目录

目标
获取“病理全图WSI”
获取“生存预测信息”

目标

从 GDC 官网下载结直肠癌相关的数据集：

TCGA-COAD（结肠癌）
TCGA-READ（直肠癌）

获取“病理全图WSI”

1. 进入官网

访问 GDC 官网：https://portal.gdc.cancer.gov

2. 创建 Cohort

进入 Project 页面

点击页面上方导航栏中的 Projects
搜索并选中 TCGA-COAD 和 TCGA-READ

创建 Cohort

点击 “Create New Cohort”，命名为 Colorectal

3. 筛选并下载图像数据

进入 Repository 页面

筛选 Diagnostic Slide 类型

Experimental Strategy 选择 Diagnostic Slide
Data Format 选择 .svs

添加到购物车并导出 Manifest

点击 “Add All Files to Cart” 后，点击购物车图标，导出 Manifest 文件：

4. 安装 GDC Data Transfer Tool

GDC 官方提供高性能数据下载工具：

官网地址

https://gdc.cancer.gov/access-data/gdc-data-transfer-tool

下载

Windows版下载（zip压缩包）

Ubuntu版下载（zip压缩包）

安装路径建议

将解压后的工具放置到：

F:\CS2\GDC_Data\gdc-client_2.3_Windows_x64\

主程序路径为：

F:\CS2\GDC_Data\gdc-client_2.3_Windows_x64\gdc-client.exe

5. 下载数据集

下载命令示例

window版本

# 切换至数据保存目录cd G:\TCGA G: # 执行下载命令 F:\CS2\GDC_Data\gdc-client_2.3_Windows_x64\gdc-client.exe download -m F:\CS2\GDC_Data\gdc-client_2.3_Windows_x64\gdc_manifest.2025-07-21.162827.txt

ubuntu版本

cd /disk4/lxq_data/tool/GDC wget https://gdc.cancer.gov/system/files/public/file/gdc-client_v1.6.1_Ubuntu_x64.zip unzip gdc-client_v1.6.1_Ubuntu_x64.zip chmod +x gdc-client ./gdc-client download -m /disk4/lxq_data/tool/GDC/gdc_manifest.2025-07-21.162827.txt --dir /disk4/lxq_data/dataset/WSI/TCGA

下载过程示意

100% [####################################################################################] Time: 0:01:58 10.7 MiB/s...

下载完成效果

所有数据将保存在你设定的目录中：

6. 数据展示

图片展示的代码

读取并可视化 .svs 病理切片缩略图

import openslide import matplotlib.pyplot as plt # 指定 SVS 文件路径 svs_path =r"/disk4/lxq_data/dataset/WSI/2b02baad-7143-4fea-9f28-ff2d4efc4044/TCGA-D5-6932-01Z-00-DX1.d18111de-f0f5-4637-8534-a2b4396cbb41.svs"# 打开 SVS 文件 slide = openslide.OpenSlide(svs_path)# 打印基本信息print("层数（resolutions）:", slide.level_count)print("每层尺寸（从高到低分辨率）:")for i, level_dim inenumerate(slide.level_dimensions):print(f" - Level {i}: {level_dim}")# 读取缩略图（默认从最高层缩放） thumbnail = slide.get_thumbnail((1024,1024))# 显示缩略图 plt.figure(figsize=(8,8)) plt.imshow(thumbnail) plt.title("Thumbnail of SVS File") plt.axis("off") plt.show()

展示效果

7. 标签解析

编码规则

官方编码规则：Sample Type Codes

TCGA 使用两位数字（01~99）表示样本的样本类型（Sample Type）和组织来源。常用的编码如下：

编码	类型描述（英文）	中文说明	建议标签
01	Primary Solid Tumor	原发性实体瘤组织	肿瘤（1）
02	Recurrent Solid Tumor	复发性实体瘤	肿瘤（1）
03	Primary Blood Derived Cancer – Peripheral Blood	血源性肿瘤（如白血病）	肿瘤（1）
05	Additional – New Primary	新的原发肿瘤	肿瘤（1）
06	Metastatic	转移性肿瘤组织	肿瘤（1）
07	Additional Metastatic	附加转移瘤样本	肿瘤（1）
08	Human Tumor Original Cells	原发肿瘤培养细胞	肿瘤（1）
09	Primary Blood Derived Cancer – Bone Marrow	骨髓来源的肿瘤	肿瘤（1）
10	Blood Derived Normal	正常血样	正常（0）
11	Solid Tissue Normal	正常实性组织	正常（0）
12	Buccal Cell Normal	口腔细胞	正常（0）
13	EBV Immortalized Normal	EB病毒永生化细胞	正常（0）
14	Bone Marrow Normal	正常骨髓	正常（0）
20	Control Analyte	对照分析物（非组织）	对照组
40	Recurrent Blood Derived Cancer – Bone Marrow	复发性血癌	肿瘤（1）
50	Cell Lines	细胞系样本	可忽略或自定义

📄 文件名：

TCGA-D5-6932-01Z-00-DX1.d18111de-f0f5-4637-8534-a2b4396cbb41.svs

可以拆分为两部分：

第一部分（前缀）

TCGA-D5-6932-01Z-00-DX1

这部分是标准的 TCGA 编码，按照官方命名规则分段如下：

位置	字段	含义	示例
1	`TCGA`	项目名称	`TCGA`
2	`D5`	组织来源编码（Tissue Source Site）	`D5`
3	`6932`	患者编号（Participant ID）	`6932`
4	`01`	样本类型（Sample Type）	`01` = Primary Solid Tumor（原发性实体肿瘤）
5	`Z`	管编号（Vial）	`Z`
6	`00`	样本份编号（Portion）	`00`
7	`DX1`	Slide（病理切片编号）	`DX1`

✅ 根据样本类型（Sample Type） 01 可判断这是肿瘤样本，即 label = 1

第二部分（UUID 后缀）

d18111de-f0f5-4637-8534-a2b4396cbb41

这是该切片文件的唯一标识符 UUID，通常用于索引或查询该切片在 GDC 文件系统中的原始记录（如 metadata、clinical、biospecimen 等信息）。

以下是润色后的版本：

获取“生存预测信息”

筛选clinical类型

Data Category 选择 clinical

下载 TCGA Clinical Data，并提取 days_to_death 和 vital_status 字段

文件结构与说明

打印树状结构：

find /disk4/lxq_data/dataset/WSI/TCGA/clinical/00b9eb65-04c6-4d62-9cf6-6b77d75ab79b |sed's|[^/]*/|│ |g;s|│ \([^│]\)|├── \1|'

cf6-6b77d75ab79b/ ├── nationwidechildrens.org_clinical.TCGA-DM-A285.xml ├── annotations.txt └── logs/ └── nationwidechildrens.org_clinical.TCGA-DM-A285.xml.parcel

目录说明：

文件/文件夹名	类型	说明
`nationwidechildrens.org_clinical.TCGA-DM-A285.xml`	XML 文件	TCGA-DM-A285 患者的临床数据文件（包括诊断、治疗、随访等信息）
`annotations.txt`	文本文件	可能包含人工或程序生成的注释（具体内容视情况而定）
`logs/`	文件夹	存放相关日志或下载的元信息
`logs/nationwidechildrens.org_clinical.TCGA-DM-A285.xml.parcel`	Parcel 文件	`gdc-client` 下载过程中生成的 parcel 包信息，用于校验和恢复下载等操作

通过获取 TCGA-DM-A285 这个病例的完整临床数据文件，我们可以提取以下关键信息：

诊断时间
肿瘤分期/分级
生存状态与随访时间（可作为生存预测标签）
治疗方案

这些数据对于生存预测模型的训练至关重要，可以用来分析患者的生存状态、疾病进展情况，并指导后续的临床决策。

从xml中提取关键信息

import os import re from openpyxl import Workbook # 定义要查找的目录 directory ='/disk4/lxq_data/dataset/TCGA/clinical'# 创建 Excel 工作簿 wb = Workbook() ws = wb.active ws.title ="XML Data" ws.append(["File","Match Number","Vital Status","Days to Last Followup","Days to Death"])# 写入标题行# 遍历目录中的所有文件for root, dirs, files in os.walk(directory):forfilein files:iffile.endswith('.xml'):# 只处理 XML 文件 xml_path = os.path.join(root,file)# 读取 XML 文件作为普通文本withopen(xml_path,'r', encoding='utf-8')asfile: xml_content =file.read()# 使用正则表达式查找所有 <clin_shared:vital_status> 元素 vital_status_matches = re.findall(r'<clin_shared:vital_status[^>]*>(.*?)</clin_shared:vital_status>', xml_content)# 使用正则表达式查找所有 <clin_shared:days_to_last_followup> 元素 days_to_last_followup_matches = re.findall(r'<clin_shared:days_to_last_followup[^>]*>(.*?)</clin_shared:days_to_last_followup>', xml_content)# 使用正则表达式查找所有 <clin_shared:days_to_death> 元素 days_to_death_matches = re.findall(r'<clin_shared:days_to_death[^>]*>(.*?)</clin_shared:days_to_death>', xml_content)# 获取匹配数量，取最大值以确保我们处理所有匹配项 max_matches =max(len(vital_status_matches),len(days_to_last_followup_matches),len(days_to_death_matches))# 为每个 XML 文件中的每个匹配项添加编号for i inrange(max_matches):# 获取每个标签的值，如果没有匹配项则使用 "Not Found" vital_status = vital_status_matches[i]if i <len(vital_status_matches)else"Not Found" days_to_last_followup = days_to_last_followup_matches[i]if i <len(days_to_last_followup_matches)else"Not Found" days_to_death = days_to_death_matches[i]if i <len(days_to_death_matches)else"Not Found"# 将数据添加到 Excel 表格中 ws.append([xml_path, i +1, vital_status, days_to_last_followup, days_to_death])# i+1 是编号从 1 开始# 保存 Excel 文件 output_path ='/disk4/lxq_data/dataset/TCGA/extracted_data.xlsx' wb.save(output_path)print(f"Data has been saved to {output_path}")

部分结果如下：