"怀长期主义,聊医工科技"
不错过医工超人文章三部曲:1. 关注公众号 2. 经常点击“在看” 3. 点击公众号右上方设置“星标” 每篇文章都会按时推送不错过
1. IU X-ray and Peir Gross
访问地址: GitHub
描述: IU X-ray 数据集来自印第安纳大学,包含大量的胸部X射线图像及其对应的描述文本。该数据集主要用于医学图像字幕生成任务,即根据医学图像生成自然语言描述。这对医疗影像诊断自动化、报告生成等领域具有重要意义,特别是针对不具备医学背景的用户来说,这一任务有助于更好地理解医学图像。
用途: 图像描述生成、自然语言处理任务、医学影像自动化分析。
2. MedICat
访问地址: GitHub
描述: MedICat是一个大规模的多模态医学图像与文本数据集,主要由放射学图像和对应的放射学报告组成。数据集包含了图像说明文本以及图像中的关键特征和异常描述,使得它特别适合用于训练多模态模型,以提升模型在医学图像理解与解释中的性能。
用途: 多模态学习、图像字幕生成、医学图像分析。
3. PathVQA
访问地址: HuggingFace
描述: PathVQA数据集是一个专注于视觉问题解答(VQA)的数据集,涵盖了大量病理学相关的医学图像以及对应的问题和答案。它旨在提升模型在医学领域的问答能力,特别是理解和推理病理图像中的复杂信息。
用途: 医学图像问答系统、病理学图像分析、机器学习模型训练。
4. SLAKE 1.0
访问地址: SLAKE
描述: SLAKE是一个多模态视觉问题解答(VQA)数据集,包含医学图像及其相关的问题和答案。数据集重点放在通过医学图像回答与疾病相关的问题。这对于开发能够理解并解释医学图像的AI系统具有重要价值。
用途: 医学图像问答、跨模态信息融合、图像理解与生成。
5. DeepLesion
访问地址: DeepLesion
描述: DeepLesion 是由美国国家卫生研究院(NIH)提供的一个大规模的病灶检测数据集,包含超过32,000个带有标注的CT图像,特别用于肿瘤和其他病灶的检测。它为医学AI研究提供了丰富的训练和评估数据,特别是在肿瘤识别和标注任务上。
用途: 病灶检测、肿瘤识别、医疗影像分割。
6. OIA-DDR
访问地址: GitHub
描述: OIA-DDR 是一个专注于眼底图像的医学数据集,包含大量用于糖尿病性视网膜病变(DR)诊断的图像。该数据集提供了高分辨率的视网膜图像以及详细的病变标注信息,广泛用于眼底疾病的自动化诊断研究。
用途: 糖尿病性视网膜病变检测、眼科疾病诊断、视网膜图像分析。
7. CheXpert-v1.0-small
访问地址: Kaggle
描述: CheXpert是一个胸部X射线图像的大规模标注数据集,专门用于胸部疾病(如肺炎、气胸、心脏扩大等)的自动化检测。它包含的标注信息可以支持深度学习模型在医疗影像诊断中的应用,尤其是在自动化分析胸部X射线图像时。
用途: 胸部疾病分类、X射线图像分析、深度学习模型训练。
8. CytoImageNet
访问地址: Kaggle
描述: CytoImageNet 是一个细胞图像数据集,包含了大量的显微镜下的细胞图像,适用于细胞识别和分类任务。该数据集用于训练模型识别和分类不同类型的细胞,例如用于血液疾病、癌症检测等。
用途: 细胞分类、显微图像分析、医学影像自动化识别。
9. ISIC 2020
访问地址: ISIC Challenge
描述: ISIC 2020 是国际皮肤图像分类挑战赛的数据集,主要用于皮肤癌(如黑色素瘤)的检测与分类。数据集包含了大量皮肤病变图像及其分类标注,能够支持深度学习模型在皮肤病变自动检测方面的应用。
用途: 皮肤病变检测、黑色素瘤分类、医学图像分类任务。
10. Retinal Fundus
访问地址: Kaggle
描述: 该数据集包含大量的视网膜图像,专门用于糖尿病性视网膜病变的检测。数据集提供的高分辨率眼底图像及相应的标注,广泛用于自动化眼科诊断模型的训练。
用途: 眼科疾病诊断、视网膜图像分析、医学影像分类。
11. MIMIC-III Clinic Notes
访问地址: Papers with Code
描述: MIMIC-III 是一个广泛应用的电子健康记录数据集,包含了ICU患者的详细医疗记录。该数据集包括临床笔记,实验室结果,医疗诊断等数据,可以用于开发和训练医疗自然语言处理(NLP)模型。
用途: 医疗文本分析、自然语言处理、医学文本分类。
12. NCBI BioNLP
访问地址: NCBI BioNLP
描述: NCBI BioNLP数据集主要用于生物医学自然语言处理任务,特别是针对文献中的基因、疾病实体识别和关系抽取。它为生物信息学和生物医学文本分析研究提供了重要的训练数据。
用途: 实体识别、关系抽取、文献挖掘、生物医学文本处理。
13. PubMed Abstracts (BLUE Benchmark)
访问地址: GitHub
描述: BLUE Benchmark是一个生物医学领域的基准数据集,包含从PubMed提取的文摘,主要用于生物医学文本的分析和处理任务。它常被用于文本分类、信息提取以及问答系统的开发。
用途: 医学文献处理、文本分类、自动化文摘生成。
14. VQA-RAD
访问地址: OSF
描述: VQA-RAD 是一个专注于医学图像问答的数据集,包含放射学图像以及相关的问题和答案。该数据集主要用于开发视觉问题解答(VQA)系统,使AI能够根据医学图像回答相关的医疗问题。
用途: 医学图像问答、放射学图像分析、视觉问答系统开发。
15. CBIS-DDSM
访问地址: Kaggle
描述: CBIS-DDSM是一个乳腺癌检测数据集,包含了大量乳腺X射线图像及其标注信息,主要用于乳腺癌筛查和诊断。数据集为研究乳腺癌检测算法提供了丰富的训练和评估数据。
用途: 乳腺癌检测、X射线图像分析、医学影像分类。
16. SZ-CXR and MC-CXR
访问地址: NIH Chest Images
描述: 这是两个包含胸部X射线图像的医学影像数据集,分别用于研究各种胸部疾病。由于其图像的多样性,这些数据集为胸部疾病检测和分类提供了丰富的图像资源。
用途: 胸部疾病检测、X射线图像分类、放射学影像分析。
17. MIMIC-CXR
访问地址: PhysioNet
描述: MIMIC-CXR 是MIMIC数据集的扩展,专注于胸部X射线图像。它包含大规模的胸部X射线图像及其相关的医学报告,适用于研究自动化影像诊断和图像报告生成。
用途: 胸部疾病分类、医学影像自动化诊断、图像与文本生成。
18. MedNLI
访问地址: PhysioNet
描述: MedNLI 是一个专注于医疗领域的自然语言推理数据集,包含了医生编写的医疗记录文本。它常被用于训练模型进行医学领域的自然语言推理(NLI)任务。
用途: 医学文本推理、医疗对话系统、自然语言理解。
19. TREC 2022
访问地址: TREC
描述: TREC(文本检索评估会议)2022的数据集专注于临床数据检索任务,涵盖了从医疗文献中提取的医学问题和答案。它适用于开发能够从大规模医疗文献中检索相关答案的系统。
用途: 医疗文本检索、问题解答系统、信息抽取。
20. SEER
访问地址: SEER
描述: SEER(癌症监测、流行病学和最终结果计划)数据集由美国国家癌症研究所维护,包含了与癌症患者相关的详细信息,常用于癌症流行病学研究和AI癌症预测模型的开发。
用途: 癌症流行病学研究、数据统计分析、预测模型开发。
21. MIMIC-III
访问地址: PhysioNet
描述: MIMIC-III 是一个包含来自ICU患者的详细电子健康记录(EHR)的大规模数据集,涵盖了患者的诊断、治疗和病史等数据。它广泛用于医疗AI研究,尤其是在自然语言处理、时间序列分析和疾病预测等领域。
用途: ICU病历分析、自然语言处理、疾病预测模型。
22. HealthcareMagic
访问地址: HuggingFace
描述: HealthcareMagic是一个用于医疗对话分析的数据集,包含了来自患者和医生之间的对话记录。它广泛用于训练AI模型进行医疗对话和问题解答任务。
用途: 医疗对话系统、问题解答模型、自然语言处理。
23. MeQSum
访问地址: HuggingFace
描述: MeQSum是一个专注于医学问题摘要生成的数据集,包含了来自PubMed等数据库的医学问题和答案。它被用于训练AI模型生成医学问题的精简摘要。
用途: 医学问题摘要生成、自然语言处理、医学文本生成。
24. MedMNIST v2
访问地址: MedMNIST
描述: MedMNIST v2 是一个包含多模态医学图像的多任务数据集,涵盖了多个器官系统和疾病类别的CT、MRI、X射线图像。它适用于医疗影像的分类、分割、检测等任务。
用途: 医学图像分类、分割和检测、深度学习任务。
25. ROCO
访问地址: GitHub
描述: ROCO 是一个图像字幕生成数据集,包含了多种类型的医学图像及其相应的描述文本。它用于训练AI模型生成医学图像的自然语言描述。
用途: 医学图像描述生成、自然语言处理、跨模态学习。
26. RSNA Pneumonia Detection Challenge (2018)
访问地址: RSNA
描述: RSNA 肺炎检测挑战赛数据集包含大量的胸部X射线图像,用于肺炎的自动检测任务。它为AI研究者提供了丰富的图像数据,以提升肺炎检测算法的性能。
用途: 肺炎检测、胸部X射线图像分类、医学影像诊断。
27. MedMNIST-Raw
访问地址:
NCT-CRC-HE-100K (结直肠癌病理图像): Zenodo
HAM10000 (皮肤镜图像): GitHub
OCT 和 Chest X-ray (光学相干断层扫描和胸部X射线): Mendeley
乳腺超声: Dataset_BUSI
血细胞显微图像: Mendeley
肝肿瘤分割基准 (LiTS): Codalab
描述: MedMNIST-Raw 是一个多源医学图像数据集,包含来自不同领域的医学图像,如结直肠癌病理图像、皮肤镜图像、光学相干断层扫描(OCT)图像、胸部X射线图像、乳腺超声图像和血细胞显微图像。它为医学影像分类和检测任务提供了丰富的跨领域数据资源。
用途: 医学图像分类、分割、跨模态学习。
28. Medical-Diff-VQA
访问地址: PhysioNet
描述: Medical-Diff-VQA是一个专注于医学领域的视觉问题解答数据集,包含了丰富的医疗图像及问题集,适用于训练模型通过医学图像回答复杂问题。
用途: 医学视觉问答系统、医学影像理解、跨模态信息融合。
这些数据集涵盖了广泛的医学图像和文本分析任务,适用于各类AI应用和研究,包括医疗影像分析、自然语言处理、视觉问题解答、疾病诊断等。
"怀长期主义,聊医工科技"
我是超哥,超声行业17年老伙计,做过研发,搞过生产,趟过市场,开过(在开)公司;越野跑爱好者;工作狂;沟通粗暴直接;严苛完美主义者;起伏皆为过往;信奉长期主义和第一性原则;欢迎来聊来组局...
*医工超人·招聘求职群:定期发布超声招聘,求职信息
*免责声明*
本公众号注明原创的内容权利属于本服务或本服务权利人所有,未经本服务或本服务权利人授权,任何人不得擅自使用(包括但不限于复制、传播、展示、镜像、上载、下载、转载、摘编等)或许可他人使用上述知识产权的。已经本服务或本服务权利人授权使用作品的,应在授权范围内使用,并注明作者来源。否则,将依法追究其法律责任。