医疗问答

1.1亿条单轮问答与941万条多轮(2-10轮)医疗垂直领域问答数据,来源于三甲医院真实就诊记录,经人工清洗,适用于医疗大模型训练。

11000.0万 条数据更新时间 2026-05-11

数据集简介

本医疗问答数据集包含超过1.1亿条记录,其中单轮问答数据约1亿条,是多科室医患网络问答、医院健康中心咨询以及医疗在线问诊平台的真实场景对答。多轮问答数据941万条,按轮次分为2-4轮和5-10轮两种类型,涵盖主诉采集、病史追问、鉴别诊断建议、治疗方案说明及用药调整等医疗对话全流程闭环。该数据集均源于北京某三甲医院的系统存档记录,并经过了专业医疗标注团队的标准化清洗处理,确保问答内容准确性、结构合规与患者隐私脱敏。适用于智能问诊系统微调、医疗大模型预训练、医生辅助决策训练、医学问答推理能力优化及医疗知识管理与服务系统的建设。

数据质量

记录完整性
93.91%
记录时效性
按需更新
记录结构化
NDJSON、JSON、CSV、XLSX、Parquet,支持定制化
记录云交付
Amazon S3、Snowflake、Alibaba Cloud OSS、Google Cloud Storage、Google Drive
记录标准化
为保证数据的一致性与可用性,数据集在构建过程中对原始记录进行了标准化处理,包括:(1)单位标准化:统一价格、重量、尺寸等字段的计量单位;(2)格式标准化:统一日期、时间、数值字段的表示格式;(3)文本清洗:去除 HTML 标签、多余空格及异常字符;(4)字段规范化:统一字段命名、数据类型与缺失值表示方式。该过程确保数据在不同来源和不同采集批次之间保持结构一致性,便于后续分析与建模。
记录代表性
数据覆盖全量业务场景,样本均衡,具备行业代表性

需要定制更适合业务场景的数据集?

我们支持公开数据浏览、关键词筛选与企业级定制交付,帮助你更快完成模型训练与数据分析落地。