Skip to content

[updating] Chinese Medical Dataset 致力于详细整理所有现有中文医学数据集,包括详细的数据汇总、数据示例、下载链接等。

Notifications You must be signed in to change notification settings

Mengqi97/chinese-medical-dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 

Repository files navigation

[更新中]中文医学数据集详细整理

Author: [email protected]

1、【分类&医疗问答】CMB Chinese-Medical-Benchmark

CMB基准介绍网址:https://github.com/FreedomIntelligence/CMB

1.1、CMB数据集汇总

名称 内容 数据量 数据下载
CMB-Exam 医学知识综合多层次评估 train/valid/test: 269359/280/11200 百度网盘
其他下载方式git clone/huggingface从CMB基准介绍网址获取
CMB-Clin 74例复杂医疗询问 74 百度网盘
其他下载方式git clone/huggingface从CMB基准介绍网址获取
  • CMB-Exam:医学知识综合多层次评估

    • 结构:6大类28小类
    • CMB-train:269359个问题医学知识注入
    • CMB-val:280 个问题及其答案和解释;用作 CoT 和 Few-shot 的来源
    • CMB-test:每个子类别 400 个问题,总共 11200 个问题
  • CMB-Clin:74例复杂医疗询问

1.2、数据示例

1.2.1、CMB-Exam数据示例

{
    "exam_type": "医师考试",
    "exam_class": "执业医师",
    "exam_subject": "口腔执业医师",
    "question": "患者,男性,11岁。近2个月来时有低热(37~38℃),全身无明显症状。查体无明显阳性体征。X线检查发现右肺中部有一直径约0.8cm类圆形病灶,边缘稍模糊,肺门淋巴结肿大。此男孩可能患",
    "answer": "D",
    "question_type": "单项选择题",
    "option": {
        "A": "小叶型肺炎",
        "B": "浸润性肺结核",
        "C": "继发性肺结核",
        "D": "原发性肺结核",
        "E": "粟粒型肺结核"
    }
},
  • exam_type: 专业类别
  • exam_class:子类别
  • exam_subject:具体院系或学科分支
  • question_type:多项选择(单项选择题)或多选题(多项选择题)

1.2.2、CMB-Clin数据示例

{
    "id": 0,
    "title": "案例分析-腹外疝",
    "description": "现病史\n(1)病史摘要\n     病人,男,49岁,3小时前解大便后出现右下腹疼痛,右下腹可触及一包块,既往体健。\n(2)主诉\n     右下腹痛并自扪及包块3小时。\n\n体格检查\n体温: T 37.8℃,P 101次/分,呼吸22次/分,BP 100/60mmHg,腹软,未见胃肠型蠕动波,肝脾肋下未及,于右侧腹股沟区可扪及一圆形肿块,约4cm×4cm大小,有压痛、界欠清,且肿块位于腹股沟韧带上内方。\n\n辅助检查\n(1)实验室检查\n     血常规:WBC 5.0×109/L,N 78%。\n     尿常规正常。\n(2)多普勒超声检查\n     沿腹股沟纵切可见一多层分布的混合回声区,宽窄不等,远端膨大,边界整齐,长约4~5cm。\n(3)腹部X线检查\n     可见阶梯状液气平。",
    "QA_pairs": [
        {
            "question": "简述该病人的诊断及诊断依据。",
            "solution": "诊断:嵌顿性腹股沟斜疝合并肠梗阻。\n诊断依据:\n①右下腹痛并自扪及包块3小时;\n②有腹胀、呕吐,类似肠梗阻表现;腹部平片可见阶梯状液平,考虑肠梗阻可能;腹部B超考虑,\n腹部包块内可能为肠管可能;\n③有轻度毒性反应或是中毒反应,如 T 37.8℃,P 101次/分,白细胞中性分类78%;\n④腹股沟区包块位于腹股沟韧带上内方。"
        },
        {
            "question": "简述该病人的鉴别诊断。",
            "solution": "(1)睾丸鞘膜积液:鞘膜积液所呈现的肿块完全局限在阴囊内,其上界可以清楚地摸到;用透光试验检查肿块,鞘膜积液多为透光(阳性),而疝块则不能透光。\n(2)交通性鞘膜积液:肿块的外形与睾丸鞘膜积液相似。于每日起床后或站立活动时肿块缓慢地出现并增大。平卧或睡觉后肿块逐渐缩小,挤压肿块,其体积也可逐渐缩小。透光试验为阳性。\n(3)精索鞘膜积液:肿块较小,在腹股沟管内,牵拉同侧睾丸可见肿块移动。\n(4)隐睾:腹股沟管内下降不全的睾丸可被误诊为斜疝或精索鞘膜积液。隐睾肿块较小,挤压时可出现特有的胀痛感觉。如患侧阴囊内睾丸缺如,则诊断更为明确。\n(5)急性肠梗阻:肠管被嵌顿的疝可伴发急性肠梗阻,但不应仅满足于肠梗阻的诊断而忽略疝的存在;尤其是病人比较肥胖或疝块较小时,更易发生这类问题而导致治疗上的错误。\n(6)此外,腹股沟区肿块还应与以下疾病鉴别:肿大的淋巴结、动(静)脉瘤、软组织肿瘤、脓肿、\n圆韧带囊肿、子宫内膜异位症等。"
        },
        {
            "question": "简述该病人的治疗原则。",
            "solution": "嵌顿性疝原则上需要紧急手术治疗,以防止疝内容物坏死并解除伴发的肠梗阻。术前应做好必要的准备,如有脱水和电解质紊乱,应迅速补液加以纠正。手术的关键在于正确判断疝内容物的活力,然后根据病情确定处理方法。在扩张或切开疝环、解除疝环压迫的前提下,凡肠管呈紫黑色,失去光泽和弹性,刺激后无蠕动和相应肠系膜内无动脉搏动者,即可判定为肠坏死。如肠管尚未坏死,则可将其送回腹腔,按一般易复性疝处理,即行疝囊高位结扎+疝修补术。如肠管确已坏死或一时不能肯定肠管是否已失去活力时,则应在病人全身情况允许的前提下,切除该段肠管并进行一期吻合。凡施行肠切除吻合术的病人,因手术区污染,在高位结扎疝囊后,一般不宜作疝修补术,以免因感染而致修补失败。"
        }
    ]
},
  • title:疾病名称
  • description:患者信息
  • QA_pairs:基于描述的一系列问题及其解决方案

2、【医疗问答】Huatuo-26M

Huatuo-26M 是目前为止最大的中文医疗问答数据集。此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用,如聊天机器人、智能诊断系统等,而需要的重要资源。

2.1、Huatuo数据集汇总

名称 数据量 数据下载
在线医疗百科 364,420 huatuo_encyclopedia_qa
医疗知识图谱 798,444 huatuo_knowledge_graph_qa
网络上的公开医疗问答论坛 32,708,346 huatuo_consultation_qa
论文中使用的huatuo测试集 6,000 huatuo26M-testdatasets
  • 数据集中的每个问答对包含以下字段:

    • Question:问题描述
    • Answer:医生/专家的答案

2.2、数据示例

2.2.1、在线医疗百科数据示例

{
    "questions": [["睾丸积液是怎么造成的"]], 
    "answers": ["睾丸积液即睾丸鞘膜积液,睾丸鞘膜积液是围绕睾丸的鞘膜腔内液体积聚超过正常量,而形成的囊肿病变,可见于各种年龄,是一种临床常见疾病,睾丸鞘膜是包在睾丸外面的双层膜,是睾丸从腹腔下降过程中带入阴囊的腹膜,睾丸积液是怎么造成的?在胚胎发育的过程中,睾丸是不位于阴囊的,它是在后腹膜。随着胎儿的发育,逐渐下降,在出生时下降进入阴囊。进入阴囊后会带一部分腹膜,出生时腹膜的腔与腹腔关闭、不通。正常情况下,睾丸鞘膜腔会有少量的液体,起到润滑的作用。如果睾丸鞘膜腔内的液体生成速度大于吸收的速度。那么在鞘膜腔内的积液会逐渐增多,从而导致了睾丸鞘膜积液。睾丸鞘膜积液多了,可以影响排尿,所以出现睾丸鞘膜积液,还是应该手术治疗。睾丸鞘膜积液是一种比较常见的疾病,主要的发病原因是由于急性附睾炎,或者附睾肿瘤等相关疾病造成的。另外,如果鞘状突闭合不佳,也可以出现睾丸鞘膜积液。睾丸鞘膜积液可以通过彩超等检查明确诊断。如果是肿瘤引起的,这个情况需要切除肿瘤,才能够彻底治愈。急性附睾炎或者鞘状突闭合不佳造成的鞘膜积液,一般需要通过手术的方式才能治愈。正常情况下,睾丸鞘膜腔内的液体的分泌与吸收保持着一个相对的平衡的状态,使睾丸鞘膜腔内液体保持少量状态。当分泌过多或者淋巴、静脉回收减少的时候睾丸鞘膜腔内的液体滞留过多,引起积液。严重时可引起阴囊坠胀痛,甚至阴茎回缩影响排尿。以上介绍了睾丸积液是怎么造成的,睾丸鞘膜积液是围绕睾丸的鞘膜腔内液体积聚超过正常量,而形成的囊肿病变,可见于各种年龄,是一种临床常见疾病,继发性鞘膜积液有原发性疾病,如急性睾丸炎、附睾炎、精索炎等,刺激鞘膜渗出增加,造成积液。"]
}

2.2.2、医疗知识图谱

{
    "questions": ["自体及异体CIK的临床表现有些什么?"], 
    "answers": ["低热"]
}

2.2.3、网络上的公开医疗问答论坛

{
    "questions": ["左侧髋骨粉碎性骨折多久才能走路"], 
    "answers": ["https://www.51zyzy.com/question/detail/9814309.html"]
}

2.2.4、Huatuo测试集数据示例

{
    "questions": "做了腰间盘穿丁手术后,用盐泡脚可以吗", 
    "answers": "问题分析:你好:你是由于身体出现了一些局部的腰部损伤这种情况应该进行调整的一般术后泡脚是可以的,不用担心。意见建议:治疗方案:你可以不知后注意休息,避免劳累过度就可以这种调整方法也可以住进你身体的一些嗯调理的啊!"
}

3、【实体识别&属性抽取】Yidu-S4K

Yidu-S4K 数据集源自CCKS 2019 评测任务一,即“面向中文电子病历的命名实体识别”的数据集。数据集由医渡云(北京)技术有限公司编写,并由医渡云公司组织专业的医学团队进行人工标注,仅限CCKS竞赛评测用。

  1. 医疗命名实体识别:由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对2017年度数据集做了修订,并随任务一同发布。本子任务的数据集包括训练集和测试集。
  2. 医疗实体及属性抽取(跨院迁移):在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集(非目标场景和目标场景的标注数据、各个场景的非标注数据)和测试集(目标场景的标注数据)。

3.1、数据集汇总

名称 任务 数据量 数据下载
subtask1 医疗命名实体识别 train/test:1000/379 http://openkg1.oss-cn-beijing.aliyuncs.com/590d97bd-18fb-49d1-89f8-d6a3802b2040/yidu-s4k.zip
subtask2 医疗实体及属性抽取(跨院迁移) unlabeled:1000
train/test:500/400
http://openkg1.oss-cn-beijing.aliyuncs.com/590d97bd-18fb-49d1-89f8-d6a3802b2040/yidu-s4k.zip

3.2、任务描述

  1. 医疗命名实体识别:对于给定的一组电子病历纯文本文档,任务的目标是识别并抽取出与医学临床相关的实体提及(entity mention),并将它们归类到预定义类别(pre-defined categories),比如疾病、治疗、检查检验等。
  2. 给定的一组电子病历纯文本文档,定义若干与医疗相关的目标字段,如肿瘤大小,肿瘤原发部位等,任务的目标是识别并抽取目标字段的答案实体,比如左肺,肺叶等。 本任务为实体及属性抽取问题的跨院迁移任务,即在只提供需要识别的场景的少量标注数据的情况下,提供大量来自其他场景的已知数据分布不同的标注数据,以及大量非标注数据,进行目标场景的识别任务。

3.3、数据示例

3.3.1、医疗命名实体识别数据示例

{
    "originalText": ",患者3月前因“直肠癌”于在我院于全麻上行直肠癌根治术(DIXON术),手术过程顺利,术后给予抗感染及营养支持治疗,患者恢复好,切口愈合良好。,术后病理示:直肠腺癌(中低度分化),浸润溃疡型,面积3.5*2CM,侵达外膜。双端切线另送“近端”、“远端”及环周底部切除面未查见癌。肠壁一站(10个)、中间组(8个)淋巴结未查见癌。,免疫组化染色示:ERCC1弥漫(+)、TS少部分弱(+)、SYN(-)、CGA(-)。术后查无化疗禁忌后给予3周期化疗,,方案为:奥沙利铂150MG D1,亚叶酸钙0.3G+替加氟1.0G D2-D6,同时给与升白细胞、护肝、止吐、免疫增强治疗,患者副反应轻。院外期间患者一般情况好,无恶心,无腹痛腹胀胀不适,无现患者为行复查及化疗再次来院就诊,门诊以“直肠癌术后”收入院。   近期患者精神可,饮食可,大便正常,小便正常,近期体重无明显变化。", 
    "entities": [{"label_type": "疾病和诊断", "overlap": 0, "start_pos": 8, "end_pos": 11}, {"label_type": "手术", "overlap": 0, "start_pos": 21, "end_pos": 35}, {"label_type": "疾病和诊断", "overlap": 0, "start_pos": 78, "end_pos": 95}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 139, "end_pos": 159}, {"end_pos": 234, "label_type": "药物", "overlap": 0, "start_pos": 230}, {"end_pos": 247, "label_type": "药物", "overlap": 0, "start_pos": 243}, {"end_pos": 255, "label_type": "药物", "overlap": 0, "start_pos": 252}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 276, "end_pos": 277}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 312, "end_pos": 313}, {"label_type": "解剖部位", "overlap": 0, "start_pos": 314, "end_pos": 315}, {"label_type": "疾病和诊断", "overlap": 0, "start_pos": 342, "end_pos": 347}]
}

3.3.2、医疗实体及属性抽取(跨院迁移)数据示例

原文 肿瘤原发部位 原发病灶大小 转移部位
右乳术后缺如,部分胸肌存在,术区胸壁及皮肤局部略增厚;右侧腋窝术后,结构紊乱。左乳未见明确异常。右侧内乳区、左侧腋窝可见小淋巴结,大者短径不足0.5CM。右肺中叶见一结节灶,长径约1.2CM。右肺中叶可见类圆形囊状过度充气区及条片影。双肺门及纵隔内未见肿大淋巴结。右侧胸膜略增厚。扫描野内肝实质密度减低。脾内示颗粒状致密影。胆囊腔内密度略增高。 右侧部分肋骨密度增高。 1.右乳癌术后改变,术区胸壁及皮肤局部略增厚,较前(2016-2-26)基本变化不著 2.考虑右肺转移,略增大;右肺中叶含气囊肿、纤维灶,变化不著 3.脂肪肝;脾内钙化灶 4.右侧部分肋骨密度增高,变化不著。 右乳 - 右肺

4、【术语标准化】Yidu-N7K

Yidu-N4K 数据集源自CHIP 2019 评测任务一,即“临床术语标准化任务”的数据集。

4.1、数据集汇总

名称 任务 数据量 数据下载
Yidu-N7K:医渡云标准化7K数据集 临床术语标准化任务 train/valid/test:4000/1000/2000 http://openkg.cn/dataset/yidu-n7k#

4.2、任务描述

临床术语标准化任务是医学统计中不可或缺的一项任务。临床上,关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化(归一)要解决的问题就是为临床上各种不同说法找到对应的标准说法。有了术语标准化的基础,研究人员才可对电子病历进行后续的统计分析。本质上,临床术语标准化任务也是语义相似度匹配任务的一种。但是由于原词表述方式过于多样,单一的匹配模型很难获得很好的效果。

本次评测任务主要目标是针对中文电子病历中挖掘出的真实手术实体进行语义标准化。 给定一手术原词,要求给出其对应的手术标准词。所有手术原词均来自于真实医疗数据,并以《ICD9-2017协和临床版》 手术词表为标准进行了标注。

4.3、数据示例

原始词 标准词
体外循环下胸腔镜辅助下房间隔缺损修补术 胸腔镜下房间隔缺损修补术
颅内血肿清除术 颅内血肿清除术
肝动脉灌注化疗栓塞术 经导管肝动脉栓塞术##动脉化疗栓塞

5、【医疗问答】cMedQA2

​ 【医疗问答】中文医药方面的问答数据集

5.1、数据集汇总

数据集 问题数据量 回答数据量 每个问题平均有几个字符 每个回答平均有几个字符
Train 100,000 188,490 48 101
Dev 4,000 7,527 49 101
Test 4,000 7,552 49 100
Total 108,000 203,569 49 101
  • questions.csv All Questions and their content.
  • answers.csv All Answers and their content.
  • train_candidates.txt dev_candidates.txt test_candidates.txt The split of training set, development set and test set respectively.
  • 数据下载:https://github.com/zhangsheng93/cMedQA2

5.2、数据示例

5.2.1、questions.csv数据示例

question_id content
65102009 头痛恶心肌肉痛关节痛颈部淋巴结疼痛怎么回事啊
44275784 我怀孕37周,肠子一直呼噜呼噜叫感觉像是在里面灌水,上厕所拉稀和喷水一样,一天上厕所5次,对孩子有啥影响,应该怎么办?
45619783 停经十四天,会怀孕吗停经十四天,特别恶心已经停经十四天了,性生活频繁,出现恶心的症状,而且特别频繁严重,头疼,易疲惫,以前来月经都特别准,推迟不会超过三天,请问这怀孕概率大吗

5.2.2、answer.csv数据示例

ans_id question_id content
0 45619783 月经延迟十四天而且伴随恶心,头痛,乏力的现象,那么考虑怀孕的概率是非常大的,建议你去医院检查血HCG或者B超确诊是否怀孕,如果怀孕了,那么怀孕的天数大概是44天如果打算保留这个孩子,从现在开始要戒烟酒,不要同房,注意休息,饮食方面要少吃辛辣刺激的,腌制,油炸,烧烤的食物,不要吃凉性的食物,不要吃螃蟹甲鱼等寒性食品,容易流产,定期孕检
1 45619783 如果你的月经周期规律,有正常的性生活,未采取任何有效的避孕措施,此时的症状考虑有怀孕的可能。你的情况,如果担心怀孕,可严密观察,如果月经延迟一周以上,则到正规医院妇科进行血HCG、B超等相关检查,确诊是否怀孕

5.2.3、train_candidates.txt & dev_candidates.txt & test_candidates.txt数据示例

question_id pos_ans_id neg_ans_id
24731702 11064 163246
24731702 11064 106174

6、【医疗问答】Medical-Dialogue-System

【医疗问答】中文医患问答对话数据

6.1、数据集汇总

名称 数据量 数据下载
Medical-Dialogue-System 110 万个对话
400 万条话语
GoogleDrive

6.2、数据示例

id=3
https://www.haodf.com/doctorteam/flow_team_6477251153.htm

Doctor faculty
空军军医大学西京医院  血液内科  

Description
疾病: 
血常规检查
病情描述: 
医生,从数据看是不是有真红病的可能?血红蛋白178,红细胞6.10,血小板也高
希望获得的帮助: 
会不会是真红?
患病多久: 
一周内
过敏史: 
无(2020-02-03填写)
既往病史: 
无(2020-02-03填写)
医生已经通过语音回答了您的问题,请及时收听。: 

7、【医疗问答】Chinese medical dialogue data

7.1、数据集汇总

名称 数据量 数据下载
男科 94596个问答对 男科
内科 220606个问答对 内科
妇产科 183751个问答对 妇产科
肿瘤科 75553个问答对 肿瘤科
儿科 101602个问答对 儿科
外科 115991个问答对 外科
  • 总计 792099条数据

7.2、数据示例

department title question answer
心血管科 高血压患者能吃党参吗? 我有高血压这两天女婿来的时候给我拿了些党参泡水喝,您好高血压可以吃党参吗? 高血压病人可以口服党参的。党参有降血脂,降血压的作用,可以彻底消除血液中的垃圾,从而对冠心病以及心血管疾病的患者都有一定的稳定预防工作作用,因此平时口服党参能远离三高的危害。另外党参除了益气养血,降低中枢神经作用,调整消化系统功能,健脾补肺的功能。感谢您的进行咨询,期望我的解释对你有所帮助。
消化科 哪家医院能治胃反流 烧心,打隔,咳嗽低烧,以有4年多 建议你用奥美拉唑同时,加用吗丁啉或莫沙必利或援生力维,另外还可以加用达喜片

8、【混合】CBLUE-中文医疗信息处理评测基准

涵盖了医学文本信息抽取(实体识别、关系抽取)

8.1、数据集汇总

数据集名称 数据集缩写 任务类型 数据量(训练集/验证集/测试集) 其他信息
中文医学命名实体识别 CMeEE 实体识别 15,000/5,000/3,000 实体存在嵌套定义
中文医学文本实体关系抽取 CMeIE 关系抽取 14,339/3,585/4,482
医疗因果实体关系抽取 CMedCausal 关系抽取 800/200/1,000 + 1000条未标注数据 关系存在嵌套定义
临床发现事件抽取 CHIP-CDEE 事件抽取 1,587/384/514
临床术语标准化 CHIP-CDN 归一化 6,000/2,000/10,000
医学段落检索 KUAKE-IR 检索 100,000/1,000/3,000
临床试验筛选标准短文本分类 CHIP-CTC 分类 22,962/7,682/10,000
医疗搜索检索词意图分类 KUAKE-QIC 分类 6,931/1,955/1,994
医疗对话临床发现阴阳性判别 CHIP-MDCFNPC 分类 5,000/1,000/2,000
疾病问答迁移学习 CHIP-STS 匹配 16,000/4,000/10,000
医疗搜索查询词-页面标题相关性 KUAKE-QTR 匹配 24,174/2,913/5,465
医疗搜索查询词-查询词相关性 KUAKE-QQR 匹配 15,000/1,600/1,596
智能对话诊疗数据集 IMCS 实体识别、分类、生成 2,472/833/811
蕴含实体的中文医疗对话生成 MedDG 生成 17,864/2,747/1,551
医疗文本诊疗决策树抽取 TextDT 生成 300/100/100
推荐任务 - - - -
医疗清单发票OCR要素提取任务 CMedOCR OCR 1,000/-/700 不做展开介绍
面向“基因-疾病”关联机理的科学文献挖掘任务 AGAC 实体识别、关系抽取 250/-/2,000 英文,不做展开介绍

信息抽取类任务包括CMeEE、CMeIE、CMedCausal和CHIP-CDEE四个基础任务

详细信息,如数据下载&数据样例见:https://tianchi.aliyun.com/dataset/95414

下载数据需提交申请并审核通过。

8.2、【信息检索】KUAKE-IR 中文医疗段落检索数据集

该数据集取自《8、CBLUE-中文医疗信息处理评测基准》。

8.2.1、数据汇总

数据下载: https://tianchi.aliyun.com/dataset/95414 页面中数据列表的 KUAKE-IR.zip

image-20240802034609685

KUAKE-IR.zip中包含的数据文件:

数据文件 数据量 文件说明
corpus.tsv 960363 语料库。选手需要从语料库中检索出与query相关的doc。
KUAKE-IR_train_query.txt 99999 训练集的query
KUAKE-IR_train.tsv 99999 训练集的query-doc对应关系
KUAKE-IR_dev_query.txt 1000 验证集的query
KUAKE-IR_dev.tsv 1000 验证集的query-doc对应关系
KUAKE-IR_test_query.txt 3000 测试集的query
KUAKE-IR_test.tsv 3000 需预测的测试集文件,选手需要为每条query从corpus.tsv中预测10条最相关的doc_id,doc_id用逗号隔开
example_pred.tsv 5 最终预测输出的文件格式样例

8.2.2、任务描述

受疫情催化影响,人们通过互联网获取医疗信息的诉求相比往年更加强烈,搜索质量的高低将直接影响用户获取信息的有效性。因此在AI时代,如何通过构建智能搜索能力提升线上用户的满意度成为了众多医疗AI厂商的重要研究课题。本数据集由阿里巴巴搜索事业部和阿里夸克平台联合发布,目标是旨在推动医疗搜索领域的技术发展。

本次评测数据均来自阿里夸克搜索真实的业务场景,其中整个搜索内容集合按照内容的类别随机抽样保证了数据的多样性,搜索Query和相关的内容来自点击行为日志并通过模型+人工确认的方式完成校验保证了训练和测试数据的准确性。

8.2.3、数据示例

corpus.tsv 格式:doc_id \t doc

102009	!@头昏一般不属于眩晕范围,引起头昏的原因有多种多样,如贫血、睡眠差、紧张、脑供血不足、颈椎病、身体虚弱、心血管疾病、高脂血症、高度近视等,建议好好休息几天如果没有好转需要去医院看看医生!很多人认为是小毛病,饿时会头晕、经期前后会头晕,蹲久了站起来会头晕。间中头晕,应无大碍。不过,如果长时间头晕,就当小心,因为可能是重病的先兆。 感冒时,可能会附带有头晕祝您健康!! 求采纳
941981	!从你的描述来看,孩子的这种情况考虑为湿疹的可能性最大。一、可先用丁酸氢化可的松软膏涂一涂以控制症状。。二、再用氧化锌软膏外用。。三、如果孩子是母乳喂养的,妈妈要注意忌口,不能吃鱼腥、鸡蛋等高蛋白的东西。。四、如果孩子是吃奶粉的,应考虑存在对牛奶过敏的可能,最好改吃水解蛋白的奶粉,
171004	!剖宫产后两年后就可再怀孕生育的,是否再要剖腹产,这就不一定了,如果第一次是因为骨盆狭窄而做的剖宫产,那么第二胎还应该再剖的.目前不能定论,只能观察了
189776	!女性得尖锐湿疣症状有:尖锐湿疣初期症状是阴部会出现少数微小谈红色丘疹,随着病情发展,可在生殖器部位呈现许多不同程度的小丘疹,渐次增大增多,融合成鸡冠状增生物,根部可有蒂,可有痒感、灼痛和恶臭。建议去正规的医院啊
50721	!您好这样的情况还需要注意睾丸囊肿的可能睾丸炎多为细菌侵及睾丸所致感染途径以逆行感染为主多发生在下尿路感染、前列腺炎、经尿道手术后以及长期留置导尿管的患者但是目前您的情况不能排除睾丸囊肿的可能最好是到医院针对做一下睾丸彩超等检查排除睾丸病变的可能积极接受治疗如果您已经生育症状还是频繁发作可以考虑手术治疗祝您身体降

KUAKE-IR_train_query.txt、KUAKE-IR_dev_query.txt、KUAKE-IR_test_query.txt 格式:query_id \t query

1	患肝癌怎么治疗最好
2	包皮过长怎么办?在武汉怎么治..
3	月经没来怎么办
4	你好,我这个周三不小心被摩托车烟筒烫伤了,怎么办?
5	哮喘患者都有些什么样的症状啊
6	断奶需几天还是要给宝宝喝的配方奶的营养好一些
7	唇炎这个病有得治嘛?

KUAKE-IR_train.tsv、KUAKE-IR_dev.tsv、KUAKE-IR_test.tsv 格式:query_id \t doc_id, 数据来自于搜索点击日志,人工标注query和doc之间具备高相关性,训练集用来训练模型。

1	1
2	6
3	25
4	31
5	40
6	44
7	55
8	67
9	74

example_pred.tsv

#输出格式
#query_id1\tdoc_id1,doc_id2,doc_id3,...doc_id10
#query_id2\tdoc_id1,doc_id2,doc_id3,...doc_id10
#...
#query_id3000\tdoc_id1,doc_id2,doc_id3,...doc_id10
   
46	612699,23530,843768,530110,952017,124795,488879,685488,30000520,78723
47	612699,23530,843768,530110,952017,124795,488879,685488,30000520,78723
48	612699,23530,843768,530110,952017,124795,488879,685488,30000520,78723
49	612699,23530,843768,530110,952017,124795,488879,685488,30000520,78723
50	612699,23530,843768,530110,952017,124795,488879,685488,30000520,78723

8.2.4、评测指标

本评测任务采用MRR@10作为评测指标

8.3、【医疗文本标注】CHIP-MDCFNPC 医疗对话临床发现阴阳性判别数据集

该数据集取自《8、CBLUE-中文医疗信息处理评测基准》。

8.3.1、数据汇总

该数据集获取有两种来源: 1、数据集来源于CHIP2021医疗对话临床发现阴阳性判别学术评测任务:https://tianchi.aliyun.com/dataset/108859 。 本数据集由阿里夸克医疗事业部提供。该来源数据集最晚更新时间是2021-11-09。 2、数据集在CBLUE(https://tianchi.aliyun.com/dataset/95414)评测基准开放了长期的leaderboard。CBLUE中该数据集的最晚更新时间为2023-03-14。

两种来源数据中,来源1的数据包含来源2的数据,具体数据文件对应关系将在以下展开说明。

来源1文件下载: https://tianchi.aliyun.com/dataset/108859

数据文件 数据量
train.jsonl 6000
testa.txt 2000
testb.txt 1999

来源2文件下载: https://tianchi.aliyun.com/dataset/95414 页面中数据列表的 CHIP-MDCFNPC.zip

image-20240802042258144

数据文件 数据量
CHIP-MDCFNPC_train.jsonl 5000
CHIP-MDCFNPC_dev.jsonl 1000
CHIP-MDCFNPC_test.jsonl 2000
example_gold.jsonl 5
example_pred.jsonl 5

来源1文件与来源2文件对照表:

来源1文件 来源2文件
train.jsonl CHIP-MDCFNPC_train.jsonl + CHIP-MDCFNPC_dev.jsonl
testa.txt CHIP-MDCFNPC_test.jsonl
testb.txt -

8.3.2、任务描述

<u>任务相关背景知识:</u>

临床发现(Clinical Finding)是临床医学下,病人状态描述的概念集合,每一个临床发现的概念都具有明确的涵义(比如腹泻,呕吐,高温,物理降温,降温药物治疗),医学为了保证其严谨性对每一个概念都进行了明确的定义和说明。

医学临床报告是病人状态的汇总性的描述,为了尽可能全面和精准的对病人的状态进行客观描述,需要利用严谨的临床发现的概念对病人状态进行表达,其中最基本的状态就是阴性和阳性,也就是病人是否存在或者发生某一种明确的临床发现(Clinical Finding)。

目前互联网医疗患者会对自己的症状进行一些口语化的描述,一般称之为主诉,同时医生也为针对性的进行一些问诊,来进行一些主诉的细化和补充。针对互联网医疗对话场景,阿里巴巴夸克团队计划在CHIP会议上开展一系列学术评测任务。

本次标注数据全部来源于春雨医生的互联网在线问诊的公开数据。阴阳性的定义一般认为是患者主诉病情描述和医生诊断判别中的阴性和阳性。SOAP (Subjective, Objective, Assessment, Plan) 评估记录法是目前国际上最常用以问题为导向的医学记录方法,阴阳性需要处理主要是S和A中相关的实体的判别。数据预处理是先对齐进行SOAP分类,然后对S和A的部分进行NER识别,然后在此基础上进行阴阳性的标注。 注:并不是对话中所有的临床发现的NER的部分都需要进行识别和标注,只需要对表述病人主客观存在的临床发现,以及对应的诊断结果进行判别。

<u>任务定义:</u>

对互联网在线问诊记录中的临床发现的部分进行阴阳性的多分类任务。即,预测数据示例中的attr部分。

8.3.3、标注规范

一、标注属性

阴性、阳性、其他、不标注

二、标注标准

共分为四类,本期评测涉及到对话类的,医患的交互中的症状/疾病,需要考虑上下文联系、逻辑关系、来对症状的阴阳性或者“其他”(一般用户没有回答,或者回答不明确,不知道)来做判断。

(1)阳性(pos):已有症状疾/病等相关,医生诊断(包含多个诊断结论),以及假设未来可能发生的疾病等,如:“如果不治疗的话,大概率会引起A疾病”,“A疾病”标注为阳性; (2)阴性(neg):未患有的疾病症状相关; (3)其他(other):未知的标注其他,一般指用户没有回答、不知道或者回答不明确/模棱两可不好推断的情况。 (4)不标注(empty):无实际意义的不标注,一般是医生的解释说的是一般知识,和病人当前的状态条件独立不具有标注意义,及有些检查项带疾病名称的,识别的疾病(乙肝五项/乙肝抗体),药品名中出现的“疾病”不标注。

三、标注例子

例子1:

病人:医生您好,从昨天晚上开始 <u>肚子一直疼 </u>,吃了布洛芬有所缓解。---- “肚子一直疼”标记 <u>阳性 </u>

医生:<u>肚子疼 </u><u>上腹部疼 </u>么?---- “肚子疼”标记 <u>阳性 </u>,是基于上文推断;“上腹部疼”标记 <u>阴性 </u>,基于下文推断。

病人:不是,主要是 <u>下腹部疼 </u>。---- “下腹部疼”标记 <u>阳性 </u>

医生:是 <u>针扎样的疼 </u>么?---- “针扎样的疼”标注 <u>其他 </u>

病人:不知道,描述不出来,<u>有点抽筋的那种疼 </u>。 ---- “针扎样的疼”标注 <u>其他 </u>

……

医生:这种情况考虑为急性肠胃炎导致的,急性肠胃炎可能除了 <u>腹疼 </u>之外,可能还会引起 <u>腹泻 </u>等,需要即时补充水分。---- “腹疼”和“腹泻”均标注为 <u>不标注 </u>,是医生解释医学常识。

例子2:

医生:有 <u>尿急尿频 </u>吗? ----“尿急”、“尿频”标注 <u>阳性 </u>

患者:有点。

例子3:

医生:请问 <u>白带有异味 </u>吗? <u>外阴痒 </u>吗?----“白带有异味”标注 <u>阳性 </u>、“外阴痒”标注 <u>阴性 </u>

患者:外阴在一个月之前有些发 <u></u>,但是现在不 <u></u>,白带闻起来有点腥臭味----第一处“痒”标注 <u>阳性 </u>, 第二处“痒”标注 <u>阴性 </u>

例子4:

医生:有 <u>头晕 </u>呕吐吗?----“头晕”标注 <u>其他 </u>

患者:不确定是不是 <u>头晕 </u>,感觉不 <u>头晕 </u>但好像又是 <u>头晕 </u>---- 三个“头晕”均标注 <u>其它 </u>,用户的回答模棱两可不好判断,标注“其它”

例子5:

医生:<u>腹泻 </u>几次了?有 <u>呕吐腹痛 </u>吗?----“腹泻”标 <u>阳性 </u>,“呕吐”-<u>阴性 </u>、“腹痛”-<u>阳性 </u>

患者:从昨天到今天三四次,也没敢吃东西,吃点就要去厕所,其他都还好,昨天吃了不新鲜的水果,

患者:吃完过一会儿就 <u>肚子痛 </u>,没 <u></u>,晚上喝点粥不知道能不能好点---- “肚子痛”标 <u>阳性 </u>,“吐”标 <u>阴性 </u>

例子6:

患者:坐起来就不怎么 <u></u>,躺着就 <u></u>,站着不动也不怎么 <u></u>,走路慢点也还好,快点就 <u></u> ----四个“痛”,分别标注 <u>阴性 </u><u>阳性 </u><u>阴性 </u><u>阳性 </u>

例子7:

患者:我前天打篮球扭到了脚踝,现在脚踝处很 <u></u>,并且已经 <u></u>了,该怎么治疗

医生:你这属于踝关节扭伤,现在需要消 <u></u>,止 <u></u>治疗; ----“肿”、“痛”均标注 <u>阳性 </u>

例子8:

患者:我害怕是 <u>糖尿病 </u>。----“糖尿病”标注 <u>阴性 </u>

医生:你这个不是糖尿病,这种情况考虑是肠炎,肠胃炎。可以服用一些治疗肠炎药物,如康恩贝肠炎宁胶囊;----“糖尿病”标记 <u>阴性 </u>,第一个“肠炎”,“肠胃炎”均标注 <u>阳性 </u>,第二、三个“肠炎”均标记为 <u>不标注 </u>

8.3.4、数据示例

  • text: 段落文本
  • sender: 患者或者医生
  • ner: 实体的识别以及阴阳性的标签
    • mention:短文中出现的和实体匹配的字段
    • name:mention对应的标准名。注:不是所有的mention都有对应的标准名
    • range:mention在句子中的上下标.
    • type:实体类型,均统一标注为clinical_findings,不再区分是症状或者疾病
    • attr: 阴性/阳性/其他/不标注

train.jsonl、testa.txt、testb.txt、CHIP-MDCFNPC_train.jsonl、CHIP-MDCFNPC_dev.jsonl、CHIP-MDCFNPC_test.jsonl、example_gold.jsonl、example_pred.jsonl中数据示例

{"dialog_id": 2013, "dialog_info": [
  {"text": "孕八周五天去做B超,孕囊下方有大量液性暗区,孕酮19.1这样危险吗", "sentence_id": "1", "ner": [], "sender": "患者"}, 
  {"text": "这是先兆流产的迹象,请问有没有阴道流血及腹痛,孕酮的单位是什么", "sentence_id": "2", "ner": [{"name": "腹痛", "mention": "腹痛", "range": [20, 22], "type": "clinical_findings", "attr": "阳性"}, {"name": "阴道流血", "mention": "阴道流血", "range": [15, 19], "type": "clinical_findings", "attr": "阴性"}, {"name": "undefined", "mention": "先兆流产", "range": [2, 6], "type": "clinical_findings", "attr": "阳性"}], "sender": "医生"}, 
  {"text": "b超有没有看到卵黄囊及原始心搏", "sentence_id": "3", "ner": [], "sender": "医生"}, 
  {"text": "有看到,宝宝正常", "sentence_id": "4", "ner": [], "sender": "患者"}, 
  {"text": "没有阴道流血,轻微腹痛,", "sentence_id": "5", "ner": [{"name": "腹痛", "mention": "腹痛", "range": [9, 11], "type": "clinical_findings", "attr": "阳性"}, {"name": "阴道流血", "mention": "阴道流血", "range": [2, 6], "type": "clinical_findings", "attr": "阴性"}], "sender": "患者"}, 
  {"text": "孕酮应该是ng/ml吧,", "sentence_id": "6", "ner": [], "sender": "患者"}, 
  {"text": "孕酮偏低点,建议补充点黄体酮,然后一周后复查b超,及血hcg,如果暗性液区消失,孕囊有增长,心搏存在,hcg倍增理想,可以继续妊娠,如果腹痛,阴道流血立即就诊,如果hcg倍增不理想,或者暗区增大,或者心搏消失等,建议终止妊娠", "sentence_id": "7", "ner": [{"name": "阴道流血", "mention": "阴道流血", "range": [71, 75], "type": "clinical_findings", "attr": "不标注"}, {"name": "腹痛", "mention": "腹痛", "range": [68, 70], "type": "clinical_findings", "attr": "不标注"}, {"name": "undefined", "mention": "孕囊有增长", "range": [40, 45], "type": "clinical_findings", "attr": "不标注"}], "sender": "医生"}, 
  {"text": "好的,明白,", "sentence_id": "8", "ner": [], "sender": "患者"}
]}

8.3.5、评测指标

测试数据只需要预测**"attr"**的部分,本评测采用Macro-F1作为评估指标。

8.4、【实体关系抽取】CMedCausal 医疗因果实体关系抽取数据集

注:数据下载需提前申请,虽然CBLUE包含CMedCausal,且最后更新时间为2023-05-05。但依然推荐使用2022-10-10最后更新,CHIP2022医疗因果实体关系抽取学术评测任务发布的数据集。因为数据更全,相比于CBLUE中,多了包含1000条数据的testB数据集。

8.4.1、数据汇总

评测共提供2,000段语料作为训练语料,包含1000段标注语料和1000段同批次的未标注语料,选手可以充分探索生语料来辅助训练。比赛分为A、B两阶段,A、B榜单各提供1000段对话用来做测试数据,其中B榜提交时间会限制在48H内。

数据下载: https://tianchi.aliyun.com/dataset/129573 中数据列表区域

数据文件 数据量 文件说明
train_0717.json 1000 标注训练集
unlabel.json 1000 可充分利用未标注数据来辅助训练
testA.json 1000 测试集
testB.json 1000 测试集
example_code.py - 读取/写入json示例代码

8.4.2、任务描述

<u>任务背景:</u>

现代医疗很强调解释性,医生在诊断,治疗和评估上,都要求从患者为中心出发,突出医疗的因果关系。因此互联网上存在大量的医疗的问答和知识类的文本中存在大量的因果关系解释,在帮助患者的同时,对于医疗搜索和诊断业务来说也具有巨大的价值,从中可以挖掘抽取医疗因果关系构建因果关系解释网络,构建医疗因果知识图谱,提升对医疗结果的逻辑性和可解释性的判断能力。继在CHIP2021大会发布“医疗对话临床发现阴阳性判别任务”后,阿里巴巴夸克医疗团队今年发布了“医疗因果关系抽取任务”。

<u>任务定义:</u>

因果关系细化的标注,是需要在存在因果关系的片段基础上,需要进行医学概念的片段标注以及医学概念片段之间的关系角色进行标注。医学片段可以认为是临床发现,我们限定了以临床发现和疾病为中心的内容,疾病的临床发现也包括实验室检验结果以及检查结果,在本次任务都定义为因果关系,医药以及治疗相关的内容不在本次标注范围内,但是如果是药物引起的不良反应,那么需要标注,因为不良反应属于临床发现。具体来说,细分的医学概念片段分为如下3种类型: 1、因果关系: 因果关系是指某种原因直接导致某种结果。 例子:人体的胃肠道功能紊乱,导致患者吸收能力变差。 解释:胃肠道功能紊乱吸收能力变差的一个直接原因,吸收能力变差胃肠功能紊乱的直接结果。 2、条件关系: 条件关系是指医学概念片段中一些特定的条件,用于修饰特定的因果关系,注意:条件并不能直接导致某个结果的发生。 例子1:对阿莫西林过敏的患者不可以使用,服用阿莫西林可能会引起皮疹药物热哮喘等过敏反应,因此使用前一定要做青霉素皮试试验。 解释:其中,“对阿莫西林过敏”是服用阿莫西林导致皮疹的条件。 例子2:如果已经怀孕,出现小腹疼痛或者阴道出血,可以视为先兆流产; 解释:在怀孕的前提/条件下,如果出现了小腹疼痛或者阴道出血,一般是先兆流产导致的;也就是在某种特定的条件下,所修饰的因果关系才能产生。 3、上下位关系: 上下位关系指的是概念之间的大小关系。 例子:阿尔茨海默症是一种精神类疾病,生活中比较常见。 解释:阿尔茨海默症精神类疾病的一种,因此与精神类疾病构成了上下位关系。

8.4.3、标注准则

  1. 标注的实体尽可能的完整包含有用的信息比如症状的程度,频率等,无关信息不在标注范围,如:“不及时治疗在局部可能会引起疼痛”中会标注出“局部可能会引起疼痛”,仅标注“疼痛”会存在信息丢失;如果涉及人群用来区分疾病特点的,需要把人群也标注上,如“宝宝咳嗽”。
  2. 疾病和临床之间的表现关系,本次标注任务归为因果关系;例如“感冒常见症状是咳嗽”中,“感冒”和“咳嗽”之间是因果关系;
  3. 针对多个实体连在一起的长mention,本任务按照如下规则进行标注:如果每个实体具备独立意义则分开标注,如:“过量饮酒、使用激素、劳累等引起的股骨头缺血性病变”中标注(“过量饮酒”,“股骨头缺血性病变”),(“使用激素”,“股骨头缺血性病变”)和(“劳累”,“股骨头缺血性病变”)3对因果关系;如果是非连续(dis-continued)实体,本任务合并标注为长mention,如:“食用奶酪、巧克力、可乐会导致过度肥胖”中标注(“食用奶酪、巧克力、可乐”,“过度肥胖”)1对因果关系。
  4. 本任务只标注一度关系,不标注推导关系,如“A导致B,B又导致C”,则本任务只标注(A,B)和(B,C)两对因果关系,(A,C)不标注;同样的,对于上下位或者别名的情况,仅标注最直观的实体,如“A,又称为B,会导致C”,只标注(A,C)即可。
  5. 本任务基于段落标注,因此会存在跨句子的关系标注。
  6. 部分记录为常识性描述,可能不存在本任务定义的3类关系。

8.4.4、数据示例

以json格式提供,包括如下字段:

  • text:段落文本。
  • relation_of_mention:关系三元组列表,列表每个元素为一个关系三元组,由"head", "relation"和"tail"3个字段组成。
    • "relation"包括三种关系,数字1,2,3分别代表“因果”,“条件”和“上下位”关系。注意关系是有顺序的:因果关系,head和tail分别是原因和结果;条件关系,head和tail分别代表条件和所修饰的因果关系;上下位关系,head和tail分别表示上位词和下位词。
    • "head"包括"mention", "start_idx"和"end_idx"三个字段,分别表示实体片段,文本起始、结束下标,span下标采用左闭右开表示法。
    • "tail"包括"type"和其他字段,"type"字段主要用于区分条件关系和另外两种关系。当"relation"是因果关系或者上下位关系时,type为"mention",尾实体也是一个实体,同头实体,包括"mention","start_idx"和"end_idx"三个字段;当"relation"为条件关系时,type的值为"relation",尾实体是头实体所修饰的因果关系,同因果关系的定义,包括"head", "relation"和"tail"3个字段。

train_0717.json

[
  {
    "text": "40岁是女人卵巢功能开始衰退的时间段,如果月经量开始慢慢减少有可能是卵巢功能衰退,但是不能除外是40岁之前做人工流产,或者宫腔操作后导致内膜变薄、粘连造成月经量少。此时要到医院检查女性激素,如果女性激素非常好说明还没有到围绝经状态,月经量少有可能是宫腔粘连造成的。这时要做b超检查,必要时需要做手术,也叫宫腔镜检查,将粘连分开后在医生指导下给予一定的激素治疗,或者加用中草药、中成药来治疗。",
    "relation_of_mention": [
      {
      	"head": {"mention": "宫腔操作后导致内膜变薄、粘连", "start_idx": 61, "end_idx": 75},
        "relation": 1,
        "tail": {"type": "mention", "mention": "月经量少", "start_idx": 77, "end_idx": 81}
      },
      {
      	"head": {"mention": "40岁之前做人工流产", "start_idx": 48, "end_idx": 58},
        "relation": 1,
        "tail": {"type": "mention", "mention": "月经量少", "start_idx": 77, "end_idx": 81}
      },
      {
      	"head": {"mention": "女性激素非常好", "start_idx": 97, "end_idx": 104},
        "relation": 2,
        "tail": {"type": "relation", 
        	"head": {"mention": "宫腔粘连", "start_idx": 124, "end_idx": 128},
          "relation": 1,
          "tail": {"mention": "月经量少", "start_idx": 116, "end_idx": 120}
        }
      },
      {
      	"head": {"mention": "卵巢功能衰退", "start_idx": 34, "end_idx": 40},
        "relation": 1,
        "tail": {"type": "mention", "mention": "月经量开始慢慢减少", "start_idx": 21, "end_idx": 30}
      }
    ]
  },
  ...
 ]

unlabel.json

[
    {"text": "脑疝是神经外科的急重症脑疝,分为两种,一个是枕骨大孔疝,一个是小脑幕切迹疝,这两者的临床表现是不一样的。枕骨大孔疝一般早期不会出现意识丧失,首先出现的是脑干功能受限的表现,会出现突发的呼吸心跳停止,随后可以出现瞳孔散大和意识丧失。小脑幕切迹疝的主要表现是出现一侧瞳孔散大以及意识丧失,另外可以因为脑组织和脑干受压,导致对侧肢体偏瘫,也可以出现颅内压增高表现,引起反复的呕吐和恶心。如果早期无法及时纠正,可以导致双侧瞳孔散大,并且出现生命体征改变,比如心率减慢或者心率增快、呼吸急促,甚至呼吸暂停。"},
    ...
]

testA.json、testB.json

[
  {
    "text": "青光眼现在是全球双眼可以导致不可逆失明的重要眼病,青光眼分原发性、继发性,但绝大多数都是原发性青光眼。一般情况下,原发性青光眼包括原发性开角型青光眼、原发性闭角型青光眼两大类,先天性青光眼也属于这一大类里。诊断上病人可能有些症状,另外医生要通过测眼压、查视力、看眼底、做视野等等相关检查,才能最终确诊是否患有青光眼。比较可怕的是原发性开角型青光眼和闭角型青光眼里的慢性进展的类型,因为这两类青光眼,病人可以没有任何症状,病人的视力慢慢下降,一直到失明,称为无声的窃贼,等病人发现视力看不见,到医院检查已经晚了;还有些原发性急性闭角型青光眼,就像强盗抢东西一样,把视力一下抢走,眼压很高。总体而言,诊断青光眼一定要到专科医院,到专科医生处进行全面检查。",
    "relation_of_mention": []
  },
  ...
]

8.4.5、评测指标

本评测采用Macro-F1作为评估指标。

注意:只有 (头实体mention, 关系类型, 尾实体mention) 都预测正确,才算作一条正确预测的记录。特别的对条件关系来讲,只有当(条件mention, 条件关系, (原因mention, 因果关系, 结果mention))都预测正确,才算作预测正确。

9、【知识图谱】QABasedOnMedicaKnowledgeGraph

知识图谱

9.1、数据集汇总

9.1.1、知识图谱实体

名称 中文含义 实体数量 举例 数据下载
Check 诊断检查项目 3,353 支气管造影;关节镜检查 https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph/blob/master/dict/check.txt
Department 医疗科目 54 整形美容科;烧伤科 https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph/blob/master/dict/department.txt
Disease 疾病 8,807 血栓闭塞性脉管炎;胸降主动脉动脉瘤 https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph/blob/master/dict/disease.txt
Drug 药品 3,828 京万红痔疮膏;布林佐胺滴眼液 https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph/blob/master/dict/drug.txt
Food 食物 4,870 番茄冲菜牛肉丸汤;竹笋炖羊肉 https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph/blob/master/dict/food.txt
Producer 在售药品 17,201 通药制药青霉素V钾片;青阳醋酸地塞米松片 https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph/blob/master/dict/producer.txt
Symptom 疾病症状 5,998 乳腺组织肥厚;脑实质深部出血 https://github.com/baiyang2464/chatbot-base-on-Knowledge-Graph/blob/master/dict/symptom.txt
Total 总计 44,111 约4.4万实体量级

9.1.2、知识图谱实体关系

名称 数据量 数据下载
medical 8808 medical.json

9.2、数据示例

9.2.1、实体数据示例

# check.txt
疟原虫抗体和抗原
人类免疫缺陷病毒抗体
中性杆状核粒细胞
血清磷脂酶A2
遗传筛查
平均红细胞血红蛋白含量(MCH)

9.2.2、实体关系数据示例

{ 
    "_id" : { "$oid" : "5bb57901831b973a137e614d" }, 
    "name" : "病毒性肠炎", 
    "desc" : "病毒性肠炎(viralgastroenteritis)又称病毒性腹泻,是一组由多种病毒引起的急性肠道传染病。临床特点为起病急、恶心、呕吐、腹痛、腹泻,排水样便或稀便,也可有发热及全身不适等症状,病程短,病死率低。各种病毒所致胃肠炎的临床表现基本类似。与急性胃肠炎有关的病毒种类较多,其中较为重要的、研究较多的是轮状病毒和诺沃克类病毒。此外,嵌杯样病毒、肠腺病毒、星状病毒、柯萨奇病毒、冠状病毒等亦可引起胃肠炎。本病无特效疗法,以对症治疗为主。暂停乳类及双糖类食物。吐泻较重时用止吐剂及镇静剂。口服或静脉补液以纠正和电解质紊乱。", 
    "category" : [ "疾病百科", "内科", "消化内科" ], 
    "prevent" : "及早发现和隔离病人,对病人粪便应消毒处理,重视水源及食物卫生,餐具中进行消毒,婴儿室应有严格的消毒隔离制度。", 
    "cause" : "传播途径主要通过人传人,粪—口或口—口传播,亦可能通过水源污染或呼吸道传播。成人轮状病毒胃肠炎(流行性腹泻)常呈水型暴发流行,也可通过生活接触传播。\n易感人群普通轮状病毒主要侵犯婴幼儿,以9~12月龄发病率最高,6月龄以下少见,但近来人工喂养新生儿发病也较多,成人感染后多无症状或呈轻症表现。成人腹泻轮状病毒则人群普遍易感,但主要在青壮年中造成流行。\n发病有明显的季节性,发病高峰在秋冬寒冷季节(12月~2月),但热带地区季节性不明显。轮状病毒成人腹泻可在一年四季发生,但流行和暴发在我国多发生于4~7月。\n发病机理\n病毒主要侵犯小肠绒毛上皮细胞,使上皮细胞脱落,代之以缺乏消化酶的鳞形或方形上皮细胞。因此正常肠粘膜上存在的绒毛酶如麦芽糖酶、蔗糖酶、乳糖酶均减少,导致吸收功能障碍。由于乳糖及其它双糖不能被消化吸收而滞留在肠内,造成肠粘膜与肠腔渗透压的改变,使液体进入肠腔而造成渗透性腹泻。\n病变部位主要位于十二指肠及空肠,上皮细胞可变为方形或不整形,但多数肠粘膜细胞尚正常。肠绒毛上皮细胞内空泡变性,内质网中有多量轮状病毒颗粒。", 
    "symptom" : [ "恶心与呕吐", "驻站医", "发烧", "腹泻", "腹痛", "慢性腹痛" ], 
    "yibao_status" : "", 
    "get_prob" : "0.001%", 
    "easy_get" : "无特定人群", 
    "get_way" : "无传染性", 
    "acompany" : [ "缺铁性贫血" ], 
    "cure_department" : [ "内科", "消化内科" ], 
    "cure_way" : [ "药物治疗", "康复治疗" ], 
    "cure_lasttime" : "7-14天", 
    "cured_prob" : "85%-95%", 
    "common_drug" : [ "盐酸左氧氟沙星胶囊", "依托红霉素片" ], 
    "cost_money" : "根据不同医院,收费标准不一致,市三甲医院约(1000——5000元)", 
    "check" : [ "便常规", "纤维肠镜", "小肠镜检查", "红细胞计数(RBC)", "细菌学检验", "粪酸碱度", "血常规", "粪细菌培养", "血小板计数(PLT)" ], 
    "do_eat" : [ "鸭蛋", "鸡蛋", "鸡肉", "芝麻" ], 
    "not_eat" : [ "杏仁", "腐竹", "白扁豆", "沙丁鱼" ], 
    "recommand_eat" : [ "冬瓜粒杂锦汤", "土豆肉末粥", "丁香酸梅汤" ], 
    "recommand_drug" : [ "司帕沙星片", "清泻丸", "复方黄连素片", "枯草杆菌二联活菌肠溶胶囊", "盐酸左氧氟沙星胶囊", "司帕沙星分散片", "止痢宁片", "复方红根草片", "炎宁颗粒", "呋喃唑酮片", "解毒止泻胶囊", "雪胆素胶囊", "金菊五花茶颗粒", "左氧氟沙星片", "复方谷氨酰胺肠溶胶囊", "乳酸菌素片", "乳酸左氧氟沙星片", "SP", "依托红霉素片", "苦木注射液", "氧氟沙星片" ], 
    "drug_detail" : [ "联邦左福康盐酸左氧氟沙星胶(盐酸左氧氟沙星胶囊)", "广东华南依托红霉素片(依托红霉素片)", "桂林三金复方红根草片(复方红根草片)", "佳乐弗乳酸左氧氟沙星片(乳酸左氧氟沙星片)", "沙溪金菊五花茶颗粒(金菊五花茶颗粒)", "朗瑞(司帕沙星分散片)", "安徽新世纪盐酸左氧氟沙星胶(盐酸左氧氟沙星胶囊)", "云鹏呋喃唑酮片(呋喃唑酮片)", "巴沙(司帕沙星片)", "焱雪雪胆素胶囊(雪胆素胶囊)", "中一清泻丸(清泻丸)", "哈高科白天鹅乳酸菌素片(乳酸菌素片)", "广州一品红复方黄连素片(复方黄连素片)", "谷参复方谷氨酰胺肠溶胶囊(复方谷氨酰胺肠溶胶囊)", "美常安(枯草杆菌二联活菌肠溶胶囊)", "百普力(肠内营养混悬液(SP))", "可乐必妥(左氧氟沙星片)", "贵州家诚解毒止泻胶囊(解毒止泻胶囊)", "四川大冢盐酸左氧氟沙星胶囊(盐酸左氧氟沙星胶囊)", "万年青苦木注射液(苦木注射液)", "惠州九惠炎宁颗粒(炎宁颗粒)", "浙江得恩德氧氟沙星片(氧氟沙星片)", "吉林跨海生化止痢宁片(止痢宁片)" ] 
}

知识图谱属性类型

属性类型 中文含义 举例
name 疾病名称 喘息样支气管炎
desc 疾病简介 又称哮喘性支气管炎...
cause 疾病病因 常见的有合胞病毒等...
prevent 预防措施 注意家族与患儿自身过敏史...
cure_lasttime 治疗周期 6-12个月
cure_way 治疗方式 "药物治疗","支持性治疗"
cured_prob 治愈概率 95%
easy_get 疾病易感人群 无特定的人群

实体关系文件中,实体关系的统计分析:

实体关系类型 中文含义 关系数量 举例
belongs_to 属于 8,844 <妇科,属于,妇产科>
common_drug 疾病常用药品 14,649 <阳强,常用,甲磺酸酚妥拉明分散片>
do_eat 疾病宜吃食物 22,238 <胸椎骨折,宜吃,黑鱼>
drugs_of 药品在售药品 17,315 <青霉素V钾片,在售,通药制药青霉素V钾片>
need_check 疾病所需检查 39,422 <单侧肺气肿,所需检查,支气管造影>
no_eat 疾病忌吃食物 22,247 <唇病,忌吃,杏仁>
recommand_drug 疾病推荐药品 59,467 <混合痔,推荐用药,京万红痔疮膏>
recommand_eat 疾病推荐食谱 40,221 <鞘膜积液,推荐食谱,番茄冲菜牛肉丸汤>
has_symptom 疾病症状 5,998 <早期乳腺癌,疾病症状,乳腺组织肥厚>
acompany_with 疾病并发疾病 12,029 <下肢交通静脉瓣膜关闭不全,并发疾病,血栓闭塞性脉管炎>
Total 总计 294,149 约30万关系量级

10、【知识图谱】QASystemOnMedicalGraph

知识图谱

10.1、数据集汇总

10.1.1、知识图谱实体

名称 中文含义 实体数量 举例 数据下载
Disease 疾病 14336 乙肝,癫痫 https://github.com/zhihao-chen/QASystemOnMedicalGraph/blob/master/data/disease_vocab.txt
Alias 别名 8877 小儿褐黄病综合征,广疮 https://github.com/zhihao-chen/QASystemOnMedicalGraph/blob/master/data/alias_vocab.txt
Symptom 症状 5622 手足烦热,四肢麻木 https://github.com/zhihao-chen/QASystemOnMedicalGraph/blob/master/data/symptom_vocab.txt
Part 发病部位 82 手部,上肢 -
Department 所属科室 82 感染科,外科 -
Complication 并发症 3201 落枕,流感 https://github.com/zhihao-chen/QASystemOnMedicalGraph/blob/master/data/complications_vocab.txt
Drug 药品 4625 西黄胶囊,司帕沙星 -
Total 总计 36825

10.1.2、知识图谱实体关系

名称 数据量 数据下载
disease 14337 https://github.com/zhihao-chen/QASystemOnMedicalGraph/blob/master/data/disease.csv

10.2、数据示例

10.2.1、实体数据示例

# alias_vocab.txt
滑石粉致尘肺
成人皮硬化病
伤寒两感症
室性早搏
肾著

10.2.2、实体关系示例

name,alias,part,age,infection,insurance,department,checklist,symptom,complication,treatment,drug,period,rate,money,,,,,
阳痿,"勃起功能障碍,勃起机能障碍,勃起无力,阳萎,勃起不足",阴茎,成年男性,无传染性,非医保疾病,男科 生殖健康,外生殖器检查 前列腺B超 阴茎超声检查 泌乳素分泌抑制试验 泌乳素兴奋试验 [详细],心理性性功能障碍 男子性功能障碍 雄激素过少 精冷不育 脉涩或结 [详细],,药物治疗、心理治疗 [详细],枸橼酸西地那非... 枸橼酸西地那非... 他达拉非片 [详细],1-2个月,85%(一般经过有效治疗后可以缓解症状),,,,,,
乙肝,乙型肝炎,肝,所有人群,主要见于青少年,绝大多数为10~30岁,有传染性,非医保疾病,传染科 肝病,乙肝病毒学指标 凝血酶原时间 乙肝两对半 血清白蛋白与球蛋白比值 血清HBsAg免疫复合物 血清前S1蛋白 血清前S2蛋白 血清抗前S2蛋白 血清免疫球蛋白M 血清乙肝表面抗体 [详细],转氨酶增高 肝肿大 乙肝表面抗原(HBsAg)阳性 乙肝e抗原(HBeAg)阳性 肝功能异常 [详细],肝性脑病 肝硬化 腹膜炎 消化道出血 肺炎 [详细],药物治疗、饮食疗法 [详细],恩替卡韦分散片 碧云砂乙肝颗粒 注射用盐酸精氨... [详细],3-6月,0.00%,市三甲医院约(3000 —— 8000元);,,,,,

知识图谱属性类型

疾病属性 中文含义 举例
age 发病人群 老人,小孩
insurance 是否医保 医保
infection 是否传染 有传染性
checklist 检查项目 肝功能检查
treatment 治疗方法 药物治疗、心理治疗
period 治愈周期 一周
rate 治愈率 0.1%
money 费用 1000-2000元

实体关系文件中,实体关系的统计分析:

实体关系类型 中文含义 关系数量 举例
ALIAS_IS 别名是 52578 癫痫 别名是 羊角风
HAS_SYMPTOM 症状有 62105 乙肝 症状有 肝功能异常
PART_IS 发病部位是 26660 乙肝 发病部位是 肝
DEPARTMENT_IS 所属科室是 33867 乙肝 所属科室是 传染科
HAS_COMPLICATION 并发症有 25183 乙肝 并发症有 肝硬化
HAS_DRUG 可用药品 35914 乙肝 可用药品 恩替卡韦分散片
TOTAL 总计 210018 约210018对关系

11、【医学书籍】medical-books 中文LaTex开源医学书籍

名称 数据下载
ICU主治医师手册 《ICU主治医师手册》
X线读片指南 《X线读片指南》
临床心电图详解与诊断 《临床心电图详解与诊断》
CT诊断学 《CT诊断学》
急诊内科学 《急诊内科学》
内科疾病鉴别诊断学 《内科疾病鉴别诊断学》
腹部影像解剖图谱 《腹部影像解剖图谱》
免疫学 《免疫学》
病理学 《病理学》
临床药物治疗学 《临床药物治疗学》
精神病学 《精神病学》

12、【相似问句】新冠疫情相似问句判定数据集

来自天池新冠疫情相似句对判定大赛

医疗问题涉及“肺炎”、“支原体肺炎”、“支气管炎”、“上呼吸道感染”、“肺结核”、“哮喘”、“胸膜炎”、“肺气肿”、“感冒”、“咳血”等10个病种。

12.1、数据集汇总

名称 数据量 数据下载
新冠疫情相似问句判定数据集 test:7031 https://tianchi.aliyun.com/dataset/76751

12.2、数据示例

id,category,query1,query2,label
0,肺炎,红霉素肠溶胶囊肺炎吃几次,红霉素肠溶胶囊肺炎每日吃几次,-1
1,肺结核,请问肺结核的复发几率有多大?,肺结核病有什么特殊治疗方法?,-1

每一条数据由Id, Category,Query1,Query2,Label构成,分别表示问题编号、类别、问句1、问句2、标签。Label表示问句之间的语义是否相同,若相同,标为1,若不相同,标为0。其中,训练集、验证集Label已知,测试集Label未知。

13、【实体识别】TCM-NER-中药说明书实体识别数据集

来自天池中医药实体识别大赛

13.1、数据集汇总

名称 数据量 数据下载
中药说明书实体识别数据集TCM-NER 1996 https://tianchi.aliyun.com/dataset/86819

13.2、数据示例

  {
    "annotations": [
      {
        "label": "药品",
        "start_offset": 9,
        "end_offset": 14,
        "entity": "乌鸡白凤丸"
      },
      {
        "label": "药品",
        "start_offset": 22,
        "end_offset": 27,
        "entity": "乌鸡白凤丸"
      },
      {
        "label": "药物成分",
        "start_offset": 54,
        "end_offset": 56,
        "entity": "乌鸡"
      },
      {
        "label": "药物成分",
        "start_offset": 57,
        "end_offset": 60,
        "entity": "鹿角胶"
      },
      {
        "label": "药物成分",
        "start_offset": 61,
        "end_offset": 63,
        "entity": "鳖甲"
      },
      {
        "label": "药物成分",
        "start_offset": 64,
        "end_offset": 66,
        "entity": "牡蛎"
      },
      {
        "label": "药物成分",
        "start_offset": 67,
        "end_offset": 70,
        "entity": "桑螵蛸"
      },
      {
        "label": "药物成分",
        "start_offset": 71,
        "end_offset": 73,
        "entity": "人参"
      },
      {
        "label": "药物成分",
        "start_offset": 74,
        "end_offset": 76,
        "entity": "黄芪"
      },
      {
        "label": "药物成分",
        "start_offset": 77,
        "end_offset": 79,
        "entity": "当归"
      },
      {
        "label": "药物成分",
        "start_offset": 80,
        "end_offset": 82,
        "entity": "白芍"
      },
      {
        "label": "药物成分",
        "start_offset": 83,
        "end_offset": 85,
        "entity": "香附"
      },
      {
        "label": "药物成分",
        "start_offset": 86,
        "end_offset": 88,
        "entity": "天冬"
      },
      {
        "label": "药物成分",
        "start_offset": 89,
        "end_offset": 91,
        "entity": "甘草"
      },
      {
        "label": "药物成分",
        "start_offset": 92,
        "end_offset": 94,
        "entity": "地黄"
      },
      {
        "label": "药物成分",
        "start_offset": 95,
        "end_offset": 98,
        "entity": "熟地黄"
      },
      {
        "label": "药物成分",
        "start_offset": 99,
        "end_offset": 101,
        "entity": "川芎"
      },
      {
        "label": "药物成分",
        "start_offset": 102,
        "end_offset": 105,
        "entity": "银柴胡"
      },
      {
        "label": "药物成分",
        "start_offset": 106,
        "end_offset": 108,
        "entity": "丹参"
      },
      {
        "label": "药物成分",
        "start_offset": 109,
        "end_offset": 111,
        "entity": "山药"
      },
      {
        "label": "药物成分",
        "start_offset": 112,
        "end_offset": 114,
        "entity": "芡实"
      },
      {
        "label": "药物成分",
        "start_offset": 115,
        "end_offset": 118,
        "entity": "鹿角霜"
      },
      {
        "label": "药物成分",
        "start_offset": 122,
        "end_offset": 124,
        "entity": "蜂蜜"
      },
      {
        "label": "药物剂型",
        "start_offset": 138,
        "end_offset": 141,
        "entity": "小蜜丸"
      },
      {
        "label": "药物性味",
        "start_offset": 142,
        "end_offset": 144,
        "entity": "味甜"
      },
      {
        "label": "药物性味",
        "start_offset": 145,
        "end_offset": 147,
        "entity": "微苦"
      },
      {
        "label": "中药功效",
        "start_offset": 166,
        "end_offset": 170,
        "entity": "补气养血"
      },
      {
        "label": "中药功效",
        "start_offset": 171,
        "end_offset": 175,
        "entity": "调经止带"
      },
      {
        "label": "症状",
        "start_offset": 178,
        "end_offset": 182,
        "entity": "月经不调"
      },
      {
        "label": "症状",
        "start_offset": 183,
        "end_offset": 187,
        "entity": "经期腹痛"
      },
      {
        "label": "人群",
        "start_offset": 229,
        "end_offset": 231,
        "entity": "孕妇"
      },
      {
        "label": "药物成分",
        "start_offset": 292,
        "end_offset": 294,
        "entity": "人参"
      },
      {
        "label": "药物成分",
        "start_offset": 295,
        "end_offset": 297,
        "entity": "白芍"
      },
      {
        "label": "药物成分",
        "start_offset": 299,
        "end_offset": 301,
        "entity": "藜芦"
      },
      {
        "label": "药物成分",
        "start_offset": 305,
        "end_offset": 307,
        "entity": "藜芦"
      },
      {
        "label": "药物成分",
        "start_offset": 319,
        "end_offset": 321,
        "entity": "甘草"
      },
      {
        "label": "药物成分",
        "start_offset": 323,
        "end_offset": 325,
        "entity": "甘遂"
      },
      {
        "label": "药物成分",
        "start_offset": 326,
        "end_offset": 328,
        "entity": "大戟"
      },
      {
        "label": "药物成分",
        "start_offset": 329,
        "end_offset": 331,
        "entity": "海藻"
      },
      {
        "label": "药物成分",
        "start_offset": 332,
        "end_offset": 334,
        "entity": "芫花"
      },
      {
        "label": "药物成分",
        "start_offset": 338,
        "end_offset": 340,
        "entity": "甘遂"
      },
      {
        "label": "药物成分",
        "start_offset": 341,
        "end_offset": 343,
        "entity": "大戟"
      },
      {
        "label": "药物成分",
        "start_offset": 344,
        "end_offset": 346,
        "entity": "海藻"
      },
      {
        "label": "药物成分",
        "start_offset": 347,
        "end_offset": 349,
        "entity": "芫花"
      },
      {
        "label": "食物分组",
        "start_offset": 362,
        "end_offset": 364,
        "entity": "生冷"
      },
      {
        "label": "食物分组",
        "start_offset": 365,
        "end_offset": 367,
        "entity": "辛辣"
      },
      {
        "label": "食物分组",
        "start_offset": 368,
        "end_offset": 370,
        "entity": "荤腥"
      },
      {
        "label": "食物分组",
        "start_offset": 370,
        "end_offset": 372,
        "entity": "油腻"
      },
      {
        "label": "食物分组",
        "start_offset": 373,
        "end_offset": 377,
        "entity": "不易消化"
      },
      {
        "label": "食物",
        "start_offset": 408,
        "end_offset": 410,
        "entity": "萝卜"
      },
      {
        "label": "药品",
        "start_offset": 440,
        "end_offset": 445,
        "entity": "乌鸡白凤丸"
      },
      {
        "label": "药物成分",
        "start_offset": 445,
        "end_offset": 448,
        "entity": "五灵脂"
      },
      {
        "label": "药物成分",
        "start_offset": 449,
        "end_offset": 451,
        "entity": "皂荚"
      },
      {
        "label": "中药功效",
        "start_offset": 501,
        "end_offset": 503,
        "entity": "造血"
      },
      {
        "label": "中药功效",
        "start_offset": 504,
        "end_offset": 506,
        "entity": "止血"
      },
      {
        "label": "中药功效",
        "start_offset": 614,
        "end_offset": 616,
        "entity": "保肝"
      },
      {
        "label": "中药功效",
        "start_offset": 686,
        "end_offset": 690,
        "entity": "增强免疫"
      },
      {
        "label": "药物剂型",
        "start_offset": 901,
        "end_offset": 904,
        "entity": "小蜜丸"
      },
      {
        "label": "药物成分",
        "start_offset": 977,
        "end_offset": 979,
        "entity": "藜芦"
      },
      {
        "label": "药物成分",
        "start_offset": 980,
        "end_offset": 983,
        "entity": "五灵脂"
      },
      {
        "label": "药物成分",
        "start_offset": 984,
        "end_offset": 986,
        "entity": "皂荚"
      },
      {
        "label": "食物",
        "start_offset": 986,
        "end_offset": 988,
        "entity": "萝卜"
      },
      {
        "label": "症状",
        "start_offset": 1071,
        "end_offset": 1075,
        "entity": "月经量少"
      },
      {
        "label": "症状",
        "start_offset": 1077,
        "end_offset": 1081,
        "entity": "月经错后"
      },
      {
        "label": "症状",
        "start_offset": 1083,
        "end_offset": 1090,
        "entity": "阴道不规则出血"
      },
      {
        "label": "人群",
        "start_offset": 1158,
        "end_offset": 1163,
        "entity": "过敏体质者"
      },
      {
        "label": "中药功效",
        "start_offset": 1215,
        "end_offset": 1219,
        "entity": "补气养血"
      },
      {
        "label": "中药功效",
        "start_offset": 1220,
        "end_offset": 1224,
        "entity": "调经止带"
      },
      {
        "label": "症状",
        "start_offset": 1227,
        "end_offset": 1231,
        "entity": "心慌气短"
      },
      {
        "label": "症状",
        "start_offset": 1232,
        "end_offset": 1236,
        "entity": "疲乏无力"
      },
      {
        "label": "症状",
        "start_offset": 1237,
        "end_offset": 1241,
        "entity": "月经不调"
      },
      {
        "label": "症状",
        "start_offset": 1242,
        "end_offset": 1246,
        "entity": "腰腿酸软"
      },
      {
        "label": "症状",
        "start_offset": 1247,
        "end_offset": 1251,
        "entity": "白带量多"
      },
      {
        "label": "人群",
        "start_offset": 1251,
        "end_offset": 1253,
        "entity": "儿童"
      },
      {
        "label": "食物分组",
        "start_offset": 1253,
        "end_offset": 1255,
        "entity": "寒凉"
      },
      {
        "label": "食物分组",
        "start_offset": 1256,
        "end_offset": 1258,
        "entity": "生冷"
      },
      {
        "label": "疾病",
        "start_offset": 1302,
        "end_offset": 1304,
        "entity": "感冒"
      },
      {
        "label": "症状",
        "start_offset": 1317,
        "end_offset": 1321,
        "entity": "月经过多"
      }
    ],
    "id": 0,
    "text": "【药品商品名称】 乌鸡白凤丸 【药品名称】 乌鸡白凤丸 【批准文号】 国药准字Z13022373 【成分】 乌鸡、鹿角胶、鳖甲、牡蛎、桑螵蛸、人参、黄芪、当归、白芍、香附、天冬、甘草、地黄、熟地黄、川芎、银柴胡、丹参、山药、芡实、鹿角霜;辅料为蜂蜜。 【剂型】 黑褐色至黑色的小蜜丸;味甜,微苦。 【规格】 9g*10袋 【功效】 补气养血、调经止带,用于月经不调、经期腹痛 【用法用量】 口服,一次9克,一日2次。 【不良反应】 尚不明确。 【注意事项】 孕妇忌服。 【相互作用】 如果服用任何其他药品请告知医师或药师,包括任何从药房、超市或保健品商店购买的非处方药品。 本药内所含人参、白芍,反藜芦,忌与含藜芦的药物同用。 本药内所含甘草,反甘遂、大戟、海藻、芫花,忌与含甘遂、大戟、海藻、芫花的药物同用。服药期间避免与生冷、辛辣、荤腥油腻、不易消化食品同用,戒烟酒,以防助湿化热,加重病情。服药期间不宜喝茶和吃萝卜,不宜同时服用五灵脂、皂荚或其制剂。医师和药师可能对服用同仁乌鸡白凤丸五灵脂、皂荚或其制剂。医师和药师可能对服用同仁乌鸡白凤丸(口服液)应注意事项具有更多的信息。 【疗效】 具有促进造血和止血作用。本品能促进环磷酰胺所致白细胞总数下降的恢复,提高失血小鼠的血红蛋白含量,缩短小鼠出血时间和血浆复钙时间。 具有雌激素样作用。本品可增加雌鼠子宫重量,增高大鼠子宫指数和雌二醇含量,动物出现动情期的比率增多。 具有保肝作用。本品可拮抗D-氨基半乳糖所致的急性肝损伤大鼠谷丙转氨酶和谷草转氨酶值的升高;增加四氯化碳所致慢性肝损害大鼠的总蛋白和白蛋白含量。 具有增强免疫作用。本品能提高正常小鼠对血中碳粒的清除速度和抗体形成细胞的量,促进B细胞受抗原刺激后的分裂增殖,增加幼鼠胸腺指数;增强小鼠腹腔巨噬细胞吞噬鸡红细胞的能力。 具有抗炎作用。本品能抑制巴豆油所致小鼠耳廓肿胀,抑制角叉菜胶所致的大鼠足肿胀及大鼠棉球肉芽肿的形成,也能抑制羧甲基纤维素所致腹腔渗出液中白细胞总数的增多。 【药品包装】 复合膜,9克/袋X10袋/盒 【制药公司】 北京御生堂集团石家庄制药有限公司 【剂型】 丸剂(小蜜丸) 【43】 非处方药物(甲类),国家基本药物目录(2012) 【注意事项】 1、忌食寒凉、生冷食物。 2、服药期间不宜喝茶和吃萝卜,不宜同时服用藜芦、五灵脂、皂荚萝卜,不宜同时服用藜芦、五灵脂、皂荚或其制剂。   3、感冒时不宜服用本药。   4、月经过多者不宜服用本药,带下量多气臭者应去医院就诊。   5、平素月经正常,突然出现月经量少,或月经错后,或阴道不规则出血应去医院就诊。   6、按照用法用量服用,长期服用应向医师咨询。   7、服药二周症状无改善,应去医院就诊。   8、对该品过敏者禁用,过敏体质者慎用。   9、该品性状发生改变时禁止使用。   10、请将该品放在儿童不能接触的地方。 【功能主治】 补气养血,调经止带。用于心慌气短,疲乏无力,月经不调,腰腿酸软,白带量多儿童寒凉、生冷食物。 2、服药期间不宜喝茶和吃萝卜,不宜同时服用藜芦、五灵脂、皂荚或其制剂。   3、感冒时不宜服用本药。   4、月经过多"
  }

数据格式说明:

[ 
  { 
    "id": 1, // int, 文档id 
    "text": "xxx", // string, 药品说明书原始内容 
    "annotations": [ // list, text内所有的实体标注 
      { 
        "entity": "新生化颗粒", // string, 实体内容 
        "label": "药品", // string, 实体类别  
        "start_offset": 12, // int, 实体在text中的起始下标位置 
        "end_offset": 17 // int, 实体在text中的结束下标位置, 注:采取左闭右开表示法 
       }, 
       { 
          "entity": "高血压", 
          "label": "疾病", 
          "start_offset": 29, 
          "end_offset": 32 
        }, 
        ... 
       ] 
     },
     { 
       "id": 2, 
       "text": "xxx", 
       "annotations": [ 
         { 
        "entity": "新生化颗粒", // string, 实体内容 
        "label": "药品", // string, 实体类别 
        "start_offset": 12, // int, 实体在text中的起始下标位置 
        "end_offset": 17 // int, 实体在text中的结束下标位置, 注:采取左闭右开表示法
          }, 
         { 
          "entity": "高血压", 
          "label": "疾病", 
          "start_offset": 29, 
          "end_offset": 32 
          }, 
          ... 
      ] 
   }, 
   ... 
]

数据总共对13类定义的实体进行标注。

  • 药品(DRUG):中药名称,指在中医理论指导下,用于预防、治疗、诊断疾病并具有康复与保健作用的物质。中药主要来源于天然药及其加工品,包括植物药、动物药、矿物药及部分化学、生物制品类药物。例子: 六味地黄丸、逍遥散
  • 药物成分(DRUG_INGREDIENT): 中药组成成分,指中药复方中所含有的所有与该复方临床应用目的密切相关的药理活性成分。例子:当归、人参、枸杞
  • 疾病(DISEASE): 疾病名称,指人体在一定原因的损害性作用下,因自稳调节紊乱而发生的异常生命活动过程,是特定的异常病理情形,而且会影响生物体的部分或是所有器官。通常解释为“身体病况”(medical condition),而且伴随着特定的症状及医学征象。例子:高血压、心绞痛、糖尿病
  • 症状(SYMPTOM): 指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。例子:头晕、心悸、小腹胀痛
  • 证候(SYNDROME): 中医学专用术语,概括为一系列有相互关联的症状总称,即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化,简称证或者候,是指不同症状和体征的综合表现,单一的症状和体征无法表现一个完整的证候。 例子:血瘀、气滞、气血不足、气血两虚
  • 疾病分组(DISEASE_GROUP): 疾病涉及有人体组织部位的疾病名称的统称概念,非某项具体医学疾病。例子:肾病、肝病、肺病
  • 食物(FOOD):指能够满足机体正常生理和生化能量需求,并能延续正常寿命的物质。对人体而言,能够满足人的正常生活活动需求并利于寿命延长的物质称之为食物。例子:苹果、茶、木耳、萝卜
  • 食物分组(FOOD_GROUP): 中医中饮食养生中,将食物分为寒热温凉四性,同时中医药禁忌中对于具有某类共同属性食物的统称,记为食物分组。例子:油腻食物、辛辣食物、凉性食物
  • 人群(PERSON_GROUP): 中医药的适用及禁忌范围内相关特定人群。例子:孕妇、经期妇女、儿童、青春期少女
  • 药品分组(DRUG_GROUP): 具有某一类共同属性的药品类统称概念,非某项具体药品名。例子:止咳药、退烧药
  • 药物剂型(DRUG_DOSAGE): 药物在供给临床使用前,均必须制成适合于医疗和预防应用的形式,成为药物剂型。例子:浓缩丸、水蜜丸、糖衣片
  • 药物性味(DRUG_TASTE): 药品的性质和气味。例子:味甘、酸涩、气凉
  • 中药功效(DRUG_EFFICACY): 药品的主治功能和效果的统称,例子:滋阴补肾、去瘀生新、活血化瘀

14、【问题生成】TCM-QG 中医文献问题生成数据集

来自天池中医药问题生成大赛

14.1、数据集汇总

中医文献问题生成数据集包含3500篇语料。每篇文档由人工标注产生1~4对(问题, 答案)对。

名称 数据量 数据下载
中医文献问题生成数据集TCM-QG 5881 https://tianchi.aliyun.com/dataset/86895

14.2、任务描述

疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。随着自然语言处理技术的不断发展,问题自动生成(Question Generation)作为一个重要的研究课题已经在很多实际应用场景中有落地,通过机器主动提问可以用来高效构建或者补充知识库,扩大数据集规模。问题生成技术已经应用到诸多实际应用场景中,如在医药领域,可以应用到自动问诊、辅助诊疗等场景。

本次标注数据源来自中医药领域文本,包括【黄帝内经翻译版】、【名医百科中医篇】、【中成药用药卷】、【慢性病养生保健科普知识】四个主要来源,每篇文档由人工标注产生1~4对(问题, 答案)对。

14.3、数据示例

问题类型包括实体类和描述类两大类(是非类问题包含在描述类中),其中问题均由人工标注产生,答案段落中的文本中的连续片段。

  {
    "id": 1240,
    "text": "\"胆石症的治疗应区别不同情况分别处理,无症状胆囊结石可不作治疗,但应定期观察并注意良好的饮食习惯。有症状的胆囊结石仍以胆囊切除术为较安全有效的疗法,此外,尚可采用体外震波碎石。胆管结石宜采用以手术为主的综合治疗。胆石症的家庭治疗可采用以下方法:\\n(1)一般治疗    预防和治疗肠道寄生虫病和肠道感染,以降低胆石症的发病率。胆绞痛发作期应禁食脂肪等食物,采用高碳水化合物流质饮食;缓解期应忌食富含胆固醇的食物如脑、肝、肾、蛋黄等。\\n(2)增进胆汁排泄    可选用50%硫酸镁10~15毫升,餐后口服,每日3次;胆盐每次口服0.5~1克,每日3次;去氢胆酸0.25克,每日3次,餐后服用。\\n(3)消除胆绞痛    轻者可卧床休息,右上腹热敷,用硝酸甘油酯0.6毫克,每3~4小时一次,含于舌下;或阿托品0.5毫克,每3~4小时肌肉注射一次。重者应住院治疗。\\n(4)排石疗法以中药治疗为主,若右上腹疼痛有间歇期,无明显发热及黄疸,苔薄白,脉弦,属气滞者,用生大黄6克、木香9克、枳壳9克、金钱草30克、川楝子9克、黄苓9克,水煎服。右上腹痛为持续性,且阵发性加剧,有明显发热及黄疸,舌红苔黄,",
    "annotations": [
      {
        "Q": "什么类型的胆囊结石可不作治疗?",
        "A": "无症状胆囊结"
      },
      {
        "Q": "胆石症的治疗应注意什么?",
        "A": "应区别不同情况分别处理"
      },
      {
        "Q": "胆管结石宜采用什么样的治疗方式?",
        "A": "以手术为主的综合治疗"
      }
    ]
  }

数据格式:

id: 段落id
text: 段落文本
annotations: 包含(问题、答案)对,共有
Q:问题
A:答案

15、【实体关系】DiaKG-中文糖尿病科研文献实体关系数据集

来自瑞金医院MMC人工智能辅助构建知识图谱大赛

15.1、数据集汇总

本数据集来源于41篇中文糖尿病领域专家共识,数据包括基础研究、临床研究、药物使用、临床病例、诊治方法等多个方面,时间跨度达到7年,涵盖了近年来糖尿病领域最广泛的研究内容和热点。数据集的标注者都具有医学背景,共标注了22,050个医学实体和6,890对实体关系。依托于该数据集,包括医生、科研人员、企业开发者就能开展用于临床诊断的知识库,知识图谱,辅助诊断等产品开发,进一步探索研究糖尿病的奥秘。

名称 数据量 数据下载
diakg.zip 41个json文件(包含41篇中文糖尿病领域专家共识,22,050个医学实体和6,890对实体关系) https://tianchi.aliyun.com/dataset/88836 中的 diakg.zip

数据下载界面总共三个文件:

  • diakg.zip #数据集
  • sample.json #数据集的第一条数据采样
  • annotation guidelines.pdf #数据标注说明

15.2、数据示例

{
  "doc_id": "1",
  "paragraphs": [
    {
      "paragraph_id": "0",
      "paragraph": "中国成人2型糖尿病胰岛素促泌剂应用的专家共识",
      "sentences": [
        {
          "sentence_id": "0",
          "sentence": "中国成人2型糖尿病胰岛素促泌剂应用的专家共识",
          "start_idx": 0,
          "end_idx": 22,
          "entities": [
            {
              "entity_id": "T0",
              "entity": "2型糖尿病",
              "entity_type": "Disease",
              "start_idx": 4,
              "end_idx": 9
            },
            {
              "entity_id": "T1",
              "entity": "2型",
              "entity_type": "Class",
              "start_idx": 4,
              "end_idx": 6
            },
            {
              "entity_id": "T2",
              "entity": "胰岛素促泌剂",
              "entity_type": "Drug",
              "start_idx": 9,
              "end_idx": 15
            }
          ],
          "relations": [
            {
              "relation_type": "Drug_Disease",
              "relation_id": "R0",
              "head_entity_id": "T2",
              "tail_entity_id": "T0"
            },
            {
              "relation_type": "Class_Disease",
              "relation_id": "R1",
              "head_entity_id": "T1",
              "tail_entity_id": "T0"
            }
          ]
        }
      ]
    },
 	···········
    {
      "paragraph_id": "59",
      "paragraph": "优化的降糖治疗不仅只针对胰岛素分泌缺陷,还应同时关注其他发病机制(如胰岛素抵抗、能量摄取等)。胰岛素促泌剂与其他作用机制互补的药物联用,可多方面干预糖尿病发病环节,使患者血糖得到长期、有效、平稳及安全的控制。",
      "sentences": [
        {
          "sentence_id": "0",
          "sentence": "优化的降糖治疗不仅只针对胰岛素分泌缺陷,还应同时关注其他发病机制(如胰岛素抵抗、能量摄取等)。胰岛素促泌剂与其他作用机制互补的药物联用,可多方面干预糖尿病发病环节,使患者血糖得到长期、有效、平稳及安全的控制。",
          "start_idx": 0,
          "end_idx": 104,
          "entities": [
            {
              "entity_id": "T418",
              "entity": "胰岛素分泌缺陷",
              "entity_type": "Pathogenesis",
              "start_idx": 12,
              "end_idx": 19
            },
            {
              "entity_id": "T419",
              "entity": "胰岛素抵抗",
              "entity_type": "Pathogenesis",
              "start_idx": 34,
              "end_idx": 39
            },
            {
              "entity_id": "T420",
              "entity": "能量摄取",
              "entity_type": "Pathogenesis",
              "start_idx": 40,
              "end_idx": 44
            },
            {
              "entity_id": "T421",
              "entity": "胰岛素促泌剂",
              "entity_type": "Drug",
              "start_idx": 47,
              "end_idx": 53
            },
            {
              "entity_id": "T422",
              "entity": "糖尿病",
              "entity_type": "Disease",
              "start_idx": 74,
              "end_idx": 77
            },
            {
              "entity_id": "T423",
              "entity": "血糖",
              "entity_type": "Test_items",
              "start_idx": 85,
              "end_idx": 87
            }
          ],
          "relations": [
            {
              "relation_type": "Drug_Disease",
              "relation_id": "R171",
              "head_entity_id": "T421",
              "tail_entity_id": "T422"
            },
            {
              "relation_type": "Test_items_Disease",
              "relation_id": "R172",
              "head_entity_id": "T423",
              "tail_entity_id": "T422"
            }
          ]
        }
      ]
    }
  ]
}

数据标注说明:

  1. 实体标注

    1. 疾病(Disease)
    2. 病因(Reason)
    3. 发病机制(Pathogenesis)
    4. 临床表现 (Symptom)
    5. ……

16、【实体关系】CPubMed-KG

16.1、数据集汇总

名称 数据量 数据下载
CPubMed-KG 4383911 https://cpubmed.openi.org.cn/graphwiki/kgI (需要申请权限,大概一天左右)

16.2、数据示例

head_entity@@entity_type	relation	tail_entity@@entity_type
子宫急性穿孔损伤@@疾病	影像学检查	超声诊断@@检查
围产儿死亡@@疾病	病因	胎儿因素@@社会学

17、【知识图谱】AsdKB 孤独症谱系障碍知识库

17.1、数据汇总

数据下载:https://zenodo.org/records/8199698 界面中的 https://zenodo.org/api/records/8199698/files-archive

数据文件:ontology.owl \ mapping.owl \ instance.zip

本体(对应数据文件,ontology.owl) 数据量 取值范围
Classes:定义和组织概念,用于分类和建立层次结构。 31 实证有效的干预方法,儿童孤独症,非典型孤独症,雷特征候群,其他儿童瓦解性障碍,伴有精神阻滞和刻板运动的过度活跃障碍,阿斯伯格综合症,其他广泛性发育障碍,未明确的广泛性发育障碍症,行政区域,孤独症谱系障碍,市,诊断标准,区,医院,社会交往障碍,选项,其他相关疾病,其他症状,医生,省,刻板行为活动,筛查问题,筛查量表,社交障碍标准,刻板行为标准,孤独症症状,广泛性发育剩余状态障碍(障碍),孤独症(障碍),婴儿孤独症(障碍),儿童期发病的孤独症(障碍)
Object Properties:描述实体之间的关系,连接不同的实体。 11 量表问题,所属市,对应症状,诊断专家,选项,孤独症症状,干预方法,位于,命中标准,筛查量表,就职医院
Data Properties:描述实体的具体属性,连接实体和数据值。 23 科室,snomed-ct编码,地址,适用年龄,作者,联系方式,(医院)等级,ICD-10编码,简介,选项内容,发病原因,患病人群,人口数量,问题内容,行政区划代码,评判规则,分值,筛查界限,擅长方向,同义词,花费时间,职称,用户
映射关系(对应数据文件,mapping.owl) 数据量
equivalentClass:等价类关系 20
subClassOf:子类关系 2
实例(对应数据文件,instance.zip) 数据量
疾病(disease) 52
症状(symptom) 65
治疗方式(treatment) 28
医院(hospital) 270
医生(doctor) 499
城市(city) 337
地理实体(Geo) 2843
省(province) 34
工具(tool),包含多个question和对应多个option 19
等级(level) 6
描述某些特定社交互动障碍标准的实例(D) 43

17.2、数据示例

本体:ontology.owl

  <!-- 
  ///////////////////////////////////////////////////////////////////////////////////////
  //
  // Object Properties
  //
  ///////////////////////////////////////////////////////////////////////////////////////
   -->

  <!-- https://w3id.org/asdkb/isPartOf -->

  <owl:ObjectProperty rdf:about="https://w3id.org/asdkb/isPartOf">
      <rdfs:domain rdf:resource="https://w3id.org/asdkb/ontology/class/screening_question"/>
      <rdfs:range rdf:resource="https://w3id.org/asdkb/ontology/class/screening_tool"/>
      <rdfs:label xml:lang="en">isPartOf</rdfs:label>
      <rdfs:label xml:lang="zh">量表问题</rdfs:label>
  </owl:ObjectProperty>

      <!-- 
  ///////////////////////////////////////////////////////////////////////////////////////
  //
  // Data properties
  //
  ///////////////////////////////////////////////////////////////////////////////////////
   -->

  <!-- https://w3id.org/asdkb/department -->

  <owl:DatatypeProperty rdf:about="https://w3id.org/asdkb/department">
      <rdfs:subPropertyOf rdf:resource="http://www.w3.org/2002/07/owl#topDataProperty"/>
      <rdfs:domain rdf:resource="https://w3id.org/asdkb/ontology/class/physician"/>
      <rdfs:range rdf:resource="http://www.w3.org/2001/XMLSchema#string"/>
      <rdfs:label xml:lang="en">Hospital Department</rdfs:label>
      <rdfs:label xml:lang="zh">科室</rdfs:label>
  </owl:DatatypeProperty>

  <!-- 
  ///////////////////////////////////////////////////////////////////////////////////////
  //
  // Classes
  //
  ///////////////////////////////////////////////////////////////////////////////////////
   -->

  <!-- https://w3id.org/asdkb/ontology/class/EBP -->

  <owl:Class rdf:about="https://w3id.org/asdkb/ontology/class/EBP">
      <rdfs:label xml:lang="en">Evidence-Based Practice</rdfs:label>
      <rdfs:label xml:lang="zh">实证有效的干预方法</rdfs:label>
  </owl:Class>

映射:mapping.owl

  <rdf:Description rdf:about="https://w3id.org/asdkb/ontology/class/F84.4">
    <owl:equivalentClass rdf:resource="https://uts.nlm.nih.gov/uts/umls/concept/C0349330"/>
  </rdf:Description>
  
  <rdf:Description rdf:about="https://w3id.org/asdkb/ontology/class/physician">
    <rdfs:subClassOf rdf:resource="https://uts.nlm.nih.gov/uts/umls/concept/C0031831"/>
    <rdfs:subClassOf rdf:resource="http://linkedlifedata.com/resource/umls/id/C0031831"/>
  </rdf:Description>

实例:instance.zip (选自disease0部分)

这里面提到的所有内容都是与disease0本体相关的内容,包括有哪些screeningMethod(筛选方法)、diagnosticExpert(诊断专家)等,这些信息是混合在一起的,没有特定的顺序。需要检索某个实例相关的本体内容直接规则检索相关内容即可。比如检索screeningMethod能得到tools19等方法。

<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/screeningMethod> <https://w3id.org/asdkb/instance/tools19> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor449> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor134> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor147> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor492> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor495> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor254> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor165> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/interventionMethod> <https://w3id.org/asdkb/instance/treatment1> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor217> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor493> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor483> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor316> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor8> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor179> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor322> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor30> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor128> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/objectproperty/diagnosticExpert> <https://w3id.org/asdkb/instance/doctor69> .
<https://w3id.org/asdkb/instance/disease0> <https://w3id.org/asdkb/ontology/dataproperty/icd-10_code> "E71.1"@zh .

17.3、数据使用

三个文件间的关系:instance.zip中的实例文件会通过提到与该实例相关的本体来表达ontology.owl中本体之间的关系

mapping.owl是表达ontology.owl中类之间的关系,数据示例详见17.2。

18、【医疗问答】RJUA-QADatasets: 蚂蚁-仁济泌尿专科QA数据集

数据来源于医生参考临床经验中真实患者情况,改写的虚拟患者临床数据,不涉及任何医患隐私数据,经AI模型和专家团队处理校验,构建为问答对(Q-context-A)。

18.1、数据汇总

数据下载: 蚂蚁-仁济泌尿专科2KQA推理数据集

数据文件主要为三个json文件

数据集 数据量
train 1705
valid 211
test 213

18.2、数据示例

每个文件的具体字段包括:

  • 数据标号:id
  • Question: 问题
  • Context: 参考文本
  • Answer: 答案
  • Disease:诊断疾病
  • Advice:诊疗建议

Context来自于中国泌尿外科和男科疾病诊断治疗指南。Question为虚拟患者临床数据,Answer为大模型生成后由泌尿科专家团队标注。虚拟患者的临床参考数据覆盖2019-2023连续5年的时间跨度,包括门诊诊疗、急诊抢救、住院手术和操作、以及日常科普等多形式的资源。病种涵盖泌尿系肿瘤、泌尿系结石、前列腺增生、男性、尿控、泌尿道整复、小儿泌尿、肾移植等10个亚专业,病种覆盖率占泌尿科就诊患者的97.6%。数据集由上海仁济医院泌尿科医生团队参与构建,确保医疗领域专科数据的真实性、精准度和可靠性。

{"id": "1", "question": "医生您好,我昨天左边的睾丸痛,到医院做了B超:左侧睾丸形态饱满,回声不均匀减低,左侧附睾异常回声,查了血降钙素原13.69,C反应蛋白86.9,白细胞29.55,中性粒细胞百分比96.5%,血肌酐:99,尿常规白细胞:3.3/HP,红细胞:21.1/HP,我这种情况是怎么回事?需要处理吗?", "context": "Context:附睾睾丸炎常见症状数天内急性发作,通常是一侧睾丸或附睾疼痛和肿胀,疼痛沿精索、腹股沟和下腹部放射。可伴有尿频、尿急、排尿困难及阴茎刺痛不适。慢性附睾-睾丸炎的症状变异较大,表现为局部不适、坠胀感或阴囊疼痛,有时可出现急性发作症状;也可表现为从轻微性、间歇性不适到剧烈性.持续性疼痛等程度不同的症状。\nContext:附睾睾丸炎临床诊断主要基于症状和体征,细询问病史,包括是否有尿道炎、经尿道操作、阴囊手术、既往发作史及近期性行为等风险因素。通过病史、泌尿系统症状、性传播感染风险及查体能够初步判断病因,并指导经验性抗生素的使用。\nContext:阴囊超声对附睾睾丸炎的诊断比单纯尿液分析更准确,在与睾丸附睾肿瘤囊肿等疾病的鉴别诊断中有一定的临床价值。彩色多普勒超声对急性附睾睾丸炎与急性睾丸扭转的鉴别具有重要意义,急性附睾睾丸炎声像图特点是患侧附睾体积增大,以头尾部增大明显,回声减低或增高,可伴有睾丸体积增大,实质回声不均匀,患侧附睾、睾丸内高血流信号,抗炎治疗后复查睾丸、附睾内血流信号明显减少。彩色多普勒检查在炎症时显示高血流信号,而睾丸扭转时显示血流信号减少甚至消失。\nContext:一般治疗卧床休息,托起阴囊,睾丸局部热敷或冷敷以减轻疼痛症状。阴囊皮肤红肿者可用50%硫酸镁溶液湿敷,疼痛剧烈者可用0.5%利多卡因做精索封闭。对于疑似性传播感染的患者,治疗期间避免性生活。\nContext:抗生素治疗在使用抗生素前应留取尿液/尿道分泌物样本行微生物培养及药敏试验,根据最可能的致病微生物,经验性使用抗生素。治疗目标是消除致病微生物,缓解临床症状,预防性传播疾病向性伴侣传播和并发症发生。对于肠道菌群(如大肠埃希菌)引起的病例,建议使用氟峰诺酮类抗生素10-14天,儿童可以使用青霉素或头抱类抗生素:对于沙眼衣原体或解脉支原体引起的感染,使用多西环素、阿奇霉素10~14天,也可联合氟峰诺酮类抗生素治疗;对于淋病性附睾睾丸炎患者,建议头抱曲松250~1000mg单剂肌内注射,加多西环素、阿奇霉素10~14天。治疗3天后评估疗效,并根据培养结果选择敏感的抗生素治疗。病毒性睾丸炎不需要抗生素治疗,大多数腮腺炎相关睾丸炎可在3~10天自然缓解。\nContext:急性睾丸扭转典型症状: 睾丸扭转典型症状为由于扭转导致睾丸及附睾缺血造成的突发性的一侧阴囊疼痛,间断性或持续性均可,可在数分钟至数小时内逐渐加重,也可向下腹部放射。此外,最常见伴随症状为恶心呕吐,占睾丸扭转患者主诉的57% ~ 69%,部分患者甚至以伴随症状为主诉就诊原因可能与疼痛导致的神经反射刺激有关,此症状在睾丸附件扭转时的发生率则很低,急性附睾睾丸炎时几乎无此症状。其他伴随症状较为少见。\nContext:1.彩色超声多普勒检查 作为睾丸扭转的首选检查手段,彩色多普勒超声具有快速、方便、费用低特异性高等特点,可以直观地对患侧睾丸的形态和血流灌注情况进行检查。彩超对睾丸扭转的敏感度和特异度均很高,很多文献报道两者均超过90%。彩超下可见睾丸体积增大,内部回声不均匀,睾丸门处呈强回声,睾丸内部血流消失或同对侧相比血流明显减少,同时睾丸周围阴囊壁血流信号增多。若存在精素扭转,则精索走行出现圆形或椭圆形均质或非均质性回声团块,即无论完全扭转或部分扭转均会出现“旋涡征”或“蜗牛壳征”。若仍有血流通过则可见到“血管环”,这有助于我们进一步证实睾丸扭转的诊断。\nContext:睾丸扭转可发生于任何年龄段,占阴囊急症的25%~35%,以青少年最为常见。研究显示在 0~11岁阶段睾丸扭转占睾丸急症的 6.6%,在 12 ~ 16 岁阶段占 52%,17 ~ 40岁阶段占48%(7。新生儿期和青春期是两个高峰期,25岁以下男性每年发病率为1/4000,其中16 ~ 17岁最多见,原因可能与青春期提睾肌反射活跃有关。睾丸扭转是青少年急性阴囊疼痛的主要原因,若出现急性阴囊疼痛应首先考虑睾丸扭转可能。左侧发病率高于右侧,可能与左侧精索较长有关,双侧同时扭转比较罕见\nContext:(1)急性睾丸扭转典型症状: 睾丸扭转典型症状为由于扭转导致睾丸及附睾缺血造成的突发性的一侧阴囊疼痛,间断性或持续性均可,可在数分钟至数小时内逐渐加重,也可向下腹部放射。此外,最常见伴随症状为恶心呕吐,占睾丸扭转患者主诉的57% ~ 69%,部分患者甚至以伴随症状为主诉就诊原因可能与疼痛导致的神经反射刺激有关,此症状在睾丸附件扭转时的发生率则很低,急性附睾睾丸炎时几乎无此症状。其他伴随症状较为少见。\nContext:(2)急性睾丸扭转非典型症状:急性睾丸扭转除典型症状外,一部分患者也以其他急腹症症状就诊如腰痛、腹股沟痛、下腹痛或脐周痛。其原因可能是由于睾丸的痛觉由 To~.的交感神经传递,疼痛可能扩散到相邻的脊髓节段所支配的范围。另外,精索在腹脱后走行,睾丸扭转后疼痛沿精索向腰部及腹部放散(%。由于症状不典型,导致了这部分睾丸扭转患者很容易被误诊,延误了治疗的最佳时机。\nContext:(3) 腹股沟管隐睾睾丸扭转症状: 隐睾也会发生扭转,且常诊治延后,造成睾丸丢失。张潍平等回顾性分析15例腹股沟管隐睾扭转患儿,其首发症状为腹股沟肿痛 13 例,腹痛1例,腹痛伴呕吐 1例[。隐坚睾丸扭转临床症状不典型,诊断困难,易造成漏诊误诊,因此对外生殖器的查体更为重要\nContext:2.查体 查体主要表现为患侧阴囊肿胀、发红坚丸位置偏高(部分睾丸位置可处于腹股沟外环处 ),呈前位附睾或睾丸横位。睾丸附睾体积增大,轮廓触诊不清,阴囊抬高试验( Prehn 征)多呈阳性(附睾坚丸炎时提托阴囊可缓解疼痛,但睾丸扭转时则加刷 ),提睾肌反射消失。\nContext:1.彩色超声多普勒检查 作为睾丸扭转的首选检查手段,彩色多普勒超声具有快速、方便、费用低特异性高等特点,可以直观地对患侧睾丸的形态和血流灌注情况进行检查。彩超对睾丸扭转的敏感度和特异度均很高,很多文献报道两者均超过90%。彩超下可见睾丸体积增大,内部回声不均匀,睾丸门处呈强回声,睾丸内部血流消失或同对侧相比血流明显减少,同时睾丸周围阴囊壁血流信号增多。若存在精素扭转,则精索走行出现圆形或椭圆形均质或非均质性回声团块,即无论完全扭转或部分扭转均会出现“旋涡征”或“蜗牛壳征”。若仍有血流通过则可见到“血管环”,这有助于我们进一步证实睾丸扭转的诊断\nContext:1.治疗原则 睾丸扭转的治疗原则是尽快恢复扭转睾丸的血流,扭转时间和扭转角度是决定能否挽救睾丸的关键,因此一旦怀疑睾丸扭转,第一时间的复位、急诊手术探查至关重要\nContext:(2) 患侧睾丸固定术或者睾丸切除术:睾丸扭转患者迫切需要进行手术探查,减少时间上的延误。尽管有学者报道部分可疑睾丸扭转患者可以避免手术,但相对于一旦出现误诊漏诊而造成的睾丸功能丧失的严重后果,对查体和辅助检查后高度可疑病例应尽早进行手术探查。挽救睾丸的关键在于从发病到手术的时间,一般认为最佳时间为发病6小时内完成手术复位,而超过12小时则睾丸存活率很低\nContext:(3)健侧睾丸固定术:一侧睾丸扭转患者是否需要预防性健侧睾丸固定术,目前仍有争议。不支持者主要观点有:睾丸扭转发病率随年龄增长而降低;健侧睾丸是否会扭转缺乏循证证据;对侧睾丸固定术可能损伤健侧睾丸等[,而更多的学者建议行对侧睾丸固定术,理由是睾丸扭转患者的解剖结构异常通常是双侧的.", "answer": "您好,根据您的症状描述,目前考虑有睾丸炎,并发脓毒血症,综合症状和病程睾丸扭转不能排除,您应该立即急诊就医,行阴囊探查术,且并留取血和尿培养,同时补液支持治疗预防感染性休克。并密切监测生命体征、血气分析、感染指标等变化。", "disease": "睾丸炎、睾丸扭转,脓毒血症", "advice": "阴囊探查术、留取血和尿培养、补液支持治疗"}

19、【知识图谱】面向家庭常见疾病的知识图谱

面向家庭常见疾病的知识图谱涵盖了常见医疗相关信息,包括常见疾病、症状、治疗手段、常用药物、推荐食谱等方面的内容。在目前新冠疫情流行的大环境下,以医疗知识图谱为基础的问答系统旨在让大众足不出户即可对疾病的进行初步判断、用药以改善病情。

该数据集提供一个由neo4j构建的知识图谱,一个dump文件。该文件下载链接: http://data.openkg.cn/dataset/c7cea42c-834e-4fd8-8583-f14abfd1df97/resource/2a3d9d36-2728-445e-8761-9c246a685c93/download/medicalgraphversion2.dump

鉴于一个只能由neo4j打开的文件使用门槛略高,本仓库创建者([email protected])将其以json文件进行导出,共有两个json文件,一个为实体文件 entity.json,一个为关系文件 relation.json。文件下载链接: https://pan.baidu.com/s/1ggGXQLXG8CzlrpwEL1bC4g?pwd=fjs6

我也将在19.4中介绍如何使用dump文件以及两个json文件是如何导出的。

19.1、知识图谱构造过程&数据源

知识图谱构造过程参考链接: https://mp.weixin.qq.com/s/opaPBHbmckYOKyKqszXudQ

构造知识图谱数据源共有两个:

1、寻医问药网站

2、2020CHIP-中文医学文本实体关系抽

19.2、数据汇总

类型 数据量
实体 62196
关系 543673

19.2.1、知识图谱实体

实体种类 数量 举例
生产商 17201 浙江瑞新、上海禾丰、阿法迪三、恒瑞医药、金柯制药......
症状 16091 牙齿松动和脱落、绝经、腹肌紧张、小腿水肿、脂肪浸润、输卵管黏连、咽部灼热疼痛……
疾病 11871 肺泡蛋白质沉积症、百日咳、苯中毒、喘息样支气管炎、成人呼吸窘迫综合症、心肌梗塞并发心室间隔穿破……
药物 6017 伤痛宁膏、杞菊地黄口服液、消炎利胆软胶囊、富马酸依美斯汀滴眼液、五子衍宗片、萆薢分清丸……
检查手段 5529 剖胸术、中和试验、粪便量、隐血试验与含铁血黄素检查、输卵管通气试验、EAC玫瑰花结形成试验……
食谱 4506 软熘鲤鱼、茄香牛肉刀削面、双菇拌鸡肉、栗子炒芹菜、荷叶豆腐、银鱼芥菜……
治疗方案 544 药物治疗如抑酸剂、黏膜保护剂,对症治疗、药物治疗如抑酸剂、促动力药,黏膜保护剂,内科治疗无效行手术治疗、消融、主要是主要针对病因进行治疗,必要时应用起搏器……
食物 364 蜂蜜、羊油、草虾、鱼肉、鲮鱼罐头、猪肝……
一级科室 10 儿科、肿瘤科、妇产科、生殖健康、外科、内科、中医科……
二级科室 44 肝胆外科、男科、肿瘤内科、小儿内科、眼科、传染科、消化内科、肛肠科、骨外科、心理科、急诊科……
其他 19 门诊、产科门诊、急诊室、儿科的耳鼻喉科……

19.2.2、知识图谱实体关系

关系种类 数量
生产药品 223185
症状 71259
好评药品 63444
诊断检查 42629
推荐食谱 40236
忌吃 22247
宜吃 22210
治疗方法 21050
常用药品 14649

19.3、数据示例

用本地neo4j服务端运行dump文件后,在本地浏览器上访问:

image-20240805204656238

image-20240805204827720

根据dump有转化为两个文件entity.json、relation.json。

entity.json

n:

  • 这个键表示一个节点对象,包含该节点的所有信息。

identity:

  • 节点的唯一标识符。在这个例子中,标识符是 0

labels:

  • 节点的标签数组,用于分类和描述节点的类型。

properties:

  • 节点的属性对象,包含一系列键值对,描述节点的具体信息。具体如下:
    • 治愈概率:描述疾病的治愈概率。
    • 病因:描述疾病的可能病因。
    • 治疗时长:预计的治病时长。
    • 名称:疾病的名称。
    • 易得人群:最容易患此病的人群。
    • 描述:疾病的详细描述。
    • 预防方法:预防这种疾病的建议方法。

elementId:

  • identity 相同,节点的一种标识方式。
[
  {
    "n": {
      "identity": 0,
      "labels": [
        "疾病"
      ],
      "properties": {
        "治愈概率": "约40%",
        "病因": "病因未明,推测与几方面因素有关:如大量粉尘吸入(铝,二氧化硅等),机体免疫功能下降(尤其婴幼儿),遗传因素,酗酒,微生物感染等,而对于感染,有时很难确认是原发致病因素还是继发于肺泡蛋白沉着症,例如巨细胞病毒,卡氏肺孢子虫,组织胞浆菌感染等均发现有肺泡内高蛋白沉着。
虽然启动因素尚不明确,但基本上同意发病过程为脂质代谢障碍所致,即由于机体内,外因素作用引起肺泡表面活性物质的代谢异常,到目前为止,研究较多的有肺泡巨噬细胞活力,动物实验证明巨噬细胞吞噬粉尘后其活力明显下降,而病员灌洗液中的巨噬细胞内颗粒可使正常细胞活力下降,经支气管肺泡灌洗治疗后,其肺泡巨噬细胞活力可上升,而研究未发现Ⅱ型细胞生成蛋白增加,全身脂代谢也无异常,因此目前一般认为本病与清除能力下降有关。",
        "治疗时长": "约3个月",
        "名称": "肺泡蛋白质沉积症",
        "易得人群": "",
        "描述": "肺泡蛋白质沉积症(简称PAP),又称Rosen-Castle-man-Liebow综合征,是一种罕见疾病。该病以肺泡和细支气管腔内充满PAS染色阳性,来自肺的富磷脂蛋白质物质为其特征,好发于青中年,男性发病约3倍于女性。",
        "预防方法": "1、避免感染分支杆菌病,卡氏肺囊肿肺炎,巨细胞病毒等。
2、注意锻炼身体,提高免疫力。"
      },
      "elementId": "0"
    }
  },
...
]

relation.json

r:

  • 这个键代表一个关系对象,包含该关系的所有详细信息。

identity:

  • 关系的唯一标识符。

start:

  • 关系起始节点的 ID。

end:

  • 关系结束节点的 ID。

type:

  • 关系的类型。

properties:

  • 关系的属性对象,包含一系列键值对,描述关系的具体信息。

elementId:

  • identity 相同。

startNodeElementId:

  • 起始节点的元素 ID,通常与 start 相同,用于确认关系的起点。

endNodeElementId:

  • 结束节点的元素 ID,通常与 end 相同,用于确认关系的终点。
[
  {
    "r": {
      "identity": 513894,
      "start": 0,
      "end": 44444,
      "type": "治疗方法",
      "properties": {
        "名称": "治疗方法"
      },
      "elementId": "513894",
      "startNodeElementId": "0",
      "endNodeElementId": "44444"
    }
  },
...
]

19.4、数据使用

本节里讲介绍两部分,一是如何使用neo4j查看dump文件,另一个是我是如何根据dump文件导出的两个json文件

19.4.1、如何使用neo4j查看dump文件

温馨提示:推荐在本地电脑上启动neo4j,如果在服务器上运行neo4j服务可能会因为某些端口或者其他原因导致远程访问失败。

参考链接:

  1. Mac电脑如何安装并启用neo4j进行知识图谱的构建
  2. java 官方下载链接

步骤:

  1. 安装java11:首先根据参考链接1,在参考链接2中选择自己电脑需要的java版本并安装。选择DMG Installer结尾的,这样一直点下一步之后,无需专门设置系统变量。注意下载的java版本11,因为java11和neo4j是比较兼容的,不然容易报错。

  2. 安装neo4j:从 Neo4i Server下载 这个网址中,下载neo4j压缩包。找到Graph Database Self-Managed模块,选择"COMMUNITY", 选择"Neo4j 4.4.36 Released 23 July 2024"。因为我是mac本,因此我选择了"Linux / Mac Executable Neo4i 4.4.36 (tar)"。然后就可以获得一个压缩包 neo4j-community-4.4.36-unix.tar.gz 。将该压缩包解压并,将该文件夹下的bin文件夹的绝对目录添加到系统变量中。

  3. 运行neo4j:本地terminal中运行neo4j start

    caimuzhen@mz--MacBook ~ % neo4j start  
    Directories in use:
    home:         /Users/caimuzhen/Downloads/neo4j-community-4.4.36
    config:       /Users/caimuzhen/Downloads/neo4j-community-4.4.36/conf
    logs:         /Users/caimuzhen/Downloads/neo4j-community-4.4.36/logs
    plugins:      /Users/caimuzhen/Downloads/neo4j-community-4.4.36/plugins
    import:       /Users/caimuzhen/Downloads/neo4j-community-4.4.36/import
    data:         /Users/caimuzhen/Downloads/neo4j-community-4.4.36/data
    certificates: /Users/caimuzhen/Downloads/neo4j-community-4.4.36/certificates
    licenses:     /Users/caimuzhen/Downloads/neo4j-community-4.4.36/licenses
    run:          /Users/caimuzhen/Downloads/neo4j-community-4.4.36/run
    Starting Neo4j.
    Started neo4j (pid:50342). It is available at http://localhost:7474
    There may be a short delay until the server is ready.
    
    caimuzhen@mz--MacBook ~ % neo4j status
    Neo4j is running at pid 50342

    如果有如上输出则证明noe4j启动成功

  4. 本地浏览器访问 http://localhost:7474 :这里会出现一个登录界面,

    Connect URL:bolt://localhost:7687 
    type: password 
    User: neo4j
    password: neo4j(这都是默认的)
    

    点击connect,出现以下界面表示链接成功。

    image-20240806131555285

  5. 导入dump文件: 本地terminal中运行neo4j stop, 因为只有先停止neo4j才能够导入数据。随后根据下载的dump文件,在本地terminal中运行指令

    neo4j-admin load --from=path/to/your/dumpfile.dump --database=neo4j --force
    

    出现如下输出则表示导入数据成功

    caimuzhen@mz--MacBook ~ % neo4j-admin load --from=/Users/caimuzhen/Downloads/medicalgraphversion2.dump --database=neo4j --force
    Selecting JVM - Version:11.0.23+7-LTS-222, Name:Java HotSpot(TM) 64-Bit Server VM, Vendor:Oracle Corporation
    Done: 71 files, 479.8MiB processed.
  6. 启动neo4j,并用本地浏览器访问:本地terminal中运行neo4j start ,本地浏览器中输入网址 http://localhost:7474。随后可以输入各种查询指令进行使用,比如我用如下指令将知识图谱的部分数据进行可视化,由于内存限制等原因无法展示全部知识图谱。

    MATCH (n)-[r]->(m)
    RETURN n, r, m
    LIMIT 300
    

    image-20240806132659188

19.4.2、如何根据dump文件导出json文件

在19.4.1的基础上分别输入指令

// 用来查询所有节点/实体MATCH (n)
RETURN n

指令

// 导出所有关系
MATCH ()-[r]->()
RETURN r

image-20240806133401199

根据如图所示按钮导出json文件,实体文件和关系文件导出同理。

参考链接(整理进度)

About

[updating] Chinese Medical Dataset 致力于详细整理所有现有中文医学数据集,包括详细的数据汇总、数据示例、下载链接等。

Topics

Resources

Stars

Watchers

Forks