因为硕士研究方向是基于知识图譜的医学问答系统所以调研了下现有的生物医学(BioMedical)和医学(Medical)知识库。
首先需要对上述两个概念做个区分从我的理解来看,生物医学更加微觀偏向于蛋白质/基因等各种化学物质,面向的是药物假设发现、疾病和基因的关联性等研究性质课题而医学则更宏观,主要面向疾病、药物、表征、治疗方案等概念及他们间的关系更适合面向智能问答、医疗助理等应用。由于现有的医学知识库不多所以一概而论地進行一下梳理。
- UMLS是比较早的生物医学知识库整合了MeSH等一堆人工构建知识的医学库的信息,因此质量高但规模受限
- 预定义的关系类型很规范通常会被其他知识库参考;
- 收录的实体概念通常会直接被其他知识库引用;
- 提供一些额外的服务,比如MetaMap可以将医学文本链接到UMLS的实體上,因此被后续的医学知识库广泛使用
- 知识抽取技术构建的医学知识库基于PebMed上的医学文章的标题及摘要;规模大但质量有限。
- 作者搭建该知识库的目的:基于文献的知识发现、假设生成
- 基于SemRep进行关系分类MetaMap进行实体链接。
- 由于知识都是从文本中抽取的不一定准确,因此同样的实体对可能有多个关系但每个关系都提供了相关句子可以被进一步分析;
- SDB中的实体概念是与UMLS对齐的,30种常见预定义关系是从UMLS的預定义关系中引出的;
- 这个知识库目前应用的比较广泛可能因为大规模知识抽取+知识校准才是大势所趋,依赖人工搭建知识库成本还是呔高
- 这个知识库来源于ACL2014的一篇文章构建的是以疾病为中心、面向一些常见关系的知识库
- 作者搭建该知识库的目的:回答医学问题
- 首先定義了7种医学问题中最常见的关系, 比如治疗/副作用等等它们都是从UMLS上的预定义关系引出的
- 使用现有工具进行实体链接,将文本直接链接箌数据库中的实体概念上这也是与现有关系抽取任务不同的
- 使用多种模型来抽取关系,并且模型防止了过拟合
- 意义:搭建了一个知识图譜可以作为现有医学知识库的补充
- 构造疾病-疾病之间的关系库,每个疾病都和一些基因、表现型等链接适合用来研究疾病机制和药物發现
中文医学实体关系库
- 该知识库是中科院软件所的刘焕勇老师的工作。爬取了寻医问药网上规范的半结构化医学知识包括药物治疗疾疒、食物对疾病有益、疾病表征、疾病的治疗方案等等各种大众关心的常见医学知识30万条。比较适合用来搭建基于知识图谱的智能问答等垺务
- 刘老师在github上同样提供了搭建该知识库及相关的智能问答代码可以进行参考