1-CCKS2020技术评测-新冠知识图谱构建与问答

本文由用户“sunhaohua”分享发布 更新时间:2021-01-28 21:24:08 举报文档

以下为《1-CCKS2020技术评测-新冠知识图谱构建与问答》的无排版文字预览,完整格式请下载

下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

CCKS 2020 技术评测任务书

新冠知识图谱构建与问答评测

评测背景

随着互联网软硬件相关技术的飞速发展,人们逐渐从信息时代进入智能时代。知识图谱作为承载底层海量知识并支持上层智能应用的重要载体,在智能时代中扮演了极其重要的角色。而受限于非结构化文本和结构化知识之间的巨大差异,自动化构造知识图谱以及利用知识图谱支持上层应用仍存在诸多挑战。因此对知识图谱的构建以及其核心应用基于知识图谱的自然语言问答展开研究是十分有必要的。

知识图谱又可以划分成开放领域和特定领域。相对而言,开放领域知识图谱的特点是“广而浅”,即覆盖实体的范围广,但可能在某方面缺少深层次或不常见的知识;而特定领域知识图谱的特点是“专而深”,即只覆盖特定领域的实体信息,但会涵盖一些通常只有对应领域专业人士使用的术语、概念以及对应的知识。随着LOD、OpenKG等知识共享项目的展开,将包括开放领域和特定领域的若干知识库融合或链接在一起从而形成既全面又深入的“超级”知识图谱逐渐成为可能。

时值2020年新型冠状病毒疫情爆发,在OpenKG总体组织和协调下,部分相关企业院校使用自动化的技术,以新型冠状病毒为核心构建了包括新冠百科、健康、防控等多个高质量的知识图谱(http://openkg.cn/group/coronavirus),并于此针对知识图谱构建的关键技术及其核心应用提出四个评测子任务。通常构建知识图谱需要在实体识别完成后,为每一个实体分配预定义的类型,这即是我们提出的第一个任务“实体类型推断”。而人工预定义的实体类型覆盖程度有限且不易更新,当涉及新的领域时,实体类别体系可能需要重新定义。通过在网络中动态的获得实体的概念类别,并自动化识别类别之间的上下位关系不但可以解决人工预定义的缺陷,还可以使知识图谱更加立体XX,有助于上层应用。这即是我们提出的第二个任务“概念的上下位关系预测”。而为了使知识图谱中的各实体相连起来,需要判断哪些实体之间存在关系,以及实体通过特定关系可以链接到哪些实体,这即是我们提出的第三个任务“链接预测”。最后,当知识图谱构建完成后,使用自然语言对其进行查询可以极大地方便用户获取想要的知识,同时诸如智能音箱等应用也需要允许用户使用自然语言与知识图谱进行交互,这即是我们提出的第四个任务“知识图谱的自然语言问答”。

以下分别对本评测四个任务进行详细介绍。

任务描述

子任务一:新冠百科知识图谱类型推断

类型信息在知识库中具有非常高的价值,实体类型推断的研究一直是领域的热点。然而,大量类型信息以非结构化文本形式呈现于网络页面中,文本处理难度大,抽取结果同时保证高准确度和覆盖率仍然是个极大的挑战。针对实体的通用类型推断,近年来已有若干解决方案,如使用统计机器学习方法及利用外部知识(通向其他数据源的链接或文本信息)等。

本评测任务围绕新冠百科知识图谱构建中的实体类型推断(Entity Type Inference)展开。评测从实体百科(包括百度百科、互动百科、维基百科、医学百科)页面出发,从给定的数据中推断相关实体的类型。评测本身不限制各参赛队伍使用的模型、算法和技术。希望各参赛队伍发挥聪明才智,构建各类无监督、弱监督、远程监督、半监督等系统,实现知识图谱的实体类型推断,共同促进知识图谱技术的进步。

输入输出

输入

entity.txt:需要进行类型预测的所有实体,其中包含相关实体和噪音实体。

entity_pages_1.xml,entity_pages_2.xml,entity_pages_3.xml,entity_pages_4.xml:分别来自百度百科,互动百科,中文维基百科,医学百科的实体页面内容。保证entity.txt中的任意实体至少被一个页面文件所涵盖。实体页面文件中包含类型推断可能会用到的名称、标签、简介等信息

type.txt:包含7个目标类型,分别是病毒、细菌、疾病、药物、医学专科、检查科目、症状。

输出

entity_type.txt:实体及预测的实体类型,每行一个“实体\t类型”对。注意不要包含类型不在给定的7种类型当中的实体。

输入样例

entity.txt:

烟草花叶病毒

大肠杆菌

艾滋病

盐酸西普利嗪

内科

太阳

entity_page_1.xml(页面文件均与之类似,这里省略其他三个百科的实体页面)

/

type.txt:

病毒

细菌

疾病

药物

医学专科

检查科目

症状

输出样例

烟草花叶病毒 病毒

大肠杆菌 细菌

艾滋病 疾病

盐酸西普利嗪 药物

内科 医学专科

说明

实体“太阳”不在给定的7种目标类型当中,因此输出样例中不包含该实体。

评价指标

本任务采用精确率(Precision, P)、召回率(Recall, R)、F1值(F1-measure, F1)来评估效果。设??为参赛队伍输出文件中的所有实体-类型对的集合,??为评测方标注文件中的所有实体-类型对的集合,相关计算公式如下:

??=

|??

??

|

|??|

??=

|??

??

|

|??|

F1=

2????

??+??

数据集

本任务总共包含17.5W左右的实体页面。任务本身不限定方法类型,可以是无监督、半监督、有监督方法,因此不提供任务相关训练集,参赛选手如有需要,可以自行对训练数据进行标注。

测试集是主办方通过自动化实体类型推测和人工检验进行标注的。测试集上不允许参赛选手进行任何人工标注。

子任务二:新冠概念图谱的上下位关系预测

在如今的信息化时代,互联网中实体类别多样化,且粒度更细并具有层次,相对于类别有限的传统命名实体,人们开始将目光转向开放域实体挖掘。

新冠概念图谱即是一种自动构建概念体系(schema)的知识图谱,该图谱利用自动挖掘的手段从网络文本中采集了大量细粒度的上位概念词。即此概念图谱的is-a层次结构(是自动构建而成的,包含了细粒度的上下位层次结构。

传统的知识图谱对实体的概念类别体系定义非常有限,如:ACE-2007将实体分为7大类、45小类,Yosef(2013)将实体分为505类。上述将命名实体的类别进行人为的定义,其优点在于可以将命名实体识别中标明实体类别的过程看作分类问题,然后应用传统的模式分类方法解决该问题。然而,预先对类别进行定义也有其不可避免的缺陷:人工定义的类别覆盖程度有限且不易更新,当涉及新的领域时,实体类别体系可能需要重新定义。在如今的信息化时代,对于互联网中的海量实体很难由人工预先定义出一个完备的类别体系,基于此,可以由网络中动态的获得实体的概念类别,这种动态挖掘的方法有以下两个主要特点:

(1) 实体词的类别更多,且不限定。比如可能的类别包括药品、动物、植物、赛事、会议、菜肴等等,远远多于传统命名实体。而且随着社会的进步,一些新的类别可能出现,因此靠人工难以确定一种固定的完备的类别体系。

(2) 实体词的类别粒度更细,且有层次。比如传统命名实体中的机构名可以进一步细分为:学校名、公司名、政府部门名、新闻机构名等;学校名则还可以继续细分为高校名、中学名、小学名等。这些类别通过上下位关系连接,构成一种偏序结构。

事实上,实体和上位词之间以及上位词和上位词之间存在复杂的层次关系,如果能够自动的构建这种细粒度的上下位层次关系能够为众多的智能服务系统提供帮助。

输入输出

输入

entity.txt:实体列表。

concept.txt:概念(类型)列表。

输出

entity_concept.txt:实体-概念之间的类型关系。

concept_concept.txt:概念-概念之间的上下位关系,前者是后者的子概念。

输入样例

entity.txt:

钟某某

新冠病毒

concept.txt:

病毒

细菌

疾病

药物

医学专科

检查科目

症状

输出样例

entity_concept.txt:

钟某某 著名医学家

钟某某 教授

新冠病毒 病毒

concept_concept.txt:

著名医学家 医学家

医学家 专家

专家 人物

教授 教师

教师 人物

病毒 微生物

微生物 生物

评价指标

本任务采用精确率(Precision, P)、召回率(Recall, R)、F1值(F1-measure, F1)来评估效果。

对于Entity-Concept(实体-概念)类型关系,设??为实体集合,

??

??

为选手对第??个实体给出的类型集合,

??

??

为第??个实体的正确类型集合,相关计算公式如下:

Macro Precision(EC)=

1

|??|

??=1

|??|

??

??

,

??

??

=

|

??

??

??

??

|

|

??

??

|

Macro Recall(EC)=

1

|??|

??=1

|??|

??

??

,

??

??

=

|

??

??

??

??

|

|

??

??

|

Averaged F1(EC)=

1

|??|

??=1

|??|

2

??

??

??

??

??

??

+

??

??

对于Concept-Concept(概念-概念)上下位关系,设??为参赛队伍提交文件中的所有概念-概念对的集合,??为评测方标注文件中的所有概念-概念对的集合,相关计算公式如下:

??(????)=

|??

??

|

|??|

??(????)=

|??

??

|

|??|

??1(????)=

2????

??+??

最终得分 ??1

??????????????

=

Averaged F1

EC

+??1

????

/ 2

数据集

本任务总共包含3000左右实体,1000左右概念。任务本身的设置是无监督的,因此不提供训练集。测试集是主办方通过自动化实体类型推测和人工检验进行标注的。测试集上不允许参赛选手进行任何人工标注。

子任务三:新冠科研抗病毒药物图谱的链接预测

目前,由于新冠病毒的大范围传播,对人类健康和社会经济造成了重要的影响,因此抗病毒药物的研发变得尤为重要。病毒的核心是核酸分子(RNA或DNA)和蛋白质外壳,其寄生于宿主体内,通过一系列步骤进行复制增值。抗病毒药物可以靶向病毒复制的某个环节,发挥抗病毒作用。抗病毒药物研发中,研究者需要对各种抗病毒药物做大量生物实验,从而确定病毒抑制效果做,但是此步骤需花费大量时间。在大数据和人工智能时代,我们可以收集大量的临床和实验数据,利用AI算法对抗病毒药物和病毒的靶向作用、病毒蛋白和宿主蛋白的交互作用等进行预测。其中,抗病毒药物图谱是解决该问题的一种途径,通过构建抗病毒药物知识图谱,利用大规模图算法以及知识推理来预测抗病毒药物和病毒的靶向作用、病毒蛋白与宿主蛋白的交互作用。

抗病毒药物图谱是依据抗病毒药物、病毒、病毒相关蛋白和宿主及宿主蛋白间的关系来构建的知识图谱。抗病毒药物图谱可以为抗病毒药物的生物研究提供一定支持,用于辅助预测抗病毒药物对病毒的影响、病毒蛋白和人类蛋白的交互作用等问题。这类问题对抗病毒药物的研发和基于知识图谱的推理具有重大的实际意义和学术价值。

本任务基于抗病毒药物图谱进行关系预测,如药物和病毒的靶向作用、蛋白间的交互作用等。评测依据抗病毒药物图谱模式(Schema)和知识图谱的实体、实体属性、实体之间的关系,预测新的两个实体的关系。评测本身不限制各参赛队伍使用的模型、算法和技术。可以利用各种图算法模型,预训练等手段进行图谱上的关系预测,共同促进知识图谱技术的发展。

输入输出

输入

schema.json:知识图谱的图谱模式(Schema),即定义了知识图谱的实体类型(Entity)、实体属性名(Attribution key)和实体间的关系(Relationship)。

entities.json:实体列表,即病毒、药物、宿主蛋白、病毒蛋白等实体。

attrs.json:实体属性列表,即病毒的类型、药物的类型等等。

relationships.json:实体与实体之间的关系列表,即病毒-药物作用,病毒-病毒蛋白关系,病毒蛋白-宿主蛋白的关系等。

link_prediction.json:待评测的头实体或者尾实体和关系组成的对。

输出

result.txt:针对每个部分缺失的实体关系对所预测的对应top 10头或尾缺失实体队列集合(按可能性从高到低排序)。选手需要从队列中删除训练集已有链接的实体数据,防止占用并浪费队列位置。

输入样例

schema.json:

{

"entity_type": ["virus", "drug", ……],

"attrs": {

"virus": {"name": "string", "class": "string", ……},

"drug": {"name": "string", "indication": "string", "drug_type": "string", ……},

……

},

"relationships": [["drug", "effect", "virus"], ["virus", "produce", "virusProtein"], ["HostProtein", "interaction", "virusProtein"], ……],

}

entities.json:

{

"virus": ["Human papillomavirus 9", "Human adenovirus 28", "Equine arteritis virus Bucyrus", ...],

}

attrs.json:

{

"attrs": [["Equine arteritis virus Bucyrus", "alias", " Equine arteritis virus (strain Bucyrus) "], ...]

}

relaionships.json

{

"relationships": ["Equine arteritis virus Bucyrus", "produce", "RPOA"]

}

link_prediction.json

{

"relationships":

[

("Equine arteritis virus Bucyrus", "produce", "?"),

("?", "produce", "RPOA"),

……

]

}

输出样例

link_prediction.json:

{

"results":

[

[A1, B1, C1, D1, …],

[A2, B2, C2, D2, …],

……

]

}

知识图谱描述

如下图可视化展示,effect关系用于表示抗病毒药物对于病毒有一定效果,例如Abacavir和Lopinavir对Human immunodeficiency virus 1有抗病毒效果,通过本关系可查看抗病毒药物和对应病毒间的联系;

/

produce关系可用于挖掘病毒与其所表达蛋白间的express关系,并可进一步挖掘不同病毒与同一类型蛋白间的关系,进而发现两个病毒间的间接关系;再通过某病毒与某抗病毒药物间关系,又可发现某抗病毒药物和另一病毒的间接关系;可以帮助发现对于某一类型病毒蛋白可能有作用的更多药物。

Interaction和binding关系可以用于发现病毒蛋白与宿主蛋白间的相互作用,比如HIV1的NP(nucleoprotein)和Human的HYOU1 和间的binding关系;还有某些药物和HYOU1间的target关系,进而可以研究这些药物和HIV1的NP(nucleoprotein)间的作用。

通过belong to关系,可以明确哪些蛋白属于哪类宿主,这类宿主的哪些蛋白与病毒有相互作用关系等。在属性方面,我们又进一步从DrugBank挖掘了这些信息(商品名、化学式,分子重量,indication等),作为drug实体的属性,使得研究者可以更直观的了解某drug的一些重要信息。

评价指标

本次评测任务借鉴MRR (Mean reciprocal rank,平均倒数排名) 来评估构建效果,我们考虑多种关系预测:病毒-药物关系预测、蛋白-蛋白交互预测,病毒-病毒蛋白交互预测等,这些共同构成全局的关系预测。相关的定义如下:

MRR (Mean reciprocal rank,平均倒数排名):对于一个query,若第一个正确答案排在第n位,则MRR得分就是 1/??。

??????=

1

|??|

??=1

|??|

1

????????

??

其中,Q为样本query的集合(link_prediction.json),|Q|表示query的个数。

1

????????

??

=

1

??

(目标实体在第 ??个结果中命中)

0 (目标实体在所有结果中未命中)

每轮最多一次命中

数据集

本任务不允许使用公开的外部知识库。

本任务目前总共包含8000左右实体,50000左右的XX组。

数据集来源于正规网站的结构化数据,训练集与测试集的比例约15 : 1 。

子任务四:新冠知识图谱问答评测

本任务属于中文知识图谱自然语言问答任务,简称CKBQA (Chinese Knowledge Base Question Answering)。即输入一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型,不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取、语义解析等子任务。这些任务的训练可以使用额外的资源,但是最终的答案必须来自给定的知识库。

知识图谱问答在当前互联网信息爆炸、人工智能盛行的时代是十分有战略价值和研究意义的。一方面,传统搜索引擎是以网页资源为核心,依据关键词索引、文本匹配等方式进行检索并返回给用户相关网页链接,而用户很多时候需要的只是对一个具体问题的特定解答。另一方面,诸如智能音箱、智能问诊等新一代产品应用通常也需要依赖于特定的知识图谱响应用户的自然语言请求。例如智能问诊应用可以依据医药健康领域的知识库对患者的情况进行初步诊断。

本次知识图谱问答任务是在CCKS上举办的第三届。我们结合今年的时事,以发布在OpenKG上的新冠开放知识图谱为核心,以新型冠状病毒为切入点悉心构造了一定规模的针对健康、医药、疾病防控等特定主旨的问答数据。同时依然保留去年开放领域的问答数据以供参赛队伍对模型进行训练。我们期望参赛选手的问答系统既能处理各种百科类的浅层问题,也能处理具备一定领域知识(如流行疾病等)的较深层问题。在后续的任务中,我们可能会针对其他领域加入更多的问答数据。

本评测任务所使用的新冠开放知识图谱来源于OpenKG的新冠专题(http://openkg.cn/group/coronavirus)。其中包括健康、防控、百科、临床等多个具体数据集。我们将这些数据集整合到一起,同开放领域知识库PKUBASE一起作为问答任务的依据。

输入输出

输入

输入文件包含若干行中文问句。

输出

输出文件每一行对应 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。

张裕舟 XX工业大学 yzzhang@ir.hit.edu.cn

佘琪星 XX工业大学 qxshe@ir.hit.edu.cn

王某某 XX工业大学 bcwang@ir.hit.edu.cn

刘某某 XX工业大学 mliu@ir.hit.edu.cn

秦某某 XX工业大学 bqin@ir.hit.edu.cn

子任务三 新冠科研抗病毒药物图谱的链接预测

卢某某 华为云 ludongcai@huawei.com

王鹏 华为云 wangpeng231@huawei.com

陈某某 浙江大学 chenzhuo98@zju.edu.cn

子任务四 新冠知识图谱问答

胡某某 **_* husen@pku.edu.cn

林荫年 **_* linyinnian@pku.edu.cn

邹某某 **_* zoulei@pku.edu.cn

许某某 清华大学计算系 xubin@tsinghua.edu.cn

XX杰 妙健康 changdejie@miao.cn

刘某某 妙健康 liubangchang@miao.cn

[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]

以上为《1-CCKS2020技术评测-新冠知识图谱构建与问答》的无排版文字预览,完整格式请下载

下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。

图片预览