2019年4月2日,京东AI研究院自然语言处理组在最难之一的WikiHop机器阅读数据集中以74.3%的盲测试集精准度斩获WikiHop数据集排行榜第一,并超越该数据集官方给出的人类表现水平74.1%的精准度。
值得一提的是,京东AI已计划将自主研发的这些优秀机器阅读能力应用于人工智能导购,虚拟个人助理,城市助手,合理用药引擎等多个领域,旨在降低成本、提高效率、提升体验。
WikiHop数据集是伦敦大学学院(UCL)机器学习组提出的一个需要跨多文档、多跳推理的机器阅读理解数据库。每一个WikiHop的样本有一个问题,多个支持文档,和一个备选答案集,模型需要根据问题从多个文档中搜集证据,最后从备选答案集中挑选出正确的答案。由于其更具挑战性的设置,WikiHop阅读理解数据集一经发布吸引了全球众多高校和科研机构的参与,包括来自卡耐基梅隆大学,南洋理工大学,Facebook AI研究院,IBM,罗切斯特大学,阿姆斯特丹大学,爱丁堡大学以及Salesforce等多个研究小组。
▲WikiHop数据集最新成绩榜单(截至2019年4月2日)
WikiHop数据集存在多种挑战。首先,相比于SQuAD这类只需要从单个文档中寻找答案的阅读理解数据集,WikiHop每一个样本都是多个文档,以此来考察模型从多个信息来源提取证据的能力。其次,多数的WikiHop样本必须根据多个文档才能给出答案,仅仅依靠单个文档不足以回答相应的问题,这就要求模型必须具有多跳推理的能力。例如下图中,问题是“巨魔”这个儿童故事的诞生国家,第一个支持文档提到了“巨魔“的作者之一朱莉亚%uB7唐纳森。第二个支持文档提到朱莉亚%uB7唐纳森是2011-2013年Children’s Laureate奖的获得者。第三个支持文档提到Children’s Laureate奖是联合王国(英国)所设置的。综合以上信息可以得出答案应该是“联合王国”。
人类的知识大多是通过阅读获得,所以机器阅读技术在智能对话与服务中有极高的应用价值,是对话引擎的知识的重要来源之一。在中国,技术与产业的融合正在如火如荼进行,在全球,学术研究也越来越关注技术的应用价值。这次京东在机器阅读技术上的突破性研究,也将对许多相关的应用带来创新。
此外,这一最新技术在京东的业务中会有广泛的应用,在诸如内容审核、评论观点抽取、情感分析、情感客服等多个场景中,都需要大规模的机器阅读技术处理海量的数据。目前京东已将一系列的AI能力已沉淀到京东人工智能开放平台NeuHub之上,2018年11.11期间,NeuHub平台的累计调用量达到148.7亿次。