NLP带来的“科幻感”超乎你的想象 - ACL2020论文解读（一）-京东云开发者社区

近些年，人工智能无疑是信息技术领域最热门的技术之一。人工智能战胜世界围棋冠军、人工智能战胜游戏高手、人工智能医生看病会诊……不断进步的科技正推动着人工智能从一个无法实现的幻想，不断突破人类的想象，完成一个又一个挑战。

AI写科幻剧本？科幻小说都不敢写

2018年，在全球科幻电影节（ Sci-Fi London Film Festival）上的一项名为“48小时内电影创作挑战”（SFL 48 Hour Film Challenge）的活动中，来自纽约的导演Oscar Sharp和他在纽约大学AI研究院的同事Ross Goodwin利用人工智能（这套人工智能称自己为Benjamin）创作出了一个剧本，并在48小时内将这个剧本拍摄出来了。虽然电影只有短短 9 分钟，但这也是世界上第一部由AI创作并拍摄出来的电影，这在以前是科幻小说都不敢写的故事。

在此之后，人工智能在电影业中不断得到更多落地应用。

现在，使用机器编写剧本的想法正在受到如Netflix、Hulu、好莱坞等世界级影视科技公司的青睐。

人工智能剧本创作的关键技术

——自然语言生成

而在使用人工智能进行影视剧本创作中，NLP 领域的自然语言生成技术是其中的关键技术之一。

但自然语言生成技术的应用场景和研究意义远不止于影视剧本创作。在电商场景下，可用于营销内容生成以及面向复杂问题回答与人机交互的自动文本生成；融媒体场景下，结合文本与语音合成技术可应用于新闻自动播报、直播文字、多语言/跨语言自动文摘。

相关内容可点击查看：

➡️京东商城背后AI技术揭秘（一）——基于关键词自动生成摘要

➡️京东商城背后AI技术揭秘（二）——基于商品要素的多模态商品摘要

NLP 最高级别学术认可

——ACL 论文收录

近日，ACL 2020 公布了今年大会的论文录用结果。ACL 会议是NLP领域级别最高的国际学术会议，致力于推动自然语言处理相关研究的发展和国际学术交流。

根据官方公布的数据，本届大会共收到 3429 篇投稿论文，投稿数量创下了所有 ACL 旗下会议新高。ACL 除了在国际 AI 学界具有顶级影响力外，其审稿规范和审稿质量，也是当今 AI 领域国际顶级会议中公认的翘楚，论文被录取的难度十分高。以 2019 ACL 为例，论文录取率仅为 22.7% 。因此，研究论文能够被 ACL 录用，不仅意味着研究成果得到了国际学术界的认可，也证明了研究本身在实验严谨性、思路创新性等方面的实力。

京东 AI 研究院专注于持续性的算法创新，80% 的研究都由京东实际的业务场景需求为驱动，聚焦 NLP语音、计算机视觉、机器学习（包括深度学习和强化学习）等领域。在 ACL 2020 中，京东 AI 研究院提交的多篇论文经过重重审核，最终被大会收录。

今天，我们就将为大家解读其中的一篇：Self-Attention Guided Copy Mechanism for Abstractive Summarization

论文对现有自动文摘的研究方法进行了优化，使通过该新模型生成的摘要内容更加精确。

论文解读

近日，ACL 2020 公布了今年大会的论文录用结果。ACL 会议是NLP领域级别最高的国际学术会议，致力于推动自然语言处理相关研究的发展和国际学术交流。

近日，ACL 2020 公布了今年大会的论文录用结果。根据官方公布的数据，本届大会共收到 3429 篇投稿论文，投稿数量创下了所有 ACL 旗下会议新高。

今天，我们就将为大家解读其中的一篇：Self-Attention Guided Copy Mechanism for Abstractive Summarization

论文对现有自动文摘的研究方法进行了优化，使通过该新模型生成的摘要内容更加精确。

《Attention is all you need》提出了基于自注意力机制的Transformer框架，在机器翻译任务上超过了当时其他的模型。简单来说，自注意力机制将文本中的词两两计算相似度，然后对这些相似度进行归一化得到权重矩阵，最后将这些权重和相应的词进行加权求和得到下层的隐层表达。复制机制是自动文摘模型中的一个常用机制。

传统的文本生成在计算生成每个词的概率时，所有的词被限制在一个固定大小的词表中，即生成的词必须来自于这个固定大小的词表。复制机制除了会在这个固定大小的词表中生成某个词，还会选择性的在输入文本中选择一个词，这个词不受词表限制。复制机制实际上和人类在做摘要时的逻辑相吻合，即输入文本中的某些词，尤其是那些关键词，组成了这个文本的主干。

我们只需要将这些关键词从输入中“复制”到输出中，然后再做一个适当的加工，使输出的摘要更加自然。复制机制的动机就是自动识别出这些关键词，然后将其“复制”到输出摘要中。TextRank算法一种基于图模型的经典抽取式自动文摘方法，其基本思想来源于谷歌的 PageRank算法。TextRank算法通常会把输入文本分割成若干基本单元并建立图模型, 利用基本单元间关系组成的邻接矩阵进行随机游走，获得各基本单元的入度中心度得分，基于该得分可以对文本基本单元进行排序。

回到主线，本文提出的模型是基于自注意力机制的Transformer模型，并融入了复制机制，即每个词的输出概率为生成概率和复制概率的加权相加： $P(w)=p_{gen} P_{vocab} (w)+(1-p_{gen})P_{copy} (w)$

其中 $P_{gen}$ 为生成模式的权重， $P_{vocab}(w)$ 为生成概率，为复制概率。本文采用了编码器-解码器之间的注意力权重 $a^t$ 作为复制概率： $a_i^t=softmax(\frac{(W_s s_t)^TW_hh_i}{ \sqrt{d_k}})$

其中 $s_t$ 是解码器时刻的隐层状态， $h_i$ 是编码器第个输入对应的隐层状态， $d_k$ 为隐层状态维度。

上文提到，自动文摘模型希望通过复制机制将输入文本中的重要词复制到输出中，但由于使用注意力权重作为复制概率，并不能显式地识别出哪些词是重要的词。我们需要找到一个合适的方式显式地为输入文本中的词的重要性进行打分，进而指导模型的复制机制，改善复制的效果。TextRank算法利用邻接矩阵计算输入文本中每个词的重要性得分。

我们注意到，Transformer模型的自注意力机制提供了输入文本中的词两两之间的权重，该权重矩阵可以作为TextRank算法的邻接矩阵。基于这个邻接矩阵，通过随机游走，我们可以得到输入文本中的词的入度中心度得分，以此作为词的重要性得分 $score_j$ ，进而指导复制概率，公式如下：

$a_i^t=softmax(\frac{(W_s s_t)^TW_hh_i+w_pscore_j}{ \sqrt{d_k}})$