产业实践推动科技创新，京东科技集团3篇论文入选ICASSP 2021-京东云开发者社区

ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕，凭借在语音技术领域的扎实积累和前沿创新，京东科技集团的3篇论文已经被 ICASSP 2021接收。

ICASSP全称International Conference on Acoustics, Speech and Signal Processing（国际声学、语音与信号处理会议），是由IEEE主办的全世界最大的，也是最全面的信号处理及其应用方面的顶级学术会议。京东科技集团此次的入选论文，在国际舞台全方位展示了自身在语音增强、语音合成、多轮对话方面的实力。

01 Neural Kalman Filtering for Speech Enhancement

基于神经卡尔曼滤波的语音增强算法研究

*论文链接：https://arxiv.org/abs/2007.13962

由于复杂环境噪声的存在，语音增强在人机语音交互系统中扮演重要的角色。基于统计机器学习的语音增强算法通常采用机器学习领域现有的常用模块（如全连接网络、递归神经网络、卷积神经网络等）构建增强系统。然而，如何将传统语音信号处理中基于专家知识的最优化滤波器设计理论，有效地应用到基于机器学习的语音增强系统中仍是一个仍未解决的问题。

京东科技集团入选论文《Neural Kalman Filtering for Speech Enhancement基于神经卡尔曼滤波的语音增强算法研究》提出了神经卡尔曼滤波的语音增强框架，将神经网络和最优滤波器理论有机结合，并采用监督学习方法训练得到卡尔曼滤波的最优权重。

▲图1：神经卡尔曼滤波模型示意图▲

研究人员首先构建了基于递归神经网络的语音时序变化模型。和传统的卡尔曼滤波器相比，该模型摒除了语音变化服从线性预测模型的非合理假设，可以针对实际语音的非线性变化进行建模。一方面，基于该时序模型和卡尔曼隐状态向量信息，算法首先得到语音长时包络预测。另一方面，通过融合当前时刻的观测信息，系统进一步求解基于传统信号处理的维纳滤波的语音频谱预测。系统最终输出是语音长时包络预测和维纳滤波预测的线性组合。基于传统卡尔曼滤波器理论，本系统直接得到线性组合权重的最优解，通过设计端到端系统，可以同步更新语音时变网络、和维纳滤波器相关的噪声估计网络的权重。本研究基于Librispeech语音集、PNL-100Nonspeech-Sounds和MUSAN噪声集的实验结果表明，所提算法在信噪比增益、语音感知质量（PESQ）和语音可懂度（STOI）指标上均取得了比传统基于UNET和CRNN框架的语音增强算法更好的性能。

02 Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis

基于跨句信息的端到端语音合成韵律建模

*论文链接：

https://www.zhuanzhi.ai/paper/92135c7f518e7cda63f7fcb4b940a4c1

尽管目前基于端到端的语音合成技术已经实现了比较自然，韵律相对丰富的语音合成效果，但是并没有采用篇章结构信息而是只采用了当前句的语言学特征进行语音合成。通常，韵律信息是和上下文的篇章结构强烈相关的，同样的一句文本在不同的上下文语境下会有完全不同的韵律表现，因此只用当前句子文本特征进行语音合成的端到端系统在合成一段文本的时候，很难根据上下文信息将一段文本转换为自然的、韵律表现丰富的语音。

京东科技集团入选论文《Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis基于跨句信息的端到端语音合成韵律建模》采用了目前主流的BERT模型来提取待合成文本的跨句特征向量，然后利用该上下文向量改善基于端到端的语音合成模型的韵律效果。

▲图2：模型结构示意图▲

研究人员没有采用任何显示的韵律控制信息，而是通过BERT语言模型提取了待合成句子的上下文句子的跨句特征表征，并且将该特征表示作为了目前主流的端到端的语音合成算法的额外输入。论文探讨了两种不同跨句特征的使用方式，第一种是将所有的上下文句子的跨句特征拼接起来用来作为端到端的语音合成系统的一个整体的输入，第二种方式是将所有的上下文句子的跨句特征作为一个序列，然后用待合成文本的每个语音单元和这个序列进行注意力计算，然后可以通过计算得到的注意力进行对上下文句子的跨句特征进行加权求和计算得到每个语音单元对应的跨句特征。第二种跨句特征使用方式，可以让每个发音单元得到一个细粒度的、对当前单元发音有帮助的跨句特征。

实验结果表明，本研究在端到端的语音合成系统中结合跨句特征之后，可以有效的改善合成段落文本自然度和表现力。本研究分别在中文和英文有声读物的数据集上验证了这一实验结果。并且，在对比测试结果中，相比我们的基于端到端的基线模型，绝大部分测试者更加喜欢本研究中结合了跨句向量表征的语音合成算法合成出的音频。

03 Conversational Query Rewriting with Self-supervised Learning

基于自监督学习的对话Query改写

*论文链接：

https://github.com/note-lh/paper/blob/main/Conversational_Query_Rewriting_with_Self-supervised_Learning.pdf

在多轮对话系统中，用户倾向于简短、口语化的表达，表述中存在着大量信息缺失和指代的现象。这些现象导致了对话机器人难以理解用户的真实意图，大大增加了系统应答的难度。为提高对话系统的水平，Query改写根据用户的历史会话，补全用户的话语，以恢复所有省略和指代的信息。然而，目前存在的Query改写技术均采用监督的学习方法，模型的效果严重受限于标注数据的规模，对技术在真实业务场景的落地产生了较大的阻碍。另外，用户问题在发生改写后，意图是否发生变化并没有受到已有工作的关注，如何保证用户问题在改写后的意图一致性仍是一个亟待解决的问题。京东科技集团入选论文《Conversational Query Rewriting with Self-supervised Learning 基于自监督学习的对话Query改写》提出了自监督的Query改写方法。当用户问题与历史会话出现共现词语时，会以特定地概率删除共现词或者采用代词进行替换，最后Query改写模型根据历史会话还原出用户的原始问题。相较于监督学习方法，自监督的学习方式可低成本的获取大量训练数据，充分发挥模型的表征学习能力。

京东研究人员还进一步提出改进模型Teresa, 从两个方面提高改写模型的质量和准确性。一是在Transformer编码层引入关键词检测模块，提取关键词指导句子生成。首先对历史会话(context)的编码输出构建自注意力图，得到历史会话中词语之间的关联度；然后利用Text Rank算法计算词语的重要性得分；最后词语的重要性得分作为先验信息融入解码器，指导模型生成含有更多关键信息的问句。二是提出意图一致性模块，在Transformer编码器的输入文本中增加一个特殊标签[CLS], 获取文本内容的意图分布，通过约束意图分布保持意图一致性。原始会话（Context, Query）与生成的句子(Target)共享Transformer编码器，分别得到改写前后的意图分布，我们将两者的分布保持一致，进而保证生成句子的意图一致性。

京东科技集团作为京东对外提供技术服务的核心板块，一直致力于前沿研究探索，并持续以科技引领，助力城市和产业实现数智化升级。截至目前，京东科技集团在AAAI、IJCAI、CVPR、KDD、NeurIPS、ICML、ACL、ICASSP等国际AI顶级会议上共发表相关论文近350+篇，并在多项国际性学术赛事中斩获19项世界第一。相信未来，京东科技集团将持续在语音语义、计算机视觉、机器学习等领域发力，以科技助力实体经济，切实改变每个人的生活。