您好!
欢迎来到京东云开发者社区
登录
首页
博文
课程
大赛
工具
用户中心
开源
首页
博文
课程
大赛
工具
开源
更多
用户中心
开发者社区
>
博文
>
一种融合指代消解序列标注方法在中文人名识别上的应用(下)
分享
打开微信扫码分享
点击前往QQ分享
点击前往微博分享
点击复制链接
一种融合指代消解序列标注方法在中文人名识别上的应用(下)
jd****
2024-04-02
IP归属:北京
100浏览
[一种融合指代消解序列标注方法在中文人名识别上的应用(上)](http://sd.jd.com/article/17679?shareId=219336&isHideShareButton=1)(续) ## 二、使用了BERT模型和指代消解算法: * 加入BERT语言预处理模型,获取到高质量动态词向量。 * 融入指代消解算法,根据指代词找出符合要求的子串/短语。 ### 【2】融入指代消解算法,根据指代词找出符合要求的子串/短语 ![image.png](https://s3.cn-north-1.jdcloud-oss.com/shendengbucket1/2023-07-20-12-21pHQErLpsqcCHWBd.png) 指代消解算法如图2所示,简单来说,就是考虑文档中子串/短语以及学习子串/短语的可能指代。通过分词器将句子y分割为a~e五个字,将其作为输入传给模型中的BiLSTM模块,然后提取实体识别所需的特征,进行注意力机制任务,将得到的结果进行拼接、剪枝处理,得到可能性最大的指代的子串/短语,进而优化目标。 这里的指代消解算法是在使用启发式Max-Margin损失函数的基础上,利用增强策略梯度算法工作的。每个行为 a=(c,m) 的概率定义如公式(1)所示, 损失函数定义如公式(2)所示。 ![image.png](https://s3.cn-north-1.jdcloud-oss.com/shendengbucket1/2023-07-20-12-29w29d48Y2020TLW20NRAH.png) ![image.png](https://s3.cn-north-1.jdcloud-oss.com/shendengbucket1/2023-07-20-12-17wKE7gLiUjGnyJjj.png) 为使获得奖励值最大,采用梯度上升法进行参数更新,由于梯度值计算困难,现采用一种梯度估值,定义如公式(3)、(4),进行原文替换。 调研发现,此处可以引入一个语义匹配层及网页语义知识,来弥补知识库不全覆盖的问题。在此基础上,本文找到一种基于小文本的BERT-NER的中文指代消解框架,它可以获得更高的准确率和更好的效果,同时实现主语补齐的功能,功能实现如图3所示。 ![image.png](https://s3.cn-north-1.jdcloud-oss.com/shendengbucket1/2023-07-20-12-29PmN20zquPAqnPYEy.png) 由于数据中包含人名指代词的文本在海量数据中占比较少,所以本文可进行小文本的模型训练。加入指代消解算法后,将消解前后的舆情公告数据文本进行比较,测验效果见图4。 ![image.png](https://s3.cn-north-1.jdcloud-oss.com/shendengbucket1/2023-07-20-12-29207729qm20qGlH9Nrh.png) ### 【3】融入的指代消解算法,比加入外部语料和字符级特征更通用有效 当下与本文类似的提高人名识别效率的研究中,多特征BiLSTM-CRF模型(后续简写为多特征模型)识别方法具有代表性,该模型改善了影评中称谓不明等问题,在电影行业上取得了显著效果。 本文为了体现融合指代消解的序列标注方法更胜一筹,利用人民日报数据集和上市公告数据集,比较融合指代消解的序列标注的方法和加入外部人名语料和特定字符级特征的序列标注的方法,得出融入指代消解的人名识别方法要比加入外部人名语料和特定字符级特征的模型的效果更好。 所以在一般情况下,融合指代消解的序列标注方法会比其他形式,诸如加入外部人名语料和特定字符级特征的序列标注方法更能改进人名识别的准确率。 在公共数据集和舆情公告数据集上,融合指代消解的序列标注方法和加入外部人名语料和特定字符级特征方法的比较,前者效果更好。 ## 总结 > 本文提出的融合指代消解序列标注方法,在以下四个方面有较强的创新性 * 数据预处理阶段,根据职务变更等有效信息进行数据增强 * 加入BERT语言预处理模型,获取到高质量动态词向量 * 融入指代消解算法,根据指代词找出符合要求的子串/短语 * 融入的指代消解算法,比加入外部语料和字符级特征更通用有效 <span style="color: #b8b8b8">该算法未来将拓展至机构名、地名以及其他所有以名称为标识的实体,能更好的服务于京东小程序客户体验中的寄收件地址的文本识别中,提高相关识别的准确率。</span>
上一篇:京东为openKylin新增SBOM利器,保障软件供应链安全和可追溯性!
下一篇:万字长文,聊聊我在锦礼成长的这一年
jd****
文章数
7
阅读量
0
作者其他文章
01
记录一次「OSS上传文件的前置处理机制」实例剖析
引言在云计算环境中,对象存储服务(OSS)是一种提供存储和访问任意类型数据(如网站内容、企业备份数据、游戏、IoT 设备数据等)的服务,支持从任何地点、任何时间访问数据。在很多应用场景中,用户需要上传文件到 OSS,这可能包括图片、视频、文档等多种格式的文件。为了提高效率、保障安全和优化用户体验,实现文件上传的前置处理机制变得尤为重要。前置处理机制文件压缩是一个重要的前置处理步骤。它不仅可以减少文
01
移动端设备上稀奇古怪的前端问题收集(一)
作为一名开发者,bug 往往是我们最怕遇见的东西;而比遇到 bug 更可怕的事情,是定位不到 bug。作为一名前端开发者,与业务逻辑相关的 bug 还相对好定位、好解决一些;而一些与语法特性、平台与设备差异相关的 bug 则更令人头疼一些。这里记录下我在工作中遇到过的稀奇古怪的前端问题,作为给自己的记录和提醒。用 vh 定义全屏显示的问题 很多页面因为设计效果的需要,要求正好
01
暗水印——变换域DCT水印算法(一种通用性强,能有抵御攻击的手段)
引言 随着计算机和网络技术的飞速发展,信息的安全保护问题日益突出。数字图像、音频和视频等多媒体数字产品愈来愈需要一种有效的版权保护方法——水印技术,通常用于保护知识产权、防止未经授权的访问、作弊等。 广义上可以把水印技术划分为四大类:图像水印、视频水印、音频水印和文本水印。这些水印技术都有其独特的特点和应用场景,需要根据具体的数字媒体保护需求进行选择使用。技术与实践意义 本文
01
暗水印——空域:二值化图像水印(看不见我吧 啦啦啦~)
引言 随着计算机和网络技术的飞速发展,信息的安全保护问题日益突出。数字图像、音频和视频等多媒体数字产品愈来愈需要一种有效的版权保护方法——水印技术,通常用于保护知识产权、防止未经授权的访问、作弊等。 广义上可以把水印技术划分为四大类:图像水印、视频水印、音频水印和文本水印。这些水印技术都有其独特的特点和应用场景,需要根据具体的数字媒体保护需求进行选择使用。技术与实践意义 本文以“
jd****
文章数
7
阅读量
0
作者其他文章
01
记录一次「OSS上传文件的前置处理机制」实例剖析
01
移动端设备上稀奇古怪的前端问题收集(一)
01
暗水印——变换域DCT水印算法(一种通用性强,能有抵御攻击的手段)
01
暗水印——空域:二值化图像水印(看不见我吧 啦啦啦~)
添加企业微信
获取1V1专业服务
扫码关注
京东云开发者公众号