开发者社区 > 博文 > 直播线上实时翻译和流式字幕技术实践与应用
分享
  • 打开微信扫码分享

  • 点击前往QQ分享

  • 点击前往微博分享

  • 点击复制链接

直播线上实时翻译和流式字幕技术实践与应用

  • 京东科技开发者
  • 2022-01-17
  • IP归属:北京
  • 74960浏览

    直播线上实时翻译和流式字幕技术,区别于传统的线下翻译+字幕叠加硬件设备,创新性的采用云线上实时翻译+流式字幕叠加,通过API的方式实现直播视音频分离、音频转码、语音识别及转文本、文本翻译、自动审核、字幕返回等功能,并最终将流式字幕叠加到直播源流中,语音识别、转写及翻译准确率预计可达90%以上,并拥有自动校正功能,在保证字幕效果的情况下,极大的节省了使用成本,且系统支持动态扩缩容,便捷高效。


    技术实现原理是将直播流进行音频流剥离,利用AI语音能力将直播流中的音频流进行实时识别、转写,同时进行多语言翻译及内容审核,过滤敏感内容,保障内容的安全合规,最终将识别的原语言和翻译语言以实时字幕的方式叠加到直播流中,让用户可以在观看直播画面、声音的同时可以获取文字维度的信息,极大的提升用户的观看体验。


    直播线上1.jpg

    技术方案架构图


    模块组成:


    直播线上2.jpg


    业务实现流程:

      业务层对接视频云PaaS平台,开启功能并配置翻译模板;
      现场推流到CDN边缘节点;
      CDN转推到视频云PaaS平台;
      视频云PaaS平台进行直播流调度及转发、音频流剥离并发送给AI语音服务平台;
      视频云PaaS平台获取转写及翻译音频流接收,并进行音视频流合并;
      将合成字幕后的视频云流进行转码、源流及含字幕流切片、录制等,支持时移回看、录制文件回放等,然后将含字幕的直播流转推给CDN;
      终端平台播放器从CDN获取转码流播放。


    技术优势:

    ● 分析语音数据的处理速度,拿到字幕数据的延迟,在输入层对视频数据进行延迟控制,最终可以控制在1s以内,实现直播声音、画面、字幕完美同步的良好体验;
     字幕模板动态灵活配置,支持自定义位置、字体大小、颜色、背景色等;
     支持灵活配置开启或关闭字幕:比如中场休息、播放宣传片或者其他广告内容时,可以关闭字幕;
    ● 区别于传统的线下翻译+字幕叠加硬件设备,创新性的云线上实时翻译+字幕叠加,通过API的方式实现全部流程,且只支持的并发路数可以动态扩缩容,提升使用和运维效率;另外相比传统的线下实现方式,综合降本预计高达95%以上。

    实践过程中遇到的难点:

      听写以及翻译的准确性,需要根据不同的场景进行定制训练;
      声音、画面、字幕的同步控制。

    技术应用场景:

    该技术可以广泛的应用于电商、会展、融媒、教育等领域,比如在电商领域,可以帮助企业聚焦直播带货出海业务场景,通过云端实时翻译+多语言字幕的技术手段,降低海外地区用户的观看门槛,提升直播观看量,从而提升商品购买转化率和GMV;在会展行业,可以完美替代同传和线下硬件设备,大大降低会展直播成本。


    技术实践:

    该技术在2021年相继应用于服贸会、亚欧商品贸易博览会、商洽会等国际性展会项目中。