视频超分技术实践与应用-京东云开发者社区

01 概述

视频超分是通过深度学习技术，针对视频画面和场景进行分析，结合视频降噪、去模糊、锐化、去抖动等画质增强等处理，为视频场景带来更好的画质观看体验，同时有效的降低视频的制作和传输成本。

基于在视频编解码技术、算法、汇编优化等方面的技术积累，京东云视频云近期正式推出移动端超分SDK产品，包括Android和IOS等主流端，并实际应用在京东商城APP中，经过长期数据迭代和数据监测的验证，开启超分后用户平均播放时长提升80%，同时流量带宽成本降低30%，有效提升了用户体验和GMV转化。

02 技术实现

现有图像及视频超分的技术主要分为两类，SISR和VSR，前者基于单帧图像实现一对一超分，后者结合多视频帧时域属性实现多对一超分，目前京东云视频云已经具备完整的图像及视频超分解决方案，在直播和点播场景下已落地实现，下面主要针对实时直播场景，详细描述超分赋能业务的技术实现。

目前SISR主要分linear networks、redisual networks、recursive networks、GAN models等九类方法，因直播业务场景对实时性、运算复杂度、稳定性等有极高要求，我们主要采用linear networks算法ESPCN，并结合视频ROI特性，进行工程化改进，优化视频处理流程，对毛刺、块效应、文字虚化、视频抖动等针对性处理，提升视频观看体验。

ESPCN将上采样移至卷积运算后，首先在LR层进行图像特征提取和非线性特征映射，最后才采用亚像素卷积实现向上采样，较传统的SRCNN已节省不少网络计算，本实现结合视频特性，基于ROI将视频分割成多slices，按宏块整数分割成长条、矩形、方形等规则编码条带，分为ROI区及非ROI区，

ROI区基于ESPCN超分，非ROI区采用传统向上采样算法Bicubic,最终拼接完整YUV/RGB整帧图像，这样可将基于整幅图像的复杂度及计算量最大的卷积运算，分割并聚焦到区域图像卷积，极大提升运算复杂度，可实时、更低性能实现1080p至4k超分，单帧图像处理流程见下图：

03 整体架构

人眼对亮度信号非常敏感，因此需要对亮度信号进行超分重建，色度信号通过传统差值方法重建高分辨率信号。

超分2.jpg

图3 处理过程

处理过程如图所示，首先进行视频解码，得到低分辨率视频图像，然后再进行亮度和色度信号分解，分别进行增强处理。增强后的亮度信号进行超分重建，而增强后的色度信号进行上采样处理，得到高分辨率的色度和亮度信号。最后把亮度和色度信号合并，YUV转RGB，最终显示高分辨率视频图像。

04 技术应用

京东云视频云移动端超分SDK在京东商城APP上的实际应用效果如下：

超分3.jpg

超分主观效果对比

超分4.jpg

超分主观效果对比

超分/传统方法 vs 源
视频	PSNR	VMAF	SSIM
540x960	33.43/30.21	92.325325/78.163467	0.917754/0.832233
424x430	32.55/30.43	93.455247/79.474218	0.924242/0.896367

客观评测数据对比

超分5.jpg

功耗性能对比

作为国内领先的视频云服务商，京东云视频云产品涵盖视频直播、视频点播、实时音视频平台、全端SDK等，打通了视频采、编、播、存、管、审、发全流程。基于在视频编码、算法优化、音频分析处理、实时音视频等方面的技术突破，产品在京享超清转码、舒适音频、实时音视频通信、超低延时直播等功能方面拥有相对领先的技术优势，同时可以为客户提供场景化的视频端到端的整体解决方案。