发布时间:2024-09-07 13:01
本月,计算机视觉和模式识别领域顶级会议 CVPR 将在美国新奥尔良市举办,同期计算机图像恢复领域最具影响力的全球性赛事 NTIRE 将在会上颁奖。在 NTIRE 高效率超分辨率挑战赛中,网易云信音视频实验室从众多参赛团队中脱颖而出,在总体性能赛道以明显优势获得冠军,展现了云信在视频超分技术领域的顶尖实力。
计算机视觉顶级赛事
高校大厂同台竞技
NTIRE 全称是 New Trends in Image Restoration and Enhancement,即“图像恢复与增强的新趋势”,由苏黎世联邦理工学院计算机视觉实验室组织,与计算机视觉和模式识别领域全球顶级会议 CVPR(IEEE Conference on Computer Vision and Pattern Recognition)共同举办,是全球范围内计算机图像恢复领域最具权威性和代表性的赛事,每年都会吸引大量的优秀团队参赛。
NTIRE 2022 年挑战赛共分为 10 个赛道,其中高效率超分辨率(Efficient Super-Resolution)是最为热门的赛道之一。为了全面、公平地评估参赛队伍所提交模型的性能,本次比赛分为三个赛道,包括运行时间(Runtime)、模型复杂度(Model Complexity)和总体性能(Overall Performance)。共计 303 支来自学术界和工业界的队伍注册,最终有 43 支队伍提交了有效结果,包括清华大学、南京大学、武汉大学、电子科技大学等知名高校和科研机构,以及腾讯、字节跳动、阿里巴巴、华为、旷视科技等知名高科技企业,其中很多团队都具备多年参赛经验,竞争极其激烈。
作为首次参赛的新人队伍,网易云信音视频实验室一鸣惊人,在总体性能赛道一举夺得冠军,在运行时间和模型复杂度赛道分别获得第三名和第四名的优异成绩。
这是继网易云信音频技术研究成果受到 inter-noise 和 ICASSP 两大业内顶级会议认可后,在视频技术领域取得的首个国际认可的突破性成绩,展现了云信在音频和视频技术领域全面的研究能力和创新实力。
视频超分需求凸显
网易云信算法模型勇夺桂冠
近年来,互联网视频数据呈爆炸式增长,同时,为了满足人们对视频高质量体验的需求,视频的分辨率也越来越高。但是受传输带宽、下发策略等多种因素影响,用户所观看的视频难免会有分辨率低、质量较差等问题,这势必会影响观看的清晰度体验。视频超分辨率技术旨在从低分辨率输入中恢复出视觉质量更佳的高分辨率输出,可以有效地解决视频质量不佳的问题,从而满足播放端用户对于极致高清画质的需求。超分技术在直播、点播、监控设备、视频编解码、卫星图像遥感、数字高清、显微成像、视频复原和医学影像等领域都有重要的应用价值。
在本次 NTIRE 高效率超分挑战赛中,网易云信音视频实验室 NEESR 团队提出了一种面向边缘的高效特征蒸馏网络(EFDN)。该方法主干网络采用了高效的残差特征蒸馏模块(RFDB),结合了浅层差分连接以及增强空间注意力(ESA)模块,通过使用 1x1 卷积来进行特征蒸馏,并且降低了通道数。为了提升模型的精度以及降低模型的开销,该方法基于结构重参数的思想,在训练阶段用面向边缘的卷积块(ECB)代替残差特征蒸馏模块(RFDB)中的SRB浅残差块,在推理阶段将面向边缘的卷积块(ECB)转换为普通的 3x3 卷积层,可以更高效地提取图像的纹理信息和边缘信息,在降低开销的同时提升网络性能;同时对增强空间注意力(ESA)模块进行裁剪,减少参数量以及增加池化层步长,进一步减少了算法开销。
在综合考量运行时间、参数量、计算量、激活函数和 GPU 内存五个指标后,网易云信超分模型在总体性能赛道一举夺魁。
算法工程双管齐下
解决移动端实时超分难题
移动互联网时代,以手机、平板电脑为代表的移动端作为视频内容最重要的承载平台,负责着大量 PGC 和 UGC 视频的播放。然而,在移动端部署实时视频超分技术受限于算力有限、算法计算复杂度高等问题,面临着巨大的挑战。网易云信从算法和工程方面进行了多维度技术攻坚,克服了超分算法极高的性能要求和移动端有限算力之间的鸿沟,实现了针对移动端的实时视频超分算法。
在算法层面,网易云信音视频实验室在 NTIRE 2022 高效率超分挑战赛参赛模型——一种面向边缘的高效特征蒸馏模块(EFDN)的基础上,利用通道剪枝、知识蒸馏等模型压缩技术在优化后的模型架构上进一步减少模型中冗余的参数,去掉对模型性能贡献小的通道,达到减小模型复杂度的目的。同时采用量化技术将权重以低比特存储,从而减小模型体积,加速计算。在工程层面,通过 SIMD、模型内存优化、数据排布优化等优化方法节省内存开销以及推理耗时,同时深度结合业务场景实现算法在渲染管线与设备之间内存零拷贝,完成了算法的高性能落地。
目前网易云信实时视频超分方案已在多个业务场景落地,并带来了众多实际效果。利用高端机屏幕的高分辨率优势,实现了低清视频高清播放、高清视频可选超高清画质,提升了用户的视频观看体验。另外,通过服务端降低转码分发视频分辨率,结合客户端超分处理呈现高分辨率效果,降低了高清视频播放门槛,提升了流畅度,减轻了用户的网络压力。
左:原视频, 右:超分后视频
作为行业内首批音视频 AI 实验室之一,网易云信音视频实验室未来将继续探索“AI+音视频”前沿技术方向,并将业界领先的算法模型应用于产品和场景中,为用户打造极致的视觉和听觉体验。