从编解码到 WebRTC，实时互联网技术标准的演进

BYXG_shengwang 2018-08-02 4441

电子说

1.4w人已加入

描述

从编解码到 WebRTC，实时互联网技术标准的演进，影响着行业里每个公司的战略与技术选型。尽管 H.264 仍然是覆盖最广的主流标准，但 HEVC 、VP9、AV1 在编码效率上都更具优势。

在过去一年里，H.265/HEVC 正式推出已是第5年个年头，尽管 Apple 将它添加到 HLS，但其还会面对哪些机遇？今年3月以草案形式发布的AV1，在行业中备受关注，其实际应用效果如何？有哪些实践案例？国内 AVS 标准，相比其它编解码技术有哪些优势？WebRTC 1.0 之后将面对哪些挑战？

关于编解码与 WebRTC 最新的技术实践与演进趋势，在本届 RTC 2018 实时互联网大会上，你将听到最官方的解答。

四大亮点话题，不虚此行

亮点一：临境通信与智能交互中的声信号获取、处理与重构

语音通信与人机语音交互原本是两个不同的领域，但随着技术的发展，这两个领域无论是在自身的技术需求还是在面对应用的需求方面都出现了高度交叉，尤其是在声信号获取、处理与重构方面，两者均需要在复杂场景下实现高保真、高质量的远场拾音，并保留和重构信号及其空间信息。

信号处理领域首屈一指的科学家将和大家分享声信号感知、处理与重构的一般过程和这个过程中所要解决的主要科学难题，及关键技术的现状，并一同探讨在复杂、远场拾音环境下声信号感知、获取、处理、传输与重构所面临的主要挑战。

亮点二：新编码时代，AVS2 音视频标准演进及应用实例

AVS2 已经开始应用于电影、电视和视频行业。而AVS2 关键技术、相对优势是什么？应用实践中有哪些经验？未来计划又是如何？可能很多人并不了解。

来自 AVS 标准委员会音频组、测试组和视频组的组长，不仅将解答这些问题，还将分享国际/国内新一代视频编码标准的最新进展，点云、光场等新兴沉浸式媒体编码，以及深度学习在视频编码领域的应用等内容。

亮点三：新一代视频编码，在互动直播服务的抉择困境与机遇

互动直播相对于点播（VOD）以及传统线性电视（地面电视、有线电视、IPTV）在播放平台、后台架构、技术要求等，存在诸多纬度的差异。基于这些特殊性连带上游视频编码行业近期的剧烈下滑，互动直播平台对于上线新编码格式面临着前所未有的技术挑战。事实上，在全球范围内部署H.264以外编码格式的直播平台寥寥无几。与此同时，HEVC、VP9、AV1相对H.264都有非常明显的编码效率优势。

Twitch 目前是日活跃用户达1500万，高峰并发观众超250万的互动直播平台。来自 Twitch 的首席研发工程师将从前后台两方面分析播放平台的兼容性和高画质实时编码的可行性，从而大致勾勒出主讲人对于未来5年内编码格式演进的预测。此外，也会重点解析AV1中SWITCH_FRAME的设计，对于SWITCH_FRAME进一步降低直播时延的计划。

亮点四：WebRTC 1.0 与未来的演进

在过去的一年里，WebRTC实现了浏览器端上的统一，并推出了业界标准WebRTC 1.0。而 WebRTC 新版本的标准制定工作已经开始。我们在此之前也透露过一部分信息。在本届大会上，来自 Google 的 WebRTC 产品经理和 WebRTC 标准委员会成员们，将带来更进一步的分享。

将有谁来分享？

这位信号处理领域的科学家的技术经历丰富，由于篇幅有限，我们仅分享一部分。

他先后在日本国际电气通信基础技术研究所(ATR)和澳大利亚的格里菲斯大学从事过信号处理、语音合成、语音识别等领域的研究工作。

也在美国的贝尔实验室从事过自适应信号处理、阵列及MIMO信号处理和语音信号处理与通信等领域的研发工作。

还曾担任WeVoice公司的首席科学家。2010年回国，入选第三批国家“千人计划”，后加入西北工业大学任“智能声学与临境通信中心”主任兼首席科学家，所开发的部分技术已成功用于无线通讯、电话会议、远程协作、智能音箱、车载等语音通信系统之中。

得过国际IEEE信号处理学会最佳论文奖，两次获得贝尔实验室模范团队奖，两次荣获 NASA技术创新奖，现已出版专著12部、在信号处理领域的国际著名学术刊物和会议上发表论文近200篇。

沈悦时博士在 Twitch 带领的研发团队负责Twitch核心视频技术的研发，职责涵盖直播视频转码、ABR播放算法、多平台播放兼容性、画面质量、时延等。

沈博士同时还是 Alliance of Open media 视频编码协议 AV1 中 SWITCH_FRAME 的发明者，他发表、申请超过15项技术专利。

在加入Twitch之前，沈博士分别就职、服务于多个数字电视设备公司（GD Mediware，Ambarella，Harmonic， Ericsson TV）以及开创云游戏产业的初创企业OnLive。在这些公司，他主导、参与开发多个广泛应用的H.264编码、转码、非线性编辑和实时广告插播产品，以及在公共互联网上超低时延视频传输的云游戏核心技术。

北京大学信息科学技术学院教授， 2005年博士毕业于中国科学院计算技术研究所。2005年至2007年在美国南加州大学攻读博士后，之后到北大工作至今。主要研究方向为视频编码及处理，已发表论文200余篇，已获授权发明专利40多项。担任IEEE Transactions on Circuits and System for Video Technolgoy(TCSVT)、Journal of Visual Communication and Representation(JVCIR)期刊编委(AE)、中国图象图形学学会理事、AVS视频组联合组长等。自2002年起，陆续参与组织AVS1、AVS+、AVS2一系列国家标准的制定，曾获国家技术发明奖二等奖、国家科学技术进步奖二等奖等奖励。

潘兴德博士，北京邮电大学博士，全景声科技&天籁K歌创始人，AVS音频组、测试组联合组长。长期从事音频编解码技术、声场技术和音效技术的研究和应用。主持或参与了EVD、AVS和IEEE P1857等标准的制定工作，在音频技术领域申请了近百项发明专利，并被各项音频技术标准广泛采用。

目前，全景声科技的中国全景声技术（WANOS）已经作为全球二套全景声技术标准，在电影制作和发行放映获得广泛应用，并已逐步进入OTT电视等网络应用领域。除了AVS音频组联合组长、测试组联合组长，现在还兼任 IEEE VR 音频标准召集人、IEEE、AES、电子学会和声学学会员等职位。

陈诚本科毕业于清华大学自动化系，后在美国爱荷华大学获得博士学位，现就职于谷歌，隶属于视频压缩核心算法组，从事VP9与AV1视频压缩标准的研发和软件开发，主要贡献包括AV1标准中去方块滤波器的扩展，基于相对距离的帧间运动补偿预测方法，VP9/AV1编码优化，等。除视频压缩技术外，研究兴趣还包括图像压缩，机器学习算法及其在图像和视频领域的应用。

Zoe Liu（刘宇新）是 Visionular （微帧科技）的联合创始人、董事长兼首席科学家。

在此之前的5年，Zoe 曾任 Google Chrome Media 团队软件工程师一职，并作为开源视频编解码标准 AOM/AV1 的核心成员参与研发与标准制定。

她在清华大学获得了学士、硕士与博士学位，并在美国普度大学获得了第二个博士学位。

不论作为主要贡献者还是技术负责人，Zoe 在多个音视频产品的设计与研发工作中都有突出贡献，包括苹果 FaceTime、Tango 视频电话、Google Glass 视频电话等。Zoe 还在多个著名研究实验室有多年的创新研究经验，包括贝尔实验室、诺基亚研究中心、太阳微处理器中心实验室、惠普实验室等。

Daniel C. Burnett在计算机标准领域已经工作了十年有余，作为PeerConnection和getUserMedia W3C WEBRTC规范的编辑者，以及国际互联网工程任务组（IETF）的参与者，Daniel从一开始便投身于这个激动人心的新领域中。他所编写的W3C标准目前广泛应用于大部分自动交互式语音应答（IVR）系统之中。由于其在自动语音识别领域标准上的卓越贡献，Daniel曾两度荣获在业界久负盛名的“语音杰出人物奖”（由《语音技术杂志》（Speech Tech Magazine颁发）。

Huib现任职Google产品经理，在浏览器行业有着丰富经验，目前带领团队从事 Chrome 中 WebRTC 1.0 的研发工作。在加入Google之前，他一直在Opera领导工程师团队。他为浏览器体验创新做出了巨大贡献，并与工程师团队在Opera中集成了WebRTC。在瑞典，Huib与Google 的其它工程师一同进行WebRTC项目的研发工作。曾在Philips研究院共同参与发明了多项专利，比如因苹果手机而流行的多点触控。

掌握 RTC 技术标准未来动向，从这里开始

打开APP阅读更多精彩内容