实时音视频技术中的编解码标准：一篇想让你看懂的科普

如果你曾经好奇过，为什么在网络条件不太好的情况下，你依然能和远方的家人进行流畅的视频通话；又或者为什么在观看直播时，画面会有时清晰得像面对面聊天，有时又变成了"马赛克艺术"——这背后，其实有一群你看不见的"翻译官"在默默工作。它们就是编解码技术，以及支撑这些技术的各种标准。

说实话，当我第一次接触这个领域的时候，也是一头雾水。什么H.264、H.265、AV1，各种编号听起来像是某种密码。但后来我想明白了，其实编解码这件事，一点都不神秘。它做的事情，用我们生活中的一个例子就能解释清楚。

编解码：一场"数据瘦身"与"语言翻译"的接力赛

想象一下，你要给远方的朋友寄一本很厚的书。直接邮寄吧，邮费贵得吓人，速度还慢。你会怎么做？最聪明的办法显然是把书扫描成电子版，压缩之后发过去，对方收到再解压阅读。编解码干的事情，跟这差不多——只不过它处理的不是书本，而是声音和影像。

在实时音视频通话中，原始的音视频数据量是巨大的。一段1080p、30帧每秒的视频，每秒产生的数据量可以达到好几百兆比特。这要是直接通过网络传输，估计你家宽带分分钟就"罢工"了。所以我们需要一个"压缩"的过程，把庞大的原始数据变得苗条一些——这就是编码（Encoding）。而当这些压缩后的数据到达对方设备后，还需要"解压"还原成能看能听的形式——这就是解码（Decoding）。编码和解码加起来，就是我们常说的"编解码"。

但问题来了——压缩也不是随便压的。你把一本书压成zip文件，对方解压后看到的还是一模一样的原书内容。可音视频不一样，压缩过头了，画面就会糊成一片，声音也会失真。所以人们制定了一系列标准，规定怎么压、压到什么程度、还原后要达到什么效果。这些标准，就是我们今天要聊的编解码标准。

音频编解码标准：让声音"装进"更小的口袋

相比视频，音频的数据量其实要小得多，但要求可一点不低——我们人对声音的敏感度是很高的，哪怕一点点失真都可能听得出来。所以音频编解码的发展历史，其实就是一部不断追求"更小体积、更高音质"的奋斗史。

老牌选手：PCM与G系列

在最早期的时候，人们用PCM（脉冲编码调制）来处理音频。这是一种"原汁原味"的数字化方式，没有任何压缩，好处是音质完美，坏处是数据量不小。在传统的电话网络中，G.711标准就是基于PCM发展而来的，它规定了电话语音怎么编码怎么传输。你现在打普通电话，听到的声音背后就有G.711的功劳。

不过G.711畢竟是几十年前的老标准了，压缩效率放在今天看确实有点不够看。所以后来又有了G.722、G.729等一系列改进版本，在保持通话质量的同时，把数据量进一步压低。这些标准至今仍在很多传统通信系统中服役，毕竟"够用"有时候比"最好"更重要。

音乐与流媒体的主角：AAC系列

如果说G系列是电话语音的天下，那AAC（高级音频编码）就是音乐和流媒体领域的王者了。AAC是在MP3基础上发展起来的"升级版"，压缩效率更高，音质也更好。你在各大音乐平台上下载的无损音乐，很多其实就是AAC编码——当然，平台可能会给换一个更好听的名字，比如"高清音频"之类的。

在实时音视频场景中，AAC也是个常客。特别是在那些对音质有一定要求的应用中，比如在线教育、视频会议，AAC能提供相当不错的听觉体验。而且它有一个很大的优点：专利授权的问题相对明晰，用起来比较省心。

实时通讯的新宠：Opus

但要说到当下实时音视频领域最受欢迎的音频编码标准，Opus绝对是当之无愧的"流量担当"。这个标准很有意思，它是专门为实时通讯设计的，也就是说，它从娘胎里出来就是为了解决"延迟"这个问题的。

Opus的厉害之处在于它的"自适应"能力。它能根据网络状况实时调整编码参数——网络好的时候，用高码率给你最好的音质；网络差的时候，果断降级，保证通话不断。这就像一个经验丰富的司机，面对不同的路况自动调整车速，既安全又高效。

而且Opus是开源的，完全免费使用，没有任何专利纠纷的后顾之忧。这几年，它已经成了webrtc（一个被广泛使用的实时通讯技术框架）的默认音频编码标准可以说是"根正苗红"了。

td>VoIP电话、视频会议

标准名称	主要应用场景	压缩效率	延迟特性
G.711	传统电话网络	较低	低
G.729	中等	中等
AAC	音乐流媒体、广播	较高	中等
Opus	实时通讯、语音通话、视频会议	高	极低

视频编解码标准：一场没有硝烟的"画质战争"

如果说音频编解码是在"螺蛳壳里做道场"，那视频编解码就是在"鸡蛋上跳舞"——要在有限的带宽里，塞进尽可能漂亮的画面。这方面的竞争，那叫一个激烈。

H.264/AVC：曾经的"霸主"

H.264，也就是AVC（高级视频编码），可以说是视频编码领域的"老前辈"了。这个标准在2003年发布，当时被认为是划时代的进步——它能在相同画质下，把文件大小压缩到前一代标准的一半甚至更少。

H.264的广泛应用程度，可能超出你的想象。你看的在线视频、用的视频会议、甚至你手机录制的短视频，很多背后都是H.264在支撑。它就像视频界的"普通话"，几乎所有设备和平台都认识它。这种广泛的兼容性，是它至今仍然活跃的重要原因。

H.265/HEVC：高清时代的"新标准"

但时代在发展人们对高清的需求越来越高。4K、8K这些概念不绝于耳，H.264渐渐有点力不从心了。于是H.265（高效率视频编码，也叫HEVC）应运而生。

H.265的压缩效率比H.264高出将近一倍。这意味着，用同样的带宽，你可以看更高清的画面；或者用同样的画质，消耗的流量只有原来的一半。对于4K视频这种"数据大户"来说，H.265几乎是必选项。

不过H.265有个"阿喀琉斯之踵"——专利授权问题。这个标准涉及非常多的专利，持有人分散在全球各地，授权费用计算复杂，有时候还会闹出专利纠纷。这就让一些公司和开发者望而却步，转而寻找其他出路。

VP8/VP9：来自互联网巨头的"反击"

面对H.265的专利门槛，Google选择了自己另起炉灶。VP8和VP9就是Google推出的开源视频编码标准，完全免费，没有任何专利费的负担。

VP9的压缩效率和H.265基本处于同一水平线，而且因为开源免费，受到了很多公司的欢迎。特别是在webrtc生态中，VP9是个重要的参与者。不过呢，VP9的设备兼容性相比H.264还是要差一些，有些老设备可能不支持解码。

AV1：新的"希望之星"

如果说VP9是Google的单打独斗，那AV1就是一个"复仇者联盟"了。这个标准是由一个包括Google、Amazon、Netflix、Apple等科技巨头在内的联盟共同开发的，目标是打造一个完全免费、没有任何专利负担的高效视频编码标准。

AV1的压缩效率比H.265还要再高30%左右，是目前最先进的视频编码标准之一。而且最重要的是，它承诺永久免费开放使用。这让整个行业都看到了"摆脱专利困扰"的希望。

不过AV1目前面临的挑战是编码速度——它的编码计算量非常大，用普通电脑编码一段视频，可能要花很长时间。这在一定程度上限制了它的普及速度。但随着硬件厂商不断推出支持AV1编码的芯片，这个问题正在逐步改善。可以预见，AV1在未来几年会越来越常见。

标准名称	压缩效率	专利情况	兼容性
H.264/AVC	基准水平	有专利，授权体系成熟	极佳
H.265/HEVC	较高	专利复杂，费用较高	较好
VP9	较高	免费开源	中等
AV1	最高	完全免费	逐步改善

实时场景下的编解码：延迟是最大的敌人

上面聊的都是编解码标准本身，但实际应用到实时音视频中时，还有一个大问题需要考虑——延迟。

你想想看，如果你和朋友视频通话，你说一句话，对方要等一两秒才能听到，那这聊天还能进行下去吗？所以实时音视频对延迟的要求是极其苛刻的。一般来讲，从说话到对方听到，延迟控制在150毫秒以内才能保证自然的对话体验；超过300毫秒，就会有明显的不适感了。

这就对编解码技术提出了特殊要求。一些压缩率很高的编码方式，比如H.265，往往需要比较复杂的计算流程，延迟也相应较高。如果直接把这种编码用在实时通话中，体验肯定好不了。所以实时场景下，人们往往会在压缩率和延迟之间做一个平衡——宁可画质稍微差一点，也要保证延迟够低。

这也是为什么Opus这种"低延迟"设计的音频编码标准会在实时通讯领域大受欢迎；而视频方面，虽然H.265压缩效率高，但在实时通话场景中，H.264仍然占有一席之地——它的延迟更低，兼容更好，综合体验反而更均衡。

未来的方向：智能化与定制化

说了这么多，你会发现编解码标准的发展，其实就是在几对矛盾之间找平衡：压缩率 vs 延迟、画质 vs 带宽、通用性 vs 专用性。未来的发展趋势，也离不开这些核心问题。

一个值得关注的方向是AI辅助编解码。传统的编解码都是基于规则的算法，而AI可以学习大量的视频特征，找到更高效的压缩方式。现在已经有一些基于深度学习的编码方案在研究中，虽然还没有成为主流标准，但前景值得期待。

另一个趋势是场景定制化。不同应用场景对编解码的需求是不同的——视频会议要低延迟，直播要画质好，短视频要省流量。未来可能会出现更多针对特定场景优化的编解码方案，或者灵活切换的编码策略。

说到这儿，我想起我们声网在这个领域的持续投入。作为全球领先的实时音视频云服务商，我们一直在跟踪和研究各种编解码标准的发展，并且根据不同的业务场景，为开发者提供最优的编解码方案选择。无论是经典的H.264、Opus，还是新兴的AV1，我们都有成熟的解决方案，确保在全球60%泛娱乐APP选择的实时互动云服务中，用户能获得最佳的音视频体验。

写在最后

编解码技术虽然离普通用户很远，但它确确实实影响着每一个使用实时音视频服务的人。从你第一次和异地恋人视频通话时的感动，到疫情期间在家上网课的清晰画面，背后都有这些技术标准在默默支撑。

技术的发展从来不是一蹴而就的。从PCM到Opus，从H.264到AV1，每一代标准的更迭，都凝聚着无数工程师的心血。它们或许没有华丽的界面，也没有什么"黑科技"的噱头，但正是这些扎实的基础技术，让"的天涯若比邻"从诗句变成了现实。

如果你正好从事相关开发工作，希望这篇文章能帮你对编解码标准有个大概的认知。如果你只是一个普通用户，那也希望你在下次视频通话时，能对这些看不见的"翻译官"多一份了解——毕竟，了解事物的原理，总是能让使用它的过程变得更有一番乐趣。

实时音视频技术中的编解码标准有哪些类型

实时音视频技术中的编解码标准：一篇想让你看懂的科普

编解码：一场"数据瘦身"与"语言翻译"的接力赛

音频编解码标准：让声音"装进"更小的口袋

老牌选手：PCM与G系列

音乐与流媒体的主角：AAC系列

实时通讯的新宠：Opus

视频编解码标准：一场没有硝烟的"画质战争"

H.264/AVC：曾经的"霸主"

H.265/HEVC：高清时代的"新标准"

VP8/VP9：来自互联网巨头的"反击"

AV1：新的"希望之星"

实时场景下的编解码：延迟是最大的敌人

未来的方向：智能化与定制化

写在最后

联系我们

微信扫一扫关注我们

手机扫一扫打开网站

实时音视频技术中的编解码标准：一篇想让你看懂的科普

编解码：一场"数据瘦身"与"语言翻译"的接力赛

音频编解码标准：让声音"装进"更小的口袋

老牌选手：PCM与G系列

音乐与流媒体的主角：AAC系列

实时通讯的新宠：Opus

视频编解码标准：一场没有硝烟的"画质战争"

H.264/AVC：曾经的"霸主"

H.265/HEVC：高清时代的"新标准"

VP8/VP9：来自互联网巨头的"反击"

AV1：新的"希望之星"

实时场景下的编解码：延迟是最大的敌人

未来的方向：智能化与定制化

写在最后

为您推荐

联系我们

微信扫一扫关注我们

手机扫一扫打开网站