实时音视频技术中的音频编码格式对比

说起实时音视频技术，可能很多朋友第一反应是画面清不清晰、卡不卡顿。但实际上，音频体验才是决定用户愿不愿意继续聊下去的关键因素。想象一下，你在和一个重要客户进行视频会议，结果声音断断续续、要么就是闷闷的听不清，这种体验，任谁的耐心都会大打折扣吧？

我最近在研究音频编码这一块，发现这里面的门道还挺多的。今天就想用比较通俗的方式，跟大家聊聊实时音视频里那些常见的音频编码格式，看看它们各自有什么特点，又该怎么选择。毕竟对于开发者来说，选对编码格式不仅能提升用户体验，还能有效节省带宽成本，这可是实实在在的价值。

音频编码到底是怎么回事？

在正式对比各种编码格式之前，咱们先来搞清楚一个基本问题：为什么要编码？

我们日常说话的声音，本质上是空气中声波的振动。在计算机里，声音被转换成数字信号，这个过程叫做"采样"。简单说，就是在极短的时间内测量声音的振幅，然后把这种测量结果用数字记录下来。采样率越高，声音就越接近原始音质，但数据量也就越大。

举个例子 CD 音质用的是 44.1kHz 的采样率，也就是说每秒要对声音进行 44100 次采样。如果不经过压缩，一秒钟的立体声 CD 音质音频大约需要 1.4Mbps 的带宽。这个数据量在本地播放没什么问题，但要是放在实时传输的场景下，比如视频通话，那可就太奢侈了。网络带宽根本扛不住，延迟也会大到让人无法接受。

音频编码做的事情，就是在尽量保持音质的前提下，把原始音频数据压缩得更小。这样既能减少传输所需的带宽，又能降低延迟，让我们能够顺畅地进行实时对话。不同的编码格式采用了不同的压缩算法，也就造就了不同的特点和适用场景。

主流音频编码格式一览

现在我们来详细看看实时音视频领域最常用的几种音频编码格式。我会从技术特性、适用场景、优缺点等方面进行分析对比。

Opus：新一代全能选手

Opus 这个编码格式可能有些朋友还没听说过，但它实际上已经成为了实时音视频领域的新宠。这个格式是由 IETF（互联网工程任务组）在 2012 年左右定标准的，背后有像 Xiph.Org 基金会和 Skype 这样的技术力量支持。

Opus 最大的特点是"自适应"。它能够根据网络状况和输入内容自动调整编码策略。比如当检测到网络带宽比较紧张时，它会自动切换到更激进的压缩模式；当网络好转时，又能恢复更高质量的编码。这种智能调节能力让它在各种网络环境下都能保持相对稳定的通话质量。

从技术参数来看，Opus 支持 8kHz 到 48kHz 的采样率范围，也就是说它既可以处理窄带语音（比如电话级别的音质），也可以处理全带音乐（比如高质量的音频内容）。它的编码延迟非常低，通常在 20ms 到 60ms 之间，这个延迟水平对于实时对话来说已经基本上感觉不到了。

Opus 的压缩效率也很出色。在相同音质下，它的码率通常比 MP3 低 30% 到 50%，比很多传统语音编码格式也要优秀。这也就意味着，用更少的带宽就能达到同样的效果，对于开发者来说可以有效降低成本。

不过 Opus 也不是没有缺点。它是一个相对较新的格式，在一些老旧系统或特定设备上的兼容性可能不如那些已经存在几十年的格式好。但话说回来，现在新开发的系统基本上都能很好地支持 Opus 了。

AAC：无处不在的老熟人

AAC，也就是 Advanced Audio Coding（高级音频编码），这个名称相信很多朋友都听过。它是 MP3 的继任者，由 MPEG 组织开发，在 1997 年成为国际标准。

AAC 的普及程度非常高，你日常用的网易云音乐、QQ 音乐，很多音频文件都是 AAC 格式的。它之所以这么流行，主要是因为它在中等码率下提供了非常好的音质表现。同等码率下，AAC 的音质通常比 MP3 明显要好，这也是它能够取代 MP3 的原因。

在实时音视频领域，AAC 也是一个常见的选择。它的编码延迟大约在 100ms 左右，虽然比 Opus 高一些，但通常也在可接受的范围内。AAC 支持从 8kHz 到 96kHz 的采样率范围，适应性很强。

AAC 有好几种分支规格，比如 LC-AAC（低复杂度版本）、HE-AAC（高效版本）等。实时音视频场景下用得最多的是 LC-AAC，因为它在编码效率和复杂度之间取得了比较好的平衡，实时编码时对终端设备的性能要求不会太高。

AAC 的缺点主要是在低码率下的表现不如 Opus，特别是在语音内容较多时，Opus 的优势会更明显一些。另外，AAC 的专利情况曾经比较复杂，虽然现在主要专利已经过期，但在某些商业场景下可能还是需要注意授权问题。

G.系列：传统电信级的选择

说到语音编码，就不能不提 G 系列编码器。这是由 ITU-T（国际电信联盟电信标准化部门）制定的一系列标准，在传统电信领域有着广泛的应用。

G.711 是这里面的"老前辈"，诞生于 1972 年，距今已经有五十多年的历史了。它用 μ律（北美和日本）或 A律（欧洲和中国）进行压扩处理，是一种非压缩的波形编码器。说它是非压缩的，是因为 G.711 本身实际上并没有去除多少冗余信息，它主要是做了动态范围的压缩处理。

G.711 的码率是固定的 64kbps（在 8kHz 采样率下），这个数字在电信领域几乎是家喻户晓的。它的优势在于极低的延迟（通常小于 5ms）和非常简单的实现复杂度，以至于在某些极端情况下，用纯硬件电路都能实现编解码。

但 G.711 的缺点也很明显。首先它只支持 8kHz 采样率，音质比较粗糙，听起来有明显的电话腔。其次它的码率固定为 64kbps，无法根据网络状况进行自适应调整。在现代网络环境下，这个码率可能显得有点浪费，特别是在网络状况不好的时候也没办法通过降低码率来换取更稳定的传输。

G.722 是 G 系列中相对现代一点的成员，它支持 16kHz 采样率，也就是所谓的"宽带语音"音质。相比 G.711，G.722 的音质有明显提升，人声听起来更加自然清晰。它的码率在 48kbps 到 64kbps 之间，仍然保持在一个比较低的水平。

G.722.1 是 G.722 的增强版本，支持 32kHz 采样率，码率范围是 24kbps 到 32kbps。它采用了更先进的变换编码技术，在保持低码率的同时进一步提升了音质。

还有 G.722.2，也叫 AMR-WB（自适应多速率宽带），这是一个在移动网络中应用很广的编码器。它支持 16kHz 采样率，码率可以在 6.6kbps 到 23.85kbps 之间自适应调整。GSM 和 3G 网络里的高清语音服务很多都是用这个编码器。

Speex：开源界的先行者

Speex 是 Xiph.Org 基金会开发的一个开源语音编码器，现在已经演进为 Opus 项目了。不过因为历史原因，还是有很多老系统在用 Speex。

作为一个开源项目，Speex 的最大优势就是免费且不需要授权费。对于预算有限的个人开发者或初创公司来说，这吸引力还是很大的。它的技术特点包括支持窄带（8kHz）、宽带（16kHz）和超宽带（32kHz）三种模式，编码延迟在 20ms 到 40ms 左右。

Speex 在低码率下有不错的表现，10kbps 左右就能提供可接受的通话质量。但总体来说，它的压缩效率和音质表现都不如 Opus，所以在新的项目中，我建议大家优先考虑 Opus。

EVS：面向未来的演进

EVS，也就是 Enhanced Voice Services（增强语音服务），是 3GPP 在 2014 年左右标准化的一种新型语音编码器。它的设计目标是取代 AMR-WB，为 4G 和 5G 网络提供更高质量的语音服务。

EVS 支持从 8kHz 到 48kHz 的宽范围采样率，这意味着它既可以处理传统语音，也可以处理音乐内容。它的码率范围很宽，从 5.9kbps 到 128kbps 不等，能够适应各种网络条件。

EVS 在编码效率上有明显的提升，特别是在中等码率区间，它的音质表现相当出色。另外它还支持"舒适噪声生成"和"丢包隐藏"等高级功能，能够在网络状况不佳时保持通话的连续性。

不过 EVS 的问题在于它相对较新，支持的终端设备还不够普及。在实时音视频应用中，如果你的用户群体使用的设备型号比较杂，可能需要考虑兼容性的问题。

如何选择合适的编码格式？

介绍完这么多种编码格式，大家最关心的问题可能是：我到底该怎么选？

这个问题其实没有标准答案，因为最合适的编码取决于你的具体应用场景、目标用户群体和技术架构。下面我说几个可以考虑的角度。

看应用场景：如果是语音通话为主的应用，比如语音社交、语音客服，那么 Opus 和 G.722 系列是比较好的选择。它们在语音内容上有很好的优化，延迟也低。如果是偏音乐内容的场景，比如直播、K 歌，那可以考虑 AAC 或者支持更高采样率的 Opus 模式。

看网络条件：如果你的用户群体主要在网络环境较差的地方，比如新兴市场的移动网络用户，那么支持自适应码率的编码器会更合适。Opus 和 EVS 都能根据网络状况自动调整码率，在带宽受限时能够"智能降级"而不是直接断掉。

看终端设备：如果你的应用需要支持很多老旧设备，那么可能需要考虑兼容性问题。G.711 这种"万金油"虽然技术老旧，但在某些设备上的支持是不可替代的。Opus 虽然好，但在某些极老的 Android 设备上可能会有问题。

看实现成本：Opus 和 Speex 是开源的，不需要付授权费。某些 AAC 实现可能需要商业授权。这些成本因素在商业项目中也是需要考虑的。

作为全球领先的实时音视频云服务商，声网在实际服务中积累了丰富的编码选择经验。声网的技术团队基于服务全球超过 60% 泛娱乐 APP 的实战经验，能够根据不同场景需求提供最优的编码方案适配。无论是需要极低延迟的 1V1 社交场景，还是对音质有高要求的秀场直播场景，声网都能提供针对性的技术支持。

主流编码格式技术参数对比

编码格式	采样率范围	典型码率	编码延迟	适用场景	备注
Opus	8-48kHz	6-510kbps	20-60ms	通用场景，语音和音乐	自适应编码，效率高
AAC	8-96kHz	32-320kbps	~100ms	音乐流媒体，直播	普及度高，兼容性
G.711	8kHz	64kbps	<5ms	传统电话，语音通话	简单成熟，延迟极低
G.722	16kHz	48-64kbps	<10ms	宽带语音通话	音质优于 G.711
G.722.2	16kHz	7-24kbps	<40ms	移动网络高清语音	3G/4G 网络常用
EVS	8-48kHz	6-128kbps	<30ms	4G/5G 高清语音	技术先进，设备支持待普及

写在最后

音频编码这个话题看起来挺技术化的，但说白了核心目标就是一个：在有限的带宽和计算资源下，让通话双方能够听清彼此的声音。这个看似简单的目标，实现起来却有很多讲究。

从我个人的角度来看，Opus 确实是一个相当出色的通用选择。它在大多数场景下都能提供令人满意的表现，而且还在持续演进中。当然这并不意味着其他编码格式就没有价值了，G.711 在某些特定场景下仍然是不可替代的，AAC 在音乐内容处理上也有它的优势。

技术选型从来都不是一蹴而就的事情，而是需要结合实际情况反复权衡的过程。希望这篇文章能够给大家提供一些参考，帮助你在面对编码选择时多一份底气。如果有什么问题，也欢迎大家一起讨论交流。

实时音视频技术中的音频编码格式对比

实时音视频技术中的音频编码格式对比

音频编码到底是怎么回事？