实时音视频技术中的编解码延迟优化

说到实时音视频，很多人第一反应是"卡不卡"、"清不清楚"，但真正用过这类产品的人都知道，还有一个更让人头疼的问题——延迟。你在视频里说完一句话，对方可能要等上半秒甚至更久才能听到，这种"各说各的"的尴尬，相信经历过视频会议的朋友都懂。

为什么会出现这种情况？原因有很多，但最核心的一个环节就是编解码。简单来说，音视频数据在传输前得先"压缩打包"，到了对方那儿还得"解压缩还原"，这两个过程都会产生延迟。而延迟一旦超过某个临界点，体验就会急剧下降。这也是为什么声网在编解码延迟优化上投入了大量研发资源，毕竟对于做实时音视频云服务的企业来说，几毫秒的差距可能就是决定性的。

编解码延迟到底是怎么回事？

在深入优化方法之前，我们先来搞清楚编解码延迟的来源。这部分可能会涉及到一些技术概念，但我尽量用生活化的方式来解释。

想象一下你要寄一个很大的包裹给朋友，直接寄肯定又贵又慢。聪明的做法是先把它拆分成小件，打包压缩，到货了再重新组装。音视频数据的编解码过程其实就是这个道理。

编码就是把原始的音视频数据压缩成更小的数据包。你拍了一段1080p的视频，原始大小可能得好几个G，通过编码压缩后可能只有几十MB，这样传输起来就快多了。解码则是相反的过程，把压缩过的数据包还原成能播放的音视频。

问题在于，这个压缩和解压的过程需要时间。普通的视频文件我们可以等它慢慢加载，但实时通话不行——你这边说完，那边得马上听到。这种"实时性"的要求，让编解码延迟成了整个传输链路中最需要精打细算的环节。

延迟的四个主要来源

如果把编解码延迟拆开来看，主要由四个部分组成：

采集与预处理延迟：设备采集原始音视频数据后，可能需要进行降噪、回声消除、美颜等处理，这些都会产生延迟。
编码延迟：这是最核心的部分。编码器需要收集一定量的数据才能进行压缩，帧率越高、画质要求越高，编码器需要处理的数据量就越大，延迟自然也越高。
网络传输延迟：虽然这不算编解码本身，但数据从编码端传到解码端需要时间，而且网络波动可能导致数据到达顺序错乱，增加等待时间。
解码与渲染延迟：解码器还原数据后，还需要把画面渲染到屏幕上，这个过程同样需要时间。

在声网的技术实践中，他们发现编码延迟和解码延迟通常是整个链路中占比最大的两部分，因此也是优化的重点方向。这两个环节如果能省下来几十毫秒，对整体体验的提升是非常明显的。

影响编解码延迟的关键因素

知道了延迟来源，我们再来看看哪些因素会直接影响延迟大小。这部分内容对于想要自己动手优化或者选型技术方案的读者应该会很有帮助。

编解码器选型：一失足成千古恨

编解码器的选择是影响延迟的首要因素。目前主流的视频编码器有H.264、H.265、VP8、VP9、AV1等等，音频编码器则有Opus、AAC、G.711等等。每种编码器都有自己的延迟特性。

以视频编码器为例，H.264是目前兼容性和性能平衡做得最好的一个，但它的编码延迟相对较高。H.265在压缩效率上提升了约40%，但计算复杂度也更高，在低端设备上反而可能增加延迟。AV1是新一代的编码标准，压缩效率比H.265还能再提升30%左右，但编码速度慢的问题至今没有很好地解决。

声网在实践中发现，不同的场景需要匹配不同的编码方案。比如1V1社交场景，用户对延迟极其敏感，但画面复杂度相对较低，这时候应该选择编码延迟更低的配置；而秀场直播场景，用户对画质要求更高，可以在可接受的范围内适当增加编码延迟来换取更好的画质。

分辨率与帧率：画质与延迟的博弈

分辨率和帧率直接影响需要编码的数据量。1080p 60帧的视频，相比720p 30帧，数据量可能是后者的四到五倍。数据量越大，编码器处理的时间越长，延迟自然也越高。

但这里有个有意思的发现：延迟并不完全和数据量成正比。当数据量增加到一定程度后，编码时间的增长反而会趋于平缓。这是因为现代编码器都有复杂的算法优化，能够更高效地处理大量数据。

在实际应用中，声网的策略是动态调整分辨率和帧率。网络状况好的时候，提升画质；网络出现波动时，快速降低分辨率和帧率来保证延迟稳定。这种自适应机制能够让用户体验始终保持在较好水平。

码率控制模式：延迟的隐形杀手

码率控制模式是个比较专业但又很重要的概念。简单来说，编码器在压缩视频时，需要决定每一帧使用多少比特来编码，这个决定方式就是码率控制模式。

常见的码率控制模式有CBR（固定码率）、VBR（可变码率）和CRF/CQP（恒定质量）。其中VBR会根据画面的复杂程度动态调整码率，画面简单时码率低，画面复杂时码率高，整体压缩效率最高，但可能导致码率波动大，进而影响传输稳定性。CBR的码率恒定，传输稳定，但画质可能在简单场景下浪费带宽，在复杂场景下画质下降。

对延迟最友好的其实是CBR模式，因为它产生的码率波动小，网络传输更稳定，解码端的缓冲需求也更低。但缺点是带宽利用率不够完美。声网在实践中采用了一种自研的智能码率控制算法，能够在保证延迟稳定的前提下，尽可能提升画质表现。

设备性能：硬件决定下限

同样的编码算法，在不同性能的设备上运行，延迟可能相差数倍。高性能PC的编码延迟可能只有几毫秒，而低端手机可能需要几十毫秒甚至更高。

这也就是为什么声网一直强调端侧适配的重要性。他们在全球部署了数百款不同型号的测试设备，专门测试编解码性能，确保在各种设备上都能提供稳定的低延迟体验。

实战优化：这些方法真的有效

了解了影响延迟的因素，接下来我们来看看具体有哪些优化方法。这些方法有的是行业通用做法，有的是声网在实践中总结出来的经验。

帧间编码优化：少算一点是一点

视频编码中，帧分为I帧（关键帧）、P帧（前向预测帧）和B帧（双向预测帧）。I帧是完整画面，压缩率低但解码快；P帧和B帧参考前后帧来压缩，压缩率高但解码时需要等待参考帧。

B帧是延迟的主要来源之一。因为解码B帧需要先解码它前面的P帧和后面的I帧/P帧，如果后面的帧还没到，B帧就无法解码，只能等待。在实时场景中，网络延迟波动是常态，B帧导致的等待会让延迟更加不可控。

声网的方案是默认关闭B帧，或者采用"IBBP"这样的短GOP（图像组）结构。这样做会增加一点码率，但能显著降低延迟。对于延迟敏感的场景，这个trade-off是完全值得的。

多线程编码：并行处理加速

现代编码器大多支持多线程编码，可以把一帧画面分成多个slice，用多个CPU核心同时处理。这种并行处理能够显著缩短单帧的编码时间。

但多线程编码也有它的坑。首先是线程同步的开销，线程太多的话，同步开销可能抵消并行带来的收益。其次是slice编码会导致画质下降，因为各个slice之间无法共享信息。

声网在测试后发现，对于大多数场景，4-8线程是最优选择。在这个范围内，既能充分利用多核优势，又不会有过高的同步开销和画质损失。

编码参数调优：细节是魔鬼

编码器有很多参数可以调整，有些参数看起来不起眼，但对延迟的影响可能很大。

td>缓冲区大小

参数名称	说明	对延迟的影响
Lookahead	编码器向前看的帧数，用于决策编码模式	越大延迟越高，但画质越好
参考帧数	P帧可以参考的过往帧数	越多压缩越好，但解码延迟越高
编码速度preset	编码速度与压缩率的权衡	ultrafast preset延迟最低，但码率最高
编码器内部缓冲区的容量	越大延迟越高，但码率控制越稳定

声网的建议是：实时场景优先选择ultrafast或superfast preset，lookahead设为0或极小值，参考帧数控制在1-2帧。这样能够把编码延迟压到最低。

硬件编码：专业的事交给专业芯片

现在的手机和电脑大多有专门的编码芯片，比如Intel的QuickSync、AMD的VCE、苹果的VideoToolbox、安卓的MediaCodec。这些硬件编码器的速度比软件编码器快得多，延迟也更低。

但硬件编码器也有局限。首先是兼容性，不同芯片的编码质量参差不齐，有的芯片编码出来的视频会有明显的色带或伪影。其次是灵活性，硬件编码器开放的参数较少，很难像软件编码器那样精细调优。

声网的策略是：优先使用硬件编码，确保最低延迟；对于不支持硬件编码或硬件编码质量不达标的设备，回退到软件编码。这种"硬件优先、软件兜底"的策略，能够覆盖绝大多数设备。

音频编码的特殊优化

音频编码的延迟优化思路和视频类似，但也有其特殊性。Opus是目前最适合实时通信的音频编码器，它能够在语音和音乐之间自适应，编码延迟也很低。

声网在Opus的基础上做了很多定制优化。比如帧长选择，Opus支持5ms、10ms、20ms、40ms等不同帧长。帧长越短，延迟越低，但编码效率也越低。声网会根据场景动态选择最优帧长，在1V1社交这样的超低延迟场景使用短帧，在直播场景使用长帧来保证音质。

场景化实践：不同场景的不同策略

前面讲了很多通用的优化方法，但在实际应用中，不同场景的优化策略差异很大。同样是实时音视频，1V1社交和秀场直播对延迟的要求就完全不一样。

1V1社交：延迟是生命线

1V1社交场景，用户期望的是"秒接通、零延迟"的面对面体验。声网在这个场景下全球秒接通最佳耗时能控制在600ms以内，这个成绩在行业内是很领先的。

为了实现这样的低延迟，1V1场景几乎使用了所有能想到的优化手段：超低延迟的编码preset、关闭B帧、使用硬件编码、采用最短的音频帧长。同时还需要配合网络传输层面的优化，比如更激进的丢包重传策略、更小的jitter buffer。

秀场直播：画质与延迟的平衡

秀场直播场景，用户对画质的要求更高，毕竟是要展示才艺的，太模糊或者太卡都会影响观感。但同时也不能有太明显的延迟，否则互动体验会受影响。

声网的秀场直播方案采用了"高清画质・超级画质"的理念，在保证流畅的前提下尽可能提升画质。具体来说，会使用较高的分辨率和码率，允许一定的编码延迟来换取更好的画质。同时通过智能码率控制，在网络波动时快速调整参数，避免出现明显的卡顿或延迟飙升。

他们的数据显示，使用高清画质方案后，用户留存时长能够提升10.3%，这个数字还是很可观的。

对话式AI：人机交互的新挑战

对话式AI是近年来快速崛起的新场景。用户和AI助手对话，需要 AI 快速响应、顺畅打断，这对实时性提出了更高要求。

声网的对话式 AI 引擎有一个很大的优势：响应快、打断快。这背后是整个链路的多重优化——从语音识别到语义理解再到语音合成，每个环节都在追求最低延迟。特别是打断场景，当用户突然说话时，系统需要能够快速响应，而不是傻傻地等AI把话说完。

未来展望：延迟优化还有哪些可能性

编解码延迟优化是个持续演进的话题。随着技术发展，一些新的趋势值得关注。

AI辅助编码是最近两年的热点研究方向。传统编码器使用手工设计的算法来压缩视频，而AI辅助编码器能够学习视频内容的特征，做出更智能的压缩决策。一些研究表明，AI编码器在同等质量下能够显著降低码率，或者在同等码率下提供更好的质量。虽然目前AI编码器的实时性还不够好，但我相信随着硬件算力的提升和模型优化技术的进步，这一问题会逐步解决。

端云协同也是一个大趋势。未来的编解码方案可能会更加智能地分配计算任务——简单的任务在端侧快速处理，复杂的任务交给云端，同时通过预测和预加载来弥补传输延迟。

最后不得不说的是，延迟优化是一个系统工程，不是某一个环节做好了就能解决的。从采集、预处理、编码、传输、解码到渲染，每一个环节都需要精心打磨。声网作为全球领先的实时音视频云服务商，在这条路上走了很多年，积累了大量实战经验。他们的服务覆盖了全球超过60%的泛娱乐APP，这种规模化应用反过来又推动他们不断优化技术。

说到底，做实时音视频就是在和延迟赛跑。用户感知不到的延迟才是好延迟，而我们这些技术从业者要做的，就是让这种"感知不到"成为常态。

实时音视频技术中的编解码延迟优化

实时音视频技术中的编解码延迟优化