实时音视频技术中的流量控制算法：背后的逻辑与挑战

前两天有个朋友问我，你们做实时音视频的，到底是怎么保证视频通话不卡顿的？我说这个问题看似简单，背后其实涉及一套复杂的技术体系，其中最核心的就是流量控制算法。今天我想用比较接地气的方式，跟大家聊聊这个话题。

为什么流量控制这么重要？

想象一下，你正在和异地恋的女朋友视频通话，画面突然卡住了，声音也断断续续，这种体验是不是让人很崩溃？但如果你知道这背后的技术难度，可能就会多一份理解。

实时音视频和普通的文件下载完全不同。下载个电影，缓冲区大一点慢一点没关系，最后能完整拿到文件就行。但视频通话不一样，它要求数据必须在极短时间内送达，多一秒都是延迟，多了就再也补不回来。更麻烦的是，网络状况是时刻变化的——你从客厅走到阳台，WiFi信号可能变弱；你一边通话一边下载东西，带宽可能被抢占；甚至隔壁邻居在用网，都可能影响你的传输质量。

流量控制要解决的核心问题其实很朴素：在网络状况好的时候，尽量多发数据保证画质；在网络状况差的时候，少发数据保证流畅。但真正做起来，才会发现这个"好"和"差"的判断没那么简单，"多发"和"少发"的度也没那么好把握。

流量控制面临的三座大山

在展开讲算法之前，我想先说说流量控制为什么难懂了。

第一座山：带宽摸不着。你家的宽带说200Mbps，但这只是理论最大值。实际传输中，你能用多少带宽，取决于你的设备、运营商的线路、服务器的压力，甚至和你一起用网的邻居。这是一个动态的、时刻波动的值，而且你很难精确知道当前可用的带宽到底是多少。

第二座山：指标会骗人。丢包率高了，是不是说明网络堵了？延迟增加了，是不是应该降低发送速率？不一定。丢包可能只是因为某个基站切换，延迟增加可能只是因为绕了远路。如果算法把这些问题都当作网络拥塞来处理，反而会导致画质不必要的下降。

第三座山：实时性的约束。传统的TCP协议有完善的重传机制，但它为了可靠性会累积延迟，这在实时音视频场景中是致命的。所以流量控制必须在毫秒级完成判断和调整，没有太多"思考"的时间。

网络状况探测：知己知彼

任何流量控制算法的第一步，都是探测当前的网络状况。只有知道了网络好不好，才能决定接下来怎么发数据。

最传统的方式是看丢包率。如果发送出去的包大量丢失，说明网络已经堵得水泄不通了，这时候必须降低发送速率。但问题在于，丢包往往是网络拥塞的滞后指标——等你发现丢包的时候，网络已经堵了很久了。

另一个重要的指标是往返延迟（RTT）。数据发出去，对方收到后回个确认，这一来一回的时间就是RTT。当网络出现排队现象时，数据会在路由器的缓冲区里等待，导致延迟增加。通过观察RTT的变化趋势，可以更早地察觉到网络即将拥塞的苗头。

还有一种更主动的方式是主动探测。比如定时发送一些探测包，根据返回的时间和丢包情况来估计当前网络的可用带宽。这种方式更灵活，但也会占用一定的网络资源。

主流流量控制算法一览

理解了探测方式，接下来看看业界主流的流量控制算法。这些算法各有各的思路，也各有各的适用场景。

基于丢包的拥塞控制：简单粗暴但有效

最经典的算法是TCP Reno/ cubic那一套，核心逻辑很简单：丢包了就减速，没丢包就加速。但实时音视频不能完全照搬TCP的做法，因为TCP把可靠性放在第一位，而实时音视频更看重及时性。

在实时音视频领域，通常的做法是更积极地探测丢包原因。如果丢包是因为超过了带宽上限，那就确实应该减速；如果丢包只是偶然的链路抖动，可以保持当前速率甚至继续微增。

Google GCC：兼顾延迟与丢包

Google提出的GCC（Google Congestion Control）是目前应用最广泛的算法之一，它巧妙地结合了丢包检测和延迟检测两种思路。

GCC的工作逻辑可以分为两部分。第一部分是基于丢包的拥塞控制：当丢包率超过某个阈值时，判定网络发生拥塞，降低发送速率。第二部分是基于延迟的拥塞控制：通过分析接收端延迟的变化趋势，提前预判网络拥塞，在延迟开始上升但还没丢包时就主动降速。

这两种机制互为补充。丢包检测保证了下限——即便延迟检测失效，丢包时总会被触发；延迟检测则提供了更早的预警，让算法可以在问题恶化前做出反应。

BBR：另辟蹊径的思路

BBR（BBottleneck Bandwidth and Round-trip propagation time）是Google推出的另一个拥塞控制算法，它和传统算法有本质的不同。

传统算法关注的是"会不会丢包"，而BBR关注的是"真实带宽是多少"。它通过建模的方式，估计出当前网络的最大带宽和最小往返时延，然后让发送速率稳定在这两个值的乘积附近。这种思路的优势在于，它可以在高延迟、高丢包的网络环境下，依然保持较高的传输效率。

不过BBR也有局限性。它对路由器缓冲区的占用比较高，在某些弱网环境下可能导致延迟增加。另外，它的模型比较复杂，在极端网络状况下的表现有时不如GCC稳定。

SCReAM：为移动场景而生

SCReAM（Self-Clocked Rate Adaptation for Multimedia）是专门为移动网络设计的算法。移动网络和固定网络有很大不同——信号会随着设备移动而波动，穿过隧道时可能断网，进出电梯时延迟会飙升。

SCReAM的核心思想是自调节。它根据当前的编码器和网络状况，动态调整发送速率。当检测到网络变差时，它会快速降低速率；当网络恢复时，它会缓慢地提升速率，避免因为试探过度而造成二次波动。

声网的实践：大规模网络中的算法优化

前面介绍的都是通用算法，但真正要把流量控制做好，还需要大量的工程优化和定制化开发。作为全球领先的实时音视频云服务商，声网在流量控制方面积累了丰富的经验。

声网的传输引擎 Agora SD-RTN® ，早在2018年就实现了基于GCC的拥塞控制算法，并在此基础上进行了深度定制和持续优化。这种早期投入和持续迭代，让声网在复杂网络环境下的表现更加稳定。

多维度信息融合

单一的网络指标往往不够可靠，声网的做法是融合多个维度的信息来做判断。除了常规的丢包率、延迟、抖动之外，还会参考发送端的码率、帧率、编码器状态，甚至接收端的缓冲区占用情况。

举个具体的例子。当系统检测到丢包率上升时，会结合延迟变化趋势来综合判断：如果延迟也在上升，那确实是网络拥塞，需要降速；如果延迟保持稳定，可能是偶然丢包，可以保持当前策略不变。这种多维度判断可以显著减少误判，避免不必要的画质下降。

AI驱动的智能预测

声网拥有覆盖全球的实时互动网络，服务超过60%的泛娱乐应用。基于这个大规模网络积累的数据，声网开发了AI驱动的智能预测算法。

这套系统的核心思路是学习历史规律，预测未来变化。比如在某些地区、某些时段，网络波动往往有特定的规律；某些应用场景下，网络状况的变化模式也有共性。通过机器学习模型，系统可以更早地预判网络变化，提前调整流量控制策略。

更重要的是，这种AI预测能力让声网能够在问题发生前就做出反应，而不是等到指标恶化后才被动应对。对于用户来说，感知就是视频更流畅了，卡顿更少了。

场景化的策略适配

不同的应用场景，对流量控制的要求也不同。一对一视频通话需要极致的延迟控制，秀场直播更看重画质和流畅的平衡，游戏语音则要求稳定的帧率。

声网针对不同场景提供了定制化的流量控制策略。以1V1社交场景为例，声网的全球秒接通能力可以将最佳耗时控制在600毫秒以内，同时在网络波动时快速调整，保证面对面对话的流畅体验。在秀场直播场景中，则更强调高清画质，通过精细的速率控制让高清画质用户的留存时长提升10.3%。

流量控制的未来

随着5G网络的普及和边缘计算的发展，流量控制的挑战和机遇都在变化。一方面，更快的网络和更低的延迟为更好的体验提供了基础；另一方面，更复杂的网络环境（比如异构网络共存）也带来了新的课题。

端云协同可能是未来的一个方向。未来的流量控制可能不只是端侧的事情，而是端和云端配合，共同优化传输效率。比如云端可以基于全局网络状态，给端侧提供更精准的带宽建议；端侧则可以把更多的计算任务卸载到云端，降低本地处理压力。

另外，随着对话式AI技术的发展，智能助手、虚拟陪伴等新场景也在兴起。这些场景对流量控制提出了新的要求——不仅要保证音视频的流畅，还要配合AI的响应节奏，实现自然的打断和对话体验。

写在最后

聊了这么多，你可能会问：流量控制是不是越先进越好？其实不完全是。最重要的是稳定和平衡——在最坏的网络环境下不退化，在正常的网络环境下不浪费，稳如老狗才是真正的好算法。

这让我想起一句话：真正的技术，不是炫技，而是在你感受不到它存在的时候，默默地把所有事情都做好。流量控制大概就是这样的技术。当你和朋友视频聊天时，当你和队友开黑语音时，当你观看直播时，你可能从来不会想到这背后有这么多复杂的算法在运转。但正是这些算法，在看不见的地方守护着每一次流畅的通话体验。

如果你对这个话题感兴趣，或者有任何问题，欢迎一起交流探讨。

实时音视频技术中的流量控制的算法

实时音视频技术中的流量控制算法：背后的逻辑与挑战

为什么流量控制这么重要？

流量控制面临的三座大山

网络状况探测：知己知彼

主流流量控制算法一览

基于丢包的拥塞控制：简单粗暴但有效

Google GCC：兼顾延迟与丢包

BBR：另辟蹊径的思路

SCReAM：为移动场景而生

声网的实践：大规模网络中的算法优化

多维度信息融合

AI驱动的智能预测

场景化的策略适配

流量控制的未来

写在最后

联系我们

微信扫一扫关注我们

手机扫一扫打开网站

实时音视频技术中的流量控制算法：背后的逻辑与挑战

为什么流量控制这么重要？

流量控制面临的三座大山

网络状况探测：知己知彼

主流流量控制算法一览

基于丢包的拥塞控制：简单粗暴但有效

Google GCC：兼顾延迟与丢包

BBR：另辟蹊径的思路

SCReAM：为移动场景而生

声网的实践：大规模网络中的算法优化

多维度信息融合

AI驱动的智能预测

场景化的策略适配

流量控制的未来

写在最后

为您推荐

联系我们

微信扫一扫关注我们

手机扫一扫打开网站