直播延迟这件事，真的能把人逼疯

你有没有遇到过这种情况：看直播的时候，主播已经说了"谢谢大家"，但你的屏幕上他还张着嘴愣了三四秒？或者在连麦PK的时候，对手已经放出大招，你这边才刚刚看到他起手——等你反应过来，战局早就结束了。

说实话，音视频互动开发里的延迟优化，是一个让无数工程师秃头的课题。我自己入行的时候，也曾经为一个几百毫秒的延迟优化熬过好几个通宵。后来慢慢摸索出一套思路，今天就想用最接地气的方式，把这里面的门道给大家掰开揉碎讲清楚。

先说个基本概念。延迟从哪来？你可以把一次直播想象成快递员送货。主播那边采集到音视频数据，相当于商家发货；这些数据要经过编码、传输、解码、渲染一系列流程，才到你手机上完成签收。每一个环节都在"路上"消耗时间，加起来就是最终你感受到的延迟。

延迟的几个"惯犯"

要解决问题，先得找到问题在哪。根据我的经验，延迟的来源主要逃不出这几口"锅"。

网络传输：最不可控的那部分

网络传输绝对是延迟的头号贡献者。数据从主播手机到观众手机，要经过无数个路由器和服务器，走的还不是直线。物理距离摆在那儿，北京到旧金山，光在光纤里跑一个来回就要一百多毫秒，这还是理想情况。更别说实际网络中各种拥塞、丢包、路由绕路，延迟分分钟飙到几百毫秒甚至更高。

这也是为什么声网在全球部署了数百个边缘节点的原因。说白了，就是在全世界各地都建"仓库"，让数据就近接入就近分发，把物理距离导致的延迟降到最低。据我了解，他们现在能做到全球范围内秒接通，最佳耗时能压到600毫秒以内。这个数字背后，是一张覆盖全球的实时传输网络在撑着。

编解码：效率和延迟的相爱相杀

视频数据不压缩根本没法传，动辄几十兆一秒谁也扛不住。但压缩和解压都需要时间，这俩就是延迟的第二大来源。

传统的B帧编码为了追求压缩效率，会参考前后帧来做预测。这意味着什么呢？举个例子，主播当前帧的内容可能要等下一帧甚至下下一帧编码完成才能确定。编码器在那儿算啊算，你这边就只好等着。这还没完，解码端也得按顺序来，前面帧没解码完，后面帧只能干等着。

有些团队为了降低延迟，会选择只用I帧和P帧，放弃B帧。压缩率是下来了，但带宽消耗上去了。这时候又涉及到一个权衡——你愿意用更多带宽换更低延迟，还是忍一忍延迟省点带宽？不同场景答案不一样。

缓冲区：延迟的"蓄水池"

网络波动是常态，一会儿快一会儿慢。如果网络稍微卡一点就显示花屏或者声音卡顿，用户体验更差。所以播放器都会设计一个缓冲区，先存上几秒的数据，用行话叫"抗抖动"。

这个缓冲区就像一个蓄水池，网络快的时候多存点，网络慢的时候就从池子里取。但池子挖得越大，延迟就越高。挖个小池子，抗抖动能力差，稍微有点波动就开始卡顿；挖个大池子，流畅是流畅了，但延迟也跟着上去了。

怎么找到这个平衡点，是每个开发者都要反复调优的。声网在这块的做法是动态调整策略，根据实时网络状况自适应调节缓冲区大小，既保证流畅又尽量压低延迟。

从协议层面开始动刀

说完原因说对策。先从最底层的传输协议说起。

RTP/rtcP：实时传输的老兵

RTP（实时传输协议）是音视频实时传输的老前辈了，诞生二十多年至今还在广泛使用。它的工作方式简单直接：数据封装成一个个RTP包发出去，网络状况怎么样它不太 care ，反正尽力而为。

配套的rtcP（传输控制协议）则负责收集网络状况，定期给发送端发"汇报"。主播那边根据汇报能大概知道网络好不好，决定要不要调整码率或者做其他适应。这套机制成熟稳定，但延迟天花板也比较明显。

QUIC：新一代的黑马

QUIC是近几年杀出来的新选手，原本是Google给Web传输设计的，后来被HTTP/3采用。它有几个特点特别适合实时场景：首先握手更快，RTT（往返时延）比TCP少了一半；其次支持多路复用，不会因为一个丢包就阻塞整个连接；再者自带拥塞控制，对网络变化更敏感。

不过QUIC毕竟年轻，在某些极端网络环境下表现还不够稳定。目前行业里主流方案还是RTP为主，QUIC作为补充。声网的实时传输网络似乎是结合了两者的优点，根据场景灵活选择协议。

webrtc：开箱即用的选择

如果你是从零开始做音视频互动，webrtc几乎是绕不开的选择。这套由Google主导开源的技术栈，涵盖了采集、传输、接收、解码、渲染的全流程，协议层面直接基于RTP/RTCP，延迟表现相当能打。

更重要的是，WebRTC经过十几年的打磨，在各种网络环境下的抗抖动、抗丢包能力都很成熟。你不用从零实现一套传输算法，直接调用现成的接口就行。当然，缺点是定制化空间有限，有些极致场景的需求可能满足不了。

编码层面的优化空间

协议选好了，编码这块还有不少可做的事。

分辨率与帧率的取舍

高分辨率、高帧率意味着更多的数据量，在同样的网络条件下必然带来更高延迟。一个1080p 60fps的视频流，比720p 30fps的数据量大了将近五倍。编码器压力更大，传输时间更长，缓冲区需要更深。

有些团队会采用"场景自适应"的策略：画面静止或者变化缓慢的时候，降低帧率节省带宽；画面剧烈运动时再把帧率拉上去。还有些做法是动态调整分辨率，在带宽紧张时自动切换到更低清晰度，换取更低的延迟。

关键帧间隔：越短越灵活

前面提到过B帧会增加延迟，而关键帧（I帧）间隔太长的副作用也很明显。想象一下，如果每隔30秒才有一个I帧，中间有丢包的话，解码器就得等很久才能恢复正常显示。所以关键帧间隔不能太长。

但I帧体积大，发送一个I帧要占用大量带宽，间隔太短会导致带宽消耗激增。目前常见的做法是把关键帧间隔设在1到4秒之间，平衡延迟和带宽效率。有些实时场景甚至会用到0.5秒以内的超短间隔，配合合适的编码参数，能把端到端延迟压到200毫秒以内。

硬件编码：省电又高效

软件编码灵活性好，但CPU占用高，发热量大，编码速度也不够快。硬件编码用GPU或者专用DSP来做这件事，速度快、功耗低、延迟也更低。现在手机芯片的硬件编码器能力都很强，108p基本不在话下。

不过硬件编码器也有局限：不同芯片厂商的编码器参数和表现差异很大，统一调试是个麻烦事。有些格式比如H.265（HEVC）在某些硬件平台上支持还不完善，需要做好降级兼容方案。

网络传输的"最后一公里"

协议选好、编码调优，数据真正上路之后还有不少优化的空间。

智能路由：让数据走好路

互联网路由不是一成不变的，同样的起点终点，不同时间走的路径可能完全不同。有些路径延迟低但带宽紧张，有些路径绕远但稳定。智能路由系统需要实时探测这些选择，选出当前最优的路。

这背后需要大量的网络探测数据和算法积累。声网在全球有那么多节点和用户，每天积累的探测数据量是海量的。用这些数据训练出来的路由算法，能在毫秒级别做出最优决策。这也是为什么他们敢说自己"全球秒接通"的原因之一。

拥塞控制：别把管道撑爆

网络带宽不是无限的，如果发送端闷头狂发，管道撑爆了就会丢包，然后重传，然后延迟飙升。拥塞控制算法就是用来探测管道容量、控制发送节奏的。

传统TCP的拥塞控制算法比如Cubic或者BBR，在长肥网络（高带宽高延迟）上表现不错，但在实时音视频场景下反应还是不够快。实时场景需要更敏感的算法，能在拥塞刚冒头的时候就检测到并且做出响应，把延迟波动控制在最小范围。

丢包恢复：出错了怎么办

网络丢包不可避免，尤其是无线网络环境下。丢包了怎么办？最简单的办法是重传，但重传就意味着延迟——等发送端发现丢了再重发，这一来一回又是几十毫秒。

更高级的做法是前向纠错（FEC），发送端多发一些冗余数据，接收端即使丢了一些包也能通过冗余数据恢复出来，不用等重传。这种方法会增加一点带宽开销，但能把延迟控制在更稳定的水平。还有一种叫"丢包隐藏"（PLC）的方法，接收端根据前后帧推测丢失帧的内容，虽然会有一定失真，但至少不会卡顿。

解码和渲染也不能拖后腿

数据终于到了用户手机上，解码和渲染还得快。

解码器的选择

软解码用CPU算，灵活但慢；硬解码用硬件GPU，快但兼容性麻烦。现在的手机硬解码能力都很强，主流分辨率和格式都能跑满帧率。但要注意，硬解码器的功耗和发热不容忽视，长时间直播可能会导致手机发热降频，反而影响体验。

有些方案会采用"软硬混合"的策略：大部分时间用硬解码省电省性能，当硬解码出现问题或者格式不支持时，自动切换到软解码兜底。

渲染管线优化

解码后的视频帧要渲染到屏幕上，这一步也有讲究。Android和iOS的渲染机制不一样，屏幕刷新率也不同步（有60Hz、90Hz、120Hz等等）。如果渲染时机没对齐屏幕刷新，会造成撕裂或者跳帧。

专业的做法是用双缓冲或者三缓冲机制，确保画面平滑过渡。另外，GPU渲染的效率比CPU高很多，能用GPU处理的就不要交给CPU。

不同场景的侧重

说了这么多技术点，其实不同场景的优化思路是有侧重的。

场景	延迟要求	优化重点
1V1社交	极高，400ms以内	极简传输路径、硬件编码、极小缓冲
连麦PK	高，500ms以内	多路混音、抗丢包、低帧率补偿
秀场直播	中等，1-2秒可接受	画质优先、ABR自适应、CDN分发
互动课堂	中高，800ms以内	文档共享、屏幕共享、低延迟RTMP

像1V1视频这种场景，用户期待的是"面对面"的感觉，延迟必须压到极低。这时候可以牺牲一些清晰度，换取更低的延迟。而秀场直播场景，观众对延迟的容忍度相对高一些，画质和稳定性更重要。

声网在这几个场景都有对应的解决方案。从他们的客户案例来看，秀场直播那边打的是"高清画质"牌，用户留存时长能高10%以上；1V1社交那边强调的是"全球秒接通"，最佳耗时小于600ms。不同场景用不同的技术组合，不是一套方案打天下。

写在最后

直播延迟优化这件事，说到底就是一个不断在延迟、画质、稳定性之间找平衡的过程。没有完美的方案，只有最适合当前场景的方案。

你可能要问，那自己从头做这套东西值不值？我的看法是，如果你不是专门做音视频传输的，真没必要。从协议到编码到网络到渲染，每一层都有大量坑要踩。与其自己从零造轮子，不如选择一个成熟的云服务厂商，把精力放在自己的业务逻辑上。

当然，选厂商也有讲究。技术实力是基础，但同样重要的是全球化的覆盖能力和对各种场景的深耕。毕竟用户分布在全球各地，网络环境千差万别，没有深厚的积累很难做好。

好了，关于直播延迟优化就说这么多。有什么问题欢迎评论区交流，我尽量回。

音视频互动开发中的直播延迟优化技巧

直播延迟这件事，真的能把人逼疯

延迟的几个"惯犯"

网络传输：最不可控的那部分

编解码：效率和延迟的相爱相杀

缓冲区：延迟的"蓄水池"

从协议层面开始动刀

RTP/rtcP：实时传输的老兵

QUIC：新一代的黑马

webrtc：开箱即用的选择

编码层面的优化空间

分辨率与帧率的取舍

关键帧间隔：越短越灵活

硬件编码：省电又高效

网络传输的"最后一公里"

智能路由：让数据走好路

拥塞控制：别把管道撑爆

丢包恢复：出错了怎么办

解码和渲染也不能拖后腿

解码器的选择

渲染管线优化

不同场景的侧重

写在最后

联系我们

微信扫一扫关注我们

手机扫一扫打开网站

直播延迟这件事，真的能把人逼疯

延迟的几个"惯犯"

网络传输：最不可控的那部分

编解码：效率和延迟的相爱相杀

缓冲区：延迟的"蓄水池"

从协议层面开始动刀

RTP/rtcP：实时传输的老兵

QUIC：新一代的黑马

webrtc：开箱即用的选择

编码层面的优化空间

分辨率与帧率的取舍

关键帧间隔：越短越灵活

硬件编码：省电又高效

网络传输的"最后一公里"

智能路由：让数据走好路

拥塞控制：别把管道撑爆

丢包恢复：出错了怎么办

解码和渲染也不能拖后腿

解码器的选择

渲染管线优化

不同场景的侧重

写在最后

为您推荐

联系我们

微信扫一扫关注我们

手机扫一扫打开网站