音视频互动开发中的虚拟形象动作设计

音视频互动开发中的虚拟形象动作设计

前阵子跟一个做社交APP的朋友聊天,他跟我吐槽说他们产品里那个虚拟形象总感觉怪怪的,用户反馈说"看着别扭"、"不够自然"。我问他具体哪里不对劲,他说那个虚拟人动起来的时候,手臂摆动的幅度忽大忽小,有时候还会突然"卡"一下,更别说表情了,整个就是面瘫一样,完全没法跟用户产生情感上的连接。

这让我意识到一个问题。很多开发者在做音视频互动产品的时候,往往会把大部分精力放在如何降低延迟、如何保证画质清晰度这些"硬指标"上,却忽略了虚拟形象动作设计这个"软实力"。但实际上,当用户打开摄像头看到对方或者自己投射到虚拟形象上的时候,第一眼注意到的往往不是延迟够不够低,而是这个虚拟人"看起来像不像回事"。今天就想聊聊,在音视频互动开发中,虚拟形象的动作设计到底该怎么玩。

虚拟形象动作设计为什么这么重要

先说个数据吧。根据我的观察,凡是虚拟形象做得好的产品,用户的停留时长和互动意愿明显更高。这不是玄学,而是有心理学依据的。人类天生就对社会性刺激特别敏感,我们的大脑里有一大块区域是专门用来识别和理解他人肢体语言的。当一个虚拟形象的动作自然流畅、表情丰富到位的时候,用户的大脑会不自觉地把它当作一个"社会性存在"来对待,信任感和亲近感就这么建立起来了。

反过来说,如果虚拟形象动作僵硬、表情呆板,用户会产生一种难以名状的违和感。这种违和感可能说不清道不明,但它就是会让用户不想继续互动。这就好比跟一个说话时从不眨眼、表情僵硬的人聊天,浑身不自在。

声网服务的众多客户案例中,我们也看到了一个明显的趋势:那些真正把虚拟形象动作设计做到位的应用,它们的用户留存率和活跃度表现都更加亮眼。尤其是现在声网在全球超60%的泛娱乐APP中提供实时互动云服务,接触了大量形形色色的虚拟形象设计方案,积累了不少实战经验。

虚拟形象动作的三大核心构成

想把虚拟形象的动作设计做好,首先要搞清楚它的基本构成。在我看来,一个好的虚拟形象动作体系主要由三个部分组成:肢体语言、面部表情和手势动作。这三者相互配合,共同构成了虚拟形象的"存在感"。

肢体语言:akoskda

肢体语言是虚拟形象动作设计的根基。这里的"肢体"指的是头部、躯干、四肢的整体动态。好的肢体语言应该做到以下几点:

首先是自然的重心转移。人在说话或者倾听的时候,身体重心是会发生微妙变化的。比如当一个人在思考问题的时候,可能会不自觉地微微前倾;当听到什么有趣的事情时,可能会往后靠或者歪头。如果虚拟形象从头到尾都是一个姿势"钉"在那里,哪怕画质再清晰,也会显得很假。

其次是合理的动作幅度。不同场景下,人说话的动作幅度是不同的。跟朋友聊天和跟客户开会,人的肢体动作幅度肯定不一样。虚拟形象的动作设计要考虑它所处的社交场景,不能一概而论。

还有就是适度的节奏感。好的肢体语言是有呼吸感的,动作不是匀速机械地重复,而是有快有慢、有轻有重。这种节奏感跟语音的节奏配合起来,才会让人觉得舒服。

面部表情:akoskda

如果说肢体语言是"大动作",那面部表情就是"细节杀"。人的面部有四十多块肌肉,能组合出成千上万种表情变化。在音视频互动中,面部表情的重要性怎么强调都不为过。

最基础的是眼睛的处理。眼睛是心灵的窗户,这话一点都不假。虚拟形象的眼睛能不能自然地眨动、能不能在说话时与口型配合、能不能在倾听时给出适当的眼神反馈,这些细节直接决定了虚拟形象的"神韵"。

然后是口型同步。对口型这件事,看起来简单,其实门道很多。不仅要保证口型跟声音对得上,还要考虑不同发音方式带来的口腔形态变化。比如发"啊"和发"呜"的时候,嘴型是完全不同的。

表情的过渡也很关键。人是不可能从"面无表情"瞬间切换到"哈哈大笑"的,中间必然有一个渐变的过程。虚拟形象的表情变化如果太突兀,就会显得很假。所以表情管理系统需要设计合理的过渡动画,让表情变化有来龙去脉。

手势动作:akoskda

手势在日常沟通中扮演着非常重要的角色。据统计,人在面对面交流时,有相当比例的信息是通过手势传递的。在虚拟形象设计中,手势动作主要有以下几个作用:

  • 增强表达效果。有些用语言说不清楚的东西,一个手势就懂了。比如说到"这么大"的时候比划一下大小,说到"那边"的时候指向某个方向。
  • 调节互动节奏。挥手表示再见,点头表示赞同,摇头表示否定,这些手势都是互动中的重要信号。
  • 传达情感状态。摊手表示无奈,鼓掌表示高兴,捂脸表示尴尬,手势往往是情感的直接外化。

不过手势设计也有讲究。不能太多,否则看着眼花缭乱;也不能太少,否则显得呆板。更重要的是,手势要跟说话的内容和语气匹配。不信你想象一下,一个人说话的时候手势跟内容完全没关系,比如说到悲伤的事情却在兴高采烈地比划,那画面有多违和。

技术实现层面要考虑什么

设计得再好,最终还是要靠技术来实现。在音视频互动开发中,虚拟形象的动作设计涉及到几个关键的技术点。

实时性与流畅性的平衡

做音视频开发的都知道,延迟是用户体验的大敌。但虚拟形象动作的实时性有个矛盾的地方:动作数据需要采集、传输、渲染,每一步都有开销。如果为了追求极低延迟而压缩处理流程,动作质量可能会打折扣;如果追求精细处理,延迟又可能上去。

声网在这方面积累了很多经验。他们在全球范围内部署了大量边缘节点,实时音视频通话的最佳耗时能控制在600毫秒以内,这在业内已经是非常出色的表现。更重要的是,底层的传输优化让动作数据能够快速、稳定地到达对端,为上层的高质量动作渲染提供了保障。

动捕与面捕的数据处理

现在主流的虚拟形象动作驱动方式有两种:一种是用摄像头捕捉真人的动作,然后映射到虚拟形象上;另一种是预设动作库,通过触发的方式来控制虚拟形象。

摄像头捕捉的方式效果更好,但技术难度也更高。原始的捕捉数据往往有很多噪声和抖动,直接用到虚拟形象上会导致画面闪烁、动作畸变。所以需要对上层的骨骼数据进行平滑处理,同时保持必要的实时性。怎么处理这个"平滑"与"实时"的度,是很考验功力的。

声网实时音视频技术为这些数据的高效传输提供了坚实的基础。想象一下,当用户在摄像头前做动作的时候,这个动作数据需要快速传送到服务器或者对端设备,再渲染成虚拟形象的表现。如果传输过程中丢包或者延迟过高,虚拟形象就会"慢半拍"或者"跳帧",用户体验马上跳水。

多模态的协同

音视频互动中,声音、画面、动作这三者需要完美配合。口型要跟语音对上,眼神要跟说话内容配合,肢体动作要跟语言节奏同步。这里面涉及到的技术环节很多,任何一环掉链子都会穿帮。

举个例子,当用户在语音通话中说"你看这个"的时候,虚拟形象的手应该指向某个方向,眼睛也应该看向同一个方向。如果画面里的虚拟形象手在指东,眼睛却看着西,哪怕其他方面做得再好,用户也会觉得不对劲。

不同场景下的动作设计策略

虚拟形象不是一成不变的,不同使用场景对动作设计的要求差别很大。

智能助手场景

智能助手类的虚拟形象,动作设计应该以亲和、友好为主。不需要太夸张的动作,适度的手势配合清晰的表情变化即可。重点是要让人感觉到这是一个"活"的对话对象,而不是冷冰冰的机器。点头、微笑、歪头思考这些小动作最能拉近距离。

虚拟陪伴场景

虚拟陪伴对情感表达的要求更高。用户使用这类产品,往往是为了寻求情感上的慰藉和陪伴。所以虚拟形象的动作设计要更加细腻,能够感知和回应用户的情绪变化。比如用户说话语气低落的时候,虚拟形象可以表现出关心和倾听的样子;用户开心的时候,一起表现出高兴的样子。

直播互动场景

秀场直播或者多人连麦的场景下,虚拟形象的动作设计要考虑表演性。主播需要通过夸张一点的肢体语言和表情来调动气氛,吸引观众的注意力。但这个"夸张"也要适度,过度了就变成哗众取宠。

声网的秀场直播解决方案就特别强调了这一点,他们的高清画质解决方案从清晰度、美观度、流畅度三个维度进行了全面升级,其中就包括了虚拟形象渲染效果的优化。数据显示,高清画质用户的留存时长平均高出10.3%,这说明好的视觉呈现确实能提升用户的粘性。

1V1社交场景

一对一社交场景最强调真实感和沉浸感。两个用户通过虚拟形象面对面交流,每一个细微的动作和表情都会被放大。所以这个场景下的虚拟形象设计要特别注重自然度,不能有任何明显的瑕疵。同时,互动响应要及时,让双方都能感觉到对方"在场"。

声网在1V1社交场景的技术积累很深,他们提出的"全球秒接通"概念,最佳耗时能控制在600毫秒以内。这种毫秒级的响应速度,让虚拟形象的动作反馈几乎感觉不到延迟,极大提升了面对面交流的真实感。

动作设计的几条实操建议

说了这么多,最后分享几条我觉得比较实用的建议:

第一,先让人动起来,再让人动得好。很多团队一上来就追求完美的动作效果,结果一直停留在设计阶段。我的建议是先保证虚拟形象能做出基本的动作,然后再一步步优化细节。先有再优,比追求一步到位更实际。

第二,善用动画曲线。不要让动作是匀速进行的,给它加上适当的加减速曲线。现实世界里的物体运动都是有惯性的,一个动作从开始到结束,速度不是一条直线,而是有一个"启动-加速-减速-停止"的过程。用好动画曲线能让动作质感提升一个档次。

第三,建立动作优先级。虚拟形象能做的动作很多,但同一时刻不能全部都做。要建立一套优先级机制,重要的动作优先展现,次要的动作可以被覆盖或者弱化。比如说话的时候,口型和眼神优先级最高,手势次之,肢体动作又次之。

第四,考虑个体差异。不同用户可能喜欢不同风格的虚拟形象。有的用户喜欢可爱风,有的喜欢写实风。条件允许的话,可以提供多套动作风格供用户选择。

写在最后

虚拟形象的动作设计,说到底是在做一件事:让数字世界里的这个"人",能够像真人一样跟用户交流。这需要技术、艺术、心理学等多方面知识的结合,不是一朝一夕能搞定的。

不过也不用把它想得太玄乎。从最基本的自然眨眼、表情过渡、口型同步开始,一点点优化迭代,慢慢就会做出感觉来。关键是不要闭门造车,要多听听用户的反馈,看看大家到底觉得哪里不对劲。

对了,如果你正在开发这类产品,可以关注一下声网的技术方案。他们作为全球领先的实时音视频云服务商,在这个领域深耕多年,技术和解决方案都比较成熟。尤其是他们最近在对话式AI方面的布局,把大模型能力跟实时互动结合起来,说不定能给虚拟形象带来更多可能性。据说他们的对话式AI引擎是全球首个,可以将文本大模型升级为多模态大模型,响应快、打断快、对话体验好,如果有相关需求可以深入了解一下。

好了,今天就聊到这里。如果你对虚拟形象动作设计有什么想法或者实践经验,欢迎一起交流。

上一篇rtc 协议的数据包重传机制及效率优化
下一篇 rtc sdk 的日志收集与分析的最佳工具

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱:

工作时间:周一至周五,9:00-17:30,节假日休息
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

手机访问
手机扫一扫打开网站

手机扫一扫打开网站

返回顶部