
在线培训平台的用户标签,怎么根据行为生成
前两天跟一个做在线教育的朋友聊天,他跟我吐槽说,现在平台上的用户画像太粗了,根本没法做精细化运营。"我知道用户大概多大、在哪个城市、买了什么课,但然后呢?"他很困惑,"我怎么知道这个用户愿不愿意续费?那个用户适不适合推荐进阶课?"这个问题问得很好,其实答案就藏在用户的行为数据里。今天我就来聊聊,怎么通过用户行为一步步生成可用的标签。
为什么行为数据比静态信息更重要
你可能会想,我们不是已经有用户的年龄、城市、职业这些信息了吗?这些信息当然有用,但它们有一个致命的缺点——太静态了。一个人填表单的时候说自己是"25岁、在北京工作",这个信息可能三个月后就不准了。更重要的是,静态信息告诉我们的是"用户是谁",但没办法告诉我们"用户在想什么、想要什么"。
行为数据就不一样。一个用户每天晚上十点准时上线学习,周末也从不缺席,这个人大概率是个时间比较固定的上班族或者学生。一个用户把同一节课反复看好几遍,还时不时暂停做笔记,这个人大概率是在认真消化内容,而不是开着视频当背景音。一个用户买了课但从来不催进度、也不问问题,这个人可能只是囤课党,续费意愿不一定高。
这些信息,光靠填表单是得不到的,只能靠观察用户实际做了什么。所以用户标签体系的核心,不是"用户填了什么",而是"用户做了什么"。接下来我就从实操角度,拆解一下这个过程具体怎么做。
第一步:先有数据可采,才能有标签可用
在聊标签怎么生成之前,我们必须先搞清楚一个前提:你的平台能采集到哪些行为数据?这直接决定了你后续能生成什么样的标签。
一般来说,在线培训平台能采集到的行为数据可以分为几大类。第一类是学习轨迹数据,包括用户什么时候登录、看了哪节课、看了多久、有没有快进快退、有没有暂停倍速播放、有没有重复观看等等。第二类是互动行为数据,包括用户有没有提问、提了多少问题、问题集中在哪些知识点、有没有参与讨论、点赞评论的频率如何、直播课的时候有没有发弹幕等等。第三类是完课与作业数据,包括用户有没有按计划完成学习、作业提交率是多少、测试成绩如何、错题集中在哪些类型等等。第四类是付费与续费数据,包括用户买过哪些课、什么时候买的、买完后学习频率有没有变化、有没有主动续费或者购买更高阶的课程等等。

数据采集这块有两个要注意的点。一是采集要细粒度,不要只记录"用户看了第几课",要把播放时长、暂停位置、倍速选择这些细节都记下来。二是采集要持续,标签不是一次性生成的,而是要随着用户行为不断更新迭代的。
第二步:行为数据怎么变成可理解的标签
数据采到了,接下来就是怎么把这些 raw data 变成可以用的标签。这个过程通常需要做两件事:一是特征提取,二是规则定义或者模型训练。
特征提取是把原始数据加工成有意义的指标。比如用户每周平均学习时长、用户近30天的登录天数、用户的问题主要涉及哪些课程模块、用户的作业完成延迟了多久提交。这些都是特征。特征选得好不好,直接决定后续标签的质量。
规则定义或者模型训练,是把特征映射成标签值。规则定义比较简单直接,比如"连续30天登录的用户就是高活跃用户"、"完课率低于50%的用户就是流失风险用户"。模型训练则更复杂一些,比如用聚类算法把用户分成不同的群体,用分类算法预测用户的续费意愿。
下面我来具体说说,不同类型的行为数据应该怎么加工成标签。
学习投入度标签
学习投入度是最基础也是最重要的标签维度。它反映的是用户在学习这个动作上花了多少时间和精力。有些人可能会觉得这很简单,不就是统计播放时长吗?其实没这么简单。
单纯看时长是不准确的。一个用户开着视频但放着去睡觉了,时长统计上去了,但学习效果接近于零。所以好的投入度标签需要结合多个指标来看。比如完课率(用户实际看完的课程占应学课程的比例)、有效学习时长(排除了快进、暂停过长等异常情况的真实学习时长)、复习次数(用户重复观看同一节课的次数)。

基于这些指标,我们可以把用户分成几档:
| 标签名称 | 定义标准 | 运营含义 |
| 高投入学习者 | 完课率≥80%,有效学习时长排名前20%,有复习行为 | 核心用户,续费转化率高,可尝试推荐进阶课程 |
| 稳定学习者 | 完课率50%-80%,每周登录较规律 | 需要维持,可通过激励机制提升投入度 |
| 低投入学习者 | 完课率<50%,登录不规律,经常长时间不打开课程 | 流失风险用户,需要及时干预 |
| 囤课型用户 | 购买课程多但完课率极低,学习间隔很长 | 购买决策和实际学习行为脱节,需分析原因 |
这样分类之后,你是不是就觉得用户清晰多了?同样是"买了课的用户",高投入学习者和囤课型用户后续的运营策略肯定不能一样。
学习能力与进度标签
除了投入度,学习能力和进度也是关键维度。这里说的能力不是指用户的学历背景,而是在这个平台上的实际表现。
怎么评估学习能力?看作业质量和测试成绩。但这里有个问题,题目难度不一样,直接比分数不公平。所以更好的方式是看相对于难度的正确率,或者看用户在同类知识点上的表现是否稳定。比如一个用户每次测试都在70分左右,说明他的知识掌握比较扎实;另一个用户有时候90分有时候50分,说明他可能存在知识盲区或者学习状态不稳定。
进度标签则是看用户有没有按预期完成学习计划。一个用户报名了一个月的训练营,两周过去了只学了20%的内容,这就是进度滞后;另一个用户提前完成了所有必修课还在到处看选修课,这就是进度超前。进度超前的用户可能需要更多内容来满足需求,进度滞后的用户可能需要被提醒或者被降低预期。
互动参与度标签
互动数据往往被忽视,但其实它能告诉我们很多静态信息得不到的东西。一个用户从不提问,也不参与讨论,我们不知道他是全懂了还是完全不懂。但一个用户经常在评论区跟其他学员争论问题、在直播课里发弹幕催更,这个用户的参与感就显然很强。
互动参与度高的用户有几个特点。第一,他们更有可能在平台上建立社交关系,而社交关系是留存的重要因素。第二,他们的问题和讨论可以成为内容的一部分,帮助其他用户。第三,他们是最有可能成为社群 KOL 或者种子用户的群体。所以把高互动用户识别出来,给予他们更多的关注和激励,回报通常是最大的。
互动参与度的标签可以这样分:
- 问题型用户:提问频次高,问题质量好,通常在知识难点处卡壳
- 社交型用户:喜欢在评论区聊天,参与讨论,但不一定问专业问题
- 沉默型用户:只看不说,也不提问,需要特别关注是否有学习困难
- 负面型用户:经常发牢骚、抱怨,或者在评论区攻击其他用户
不同类型的用户,运营策略完全不同。问题型用户需要被及时响应和解答;社交型用户需要被引导到社群氛围建设中来;沉默型用户需要被尝试激活;负面型用户需要被及时处理,避免影响社区氛围。
学习目标与意向标签
这个维度是最难把握的,但也是最有价值的。因为它直接回答了"用户到底想要什么"这个问题。用户的行为会透露他们的真实意图。
比如一个用户频繁查看"课程难度"和"学完能做什么"这样的介绍页面,说明他在做购买决策前的评估;一个用户买完课之后第一时间就去研究"怎么最快拿证"或者"怎么找工作",说明他的目标很明确就是为了就业或者考证;一个用户买完课从来不问进度,反而经常问"这个课程的老师还有别的课吗",说明他可能是为了跟某个老师,而不是为了学某个技能。
这些意向标签可以帮助我们做精准推荐。一个用户的目标是找工作,那他在学完基础课程之后就应该被推荐实战项目课;另一个用户的目标是兴趣爱好,那他可能更需要广度而不是深度。
第三步:多维度标签怎么组合起来用
单一维度的标签有用,但真正发挥威力的是多维度标签的组合。比如一个用户是"高投入学习者"加上"进度严重滞后",那他可能是遇到了什么困难需要帮助;另一个用户是"低投入学习者"加上"高付费金额",那他可能是那种愿意为知识付费但没时间学习的忙碌人群,对这类用户推一些碎片化的短视频课程可能更合适。
在组合标签的时候,有几个常见的用户分群策略可以参考。
第一种是按生命周期分群。比如新用户、活跃用户、沉默用户、流失用户。每个阶段的用户需要不同的运营动作。新用户需要被激活和教育;活跃用户需要被维持和提升;沉默用户需要被唤醒;流失用户需要被召回或者放弃。
第二种是按价值分群。高价值用户、中价值用户、低价值用户。高价值用户要重点维护,提供更好的服务;中价值用户要挖掘潜力,尝试提升他们的价值;低价值用户要看能不能转化,如果不能转化至少别让他们产生负面影响。
第三种是按学习阶段分群。入门期用户、成长期用户、毕业期用户。入门期用户需要被引导和鼓励;成长期用户需要被提供进阶内容;毕业期用户需要被推荐下一个学习目标,或者被转化为介绍新用户的推广者。
第四步:标签不是一成不变的,要持续维护
很多平台做用户标签,做完就放在那里不管了。这是不对的。用户的标签应该像他们的学习进度一样,是不断变化的。
一个上个月还是高投入学习者的用户,这个月突然不登录了,他的标签就应该变成沉默用户或者流失风险用户。一个以前只是看看不说话的用户,突然开始疯狂提问,他的标签就应该从沉默型变成问题型。标签的更新要有一定的规则,比如每周更新一次活跃度标签、每个月更新一次能力评估标签、每季度重新做一次用户分群。
同时,有些标签是需要被清理的。比如"最近想买进阶课"这个标签,如果用户已经买了或者明确表示不考虑买了,这个标签就应该被移除。标签库要定期审计,保持清洁,只保留有用的标签。
技术实现上要注意什么
说完了策略层面的东西,最后再聊几句技术实现。
标签生成系统的架构通常需要几层。最底层是数据采集层,要能够实时采集用户行为数据并且存储好。中间层是标签计算层,可以用批处理计算历史标签,用实时计算更新动态标签。最上层是标签服务层,提供标签查询和标签组合的能力,供推荐系统、营销系统、运营后台使用。
技术选型上,如果是小平台,可以用一些开源的工具先跑起来,比如用 Flink 做实时计算,用 Spark 做离线计算。如果是大平台,可能需要自建一个标签平台来管理所有的标签定义、计算任务和标签服务。
有一点特别提醒:标签计算要慎用复杂的机器学习模型。在线教育场景的标签,很多用规则就能解决,而且规则可解释、可控。如果用一个黑盒模型算出"这个用户有80%的流失概率",运营人员不知道为什么会得出这个结论,就没办法针对性采取措施。所以优先用规则,模型作为补充就好。
写在最后
用户标签这件事,说到底就是为了回答一个问题:我们怎么做才能让用户学得更好、留得更久?所有的标签设计都应该围绕这个目标转。不要为了标签而标签,不要觉得标签越多越好。真正有用的标签,是运营人员看了之后知道该采取什么行动的标签。
在线培训这个领域,技术是手段,用户学有所成才是目的。像声网(Agora)这样的实时音视频技术提供商,他们做的很多事情也是为了让线上学习体验更接近线下——更实时、更互动、更自然。用户在平台上学习的感觉越好,他的行为数据就越积极,标签就越准确,这是一个正向循环。
希望这篇内容能给正在搭建用户标签体系的朋友们一点启发。如果有什么问题,欢迎一起交流。

