
HR软件系统对接时,历史数据的清洗与迁移工作通常由哪方负责完成?
这个问题,说实话,是每个搞过HR系统实施的项目经理心里最打鼓的一块。每次开会,甲方(也就是企业客户)和乙方(软件厂商)坐下来,聊到项目预算和周期,这事儿准会被拎出来掰扯半天。
为什么?因为这活儿不仅累,还特别容易“背锅”。
从我的经验来看,这事儿从来就没有一个标准的“谁必须做”的答案。它更像是一个谈判桌上的筹码,或者说,是根据你掏了多少钱、项目有多急、你们公司内部有多少懂数据的人来决定的。
咱们今天就抛开那些官方的项目管理书,用大白话聊聊这里面的门道。
先搞清楚,这活儿到底有多脏?
在讨论谁负责之前,你得先明白“清洗和迁移”到底意味着什么。
想象一下,你是一家有20年历史的公司,用的是上一套老旧的HR系统,或者干脆就是Excel表格管人。现在要上新系统了,比如SAP SuccessFactors、Workday,或者是国内的北森、Moka。
你手里的数据是什么样的?

- 格式乱七八糟:手机号有的写138xxxxxxxx,有的写138-xxxx-xxxx,还有的中间带空格。
- 逻辑对不上:A表里的“在职”,B表里是“1”,C表里是“Active”。
- 脏数据:员工离职了,但状态没改,还在系统里挂着;或者身份证号填成了111111111111111。
- 缺失值:关键字段,比如入职日期、部门代码,大片大片的空白。
把这些东西直接塞进新系统?新系统肯定会“消化不良”,甚至直接报错给你看。所以,必须得有人把这些“生肉”做成熟食。
这个过程,就是清洗(Data Cleaning)和迁移(Data Migration)。
通常的三种模式:谁来干?
在行业里混久了,你会发现这事儿大概有三种玩法。每种玩法背后,都是责任的转移和风险的分配。
模式一:甲方(企业)全包——“自带干粮”
这种情况常见于预算有限,但内部IT团队或HR部门有技术大牛的公司。

逻辑是这样的: 软件厂商只负责提供一个“空壳子”和导入模板(通常是Excel或CSV格式)。厂商会告诉你:“亲,我们系统很强大的,只要你的数据按照这个模板填好,一点按钮就导进来了。”
于是,清洗数据的重担就落在了企业自己头上。
- 谁来做? 通常是企业内部的HR部门(特别是COE团队里的数据分析专员)或者IT部门的数据团队。
- 怎么做? 他们得先把旧系统的数据导出来,然后用Excel的VLOOKUP、透视表,甚至Python、SQL来处理。比如,把所有手机号格式统一,把部门名称标准化(不能一会儿叫“研发部”,一会儿叫“R&D”)。
- 坑在哪? 这种方式最累的是甲方。如果数据量大(比如几千上万人),Excel可能会卡死。而且,HR业务人员可能不懂技术,IT人员可能不懂业务(比如搞不清“司龄”怎么算),两边配合不好,数据质量就很难保证。
- 厂商的借口: “数据是你们的,你们最了解你们的数据,你们清洗最准确。” 这话听着没毛病,但实际上把最难、最容易出错的环节甩给了客户。
模式二:乙方(厂商)全包——“拎包入住”
这种情况常见于预算充足、购买了高端实施服务的项目,或者是外企大厂。
逻辑是这样的: 客户是上帝,上帝说“我不会搞数据”,乙方就得搞定。
软件厂商或者他们的实施合作伙伴(Consulting Firm)会派出专门的数据顾问。
- 谁来做? 乙方的实施顾问,或者专门的数据迁移团队。
- 怎么做? 他们会先发给你一份“数据需求调研表”,让你填好旧系统有哪些字段,数据字典是什么。然后他们写脚本、写程序,自动去清洗、转换、校验。
- 优点: 甲方省心。你只需要配合确认数据规则,然后等着验收结果就行。
- 坑在哪? 贵!非常贵! 按人天算钱,一个数据顾问一天几千块甚至上万块。而且,乙方虽然懂技术,但未必懂你公司的“潜规则”。比如,你们公司把“销售部”定义为包含所有一线销售,但乙方按标准定义只算管理岗,这就容易扯皮。
- 风险: 如果乙方没理解清楚业务逻辑,迁移过去的数据全是错的,最后背锅的还是HR自己(因为业务结果是HR负责的)。
模式三:混合模式(最常见)——“你侬我侬”
现实世界中,大部分项目走的是这条路。
逻辑是这样的: 专业的人做专业的事,大家分着吃这块蛋糕。
通常的分工是这样的:
- 乙方(厂商)负责: 提供清洗工具、模板、技术指导,以及负责最后的“导入”动作。他们负责把数据“装进瓶子”。
- 甲方(企业)负责: 提供原始数据,并负责数据的“业务准确性”。比如,确认谁该算退休,谁的合同该续签。这叫“数据治理”。
举个例子:厂商提供一个Excel宏工具,HR把原始数据贴进去,工具自动报错(比如身份证号位数不对)。HR负责修改这些错误,改好后,再交给厂商导入测试环境。
这种模式下,双方都在参与,责任共担。但也最容易出现“三不管地带”——出了问题,甲方说“工具是你给的”,乙方说“原始数据是你提供的”。
决定权在谁手里?看这几个因素
既然没有定论,那在签合同的时候,这事儿到底怎么定?通常取决于以下几个硬指标:
1. 钱给的够不够?
这是最现实的。如果你只买了软件的License(使用许可),没买实施服务,或者只买了最基础的实施服务,那清洗数据这事儿,大概率是你自己干。
如果你花了大价钱,买了“端到端”的解决方案,那乙方就得把这活儿接过去。合同里一般会写:“乙方负责历史数据的清洗、转换及导入工作”。看到这句话,你才能松口气。
2. 数据量有多大?
如果你公司就百十来号人,数据量小,Excel能搞定,那谁做都行,甚至HR自己花半天时间手动录入都比谈这个划算。
但如果你是几万人的集团,数据分散在几十个子公司、不同的系统里(考勤、薪酬、绩效),光数据条数就几百万条。这时候,靠Excel是不可能的,必须得乙方上专业的ETL工具(抽取、转换、加载工具)和脚本。这时候,话语权就回到了乙方手里,因为他们有技术壁垒。
3. 你们公司内部有“数据大神”吗?
有些公司,特别是互联网大厂,内部有强大的数据中台团队。他们自己写代码清洗数据比乙方还快、还准。这种情况下,甲方往往会要求自己做,或者只让乙方做导入,不让他们碰清洗环节,因为怕乙方搞砸了。
反之,如果HR部门连VLOOKUP都不会用,那还是花钱请乙方吧,别为难自己,也别为难数据。
4. 系统的复杂程度
简单的Core HR(核心人事)系统,只需要迁移员工基本信息、组织架构,这比较简单。
但如果是复杂的薪酬系统迁移,涉及到历史工资、个税、社保基数、考勤规则,那数据清洗的难度是指数级上升的。这种情况下,强烈建议让乙方主导,因为这里面的坑太多,一旦算错工资,员工可是要找你拼命的。
一个真实的场景还原
我见过一个项目,一家传统制造业企业上新系统。
甲方老板觉得:“我们公司老员工多,数据都在脑子里,自己导一下就行了,没必要多花那几万块钱。” 于是,他们拒绝了乙方的数据清洗服务。
结果呢?
HR部门派了两个小姑娘,对着几万行的Excel表,每天加班到深夜,手动改格式、补空缺。
导入系统那天,系统报错几千条。为什么?因为旧系统里,员工的“用工性质”写的是“正式工”、“临时工”、“劳务派遣”,而新系统里要求的是代码:1、2、3。小姑娘们以为只要把文字改成文字就行,没注意到新系统后台绑定的是代码。
最后,乙方顾问不得不临时加班写脚本做映射,原本计划周五上线的系统,拖到了下周二。老板不仅赔了笑脸,还不得不给乙方补了加急费。
这就是典型的“省了芝麻,丢了西瓜”。
行业潜规则:到底谁该多操点心?
虽然说责任是分摊的,但我必须说句公道话:数据的准确性,永远是甲方(企业)的第一责任。
为什么?
因为数据是你的资产,只有你最清楚业务逻辑。乙方可以帮你清洗格式,但他们无法判断“张三去年的绩效是A还是B”。
所以,无论合同里怎么写,甲方的HR团队绝对不能当甩手掌柜。你必须深度参与,尤其是以下几个环节,必须甲方主导:
- 数据标准的制定: 比如,性别字段是写“男/女”还是“M/F”?部门层级要不要合并?这些规则必须甲方拍板。
- 数据的校验: 导入前,乙方会给你一份清洗报告,告诉你清洗掉了哪些数据,哪些数据异常。这时候,甲方必须一个个去核对,不能只看一眼总数就签字。
- 业务逻辑的确认: 比如,离职员工的数据要不要迁移进去?历史年假余额怎么结转?这些只有甲方HR知道。
如果让你自己做,有什么好建议?
如果你不幸落入了“全包”模式,或者处于“混合模式”中需要自己清洗很大一部分,这里有几个血泪教训:
- 不要在旧系统里直接改: 永远是先导出一份副本,在副本上操作。万一改坏了,还能回退。
- 先做“数据字典”映射: 拿一张白纸,左边写旧字段,右边写新字段,把对应关系理清楚。比如:旧系统的“部门代码”对应新系统的“成本中心代码”。
- 利用好Excel的“分列”和“查找替换”: 这是清洗数据最原始但最有效的武器。比如,用“分列”功能可以把“姓名-工号”拆开。
- 一定要做“试导入”: 不要等所有数据都清洗完了再一次性导入。先拿10个人的数据(包含各种特殊情况,比如有离职的、有跨部门调动的),先跑一遍流程,看系统怎么反应。
- 留好审计痕迹: 每次修改了哪些数据,谁修改的,最好在Excel里用批注或者新增一列记录下来。以后出了问题,有据可查。
合同里该怎么写?
为了避免扯皮,签实施合同的时候,一定要在“交付物”或者“服务范围”这一章,把数据这事儿掰扯清楚。
最好能细化到这种程度:
| 任务 | 负责人 | 备注 |
| 原始数据导出 | 甲方 | 从旧系统导出为Excel格式 |
| 数据清洗规则制定 | 双方确认 | 由乙方提供模板,甲方确认 |
| 数据格式转换与去重 | 乙方 | 乙方负责技术处理 |
| 数据业务准确性核对 | 甲方 | HR部门负责核对人员信息 |
| 正式导入生产环境 | 乙方 | 在甲方确认无误后执行 |
写得越细,后期打架的概率就越低。
最后的碎碎念
其实啊,HR系统对接,技术只是手段,核心还是管理。
很多时候,大家争“谁来做数据清洗”,争的不是活儿,而是“万一出错了,谁来背锅”。
作为甲方,如果你想要项目顺利,千万别为了省那点实施费,把最核心的数据治理工作揽到自己手里,除非你团队里真有专业的数据分析师。大多数情况下,花点钱请乙方做,或者让乙方出人、出工具,自己派人盯着,是最稳妥的。
毕竟,系统上线后,数据乱的是HR的后台,但受影响的可是全公司的员工。工资算错了,假算错了,谁的日子都不好过。
所以,回到最初的问题:谁负责?
答案是:谁出钱、谁懂行、谁承担后果,谁就得多干活。 想清楚这一点,这事儿就好谈了。
核心技术人才寻访
