每天数以万计的用户在金数据上使用表单收集数据,我们会收集活动报名,意见反馈,用户信息。各种数据五花八门,种类繁多,但是大家知道什么样的数据是高质量的数据吗?
小金认为高价值的数据需要具备三个特性:
1. 类别清晰
2. 易于清洗
3. 数据真实
| 类别清晰
金数据有超过27个字段,帮用户收集各种类型的数据。当我们要制作一个活动报名表单时,报名者的姓名,联系方式都属于我们需要收集的数据。
A. 想确定用户身份,可以用单行文本字段,也可以使用姓名字段;
B. 想要用户的联系方式,可以用单行文本字段,也可以用电话或手机字段;
C. 想收集用户的年龄信息,依然可以用单行文本字段,也可以用数据或者日期字段;
D. 想要准确的收货地址信息,可以使用单行文本字段,也可以使用地址字段。
这样看来,单行文本字段好像一个数据收集场景里的万金油字段,可以适配各种各样的业务场景。
方案可行,但金数据并不建议大家这样使用,原因便是这样会让数据类别不够清晰。
在填写收货地址时,地址字段将帮助我们将较长的文本信息结构化,按照省/市/县+具体位置的格式进行收集。无论是在数据页面进行筛选,还是在报表页面查看地域分布,选对了字段类型,呈现结果将一目了然。
在员工基本信息收集的表单中,如果使用单行文本或者数字字段收集员工年龄数据,那可真要花大力气来维护了。
年龄是一个随着日期自动增长的值,在2017年24岁的人,推移到2018年时年龄也会自动+1。无论是每年年末批量修改一次,还是按照准确的生日在当天修改,都非常的笨重不便捷。
建议:在字段选择时需要分析,根据业务特性选择合适的字段。
| 易于管理
当我们通过表单收集到数据时,清洗的过程还是很必要的。比如在活动报名的表单中往往会出现重复报名的情况,这样会让报名人数变得不准确,与实际情况产生出入。
这时逐条检查手机号便会显得非常笨重与低效了。
建议:你可以使用金数据字段中的「不能和已有数据重复」功能,确保每条收集到的数据都是独一无二的。你无需对着活动报名表进行费时费力地去重工作了。一次勾选即可完成。
| 数据真实
如何帮助用户收集到真实的数据,是金数据团队一直在思考的问题。
在活动报名的场景中,手机号可以帮助我们及时联系到完成报名的用户,或者向他发送通知短信。假使用户使用他人的手机号进行报名,不但准确的通知信息无法传达,也会给他人造成骚扰。
建议:在手机字段上开启短信验证功能,验证通过才能提交。确保收集到的每条手机号都是真实可用的。
商业性质的体育活动中往往要给每个报名的跑者购买人身保险,这时身份证号信息就非常重要了。
但身份证号比较敏感,用户在提交时担心隐私泄露,有时会无意识地更改几位数字。虽然没有什么恶意,但使用错误的身份证号购买保险会给活动组织者带来非常大的困难。
正确的身份证号将大大降低重复确认的工作。
建议:在单行文本字段上开启身份验证功能,每个提交的身份证号都是真实并有效的。
金数据可以帮助你更优雅的收集数据,但是数据质量的高低将直接决定数据管理的成本,影响发掘数据背后的价值。
建议大家都能参考我们提出的「高质量数据的三大特性」,使用金数据中已有的功能收集高价值数据。