使用KNIME的时间一年多一点,对工作的效率的帮助非常大(主要是懒,不希望做重复性的工作,希望多腾些时间出来刷刷知乎,逛逛论坛)。通过这个专题,逐步分享关于KNIME的点滴,能让大家的工作起来更加从容。
数据分析工具很多,工具语言如R, Python,工具类的如rapiderminer, alteryx ,weka以及我们重点介绍的KNIME。还有很多工具和语言在此就不一一列举了。如果你像笔者一样只是工作中有部分(< 30%)工作需要用到数据,比如业绩追踪管理,那可以用工具类的语言解决。如果你的工作90%以上都是数据,靠这个吃饭的,那建议你还是静下心来好好学习一门编程语言R or Python。
为什么要用KNIME?
1. 如果你不想写代码,或者说不会写,但在自己的知识体系中曾经学过C,VB,即最基础的大学或研究生那点编程语言,还是针对非计算机专业的。尽管现在都基本还给的老师,但至少知道if语句,那说明你可以用工具类语言。
2. KNIME相比于Rapidminer,Alteryx是免费的,当然有些特定情况除外.
3. 想尝试现在比较火的人工智能,部署监督/无监督学习模型,KNIME上面有很多现成的模型足够调用。
类似你想给你的车买合适的轮胎,轮胎厂家会提供轮胎使用的边界条件,你不必知道轮胎内部的高分子物理化学推导过程。
KNIME也是一样,每个模型都会提供输入和输出。但需要知道这些条件对模型的影响,以及模型使用的前提(基本wiki后就可以有个大概认识),就像你不会给自己的轿车买一个卡车胎一样的道理。
也许有可能成为一个“调参侠”,但还是再次强调如果你是靠数据吃饭,还是老老实实的把各种知识储备弄扎实了。
4. 以下一些典型的场景,如果你的工作涉及到了,说明你可以继续关注后面笔者的分享:
1) 你肩负汇总和评价下属分公司的业绩,而这些业绩都是基于EXCEL的。对于宏操作不会,只能通过复制粘贴,或者超链接的等于功能把在一个文件夹的文件汇总到一个文件上。
2) 你有公司数据库访问权限,但你的SQL水平仅限于select * from XXX 最多加一个where,groupby,top或者对select的字段进行简单的逻辑计算(求和,最大,字符串)。 你后续的处理通过Tableau, PowerBI一类的展示工具,但由于数据源的结构限制,影响你要呈现的内容。比如,你要针对公司CRM 进行RFM进行分析,时间截点以今天往前推60天,看这个时间段内每个会员的总交易额,交易频次,最后一次交易距离今天有多长时间,通过KNIME可以轻松的把这个三个指标跑出来,并跟在会员ID后面,下面才是EXCEL, Tableau 或者PowerBI上场。
3) 你作为业务部门给IT部门提出需求,需要XXX类型数据,但IT部门事务繁多,常常无法及时响应
4) 你有通过模型去实现预测或者发现关系的需求。比如,通过Apriori 算法计算购物篮商品的关联度,从而去优化你们的促销组合
5) 数据挖掘和统计,主要涉及以下方法
6) 还有很多场景,但笔者工作不涉及,比如,爬虫爬twitter或其他然后针对语义分析;化学分子式的分析;
7) 下图是KNIME官方给一些应用场景,如果下面有你关注的案例,那不妨了解一下
总之,这是一个针对非码农的搞数据的好工具。
后续的分享,笔者会沿用德国人的思路,通过案例实践来学习。大家可以在案例基础上,修改成符合自己使用场景的工具。若有问题,可以向笔者咨询。