回归分析在各行各业的数据分析中有很重要的作用,可以确定自变量和因变量之间的关系,分析出影响性能的关键因素。在机器学习领域,回归算法也是非常重要的。这里我们分享一种统计学意义上的回归分析。
回归分析一般人的用法是这样的:
- 从业务系统导出数据并整理
- 放到excel或者minitab中进行回归分析
- 剔除不显著的自变量,添加新的自变量,不断重复
- 确定显著的自变量,完成回归分析
这样的分析没问题,但存在几个问题:
- 效率就比较低下
- 不同的人使用的回归参数不一样也会导致结果不一样
- 大量的业务数据,如此手工分析无法面面俱到
- 对使用回归分析的人的能力要求较高
为此,我们对回归分析如何整合到业务系统中进行快捷的分析,我们做了这样的设计:
设计:
如何能快速的进行类似的分析呢?可以这样设计:
- 前端通过应用服务器提取参数信息供用户选择分析项目
- 用户选择后,通过应用服务器提取生产数据库的数据,提交到计算服务器
- 计算服务器把计算结果返回给应用服务器
- 应用服务器把结果整理格式显示在前端。
系统架构图:
实现:
前端设计:
通过web服务器,访问业务数据库,获取设备之类的信息
用户选择设备自动带出相关数据供用户选择,还可以提供时间、数据点的选项。
分析结果:
分析结果直接返回一个回归分析表,和一个json的回归分析结果,可以在其他系统调用json。
设计方案难点:
- 业务分析,用户需要清楚知道需要进行的业务分析,不然随便分析也没有什么能用的结果
- 数据整理,如何整理能让用户选择的数据,数据需要对齐(x-y对齐),对于复杂的业务和IT系统,整理数据需要花费很多业务人员和IT人员的时间
体验:
上面的方案设计的实现,请看下方的链接: