[自翻译][机器学习]机器学习的快乐（与随之的繁重工作）

本文首次发表于译言网，翻译自Technet.com，为[机器学习]系列文章之一。
发表地址：http://article.yeeyan.org/view/243697/442207

这篇博客文章由Joseph Sirosh所撰写。

很少有人能够重视机器学习技术(ML)在企业级应用中的巨大潜力。我有幸能够在我第一份工作的仅仅几个月之中，便尝到它潜在益处中的甜头。那是1995年，信用卡发卡机构已经开始采用神经网络模型，来实时监测信用卡欺诈活动。当一个信用卡被使用时，来自销售系统的交易数据会被发送至发卡银行的授权系统当中，在这里神经网络系统对欺诈可能性的概率进行评分。如果概率评分较高，该项交易将会被当场拒绝。我当时是从事建立这种模型的科学家，我的第一个模型交付给了南美的一家银行机构。当这个模型调度后，仅仅在第一天，银行便识别了超过一百万美元的欺诈行为，然而在这之前从未被监察出来。这是一个让人大开眼界的事物。这些年来，我目睹在诸如需求预测、故障和异常检测、广告投放、线上推荐和Cortana虚拟助理这些各种各样的应用中，机器学习技术所带来的巨大价值。通过将机器学习技术嵌入至企业系统中，各机构可以提升客户体验，降低系统性失灵的风险，增加收益并使成本显著的节约。

然而，建立机器学习系统是缓慢、耗时、易错配的一件事。即使我们现在能够分析非常庞大的数据集，并将其调度于非常高的事务处理速率上，仍有几个瓶颈存在：

机器学习系统的开发要求深厚的专业知识。尽管机器学习的核心原理已经开放给更多的受众，但有本领的数据科学家仍如二十年前那样难以聘到。
从业者被迫使用各种工具来收集、清洗、合并和分析数据。这些工具的学习曲线相当陡峭，并且互不协调。使得调度和维护商业性质的机器学习软件变得非常昂贵。
建立和验证模型要求相当大的实验能力。数据科学家常常发现，由于需要运行能够产生庞大新数据的大量实验，他们自己却因有限的计算和存储能力而难以开展。
软件工具不支持可扩展的实验和途径来统筹实验正常运转。例如在实验中团队作案，共享派生变量、脚本等行为，没有支持工具，只能临时安排并手动完成。评估和调试统计模型仍然是一个挑战。

数据科学家们进行机器学习的实验时，通过编写定制程序和重复无差别的繁重体力活来绕过这些工作限制。但在调度阶段，这会变得更加艰难。在诸如实时欺诈预防或广告投放这样作为关键任务的业务过程中，调度机器学习模型便要求其为复杂精密的工程：

通常情况下，脱机开发出的机器学习模型现在必须在C++、C#或者Java语言中重新实现。
必须深入检测交易数据管道。在脱机模式下使用过的数据转换和变量必须重新编码和编译。
重新实现的过程中不可避免地会产生各种问题Bug，要求去确认这些模型能够如最初设计那样正常工作。
必须建立一个对该模型定制的具备适当检测、度量和记录功能的容器接口。
为了评估并行的替代模型，先进的调度需要A/B测试框架。我们需要的机制是，最好在一种无需重新编译和调度整个应用的情况下，实现接通和断开。
我们需要确认在整个统计校验测试中，候选产品模型能够如最初设计那样正常运转。
由系统和交易输出所自动生成的决策，必须为精炼和检测机器学习模型而记录。
服务必须以旨在高可用性、灾难复原和数据趋于结束点而设计。
当不得不拓展服务以满足更高事务处理速率和低延迟时，为了供应新硬件设备、调度服务于新机器并向外拓展，将会需要完成更多的工作。

如上这些步骤均耗时且工程量大集中。在基础设施建设和人力双方面都花销不菲。一个机器学习应用的端到端的工程和产品维护，要求一个技能高超的团队，以至于极少能有组织机构可以将其建立和维持。

微软Azure ML（Azure机器学习技术）便是为解决这些问题而设计的：

它是一个完全托管的云服务，无需安装软件、无需设备管理、无需克服操作系统版本和开发环境所带来的问题。
只依靠一个浏览器，数据科学家们便能在从任何位置、任何设备登录到Azure然后开始开发机器学习模型。他们在Azure云存储中，可以群集几乎无限量的文件。
机器学习工作室，一个为机器学习技术集成的开发环境，通过简单地拖拽和连接范式，让你以简单的数据流程图而建立实验。数据科学家们可以省去为大量而相同的任务所做的编程工作，从而使他们专注于实验设计和迭代。
它提供许多实验模版，使之更容易上手。
它内置一系列由微软研究院开发的最佳种子算法，支持自定义R语言——能在Azure ML里安全使用超过350个开源R语言软件开发包。
数据流程图可以搭载几个能够自动并行运行的并行路径，从而使科学家们能够突破通常的计算能力的约束，而执行复杂的实验和完成并行的比较。
各种实验易于共享，这样其它科学家便能接手你的工程，在你停滞之处继续工作。

Azure ML也能够使在云端创建一定规模的产品调度更为简单。预训的机器学习模型能被纳入一个评分工作流之中，并且通过几次单击，便能创建一个新云托管的REST API（含状态传输接口）。这个REST API为响应低延迟而设计。它无需重新实现或移植——一个胜过传统数据分析软件的主要强项。数据来自互联网的各个地方——笔记本电脑、网站、移动设备、可穿戴设备和可连接的各种机器——都能被发送到新建的API（应用程序接口）以返回预测。例如，一个数据科学家能够创建一个监测欺诈的API接口，此接口会将输入交易信息，然后返回输出一个低/中/高风险指标。这样的API接口将“生活”在云端，随时准备着接受来自开发者所选择调用的任何软件。API后端弹性地扩展，这样在事务处理速率飙升时，Azure ML服务便能自动处理负载。事实上，一个数据科学家能够创建和配置的机器学习接口是没有数量限制的——并且完全不依赖于任何工程。对IT和工程而言，使用那些REST API接口来集成一个新机器学习模型变得简单，并且在调度之前来测试并行的多个模型也变得容易，从而在低开销上显著地取得更好的敏捷度。在衡量包括可用性、延迟度和性能这些机制的生产过程中，Azure提供了API接口扩展和管理机制。因此，建立健壮、可用性高、可靠的机器学习系统，并管理其生产调度，对企业而言，是显著地更快、更便宜和更容易的，并伴随着巨大商业利益。

我们相信Azure ML是游戏规则变革者。它使创业公司和大型企业都能获取到机器学习的难以置信的潜力。以前只有最复杂的业务才能获得的功能，创业公司现在就能够同样地使用。更大的企业能够释放在他们大数据中的潜在价值，以大幅度地提高收入和效率。尤其是现在可能实现的迭代和实验速度，将会为快速创新留出余地，为我们周围智能云的互联设备铺平道路。

当我在1995年开始我的职业生涯，需要一个大规模组织来建立和调度信用卡欺诈监测系统。运用像Azure ML这样的工具和借助云计算的力量，一个富有才能的数据科学家凭一己之力便能实现这般壮举。

Joseph
注：本文由微软研究院提供，授权译言进行翻译，非商业转载请注明译者、来源，未经许可不得商业使用。

最后编辑于：2017.11.27 03:42:19

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,681评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,710评论 2赞 377
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,623评论 0赞 334
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,202评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,232评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,368评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,795评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,461评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,647评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,476评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,525评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,226评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,785评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,857评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,090评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,647评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,215评论 2赞 341

[自翻译][机器学习]机器学习的快乐（与随之的繁重工作）

推荐阅读更多精彩内容