AI-学习

简单了解AI应用范围

常见的AI应用范围

AI的应用领域非常非常广,上图只是大家相对熟悉的几个,而且每一个领域用到的算法都不一样。有很多想转型的产品,第一个考虑的点就是:不懂技术就做不了AI,我是不是学完算法才能入行?

其实不是。

大家可能知道

1、不仅算法重要,很多时候数据可能更重要;有保质保量的数据,才可能有好的训练效果。

2、数据可分为两种类型:“被标记过”的数据和“未被标记过”的数据。什么是标记呢?意同“贴标签”,当你看到一个西瓜,你知道它是属于水果。那么你就可以为它贴上一个水果的标签。算法同事用“有标签的数据”去训练模型,这里就有了“监督学习”。

重点就是这里:只要是跟“监督学习”沾边的产品/技术,比如图像识别、人脸识别、自然语言理解等等,他们都有一个必走的流程——

不断地用标注后的数据去训练模型,不断调整模型参数,得到指标数值更高的模型。

一、数据标注

数据的质量直接会影响到模型的质量,因此数据标注在整个流程中绝对是非要重要的一点。

1、一般来说,数据标注部分可以有三个角色

1)标注员:标注员负责标记数据。

2)审核员:审核员负责审核被标记数据的质量。

3)管理员:管理人员、发放任务、统计工资。

只有在数据被审核员审核通过后,这批数据才能够被算法同事利用。

2、数据标记流程

1)任务分配:假设标注员每次标记的数据为一次任务,则每次任务可由管理员分批发放记录,也可将整个流程做成“抢单式”的,由后台直接分发。

2)标记程序设计:需要考虑到如何提升效率,比如快捷键的设置、边标记及边存等等功能都有利于提高标记效率。

3)进度跟踪:程序对标注员、审核员的工作分别进行跟踪,可利用“规定截止日期”的方式淘汰怠惰的人。

4)质量跟踪:通过计算标注人员的标注正确率和被审核通过率,对人员标注质量进行跟踪,可利用“末位淘汰”制提高标注人员质量。

二、模型训练

这部分基本交由算法同事跟进,但产品可依据需求,向算法同事提出需要注意的方面;

举个栗子——

背景:一个识别车辆的产品对大众车某系列的识别效果非常不理想,经过跟踪发现,是因为该车系和另外一个品牌的车型十分相似。那么,为了达到某个目标(比如,将精确率提高5%),可以采用的方式包括:

1)补充数据:针对大众车系的数据做补充。值得注意的是,不仅是补充正例(“XXX”应该被识别为该大众车系),还可以提供负例(“XXX”不应该被识别为该大众车系),这样可以提高差异度的识别。

2)优化数据:修改大批以往的错误标注。

产品将具体的需求给到算法工程师,能避免无目的性、无针对性、无紧急程度的工作。

三、模型测试

测试同事(一般来说算法同事也会直接负责模型测试)将未被训练过的数据在新的模型下做测试。

如果没有后台设计,测试结果只能由人工抽样计算,抽样计算繁琐且效率较低。因此可以考虑由后台计算。

一般来说模型测试至少需要关注两个指标:

1.精确率:识别为正确的样本数/识别出来的样本数

2.召回率:识别为正确的样本数/所有样本中正确的数

举个栗子:全班一共30名男生、20名女生。需要机器识别出男生的数量。本次机器一共识别出20名目标对象,其中18名为男性,2名为女性。则

精确率=18/(18+2)=0.9

召回率=18/30=0.6

再补充一个图来解释:

而且,模型的效果,需要在这两个指标之间达到一个平衡。

测试同事需要关注特定领域内每个类别的指标,比如针对识别人脸的表情,里面有喜怒哀乐等分类,每一个分类对应的指标都是不一样的。测试同事需要将测试的结果完善地反馈给算法同事,算法同事才能找准模型效果欠缺的原因。同时,测试同事将本次模型的指标结果反馈给产品,由产品评估是否满足上线需求。

四、产品评估

“评估模型是否满足上线需求”是产品必须关注的,一旦上线会影响到客户的使用感。

因此,在模型上线之前,产品需反复验证模型效果。为了用数据对比本模型和上一个模型的优劣,需要每次都记录好指标数据。

假设本次模型主要是为了优化领域内其中一类的指标,在关注目的的同时,产品还需同时注意检测其他类别的效果,以免漏洞产生。

产品工作补充

产品经理的工作,不止是产品评估——除了流程控制,质量评估,还有针对分类问题,由产品经理制定边界;这是非常重要的,直接影响模型是否满足市场需求。

产品制定分类规则:例如,目的是希望模型能够识别红色,那产品需要详细描述“红色”包含的颜色,暗红色算红色吗?紫红色算红色吗?紫红色算是红色还是紫色?这些非常细节的规则都需要产品设定。

如果分类细,那么针对某一类的数据就会少。如果分类大,那么一些有歧义的数据就会被放进该分类,也会影响模型效果。分类问题和策略问题道理是一样的,都需要产品对需求了解得非常深刻。

以上内容,都只是AI行业一个小领域内可梳理的工作内容。

总之,针对刚刚入行的朋友,如果没有算法基础、没有工程基础,可考虑在流程、平台等职责角度做过渡;在工作内容中不断总结学习,往自己最终的方向目标不断前进!

机器学习

机器学习的本质是模式识别。 一部分可以用于预测(有监督学习,无监督学习),另一类直接用于决策(强化学习)。相对物理微分方程代表的预测方法来说,机器学习在一定程度说是一种黑箱思想, 即先不求开始找到事物发展的精确模型,而是用基本的模型框架,直接以数据驱动我们的预测。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容