最近接触了饭团的“AI产品经理大本营”这个社群,从中学习到很多AI方面的知识,现在总结梳理一下自己学习到的知识以及接下来的一些规划。
一、学习路线与规划
对于学习,在我的认知里,有两个因素最为重要:一个是目的,做事前必须先明确目的,这样才能找到方向,才有动力坚持下去;第二个是抓手,即你要围绕什么来制定学习计划、获取资源来进行系统性的学习,只有把这两个因素都确定下来,才能达到最大效率的学习。
对于我而言,目标就是毕业后成功入职AI PM的岗位,因此首先要对AI PM进行基本的了解,主要的渠道如下:
一是AI公司的AI PM的岗位职责和任职要求;二是从知乎、简书以及人人都是产品经理等产品网站上搜集到的与AI PM相关的知识;三是最近接触到的饭团“AI产品经理大本营”的社群。
在通过在以上渠道阅读了大量资料后,主要确定了三个学习锻炼的方向:一是产品方面知识和能力的学习培养,这是一个PM最基本的要求;二是AI应用场景的分析,在AI技术商业化落地的过程中,对应用场景的理解分析基本上决定了产品是否能满足用户的需求,因此对应用场景的分析很重要;三是对AI技术的了解,不同与互联网的PM,AI PM需要对技术有一定的了解,这样才能从整体上把控产品的生产流程,交付出能满足用户需求的产品。
在产品方面,已经在上学期阅读学习了大量的资料,因此在这里主要做个简要总结,主要有两点,一个是输入,一个是输出。
在输入方面,搜集并学习了如下的资料:一个是产品经理方面的课程;二是网上提到的一些产品经理方面的书籍,例如启示录、神一样的产品经理、用户体验要素、简约至上、增长黑客等;三是人人都是产品经理、PMCAFF等产品网站和微信公众号,从中了解最新的产品知识和前辈们的思考;四是收藏了一些知名大牛的博客、知乎,如俞军、张小龙、纯银、白鸦、苏杰等,研究他们是如何思考产品的;五是学习了梁宁老师的产品思维三十讲课程。
在输出方面,一是加入职景的产品思维打卡社群,每周进行产品思维的锻炼,并多次选入留言精选;二是输出一篇小红书的产品分析报告,从产品、市场、用户、功能、运营等方面对产品进行了全面的分析;三是参加360 Hackaday创新产品大赛西北赛区的比赛,设计了定位于礼物分享社区的产品,完成了整个产品设计流程,现已进入复赛,由于还在参赛中,还未有最终结果。
以上是上学期产品方面的学习总结,而接下来,主要的学习计划则是AI方面的知识和能力积累,找到的抓手是饭团“AI产品经理大本营”黄钊团长提倡的自我背书的方式,即通过“输入-输出-实施”三个阶段的行动来实现自我能力的证明,进而成功入职AI PM。
1、输入
主要进行三个方面的输入,分别是技术通识、产品通识、行业通识,知识来源渠道主要有以下几个方面:
一是社群分享:饭团、Q群、知乎、人人都是产品经理等;
二是自媒体:AI100、AI科技大本营、傅盛、hanniman、黑智、甲子光年、AI那点事、新智元、集智俱乐部等;
三是近期要看的书:科学的极致、走进2050、终极算法、皇帝新脑等;
四是一些行业分析报告和搜集到各种会议的PPT;
五是相关领域的一些知识,如认知科学、神经学、心理学、哲学宗教等。
2、输出
在AI方面,主要输出方向有三个,一是自己在AI PM的学习成长方面的计划感悟,二是针对CV或语音识别方面输出一篇技术报告或应用场景分析,三是针对自动驾驶领域输出一篇学习报告或应用场景的分析报告。
在产品方面,会总结自己之前学习到的产品知识,输出自己的方法论。
3、实施
整体计划表安排如下:
主要的学习内容是饭团的“AI产品经理大本营”中的历史文章,其次会每周完成一本书的阅读,然后每天吸收相关公众号的知识,在每周末进行相关知识的整理输出。
二、AI技术通识
AI本质是机器从我们喂养的数据中拟合出适合的函数,当有新的数据需要预测的时候,通过这个函数去预测出新数据对应的结果。
主要模型其实就是最终拟合出的函数Y=f(X,W,b),f(·)就是拟合的函数,X是输入变量,W是权重,b是偏差,Y是输出变量。
对于数据集来说,一般分为训练集、验证集和测试集,会用训练集来训练算法模型,用验证集对模型进行验证和在开发过程中调参,最后用测试集测试模型是否会产生欠拟合和过拟合等问题,在没有特别要求时,可以将验证集和测试集合为一个数据集用于测试模型和调整参数。
对于AI来说,其主要框架分为基础设施层、技术算法层、应用层,如下去所示:
2.1机器学习
2.1.1监督学习
ⅰ)定义:从标记的数据中寻找规律,然后预测新数据
ⅱ)解决问题:回归和分类
ⅲ)主要算法:
① K近邻
② 朴素贝叶斯
③ 逻辑回归
④ 决策树
⑤ 随机森林
⑥ 线性支持向量机
ⅳ)应用场景:
① 基于规则的信用评估
② 新闻分类
③ 邮件过滤
④ 手写识别
⑤ 情感分析
⑥ 文字广告过滤
2.1.2无监督学习
ⅰ)定义:让机器自己识别给定数据中的特征,进而能够识别新数据
ⅱ)解决问题:关联、聚类和降维
ⅲ)主要算法:
① k均值
② 自编码
③ 主成分分析
ⅳ)应用场景:用户聚类、新闻聚类等
2.1.3半监督学习
ⅰ)定义:从部分标记的数据中寻找规律,然后预测新数据
ⅱ)解决问题:垃圾信息过滤和视频网站分析
ⅲ)主要算法:
① 半监督SVM(支持向量机)
② 高斯模型
③ KNN模型
④ Self-trainning
⑤ Co-trainning
ⅳ)优点:
① 相比无监督学习会有较高的精度
② 相比有监督学习可以大幅降低人工标记成本
2.1.4强化学习
ⅰ)定义:根据输入环境参数确定要执行的动作,通过与环境交互来优化目标函数。在训练时,对于正确的动作做出奖励,对错误的动作做出惩罚,训练完成之后就用得到的模型进行预测
ⅱ)解决问题
① 自动直升机
② 机器人控制
③ 手机网络路由
④ 市场决策
⑤ 工业控制
⑥ 高效网页索引
ⅲ)学习理论
①理论一:agent需要理解环境、分析环境,并且要推测出完成一个动作得到奖励的概率。该理论完全满足马尔科夫决策
②理论二:agent不需要理解环境、分析环境时,做出决策,该决策正确时奖励,错误时不奖励或惩罚。agent不会在动作时去计算是否得到奖励的概率
ⅳ)主要算法:
①K-摇臂赌博机(单步强化学习任务)
ε-贪心算法
Softmax算法
②有模型学习(多步强化学习任务)
基于T步累积奖赏的策略评估算法
基于T步累积奖赏的策略迭代算
③免模型学习
蒙特卡罗强化学习:同策略和异策略
时序查分学习:Q-学习算法和Sarsa算法
④ 模仿学习
2.1.5迁移学习
ⅰ)定义:把已经学到训练好的模型参数迁移到新的模型来帮助并加快新模型训练数据集
ⅱ)解决问题
① 终身学习
② 知识转移
③ 归纳迁移
④ 多任务学习
⑤ 知识的巩固
⑥上下文相关学习
⑦ 元学习
⑧ 增量学习
ⅲ)主要方法
① 样本迁移法
② 特征迁移法
③ 模型迁移法
④ 关系迁移法
2.1.6深度学习
ⅰ)定义:多层神经网络
ⅱ)解决问题
① 预测学习
② 语音识别
③ 图像识别
ⅲ)主要算法:CNN、RNN、CNN
ⅳ)优点
① 拥有更好的表达能力,可以表达更复杂函数的能力
② 处理未标记数据,能够识别更复杂的特征
ⅴ)缺点
① 使用监督学习方法训练神经网络时,可能有局部极值的问题
② 当使用反向传播方法计算导数的时候,随着网络的深度的增加,出现梯度弥散问题
③ 要花大量的精力调整参数,如果不知道调参方法就无法复现结果
④ 本身是一个黑箱,并不能知到网络到底做了什么
2.2语音识别(ASR)
ⅰ)概念:
① 研究内容:将声音转化为文字
② 原理:输入—编码(特征提取)—解码—输出
③ 识别方式:
传统识别:一般采用隐马尔可夫模型HMM
端到端识别:一般采用深度神经网络DNN
ⅱ)远场识别
① 语音激活检测VAD:判断什么时候有语音什么时候没有语音
② 语音唤醒:通过关键词唤醒语音设备
主要要求:a)唤醒响应时间要短
b)功耗要低
c)唤醒词,技术上要求,一般最少3个音节
d)唤醒效果。喊它它不答应这叫做漏报,没喊它它回应叫做误报
ⅲ)麦克风阵列
① 背景:在各种复杂环境下,会有噪音、混响、人声干扰、回声等各种问题,需要麦克风阵列处理杂声
② 作用:
a)语音增强
b)声源定位
c)去混响
d) 声源信号的提取和分离
③ 分类:
按阵列形状分:线性、环形、球形麦克风
按麦克风个数分:单麦、双麦、多麦
ⅳ)全双工
主要支持多轮对话和多人对话,可插话和打断
ⅴ)纠错
① 定义:对识别出的文字偏差进行纠错,还有理解用户主动纠错后的意图
② 方式:a)本地为主:优先从本地查找相关数据
b)本地+云端:优先在本地的音乐库中去找相似度较高的歌曲名称,然后到云端曲库去找,最后再合在一起(排序)。
c)云端为主:数据量太大,直接到云端搜索可能更方便
ⅵ)语音打断
① 定义:用户可通过语音打断设备
② 问题:在设备自己说话的时候识别用户的语音会受到很大的干扰,如何从中分辨出用户的语音信号进行识别也对算法有较高的要求
2.3语音合成(TTS)
ⅰ)研究内容:是将文字转化为语音(朗读出来)的过程
ⅱ)实现方法
a)拼接法
1.定义:从事先录制的大量语音中,选择基本单位(音节、音素)拼接而成,为了连贯性常采用双音子(一个因素的中央倒下一个因素的中央)作为单位
2.优点:语音质量较高
3.缺点:数据库较大,一般需几十小时的成品语料,企业级商用的话需5万句费用在几百万
b)参数法:
1. 定义:根据统计模块来产生每时每刻的语音参数,然后将参数转化为波形,主要分三个模块:前端处理,建模和声码器
a) 常见数据:这句话的语气语调,节奏,韵律边界,重音,情感
b) 拼接法和参数法,都有前端处理,区别在于后端声学建模方法
2. 优点:个性化的TTS大多是用参数法可节约时间成本
3. 缺点:质量比拼接法差一些,因为受制于发生算法,有损失
ⅲ)评判标准(评判TTS系统的好坏)
主观测试:人为评测(人为来听)
客观测试:系统评测(机器评测)
ⅳ)瓶颈和机会
① 数据匮乏(可用的语音数据)
② 人才匮乏:TTS人才相比于AI中的NLP和CV类人才太少
③ 产品化难度高
用户预期场景较复杂
技术现在还有较多难点
细节设计还需较多斟酌
④ 商业化压力
项目周期较长(这个需要长时间的数据和技术的积累与沉淀)
细分场景上的切入目前还处于早期阶段,试错成本较高
2.4计算机视觉(CV)
ⅰ)定义:使用计算机以及相关设备对生物视觉的一种模拟
ⅱ)主要任务:通过对采集的图片或视频进行处理以获得相应场景的三维信息,让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力
ⅲ)研究内容:图像的恢复、图像预处理、根据特征信息进行基元的分割和关系的确定、模型匹配识别基元或代表实体得出结论
ⅳ)应用场景:
① 人脸识别
② 多目标追踪
③ 光学符号识别
ⅴ)CV应用的处理过程
① 成像
1. 定义:模拟相机原理(提升照片的质量)
2. 影响图片因素
a)光照影响
i. 从产品角度控制:可以通过提醒来改变用户的使用场景;通过升级或变更硬件设施来提升产品的体验
ii.从算法角度控制:利用算法对图片进行处理来提升图片的质量
b) 模糊
i. 运动模糊:人体、车辆、摄像头的移动造成
ii. 对焦模糊:摄像头的距离、质量和天气等因素造成
iii. 低分辨率差值模糊:小图放大和摄像头硬件等设备造成
iv. 混合模糊:多重模糊存在
c) 噪声、分辨率
② 早期视觉
1. 定义:图片的处理加工过程
2.主要技术
图像分割
边缘求取
运动和深度估计
图像拼接
3. 目前问题
a) 结果不精确
b) 需要长时间的知识沉淀
③ 识别理解
1. 定义:把一张图片对应到一个文字、一张照片或标签
2. 标签
a) 越精确对模型越有利,但数据就会越少
b) 主观因素影响
c) 细分标签
2.5自然语言理解(NLP)
ⅰ)定义:让计算机理解、分析以及生成人类语言,是理解和处理文字的过程
ⅱ)过程
① NLU(自然语言理解)
② NLG(自然语言生成)
ⅲ)应用领域:
① 句法语义分析
② 信息抽取
③ 文本挖掘
④ 机器翻译
⑤ 信息检索
⑥问答系统、
⑦ 对话系统
ⅳ)难点:
① 语言歧义性,如去拉萨,不知道要干啥,是做火车还是飞机?
② 语言鲁棒性,如错字、少字、别称、不连贯、噪音的识别
③ 知识依赖,如七天,酒店名
④ 个性化语境,上下文、用户画像、多轮对话
ⅴ)解决方法
① 规则方法
② 统计方法
③ 深度学习
以上是对最近在饭团“AI产品经理大本营”学习到的、关于AI技术的通识的学习和总结。