2017年5月13日星期六
第四封:用大数据分析大众情绪,靠谱吗
用途:
- 了解民意
- 商业产品设计
调查问卷的问题:
- 能够收到的样本数有限
- 采样未必完全有代表性
- 调查者的主观性会导致问卷设计不合理
特朗普希拉里美国大选,传统问卷调查与大数据分析的矛盾。
有监督的机器学习方法:
大量收集网络数据,抽取特征,和事先标注的特征样本做对比,就能大致确定大众在网络数据中反应的情绪。
无监督的机器学习方法:
一开始随机给样本设定情绪,即使错误也无所谓。接下来采用自适应的机器学习方法,通过多次迭代来修改最初的错误,每次迭代可以修正一部分错误,直到计算机找不到更多的错误为止。
目前热门的机器学习的算法:人工神经网络、贝叶斯网络、最大熵模型。
第五封:为什么治疗癌症需要大数据
Google 内的大数据医疗公司 Calico,CEO 李文森博士
为什么癌症那么难治愈:
- 癌细胞是正常细胞复制错误而产生,因人而异,每个人都不相同
- 癌细胞也在变化
- 看上去痊愈了,本身的体质也可能还有细胞癌变
要想彻底治愈癌症,需要针对不同的患者设计特定的抗癌药。成本高。
出路:
- 基因技术与大数据结合
- 利用大数据技术在上百万种错误基因组合中寻找真正导致癌变的错误,并且每一种组合都找到相应的药物
首先要搞清楚,看似相同症状的毛病,是否由同一种病原引起的。
个性化医疗。
第六封:破解上帝的密码
人类长寿公司新发现:
衰老是导致癌变的最主要原因,遗传因素(DNA 缺陷)只占到 5%。
人类长寿公司是唯一一家拥有基因所有者个人信息的公司。
人类基因组计划,基因测序 -> 人类基因计划的第一步,找到所有基因
- 美国批准 30 亿,1990 年给出第一笔拨款
- 美国继阿波罗计划之后最重要的政府资助科研计划
- 最初由发现 DNA 结构的沃森领导
- 中国 1999 年加入,承担 1% 的基因测序工作
基因测序只是第一步,识别所有基因后,接下来需要找到每一个基因的作用。