BAT 机器学习笔试题目(二)

1、以下说法中错误的是()

A SVM对噪声(如来自其他分部的噪声样本)具备鲁棒性

B 在adaboost算法中,所有被分错样本的权重更新比例不相同

C boosting和bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率确定其权重

D 给定n个数据点,如果其中一半用于训练,一半用户测试,则训练误差和测试误差之间的差别会随着n的增加而减少的

2、你正在使用带有 L1 正则化的 logistic 回归做二分类,其中 C 是正则化参数,w1 和 w2 是 x1 和 x2 的系数。当你把 C 值从 0 增加至非常大的值时,下面哪个选项是正确的?

A 第一个w2成了 0,接着 w1 也成了 0

B第一个w1成了 0,接着 w2 也成了 0

C w1和 w2 同时成了 0

D即使在C成为大值之后,w1 和 w2 都不能成 0

3、在 k-均值算法中,以下哪个选项可用于获得全局最小?

A尝试为不同的质心(centroid)初始化运行算法

B调整迭代的次数

C找到集群的最佳数量

D以上所有

4、假设你使用 log-loss 函数作为评估标准。下面这些选项,哪些是对作为评估标准的 log-loss 的正确解释。

A如果一个分类器对不正确的分类很自信,log-loss会严重的批评它

B 对一个特别的观察而言,分类器为正确的类别分配非常小的概率,然后对log-loss的相应分布会非常大

C log-loss越低,模型越好

D 以上都是

5、下面哪个选项中哪一项属于确定性算法?

A PCA

B K-Means

C 以上都不是

6、两个变量的 Pearson 相关性系数为零,但这两个变量的值同样可以相关。这句描述是正确还是错误?

A 正确

B 错误

7、下面哪个/些超参数的增加可能会造成随机森林数据过拟合?

A 树的数量

B 树的深度

C学习速率

8、下列哪个不属于常用的文本分类的特征选择算法?

A卡方检验值

B互信息

C信息增益

D主成分分析

9、机器学习中做特征选择时,可能用到的方法有?

A卡方

B信息增益

C平均互信息

D期望交叉熵

E以上都有

10、下列方法中,不可以用于特征降维的方法包括

A主成分分析PCA

B线性判别分析LDA

C深度学习SparseAutoEncoder

D矩阵奇异值分解SVD       E最小二乘法LeastSquares

1正确答案是:C,您的选择是:空

解析:

A软间隔分类器对噪声是有鲁棒性的。

B请参考http://blog.csdn.net/v_july_v/article/details/40718799

C boosting是根据分类器正确率确定权重,bagging不是。

D训练集变大会提高模型鲁棒性。

2.正确答案是:C,您的选择是:空

解析:

答案是C。

之前图没显示,目前已修改好。

L1范数是向量中各个元素的绝对值之和,L1正则化就是向损失函数中添加权重向量的L1范数(即正则化项)。

60个数据点的L1正则化函数图像:

1000个数据点的L1正则化函数图像:

由图像可知,C值从 0 增加至非常大的值时,w1 和 w2 同时变成 0。

3.正确答案是:D,您的选择是:空

解析:

答案(D):之前的解析略有问题,特修改如下。

传统K均值算法随机选取初始聚类中心,往往会造成聚类结果陷入局部最优解,改进初始类中心的选取方法可以提升K均值算法的聚类效果,获得全局最优解。

A选项,尝试为不同的质心初始化实际就是在寻找最佳的初始类中心以便达到全局最优;

B选项,迭代的次数太少无法获得最优解,同样也无法获得全局最优解,所以需要通过调整迭代次数来获得全局最优解;

C选项,集群的最佳数量也就是K值是人为定义的,事先不知道多大的K值能够得到全局最优,所以需要调试K值,以达到全局最优。

综上所述,D选项为正确答案。

4 正确答案是:D,您的选择是:空

5 答案为(A):确定性算法表明在不同运行中,算法输出并不会改变。如果我们再一次运行算法,PCA 会得出相同的结果,而 k-means 不会。

6答案为(A):Pearson相关系数只能衡量线性相关性,但无法衡量非线性关系。如y=x^2,x和y有很强的非线性关系。

7答案为(B):通常情况下,我们增加树的深度有可能会造成模型过拟合。学习速率并不是随机森林的超参数。增加树的数量可能会造成欠拟合。

8 正确答案是:D,您的选择是:空

解析:

常采用特征选择方法。常见的六种特征选择方法:

1)DF(Document Frequency) 文档频率

DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性

2)MI(Mutual Information) 互信息法

互信息法用于衡量特征词与文档类别直接的信息量。

如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。

相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。

3)(Information Gain) 信息增益法

通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。

4)CHI(Chi-square) 卡方检验法

利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的

如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。

5)WLLR(Weighted Log Likelihood Ration)加权对数似然

6)WFO(Weighted Frequency and Odds)加权频率和可能性

9正确答案是:E

10 主成分分析(PCA)通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维;

线性鉴别法(LDA)通过降维找到一个类内距离最小、类间距离最大的空间实现分类;

稀疏自编码(SparseAutoEncoder)就是用少于输入层神经元数量的隐含层神经元去学习表征输入层的特征,相当于把输入层的特征压缩了,所以是特征降维;

在PCA算法中用到了SVD,类似于PCA降维;

至于最小二乘法是用来回归的,不能用于特征降维,答案选E。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,830评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,992评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,875评论 0 331
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,837评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,734评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,091评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,550评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,217评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,368评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,298评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,350评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,027评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,623评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,706评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,940评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,349评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,936评论 2 341

推荐阅读更多精彩内容