在信息爆炸的时代,数据挖掘已成为各行业深化理解、优化决策的重要工具。联想作为全球领先的科技公司,致力于引领数据挖掘技术的发展和应用。为了选拔优秀的数据挖掘人才,我们特别准备了以下试题,考察应聘者在数据挖掘领域的专业知识和实际操作能力。

A:KNN
B:K-Means
C:SVM
D:HMM
参考答案:B
7.在Kmeans算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数
A:曼哈顿距离
B:平方欧几里德距离
C:余弦距离
D:Bregman散度
参考答案:A
8.下面算法中哪一种不属于广义线性模型算法
A:beta回归算法
B:生存模型算法
C:logit回归算法
D:判别分析算法
参考答案:D
9.选择排序的时间平均复杂度是多少:
A:O(n)
B:O(nlog2n)
C:O(n^2)
D:O(nlogn)
参考答案:C
10.定量关联性分析中,应用的正交的设计原则(Orthogonal experimental design)的优势不包括
A:支持小样本数据
B:支持非标准化数据
C:支持多水平特征数据
D:支持方差分析法减少特征
参考答案:B
11.关于机器学习算法正确的是( )
A:LR模型在加入正则化项后Variance将增大
B:线性SVM是寻找最小边缘的超平面的一个分类器
C:xgboost和GDBT都是属于boosting算法
D:xgboost和随机森林都是属于bagging算法
参考答案:C
12.下列关于PCA的说法错误的是( )
A:PCA的结果受异常值的影响较小
B:对任何一个的矩阵来说,它的奇异值分解总是存在
C:各个主成分变量之间是保持相互垂直的
D:第一个主成分的方差总是大于其他所有的主成分的方差
参考答案:A
13.下列关于线性回归说法错误的是
A:在现有模型上,加入新的变量,所得到的R^2的值总会增加
B:线性回归的前提假设之一是残差必须服从独立正态分布
C:残差的方差无偏估计是SSE/(n-p)
D:自变量和残差不一定保持相互独立
参考答案:D
14.以下排序算法平均时间复杂度和插入排序相同的是
A:归并排序
B:希尔排序
C:堆排序
D:冒泡排序
参考答案:A
15.已知A,B厂生产的产品的次品率分别是1%和2%,现在由A,B产品分别占60%,40%的样品中随机抽一件,若取到的是次品,求此次品是B厂生产的概率(小数点后四舍五入保留两位)。
A:0.56999999999999995
B:0.43
C:0.25
D:0.75
参考答案:A
16.关于ORDER BY子句,下列叙述中正确有
A:在要排序的列表后使用ASC指明为升序
B:在要排序的列表后使用DESC指明为升序
C:若省略ASC或DESC,则默认为降序
D:在ORDER BY子句指定多列时,查询结果先按第一列排序,再按第二列排序......
参考答案:A,D
17.用大量数据训练决策树模型,怎样调整会缩短时间
A:增加树的深度
B:增加学习率
C:减少树的深度
D:增加节点样本
参考答案:C,D
还没有评论呢,快来抢沙发~