数据分析大厂面试都面啥?小爱今天给大家分享一个华为数据分析面试试题汇总,这里面附有答案。金三银四马上就要来临了,临时抱佛脚一定是不行了,在还没有开始彻底happy之前,小爱建议还是先把自己的简历打磨好,面试提纲提前一点做好准备,机会总是留给有准备的人,不要让好机会从你手中溜走!好啦,正文开始!
SQL
1. sql 如何解决数据倾斜问题?
2. SQL中 ,having 和 where 的 区 别 有 哪 些 ?
3. SQL中 ,union和 join 的 区 别 有 哪 些 ?
4. SQL 语句中的执行顺序是怎样的?
5.SQL如 何 实 现 去 重 操 作 ?
6. SQL中,count(*)、count(字段) 、count(distinct字 段 ) 的 区 别 是 什 么
7.sql 如 何 将'yyyy-MM-dd' 的 日 期 格 式 转 换 为'yyyyMMdd' 形 式 ?
8. sql中如何求出两 个'yyyyMMdd' 格 式 的日期差多少天 ?
9. sql 如 何 将 时 间 戳 转 换 为'yyyy-MM-dd' 格 式 ?
10. sql中,if 和 case when 的区别有哪些 ?
11.sql中,如何求字段整体的标准差和均值 ?
12. sql中,什么是笛卡尔积 ? 笛卡尔积一般出现在什么场景下?
13.sql中,rank、dense rank、row number的区别是什么 ?
14. sql中 ,除 了rank以外还有哪些窗口函数 ?
15. 简述一下max() 聚合函数和窗口函数max(A)over(partition by B)的区别
16. 窗口函数和where的 执行顺序孰先孰后 ?
17.sql 中正则化函数一般如何使用?
18. sql 中如何将int 类型的字段转换为string 类型 ?
19. sql 中,leftjoin、rightjoin、inner join有什么差别 ?
20. sql如何将类型为float的字段保留两位小数?
概率论
21 . 两个人轮流抛硬币,硬币表面均匀,正反面概率均为50%。抛到正面 者胜利,假如抛硬币 一 直抛到有人获胜为止,那么先抛硬币的人获胜的概率是多少?
22. 已知随机变量X 服从指数分布 λ ( 2 ) , 求随机变量X 的数学期望与方差
23. 箱子里有15个球,其中10个红球,5个白球。从中抽5个球,求5个球中有3个以上是白球的概率?
24.X 服从正态分布N(0,2), 已知Y=2X+5, 求随机变量Y 的均值与标准差
25. 甲运动员罚球进球概率为50%,甲运动员罚球10次中,有3次以上进球的概率?
26. 已知随机变量X服从均匀分布U(3,6), 求 P(X>=4)
27. 已知有两个管道工甲和乙,他们其中一人会被指派维修某下水道。甲 员工维修成功概率为50%,乙为30%,并且甲和乙被指派的概率分别 为70%和30%。求管道会被维修成功的概率
28. 假设某国家没有生育限制,且该国家的夫妻生孩子会直到生到男孩为 止,在没有堕胎等情况的假定下,那么该国家在 一段时间内生下来的男孩和女孩的比重理论上应该是?
29. 求伯努利分布B(0.5) 的数学期望和方差
30. 已知X和Y分别服从正态分布N(4,2),N(1,3), 在 X和Y相互独立的情况下,求随机变量XY 的均值与标准差
数理统计
31. 什么是中心极限定理?
32. 什么是置信区间?
32. 能不能解释下什么是置信度a?
33. 聊一聊双样本t 检验与配对样本t 检验的差别?
34. 解释一下中心极限定理和置信区间的关系?
35. 描述 一 下假设检验与置信区间的关系?
36. t 检验与z 检验有何差异?
37. 为什么t检验需要进行方差齐次性检验?
38. 聊一聊什么是单因素方差分析 ?
39. F检验的用途有哪些?
40. 描述一下一类错误和二类错误的差异 ?
41. 如何同时缩小一类错误和二类错误 ?
42. 一类错误和二类错误哪个更严重 ?
机器学习
45. 线性回归普通最小二乘法运用的经典基本假设有哪些?
46. 多重共线性是什么 ? 如何解决多重共线性问题 ?
46. 描述一下异方差性是什么,如何克服异方差性?
47. 什么是内生变量问题?如何解决?
48. 简述有监督学习和无监督学习的差异
49. 常用的有监督学习的基础算法有哪些 ?
50. 简述一下参数模型与非参数模型的区别?
51. 逻辑回归模型是分类模型还是回归模型 ?
52. 能否一句话概括一下什么是逻辑回归模型 ?
53. 感知机模型和SVM模型的差别 ?
54. 决策树模型的优缺点 ?
55. 决策树算法计算信息增益的衡量标准有哪 些 ?
56. 决策树ID3 、C4.5 、CART三种算法之间有什么区别 ?
57. 决策树如何降低过拟合的程度?
58. 决策树算法在sklearn当中有哪些关键的超参数?
59. 什么是超参数 ? 描述一下KNN 算法的超参数有哪些?
60. bagging 和 boosting 的区别是什么?
61. 简述 一 下随机森林与xgboost的 区 别
62. 描述一下xgboost 和GBDT 的关系?
63. 集成学习相比于普通基础算法的优势体现在哪?
64. 如何评价分类模型的优劣?
65.如何评价回归模型的优劣 ?
66.有哪些处理样本不均衡问题的处理方法 ?
67. 为什么会发生过拟合和欠拟合,怎么解决模型的过拟合和欠拟合的问题 ?
68. 解释一下什么是偏差和方差和泛化误差
69. 聚类模型有哪些 ?
70. k-means聚类的k如何确定 ?
71.k-means聚类的优缺点 ?
72.k-means聚类和层次聚类的差异 ?
73.k-means聚类如何更好地规避初始点的选择对模型造成的误差 ?
74. k-means 聚类 和DBSCAN 模型的差异和优缺点
75. PCA 是什么 ?
76. 如何确定PCA保留几个主成分 ?
77.PCA一般在什么场景下使用 ?
78. LDA(Linear Discriminant Analysis) 和PCA的差异?
Python
79. Python有 哪 些 数 据 结 构
80. python中,元组和集合的区别是 ?
81. python中,for 循环和while循环的区别是 ?
82. python 的pandas 如何实现排序?
83. python 的pandas 如何实现sq| 中 的left join?
84. python 的pandas 如何实现sql 中的union?
85. python的 pandas如何计算某列的平均值和中位数 ?
86. python 的pandas中,如何实现类似于sql 中的where 进行限制?
87. python 的pandas 如何实现sql中的group by?
90.python 的pandas 中,如何删除某一列?
AB实验
91/92. 解释一下什么是AB 实验 ?
93/94. 有哪些方法可以检验分流的均匀性 ? 什么是AA 实验 ?
95. 如何确定实验最小样本量 ?
96. 如何确定实验周期?
97. AB实验和因果推断的关系?
98. 互斥实验与正交实验的区别?
99. AB 实 验 的 基 本 假 设 ?
100. 什么情况下不能使用随机分流实验进行增效度量 ?
小爱准备了面试常见问题大礼包
使用技巧直线UP!
可扫码添加顾问老师
获取1V1职业咨询
帮你理清“面试”思路
毕竟时间不等人
有规划方向的准备>1年盲目摸索
👇
其次,按照能力提升计划升级,构建数据分析能力体系
如果想要系统学习却不知道如何开始,强烈推荐你了解这门数据分析系统提升课程--《数据分析 · 就业班》,多位大厂数据分析高管结合10多年的数据分析经验,联手互联网一线企业HRBP求职辅导,相信能给你带来不小的启发。
课程大纲:(上下滑动查看)
数据分析就业班
(上下滑动查看)
想了解老师课程排期/更多课程详情服务
扫码添加顾问老师咨询
👇
点击【阅读原文】,数据分析职业规划1v1指导,仅需9.9元