这是最近辅导的一位同学的面经,最终拿到了某头部公司的Offer。
所有问题看起来并不难,但是答好不容易。
文中删掉了部分涉及项目隐私问题。
框架部分
JVM垃圾回收机制
HashMap与HashTable区别
Hbase中rowkey设计原则?工作中怎么设计rowkey的
Flink提交流程
Flink水位线机制
Flink状态与状态后端
Flink如何实现精准一次语义
Flink的checkpoint机制
Hadoop中MR工作原理相关
Hive的分区表和分桶表区别
Hive的四个by
Hive的优化
Hive数据倾斜
HDFS读写流程
Doris优化
Doris的架构原理
项目
有没有做过数据治理?都做过什么?
离线或实时数仓的分层架构?每一层都做了什么
实时数仓和离线数仓的不同
离线或实时工作中遇到过数据倾斜么?
工作中最难或最有意义的项目是哪个? 有什么困难的点?
实时数仓中遇到过背压么?一旦产生背压会影响什么?怎么解决的?结合实际工作说说
离线工作中遇到过大表join大表慢的情况么? 怎么解决的? 说一个实际场景
实时计算中多流join怎么解决
什么叫主题域,数仓中数据域、主题和主题域的区别?
工作中是怎么进行业务建模的?
数据湖和流批一体了解么?
实时任务一旦失败或者丢数了,如何修复?
实时数据怎么保证准确性一致性?
各个部门之间怎么保证数据口径一致
Hbase热点问题遇到过么?
数仓为什么分层,有什么好处
页面上实时展示历史累计去重值或者周期性最大最小值,说一下全链路的处理思路,考虑高并发
HR问题
想了解一下为什么离职或跳槽
我们公司最吸引你的地方是什么?
工作期间最让你成长最有收获的事情
某个项目中遇到最大的挑战是什么?
当时加入某司的时候,你自己希望有的一些发展或者说成长是什么?那现在回头回过头来看,你的一些成长和发展是实际来看是怎么样子?
下一份工作的一些成长发展的诉求或期待是什么样子的?或者说职业规划是什么?