深夜码字,这篇文章记录的是大数据提高班带的一个小学妹,我们下文称她为锦鲤妹妹。
锦鲤妹妹的个人学历和履历背景没有大家想象的那么好,普通学校,普通的工作履历。我们直接进入正题,关于学习的过程中做得好的地方供大家借鉴。
PS:不要以为你们长得好看我就不敢凶你们😄
首先,在对待学习的态度上。 互联网发展至今,加上这两年的大环境问题,已经有相当多的同学做了妥协甚至躺平。锦鲤妹妹在学习态度上,在我带过的这些同学当中排在前几名,我随便截个图,在项目冲刺的那一段时间经常熬夜晚上很晚,比我还要晚,有两次把我都熬哭了。所以,首先大家要意识到,学习是自己的事情,你去更好的平台,拿到更好的机会,是自己努力争取的结果,自助者天助之,机会来了你自然就抓住了。难道在座的各位还不如一个女生?
第二,学习总结。 学习的过程中尤其是项目篇,我要求每个同学都要有详细的学习笔记,我可以几年时间积累500万+字数的笔记,你为什么不行呢?这些笔记是未来大家面试的宝贵资料,因为每个人的基础不同,所以问题点也不一样,你需要做的是把自己接触到,我总结好的内容消化吸收掉而已。提高班中无论是框架篇还是项目篇都是我和我之前的同事以及部分同学贡献出来的宝贵经验,可以这么说,项目中的有难度的知识点完全吸收后,在技术上可以让你不用担心国内任意一家公司的技术面试,从深度和亮点上能大大提升你的面试评价。
第三,善于提问。在学习的过程中,不怕你有问题,就怕你憋着不说话。我截几个其他同学的详细问题列表给大家参考一下。你敢问,我敢答。
第四,注重表达和沟通。沟通和表达是我们把个人掌握的内容输出的终极手段,结构化的表达方式非常重要。我在之前多次给大家建议,一些固定的问题,请务必用笔写下来烂熟于心,这些问题首先很重要不能丢分,其次可以提前准备以便给面试官留下良好的印象。最经典例如项目描述:
最后,老规矩,把b面经贴上来供大家参考:
第一轮
1.介绍项目,项目中的重点难点
2.hive的优化,这个好几家公司都问了
3.hive sql的执计划
4.hive和mysql的区别
5.Sort by 和order by的区别
6.数据倾斜的场景,如何解决的
7.sql题
字段:订单id,时间,用户id
计算10分钟内连续下单大于100次的用户
第二轮
1.介绍项目,项目中的重点难点
2.数仓建模理论
3.冷热数据如何处理
4.数据治理从哪几个方面进行
5.数据质量的衡量标准,数据质量的效果,如何验收,项目流程
6.用的星型还是雪花模型,区别是什么?
第三轮
1.介绍项目,项目中的重点难点
2.linux命令 查找文件,awk命令
3.kafka分区,ack机制
4.spark的执行原理
5.解析下spark的DAG
6.mr的执行原理
7.大小表join的优化
8.Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?
9.Spark任务执行模式,提交任务,资源也够的情况下,还是不能跑,啥原因
10.spark和MR的区别
第四轮
1.介绍项目,项目中的重点难点
2.项目中遇到啥问题
3.kafka丢失数据,怎么解决
4.kafka的核心组件介绍 topic,broker,partition,consumer,producer
5.clickhouse的各类引擎,怎么用的,啥原理,你们咋用的
6.Flink checkpoint执行流程
7.flink和spark对比
第五轮
1.介绍项目,项目中的重点难点
2.数据中台oneid,oneservice
3.遇到啥问题,项目进度把控,资源协调
4.数据的安全,权限的管理
5.数仓重构,数仓模型的建设,遇到啥问题,什么样的周期,如何安排的,效率咋样?