面经2：22年实习生大数据开发面试（第一家凉了，第二家拿了offer）

发布时间：2023-11-19 10:00

本人是一个双非硕士在读地研二狗，非科班出身，最近也是参加了大数据开发地面试，已拿到了哔哩哔哩和顺丰的大数据开发岗实习offer，现在把自己的面试经历分拨记录下来，记录了面试各个公司的问题和心经，给正在面试的你做一些适当的参考

如果这篇文章对你有所帮助，可以点一下关注作者支持一下，对于这段时间的面试，作者也是参考和总结了一些面试中常常问到的问题，可以关注作者私信“大数据面试”，我看到后会一一为大家发送资料的

一、一家天使轮公司

面试时间：1月14日

面试时长：32min

面试形式：电话面试

1、首先还是自我面试

有了上次字节的教训，这次自我介绍明显控制了不少

2、问我项目相关的

介绍了我们实验室承接的项目

3、问为什么用kafka

因为这个时候还没有真正按照面试形式组织知识，所以将自己在使用kafka的心得体会和他说了，讲解了一下自己理解的为什么用kafka

4、问了hdfs的读写机制

这个也是按照自己当时使用时候了解的讲解了一下，最后重新复盘了一下，发现自己理解的还是不够全面

5、问了Yarn的工作流程

给他讲了一个任务从开始到结束怎么工作的，以及yarn的调度机制

6、问在项目中是否使用到了yarn去调度一些任务

怎么会，实验室项目和企业项目还有很大的区别，怎么会用yarn去调度任务，我们都是人工智能解决方法（人工+智能，就是人+计算机）

7、问了hive的一些知识

hive因为使用的比较多，但还是处于怎么用，工作原理一问到就蒙圈

8、问了hive的优化

当时并不知道什么叫优化，在使用的时候优化了也不知道，哦？原来这就是优化了啊，回答了更换了计算引擎，变成了spark

9、然后就问为什么用spark

我说spark比mr快，他问我为什么会比mr快，我想，本来就比mr快啊，设计的时候就比mr快，这让我咋给你说，就好像问我汽车为啥比自行车快，我说就是比自行车快。当时也是不知道回答问题的套路，着实是吃了不少亏啊

10、问了我spark处理延迟数据

我说watermark，他还不满意，继续问，问的我都怀疑你是不是平时用的时候都不知道哪是哪了，问的和延迟数据也不相关啊

11、问了flink怎么实现的流式处理

我听到了有点蒙圈，又像是问汽车是怎么跑起来的，真是不知道该如何下嘴。现在想想，应该是想问我flink的流式计算api这些

12、问了flink和spark的区别

flink是准实时，spark更像是微批处理。方式想到的就是这个，就说了这个，相比较肯定是差了不少

13、flink怎么保证的容错机制

我说checkpoint，他说不是，我纳闷，不是checkpoint能是啥保证容错，他就说不是checkpoint，最后面试完我还专门去查了flink的容错机制，也都是checkpoint，不知道他为啥说不是

14、flink的窗口函数

那就给他介绍一下窗口函数，他又问我怎么实现的，我从代码层面给他说了怎么使用的，他说他想知道flink的窗口函数底层怎么做到的，我不知道

15、反问

问了对面试的反馈，大概说了几点，但是觉得并不是特别中肯，也没有采纳

此次面试总结：这次面试虽然是电话面试，但是和大数据息息相关，在这次面试也是收获了很多，但是有一点该说不说，对于这种公司的面试官，准确说业务水平真的有些差距，我不确定他自己是不是知道自己要问的问题答案，但是总结下来，这次面试也是知道了关于大数据方面自己的哪些不足

二、一家上市中型公司面试

一个上市的中型公司

面试时间：21.1.15

面试时间：43min

面试形式：腾讯会议

1、自我介绍

因为有了前两次的经验积累，这一次明显顺畅多了，介绍也是游刃有余，可以根据时间随时结束，他让我30s，我就花了30s把情况介绍了结束

2、问了我得论文

这个问题一出来，我很蒙圈，没见过这样问的，事实证明，所有的面试这是唯一一个问我论文的。大概给他讲了讲论文

3、接着问论文

问我论文中用了什么大数据相关的知识，这个让我说我能给你说8000字，写的就是大数据相关的，那不整篇都是大数据相关吗

4、问了hdfs的读写流程

给他说了一遍，怎么读怎么写

5、yarn的调度机制

fifo、容量/能力、公平；apache用的容量、CDH用的公平

6、kafka怎么不丢数据

怎么不丢，生产、消费、broke都又不丢的保证

7、数据库的维度建模模型

星型、雪花、星座

8、数据库怎么保证数据一致性

这个真的不会，项目中也没考虑过，以为我们项目主要不在数据库，而且数据也不是进一行出一行，是会变化的。面试后查了一下，确实有好多确保数据一致性的方案，也是补充了这一方面的知识

9、flink的迟到数据

watermark机制。

10、接着问对于超过迟到时间的数据怎么处理？是不是允许迟到时间越久越好？

有一个什么玩意可以保存超过设置时间的数据，不是越久越好

11、工作岗位规划和想要从事的工作岗位？

我说了离线处理和实时计算

12、对数仓开发感不感兴趣

挺感兴趣的

13、能不能接受加班

我一听完了，这么问的，多半是不行啊，但也算诚实。我说能，通宵都行。给他乐屁了

14、介绍了他们的公司和岗位需求

介绍了他们部门属于公司的研究所，等等一些情况，数据规模、业务等等

15、反问

问了具体的工作内容，一共几轮面试

本次面试总结：这次面试基本情况就是比着前两次有着明显的提高，多了一些经验，总结了前两次的教训之后，也知道了应该怎么回答面试官的问题，在这次面试中的不足也是体现出来，在面试结束后也是弥补了一下，总之收获也是很大

面经2：22年实习生大数据开发面试（第一家凉了，第二家拿了offer）

一、一家天使轮公司

二、一家上市中型公司面试

你可能感兴趣的

相关推荐