hive 、spark 、flink之想一想-京东云开发者社区

hive

1：hive是怎么产生的？

2：hive的框架是怎么样的？

3：hive 执行流程是什么？

4：hive sql是如何把sql语句一步一步到最后执行的？

5：hive sql任务常用参数调优做过什么？

6：spark 是怎么产生的？

7：spark 框架是怎么样的？

8: spark的DAG是什么？

9：spark中的app，job,stage,task是什么？有什么好处？

10：spark的RDD是什么？与dataframe有什么区别？

11：spark 执行流程是什么？

12：spark sql是如何把sql语句一步一步到最后执行的？

13：spark 与mapreduce的区别是什么？

14： spark的反压原理是什么？主动还是被动？

14：flink是怎么产生的？

15：flink的框架是怎么样的？

16：flink 的内存模型说一说？

17：flink的cp ,sp说一说原理，有什么区别？你们是怎么设置cp的相关参数？

18：flink的四个图是什么？分别都是什么环节对应什么图？

19：flink反压机制，你是如何理解的？你是如何定位、并有什么方案解决？与spark的反压有什么区别？

20：flink的barrier对齐和非对齐是怎么理解的？

21：flink的精准一次和至少一次是怎么理解的？

22：flink任务消费或者写入kafka时，并行度不一致有什么问题？

23：flink如何保证数据一致性？

24：flink对于kafka新增分区时，消费有什么问题吗？

25：flink消费kafka的offset是怎么维护的？自动提交？

26：flink任务如何设置TM，JM的并行度？

27：flink任务做过什么调优？

28：flink任务大状态时做过什么优化？

29：你们用flink做过实时数仓吗？你们的上下游的环境都是什么？全链路时效是多少？