开发者社区 > 博文 > hive 、spark 、flink之想一想
分享
  • 打开微信扫码分享

  • 点击前往QQ分享

  • 点击前往微博分享

  • 点击复制链接

hive 、spark 、flink之想一想

  • wu****
  • 2024-02-29
  • IP归属:北京
  • 141浏览

    hive

    1:hive是怎么产生的?

    2:hive的框架是怎么样的?  

    3:hive 执行流程是什么?

    4:hive sql是如何把sql语句一步一步到最后执行的?

    5:hive  sql任务常用参数调优做过什么?

    spark

    6:spark 是怎么产生的?

    7:spark 框架是怎么样的?

    8: spark的DAG是什么?

    9:spark中的app,job,stage,task是什么?有什么好处?

    10:spark的RDD是什么?与dataframe有什么区别?

    11:spark 执行流程是什么?

    12:spark sql是如何把sql语句一步一步到最后执行的?

    13:spark 与mapreduce的区别是什么?

    14: spark的反压原理是什么?主动还是被动?

    flink

    14:flink是怎么产生的?

    15:flink的框架是怎么样的?

    16:flink 的内存模型说一说?

    17:flink的cp ,sp说一说原理,有什么区别?你们是怎么设置cp的相关参数?

    18:flink的四个图是什么?分别都是什么环节对应什么图?

    19:flink反压机制,你是如何理解的?你是如何定位、并有什么方案解决?与spark的反压有什么区别?

    20:flink的barrier对齐和非对齐是怎么理解的?

    21:flink的精准一次和至少一次是怎么理解的?

    22:flink任务消费或者写入kafka时,并行度不一致有什么问题?

    23:flink如何保证数据一致性?

    24:flink对于kafka新增分区时,消费有什么问题吗?

    25:flink消费kafka的offset是怎么维护的?自动提交?

    26:flink任务如何设置TM,JM的并行度?

    27:flink任务做过什么调优?

    28:flink任务大状态时做过什么优化?

    29:你们用flink做过实时数仓吗?你们的上下游的环境都是什么?全链路时效是多少?