Flink | Lakehouse技术架构整理

前言

旧的数据分析架构如 Hive、Hadoop、HDFS、MapReduce、HiveSQL、Hive 存储等，如今国内外的各大企业都在逐步转向 Lakehouse 架构，即 Spark、Flink、Presto，底层的湖存储格式：Iceberg、Delta、Hudi、Paimon，以及下面数据存储在 HDFS、对象存储 OSS 或 S3。

背景需求

数据湖

Lakehouse架构的优势

实现了计算存储分离

旧的架构 Hadoop 计算存储都在一个集群中，若要扩容，就要计算与存储部分同时扩容，但目前，各行各业都会有庞大的数据，却不一定可以匹配足够的计算，行业现状催生了计算存储分离的需求。如此，可以实现存储变大的同时，计算资源基本维持不变，当落到 OSS 对象存储上之后，计算存储分离变得非常简单。

实现了存储冷热分层

这是对象存储带来的独特优势。对于对象存储，我们可以利用它的冷存，因为其价格相对低廉，但其冷存访问成本会上升，因此，不常使用的数据可以使用冷存，从而大大降低成本。

操作更加灵活

前面提到的两点实际上 Hive 存储也可以实现，但相较而言，Lakehouse 操作更加灵活，因为湖存储格式提供了更多的 ACID，包括 DELETE、UPDATE 之类的语法，可以让数仓的操作更加方便，而不像 Hive 只能 INSERT OVERWRITE。

查询速度更快

因为湖存储带来的 Meta 上的 skipping 可使得数据根据 Filter 条件做出更多的下推，查询性能更高。

时效性到分钟级

或许前面四点对许多企业来说没有足够的吸引力，而且旧的 Hive 非常稳定，这可能会导致企业数据分析架构的迁移动力大大降低。但是，除前面提到的四点之外，Lakehouse 架构真正给业务带来价值的是可以使得时效性从 T+1 降低到分钟级。在这个方面，Flink/Spark 是当之无愧的专家。真正能打动企业迁移湖仓架构的关键是，能否将 Flink/Spark 融入湖仓架构中。

常见Lakehouse架构

附录

名称解释

名称	解释说明	备注

参考资料

文档信息

本文作者：Tony
本文链接：https://lj-michale.top/2024/04/16/data_lake_technology_architecture/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

Power Data