Apache InLong 技术解析
Apache InLong 是腾讯开源的一站式海量数据集成平台,提供从数据采集、汇聚、缓存、分拣到落地的全流程能力。本文深入解析 InLong 的核心设计思想、架构组件、技术细节以及与同类方案的对比,帮助读者全面理解这个强大工具的内在原理和应用场景。
- 编程
- 大数据
- 源码
Heriec · Tech
谈不上多深的技术,但都是自己动手实践过的东西,有时间就写写。
Apache InLong 是腾讯开源的一站式海量数据集成平台,提供从数据采集、汇聚、缓存、分拣到落地的全流程能力。本文深入解析 InLong 的核心设计思想、架构组件、技术细节以及与同类方案的对比,帮助读者全面理解这个强大工具的内在原理和应用场景。
数据在磁盘上的字节排列方式,决定了存储效率和查询性能。本文从第一性原理出发,全面解析大数据领域主流文件格式(CSV、JSON、Avro、Protobuf、Parquet、ORC)的设计原理、优缺点和适用场景,帮助你在实际系统中做出明智的格式选型。
数据湖表格式是现代数据湖架构的核心组件,决定了数据的组织方式、查询性能和更新能力。本文从第一性原理出发,深入解析 Apache Iceberg、Apache Hudi 和 Delta Lake 三大主流数据湖表格式的设计哲学、核心机制、功能特性以及适用场景,帮助你在构建数据湖时做出明智的技术选型。
全面解析 CDC 技术,从基本概念到主流工具对比,再到 Flink CDC 3.0 的核心设计与实现细节,助你构建高效可靠的实时数据管道。
尝试把 learned CE 接入真实数据库交互,记录 PilotScope 与 Postgres 的实践过程。