简介
在学习数据工程的过程中,我们常常需要使用到真实的环境。诸如Hadoop集群、Kafka集群等。对于数据开发人员而言,熟悉自己所学组件的部署过程过程也是十分重要的。
生产环境中我们使用到的集群通常是分布式部署,而在本地搭建分布式环境既繁琐又容易出错,当前项目中使用Docker来进行集群环境搭建
组件支持情况
| 组件 | 版本 | 支持 | 备注 |
|---|---|---|---|
| Hadoop | 3.4.2 | ✅ | 当前组件:namenode, datanode, resourcemanager, nodemanager |
| Hive | 3.1.3 | ✅ | 当前组件:metastore, hiveserver2 |
| Hbase | 2.6.0-hadoop3 | ✅ | 当前组件:master, regionserver |
| Spark | 3.5.6-bin-hadoop3-scala2.13 | ✅ | Standalone: master, worker |
| Flink | 1.20.2 | ✅ | Standalone: jobmanager, taskmanager |
| Kafka | 2.13-3.8.0 | ✅ | 分布式,Broker, Connect |
| Zookeeper | 3.9.4 | ✅ | 分布式 |
| ClickHouse | 24.2.2.71 | ✅ | 分布式 |
| Airflow | 2.9.2 | ✅ | Standalone: webserver, scheduler |
| ElasticSearch | 9.1.3 | ✅ | 分布式: elasticsearch |
| MongoDB | 8.0.12 | ✅ | 分布式sharding:configsvr, routersvr, shardsvr |
| Superset | 5.0.0 | ✅ | Superset |
| Doris | 3.0.7 | ✅ | 分布式: FE, BE |
| Kudu | kudu-1.19.0-d40e0dc61 | ✅ | 分布式: Master, TServer。 自行编译版本,branch:master commitId: d40e0dc61 |
| Impala | impala-5.0.0-ec809fc16 | ✅ | 分布式: admissiond, statestored, catalogd, impalad 自行编译版本,branch:master commitId: ec809fc16 |
| Nifi | 2.5.0 | ✅ | Interface |
tip
没有特殊说明登录账号和密码均为 admin/123456