hudi | 易学教程

hudi

实战 | 将Apache Hudi数据集写入阿里云OSS

阅读更多关于实战 | 将Apache Hudi数据集写入阿里云OSS

1. 引入云上对象存储的廉价让不少公司将其作为主要的存储方案，而Hudi作为数据湖解决方案，支持对象存储也是必不可少。之前AWS EMR已经内置集成Hudi，也意味着可以在S3上无缝使用Hudi。当然国内用户可能更多使用阿里云OSS作为云上存储方案，那么如果用户想基于OSS构建数据湖，那么Hudi是否支持呢？随着Hudi社区主分支已经合并了支持OSS的PR，现在只需要基于master分支build版本即可，或者等待下一个版本释出便可直接使用，经过简单的配置便可将数据写入OSS。 2. 配置 2.1 pom依赖需要额外添加的主要pom依赖如下 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-aliyun</artifactId> <version>3.2.1</version> </dependency> <dependency> <groupId>com.aliyun.oss</groupId> <artifactId>aliyun-sdk-oss</artifactId> <version>3.8.1</version> </dependency> 2.2 core-site.xml配置若需访问OSS，需要修改core-site.xml，关键配置如下 <property> <name

订阅 hudi