Apache NiFi

Apache Flink 零基础入门(二十)Flink connector

£可爱£侵袭症+ 提交于 2021-01-14 03:55:05
内置source和sink 内置source包括从文件读取,从文件夹读取,从socket中读取、从集合或者迭代器中读取。内置的sink包括写文件、控制台输出、socket 内置connectors Apache Kafka (source/sink) Apache Cassandra (sink) Amazon Kinesis Streams (source/sink) Elasticsearch (sink) Hadoop FileSystem (sink) RabbitMQ (source/sink) Apache NiFi (source/sink) Twitter Streaming API (source) HDFS Connector 这个connector提供了一个sink,可以写分区到任何一个文件系统(只要支持hadoop filesystem就可以)。 来源: oschina 链接: https://my.oschina.net/u/946962/blog/3106670

腾讯云大数据实战案例

[亡魂溺海] 提交于 2020-11-05 01:48:34
内容来源: 2017年5月20日,腾讯高级软件工程师吴友强在“中生代技术沙龙系列之互联网大数据”进行《 腾讯云 大数据实战》演讲分享。IT 大咖说作为独家视频合作方,经主办方和讲者审阅授权发布。 阅读字数: 1954 | 3分钟阅读 嘉宾演讲视频回顾及PPT ,请点击: http://t.cn/RgMHJEC 摘要 腾讯云 是腾讯公司倾力打造的面向广大企业和个人的公有云平台。腾讯高级软件工程师吴友强将为我们分享大数据在 腾讯云 的实践。 一、TDF(数据工坊)简介 TDF简介 源于 腾讯云 数智大数据套件的轻量云上大数据产品,提供基于SQL的大数据计算框架。 适用于需要动态灵活获取大数据计算能力进行批量计算、日志处理或数据仓库应用的场景。 因为公有云上的用户需要简单,所以要有一个可视化的集成开发环境,在这环境中可以进行数据血缘管理、工程/工作流管理、用户管理和告警/日志。通过一些工具把数据导入到数据存储里面,然后对数据进行处理,最终输出数据。下层的任务和资源调度是用来调度用户的任务在各个资源上运行起来。底层就是 腾讯云 的基础设施。 二、CDP(数据管道)实现详解 CDP整体架构-设计 上图是我们刚开始在开发之前做的设计。最左边有很多客户的数据点,比如log、DB Binlog、自建的Kafka以及自定义数据。我们会利用一些工具开发一个Flume插件,帮助它把数据上云。

Apache Flink 零基础入门(二十)Flink connector

北城余情 提交于 2019-11-29 19:14:36
内置source和sink 内置source包括从文件读取,从文件夹读取,从socket中读取、从集合或者迭代器中读取。内置的sink包括写文件、控制台输出、socket 内置connectors Apache Kafka (source/sink) Apache Cassandra (sink) Amazon Kinesis Streams (source/sink) Elasticsearch (sink) Hadoop FileSystem (sink) RabbitMQ (source/sink) Apache NiFi (source/sink) Twitter Streaming API (source) HDFS Connector 这个connector提供了一个sink,可以写分区到任何一个文件系统(只要支持hadoop filesystem就可以)。 来源: https://my.oschina.net/duanvincent/blog/3106670