Apache Flink

Flink 系例 之 CountWindow

我的梦境 提交于 2020-12-30 11:31:08
countWindow数量窗口(滑动窗口【滑动窗口与滚动窗口的区别,在于滑动窗口会有数据元素重叠可能,而滚动窗口不存在元素重叠】) 示例环境 java .version : 1 .8 .x flink .version : 1 .11 .1 示例数据源 (项目码云下载) Flink 系例 之 搭建开发环境与数据 CountWindow.java import com.flink.examples.DataSource; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.common.typeinfo.Types; import org.apache.flink.api.java.functions.KeySelector; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.api.java.tuple.Tuple3; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment

Flink 系例 之 Watermarks

对着背影说爱祢 提交于 2020-12-29 11:19:31
Watermarks水印:为输入的数据流的设置一个时间事件(时间戳),对窗口内的数据输入流无序与延迟提供解决方案 示例环境 java .version : 1 .8 .x flink .version : 1 .11 .1 示例数据源 (项目码云下载) Flink 系例 之 搭建开发环境与数据 TimestampsAndWatermarks.java import com.flink.examples.DataSource; import org.apache.commons.lang3.time.DateFormatUtils; import org.apache.flink.api.common.eventtime.*; import org.apache.flink.api.java.functions.KeySelector; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.api.java.tuple.Tuple3; import org.apache.flink.streaming.api.TimeCharacteristic; import org.apache.flink.streaming.api.datastream.DataStream; import org

bilibili大数据一面问题梳理

 ̄綄美尐妖づ 提交于 2020-12-25 14:27:28
Blibli一面 1:kfk 整体架构的三个概念(名词) 2:kfk broker里的名词 3:kfk 分区一个消费的慢,一个消费的快,这是什么原因,怎么分析呢 4:kfk的分区副本follower同步leader流程说明下 5:查看磁盘、网络IO,顺序读写、随机读写的方法 6:kfk 某主题10个分区,消费者组有11个消费者线程,那么第十一个线程会干什么 7:zero copy原理描述下 8:zero copy生效的场景是什么,kfk 生产进来一大批数据、今天不消费,明天消费,那么会用到zero copy吗 9:kfk map file的配置 10:kfk启动时加载的是什么文件 11:ISR列表缺失问题处理方法 12:内核级调优用过哪些? 13:hadoop HDFS 的组件罗列下 14:zkfc的作用 15:CAP理论描述下 16:journeyNode的作用 17:NN HA failOver流程概述下 18:HBASE、Kfk的CLOSE_WAIT现象有哪些 19:TCP、三次握手四次挥手 20:如何查看一个broker的流量数据流出?消费、生产端ip信息如何获取? 本文分享自微信公众号 - 小晨说数据(flink-spark)。 如有侵权,请联系 support@oschina.cn 删除。 本文参与“ OSC源创计划 ”,欢迎正在阅读的你也加入,一起分享。 来源:

flink入门实战总结

时间秒杀一切 提交于 2020-12-24 23:49:06
  随着大数据技术在各行各业的广泛应用,要求能对海量数据进行实时处理的需求越来越多,同时数据处理的业务逻辑也越来越复杂,传统的批处理方式和早期的流式处理框架也越来越难以在延迟性、吞吐量、容错能力以及使用便捷性等方面满足业务日益苛刻的要求。 在这种形势下,新型流式处理框架Flink通过创造性地把现代大规模并行处理技术应用到流式处理中来,极大地改善了以前的流式处理框架所存在的问题。 一句话:flink是etl的工具。 flink的层次结构: 其中, windows下flink示例程序的执行 简单介绍了一下flink在windows下如何通过flink-webui运行已经打包完成的示例程序(jar) 从flink-example分析flink组件(1)WordCount batch实战及源码分析 讲到DataSet的转换 从flink-example分析flink组件(2)WordCount batch实战及源码分析----flink如何在本地执行的? flink batch批处理如何在本地执行的 从flink-example分析flink组件(3)WordCount 流式实战及源码分析 flink stream流式处理如何在本地执行的? 使用flink Table &Sql api来构建批量和流式应用(1)Table的基本概念 介绍了Table的基本概念及使用方法 使用flink

Flink DataStream API编程指南

北慕城南 提交于 2020-12-24 23:47:03
点击上方“蓝字”关注我们 Flink DataStream API主要分为三个部分,分别为Source、Transformation以及Sink,其中Source是数据源,Flink内置了很多数据源,比如最常用的Kafka。Transformation是具体的转换操作,主要是用户定义的处理数据的逻辑,比如Map,FlatMap等。Sink(数据汇)是数据的输出,可以把处理之后的数据输出到存储设备上,Flink内置了许多的Sink,比如Kafka,HDFS等。另外除了Flink内置的Source和Sink外,用户可以实现自定义的Source与Sink。考虑到内置的Source与Sink使用起来比较简单且方便,所以,关于内置的Source与Sink的使用方式不在本文的讨论范围之内,本文会先从自定义Source开始说起,然后详细描述一些常见算子的使用方式,最后会实现一个自定义的Sink。 数据源 Flink内部实现了比较常用的数据源,比如基于文件的,基于Socket的,基于集合的等等,如果这些都不能满足需求,用户可以自定义数据源,下面将会以MySQL为例,实现一个自定义的数据源。本文的所有操作将使用该数据源,具体代码如下: /** * @Created with IntelliJ IDEA. * @author : jmx * @Date : 2020/4/14 * @Time : 17

线下活动 | 阿里云实时计算专场沙龙,与你探讨大数据实时计算的解决方案

我与影子孤独终老i 提交于 2020-12-23 19:24:09
阿里云实时计算是基于 Apache Flink 构建的一站式高性能实时大数据处理平台,广泛应用于流式数据分析、流式数据 ETL、流式复杂事件处理等场景,为助力更多企业实现实时化、智能化大数据计算升级转型, 6 月 30 日,阿里云实时计算专场沙龙北京站,来自阿里巴巴实时计算产品专家、技术专家以及 格灵深瞳大数据总监将现场分享实时计算的应用实践与场景化解决方案。 · 了解实时计算是否适合自身业务场景? · 实时计算的场景化解决方案有哪些? · 如何构建基于 Flink on Kubernetes 的大数据平台? · 实时计算 SQL 开发中常见问题如何更高效的解决? 一、分享嘉宾及主题 《Flink 在人脸识别实时业务中的应用》 陈新宇 | 格灵深瞳 大数据总监 个人简介: 毕业于中国科学院,格灵深瞳智能商业解决方案高级技术经理,主持研发基于人脸识别的实时分析与聚类方案及应用。 内容简介: Flink 作为下一代流计算引擎,以其高效、低延迟等特性获得了大量关注与应用。格灵深瞳自 2017 年开始就将 Flink 应用在生产之中,为客户提供基于人脸识别的实时数据分析服务及面向不同行业的整体解决方案,本次将分享 Flink 在格灵深瞳人脸识别实时业务场景中的技术选型原因、具体应用、遇到的一些问题及改进。 《实时计算场景化解决方案》 高旸 | 阿里巴巴 高级产品专家 嘉宾简介: 曾就职于

阿里云实时大数据解决方案,助力企业实时分析与决策

只愿长相守 提交于 2020-12-23 19:01:05
性能高1倍,价格低3/4!数据库实时同步新选择! 实时分析决策的第一步就需要将数据实时同步到大数据计算引擎,DataWorks数据集成采用自研高性能引擎,在相同的机器规格情况下,RDS实时同步性能最高为其他数据同步方案的2倍,而价格可低至其1/4。通过DataWorks数据集成,企业可以进行高效、低成本、稳定的实时数据同步。 DataWorks数据集成可以追溯到2011年的DataX1.0和2.0版本,随后3.0版本正式对外提供服务,再后来公有云、专有云、阿里内部功能三版合一,建立了Data Integration 服务。在2019年,DataWorks数据集成完成了商业化,独享资源组上线,按量付费、包年包月的付费方式也成功面向了用户。在2020年,全增量实时同步解决方案正式发布。 在全增量实时同步解决方案系统中,可以从MySql、Oracle、IBM DB2、SQL server、POLARDB等关系型数据库中全量离线同步到MaxCompute、Hologres、Elasticsearch、Kafka、DataHub等大数据产品中,再实现实时抽取关系型数据库的变更信息,同步到大数据产品中。像MaxCompute这种离线数仓,可以通过同步到Log表、拆分至Delta表、Merge到Base表,最后再写入MaxCompute这样的方式做实时增量同步。

【学习】如何提取调试ShellCode,这些知识你会吗?

北城以北 提交于 2020-12-19 08:06:10
0 x00 前言 最近刚好看了下shellcode的分析方法,然后就想把之前HW遇到的shellcode拿出来分析一下,一方面检验下自己学习成果,另一方面也和大家分享一下shellcode的一些分析思路吧。 这个样本是从客户的一份钓鱼邮件里发现的,伪造成正常邮件,附件为一个嵌入VBA的word文档,如果没有禁用宏的话,打开文档就会触发病毒执行。 0 x01 宏代码提取 根据文件后缀其实就能看出,该 word文档是带有宏代码的,m即为macro。 使用分析工具oledump.py(https://github.com/decalage2/oledump-contrib)对样本进行分析 oledump.py是一个用于分析OLE文件(复合文件二进制格式)的程序,而word、excel、ppt等文档是OLE格式文件的,可以用它来提取宏代码。 先进行文件基础分析,可以看到A3这段数据被标记为“M”,“M”即表示Macro,说明这段数据是带有VBA代码的。 python oledump.py SSL.docm 接下来我们就需要将这段VBA代码提取出来,执行以下命令,可以看到VBA代码就被提取出来了。 我们把他重定向到一个文件里即可。 python oledump.py -s A3 -v SSL.docm 0x02 宏代码分析 分析宏代码,可以使用编辑器,像notepad++来分析

大数据集群资源预估规划【适用于面试与工作集群规划】

落爺英雄遲暮 提交于 2020-12-18 14:02:10
问题导读 1.如何判断数据增量? 2.QPS如何计算? 3.存储空间需要考虑哪些因素? 4.内存估算和哪些因素有关? 我们在实际工作,或者面试中,经常会遇到这么一个问题,集群该如何规划,一台机器多少磁盘,多少内存,多少core等。 关于公司集群规模,有的几台,有的几百或有的则几千台,那么这几百几千台机器他们的配置是怎么样的? 这里先说下大概,对于大多数公司来说,集群有的10来台,而对于电信行业,一个地方的可能有几百台,对于一线互联网集群规模就比较大一些,上千台是比较常见的。 那么如果我们要搭建大数据平台,集群该如何规划?这是我们初步搭建集群的时候,首次遇到的问题。 对于需要多少台机器,其实这个问题,不能一刀切的回答,具体情况具体分析。虽然一开始我们不知道多少台机器,但是我们可以知道影响的关键因素? 那就是数据的增量是多少? 数据的增量,这里我们来说下数据增量: 其实数据的增量不同的公司,也是不一样的,有的公司数据增量也就是几个G,而有的公司数据增量1T以上,比如物联网大数据。除了数据增量,还有其它影响因素,比如使用的计算组件,使用MapReduce和Spark,Flink在内存的使用上,肯定是有区别的。再比如QPS也影响着系统的资源分配。 除了影响因素,那么我们预估集群包含哪些步骤? 1.判断计算数据增量大小 如何计算数据量得大小,这个其实很多企业已有相关得系统

flink local集群部署

拥有回忆 提交于 2020-12-18 07:46:49
flink local集群部署 标签(空格分隔): flink系列 一:flink 介绍 二:flink 运行模式 三:flink local集群部署 一:flink 介绍 1.1: flink 介绍 Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行 1.2 Apache Flink® - 数据流上的有状态计算 二:flink 集群部署 2.1 安装jdk (所有节点都要安装) 安装:jdk rpm -ivh oracle-j2sdk1.8-1.8.0+update141-1.x86_64.rpm vim /etc/profile ---- export JAVA_HOME=/usr/java/jdk1.8.0_141-cloudera export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar PATH=$PATH:$HOME/bin:$JAVA_HOME/bin ---- java -version 2.2 安装flink 下载地址: http:/