zeppelin

flink-training-course

亡梦爱人 提交于 2021-02-16 23:40:53
flink-training-course [toc] 转载自 https://github.com/flink-china/flink-training-course 大数据领域顶级盛会 Flink Forward Asia 2019 详情🔎 https://dwz.cn/ioH4FiMZ 直击 Flink Forward Berlin 2019 现场回放!精彩 https://www.bilibili.com/video/av71517088/ 课程简介:本系列课程由 Apache Flink Community China 官方出品。旨在为具备一定大数据基础、对Apache Flink感兴趣的同学提供系统性的入门教程,课程路径为“基础篇>>进阶篇>>运维篇>>实战篇>>源码篇”。 「彩蛋」 Apache Flink 中文邮件列表使用方式 视频 S3 实战&运维篇(进行中) 备注:S1 S2 基础篇+进阶篇本页下滑可见 3.1 Flink 反压/延时监控和调参控制 PPT 视频回放 讲师:Rong Rong(Apache Flink Committer,Software Engineer at Uber) 3.2 Metric 指标、监控、报警 PPT 视频回放 讲师:孙梦瑶(美团点评研发工程师) 3.3 如何利用 Flink 和深度学习模型实现垃圾图片分类(Apache

大数据组件实操

痴心易碎 提交于 2020-10-08 02:31:47
大数据组件实操,选择流行的大数据组件: Spark,airflow,zeppelin,ELK三剑客 今天开始实操airflow的使用。 来源: oschina 链接: https://my.oschina.net/u/778683/blog/4297897

Apache Spark 2.2.0 官方文档中文版

本小妞迷上赌 提交于 2020-10-04 07:21:27
原文链接: http://www.apachecn.org/bigdata/spark/268.html Apache Spark™ 是一个快速的, 用于海量数据处理的通用引擎. 官方网址: http://spark.apache.org 中文文档: http://spark.apachecn.org 花了大概两周左右的时间,在原来 Spark 2.0.2 中文文档 版本的基础上,终于迭代出该 Spark 2.2.0 中文文档 的版本了。 衷心感谢每一位贡献者,感谢 ApacheCN 让我们聚在一起奋斗,我们一直在努力 。。。 网址: http://spark.apachecn.org/docs/cn/2.2.0 github: https://github.com/apachecn/spark-doc-zh (如果觉得不错,请各位大佬们给个 star ) 贡献者: https://github.com/apachecn/spark-doc-zh#贡献者 建议反馈: https://github.com/apachecn/spark-doc-zh#联系方式 以下是 Spark 2.2.0 中文文档 的目录索引: Apache Spark 2.2.0 官方文档中文版 概述 编程指南 快速入门 Spark 编程指南 Spark Streaming 编程指南 DataFrames,

基于docker的spark-hadoop分布式集群之一: 环境搭建

南楼画角 提交于 2020-08-15 04:21:49
一、软件准备 1、基础docker镜像:ubuntu,目前最新的版本是18 2、需准备的环境软件包: (1) spark-2.3.0-bin-hadoop2.7.tgz (2) hadoop-2.7.3.tar.gz (3) apache-hive-2.3.2-bin.tar.gz (4) jdk-8u101-linux-x64.tar.gz (5) mysql-5.5.45-linux2.6-x86_64.tar.gz、mysql-connector-java-5.1.37-bin.jar (6) scala-2.11.8.tgz (7) zeppelin-0.8.0-bin-all.tgz 二、ubuntu镜像准备 1、获取官方的镜像: docker pull ubuntu 2、因官方镜像中的apt源是国外资源,后续扩展安装软件包时较麻烦。先修改为国内源: (1)启动ubuntu容器,并进入容器中的apt配置目录 docker run -it -d ubuntu docker exec -it ubuntu /bin/bash cd /etc/apt (2)先将原有的源文件备份: mv sources.list sources.list.bak (3)换为国内源,这里提供阿里的资源。因官方的ubuntu没有艰装vi等软件,使用echo指令写入。需注意一点,资源必须与系统版本匹配

5月21日 Spark 社区直播【Spark on Zeppelin】

主宰稳场 提交于 2020-08-14 12:39:52
主题: Spark on Zeppelin 时间: 5月21日 19:00 参与方式: 扫描下方海报二维码加入钉钉群 或者 届时点击直播间直接观看(回看链接) https://developer.aliyun.com/live/2871 讲师介绍: 章剑锋(简锋),开源界老兵,Apache Member,曾就职于 Hortonworks,目前在阿里巴巴计算平台事业部任高级技术专家,并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ,以及 Apache Pig 的 Committer。 直播简介: Apache Zeppelin 是一个交互式的大数据开发Notebook,从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势:不需要编译Jar,环境配置简单,交互式 来源: oschina 链接: https://my.oschina.net/u/4381796/blog/4285135

大数据PAZR集成ldap实操!what?

时间秒杀一切 提交于 2020-08-04 16:22:31
1.说明 p:presto a:allixop z:zeppelin r:rancher 分为三部分讲解 1.什么是presto+Alluxio,大数据presto+Alluxio集成详细部署说明 2.大数据zeppelin+rancher,docker的集成部署 3.presto+alluxio集成ldap实操测试,zeppelin+rancher集成ldap实操测试 1.1什么是presto 于内存的并行计算,Facebook推出的分布式SQL交互式查询引擎 多个节点管道式执行 支持任意数据源 数据规模GB~PB 是一种Massively parallel processing(mpp)(大规模并行处理)模型 数据规模PB 不是把PB数据放到内存,只是在计算中拿出一部分放在内存、计算、抛出、再拿 为什么要用&优点&特点 多数据源、支持SQL、扩展性(可以自己扩展新的connector)、混合计算(同一种数据源的不同库 or表;将多个数据源的数据进行合并)、高性能、流水线(pipeline) 1.2 presto架构 2.1什么是alluxio Alluxio(前身Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 2.2Alluxio架构 Alluxio是大数据和机器学习生态系统中的新数据访问层

18个PPT,29个提问解答,都在这儿啦!

北城余情 提交于 2020-05-09 12:05:16
4月25-26日,全球首个 Apache 顶级项目在线盛会 Flink Forward 中文精华版重磅开播,聚焦 Alibaba、 Google、AWS、Uber、Netflix、DellEMC、微博、滴滴等各大互联网公司实时计算的经典场景和业务故事,由 Flink 核心贡献者们对 19 个优质 talk 进行中文翻译及解说,您可免费在线观看。 为期一天半的 Flink Forward 中文精华版在北京、上海、杭州三地进行联动直播,吸引了全球近 20000 人次开发者在线观看。除优质内容外,Flink Forward 精华版还首次开创问题征集,在线观看直播的同学可及时对嘉宾分享提出疑问并邀请讲师在线解答。 大会全部提问及解答: https://shimo.im/sheets/twgyxGh9hqy6DHYk/MODOC/ 直播回顾及 Flink 社区学习资料大礼包下载请点击: Flink Forward 全球在线会议中文精华版0425 Flink Forward 全球在线会议中文精华版0426 以下选取了大会部分具有代表性的问题及讲师回答,共享给大家。 Keynote: Introducing Stateful Functions 2.0: Stream Processing meets Serverless Applications 解说嘉宾: 李钰(绝顶),Apache

基于Kubernetes的Spark集群部署实践

扶醉桌前 提交于 2020-04-24 06:05:27
Spark是新一代分布式内存计算框架, Apache 开源的顶级项目。相比于Hadoop Map-Reduce计算框架,Spark将中间计算结果保留在内存中,速度提升10~100倍;同时它还提供更丰富的算子,采用弹性分布式数据集(RDD)实现迭代计算,更好地适用于数据挖掘、机器学习算法,极大提升开发效率。 Docker是轻量级虚拟化容器技术,具有轻便性、隔离性、一致性等特点,可以极大简化开发者的部署运维流程,降低 服务器 成本。 Kubernetes是 Google 开源的容器集群管理系统,提供应用部署、维护、 扩展等功能,能够方便地管理大规模跨主机的容器应用。 相比于在物理机上部署,在Kubernetes集群上部署Spark集群,具有以下优势: 快速部署:安装1000台级别的Spark集群,在Kubernetes集群上只需设定worker副本数目replicas=1000,即可一键部署。 快速升级:升级Spark版本,只需替换Spark镜像,一键升级。 弹性伸缩:需要扩容、缩容时,自动修改worker副本数目replicas即可。 高一致性:各个Kubernetes节点上运行的Spark环境一致、版本一致 高可用性:如果Spark所在的某些node或pod死掉,Kubernetes会自动将计算任务,转移到其他node或创建新pod。 强隔离性:通过设定资源配额等方式

【智能合约】编写复杂业务场景下的智能合约——可升级的智能合约设计模式(附Demo)

回眸只為那壹抹淺笑 提交于 2020-04-20 07:25:45
智能合约的现状 以太坊在区块链上实现了智能合约的概念,用于:同质化通证发行(ERC-20)、众筹、投票、存证取证等等,共同点是:合约逻辑简单,只是业务流程中的关键节点,而非整个业务流程。而智能合约想解决的信任传递,是环环相扣的,如果在传统系统环节被恶意侵入和篡改数据,那么传入智能合约的数据就是不受到信任的。因此,整体业务流程上链是智能合约发展的趋势。    智能合约的局限 智能合约在早期被设计的时候,并不打算支撑复杂的业务体系,这和它设计的初衷相违背:漏洞往往出现在程序员编写的代码和他想实现的逻辑之间存在着差距,越是简单的代码越是安全。简单和受限访问成了智能合约安全可靠的保障。 因此,智能合约引入了隔离网络和文件系统的沙箱环境、基于栈的编译器(有限高度的栈深以及仅可访问栈顶16个元素的限制)、静态语言、gasLimit(限定了合约的大小,每个合约能处理的逻辑有限;限定每个函数逻辑的复杂度,每一步操作都会消耗gas,以至于连使用循环都成了奢侈)、严格的内存访问限制(每个合约仅可以访问自己的存储单元),这就导致了智能合约不同于传统编程语言,自身就带着诸多限制。 目前,智能合约仍然处于发展的早期阶段,配套的工具、成熟的框架、第三方包寥寥可数。因此编写复杂业务场景的智能合约,只能从底层的逻辑开始编写:编写数据库模型CURD、跨合约数据交互、增强基本数据类型功能(string类型的slice

使用OpenZeppelin在RSK上进行ERC20代币开发

天大地大妈咪最大 提交于 2020-04-18 00:41:10
在本文中,我们将讨论通过 RSK 网络部署和交互 Smart-Contracts 智能合约。我们的合约将是一个基于OpenZeppelin库的ERC20代币,我们将把它直接部署到Mainnet中。 创建合约 我们需要做的第一件事就是知道如何使用 Truffle 。 当我们这样做 $ truffle init 在一个空文件夹中,除了创建配置文件外,我们还为项目和迁移合约创建了文件夹,以记录对同一合约的更改。 合约的 .sol 代码文件位于 ~/Truffle/contracts 迁移脚本在 ~/Truffle/migrations 已编译的合约在 ~/Truffle/build 测试合约在 ~/Truffle/test 我们现在只处理前两个文件夹。 在Truffle文件夹中,我们从 OpenZeppelin 导入库 $ npm install -E openzeppelin-solidity 这些库不仅会安装我们代币token的主要类库,还会安装所有权相关,安全数学运算和许多其他设施的库。值得一提的是,这些库已经过审核以实现高标准的安全性,因此依赖于它们的合约在正确使用时不易受到黑客攻击。 我们的库将安装在 ~/Truffle/node_modules/openzeppelin-solidity/contracts 之后,我们可以将库 ABCD.sol 导入到我们的合约中,如下所示: