Delta

Data + AI Summit 欧洲2020全部超清 PPT 下载

爷,独闯天下 提交于 2020-12-07 08:19:28
Data + AI Summit Europe 2020 原 Spark + AI Summit Europe 于2020年11月17日至19日举行。由于新冠疫情影响,本次会议和 六月份举办的会议 一样在线举办,一共为期三天,第一天是培训,第二天和第三天是正式会议。会议涵盖来自从业者的技术内容,他们将使用 Apache Spark ™、Delta Lake、MLflow、Structured Streaming、BI和SQL分析、深度学习和机器学习框架来解决棘手的数据问题。会议的全部日程请参见: https://databricks.com/dataaisummit/europe-2020/agenda 。 和今年六月份会议不一样,这次会议的 KeyNote 没什么劲爆的消息,不过会议的第二天和第三天还是有些干货大家可以看下的。在接下来的几天,本公众号也会对一些比较有意思的议题进行介绍,敬请关注本公众号。 本次会议的议题范围具体如下: 人工智能用户案例以及新的机会; Apache Spark™, Delta Lake, MLflow 等最佳实践和用户案例; 数据工程,包括流架构 使用数据仓库(data warehouse)和数据湖(data lakes)进行 SQL 分析和 BI; 数据科学,包括 Python 生态系统; 机器学习和深度学习应用 生产机器学习(MLOps)

Git & Github

徘徊边缘 提交于 2020-12-06 03:11:40
为什么要用版本控制? 假设你在的公司要上线一个新功能,你们开发团队为实现这个新功能,写了大约5000行代码,上线没2天,就发现这个功能用户并不喜欢,你老板让你去掉这个功能,你怎么办?你说简单,直接把5000行代码去掉就行了,但是我的亲,说的简单,你的这个功能写了3周时间,但你还能记得你是新增加了哪5000行代码么?所以你急需要一个工具,能帮你记录每次对代码做了哪些修改,并且可以轻易的把代码回滚到历史上的某个状态。 这个神奇的工具就叫做版本控制。 版本控制工具主要实现2个功能: 版本管理 在开发中,这是刚需,必须允许可以很容易对产品的版本进行任意回滚,版本控制工具实现这个功能的原理简单来讲,就是你每修改一次代码,它就帮你做一次快照 协作开发 一个复杂点的软件,往往不是一个开发人员可以搞定的,公司为加快产品开发速度,会招聘一堆跟你一样的开发人员开发这个产品,拿微信来举例,现在假设3个人一起开发微信,A开发联系人功能,B开发发文字、图片、语音通讯功能,C开发视频通话功能, B和C的功能都是要基于通讯录的,你说简单,直接把A开发的代码copy过来,在它的基础上开发就好了,可以,但是你在他的代码基础上开发了2周后,这期间A没闲着,对通讯录代码作了更新,此时怎么办?你和他的代码不一致了,此时我们知道,你肯定要再把A的新代码拿过来替换掉你手上的旧通讯录功能代码, 现在人少,3个人之间沟通很简单

OpenCV---图像梯度

落花浮王杯 提交于 2020-12-05 20:33:44
图像梯度 推文: 【OpenCV入门教程之十二】OpenCV边缘检测:Canny算子,Sobel算子,Laplace算子,Scharr滤波器合辑 图像梯度可以把图像看成二维离散函数,图像梯度其实就是这个二维离散函数的求导。 Sobel算子是普通一阶差分,是基于寻找梯度强度。 拉普拉斯算子(二阶差分)是基于过零点检测。通过计算梯度,设置阀值,得到边缘图像。 一:sobel算子 def sobel_demo(image): grad_x = cv. Sobel (image,cv.CV_32F, 1 , 0 ) #获取x轴方向的梯度,对x求一阶导,一般图像都是256,CV_8U但是由于需要进行计算,为了避免溢出,所以我们选择CV_32F grad_y = cv.Sobel(image, cv.CV_32F, 0 , 1 ) # 获取y轴方向的梯度,对y求一阶导 gradx = cv.convertScaleAbs(grad_x) #用convertScaleAbs()函数将其转回原来的uint8形式,转绝对值  (转为单通道,0-255) grady = cv.convertScaleAbs(grad_y) cv.imshow( " gradient-x " ,gradx) cv.imshow( " gradient-y " ,grady) gradxy = cv

【mac上安装&配置&使用git】

心不动则不痛 提交于 2020-12-05 10:55:41
转自:https://www.jianshu.com/p/7edb6b838a2e 目录 安装git 创建ssh key、配置git 提交本地项目到GitHub 一、安装Git MAC 上安装Git主要有两种方式 首先查看电脑是否安装Git,终端输入: git 安装过则会输出: WMBdeMacBook-Pro:~ WENBO$ git usage: git [ --version] [--help] [-C <path>] [-c name= value] [ --exec-path[=<path>]] [--html-path] [--man-path] [--info- path] [ -p | --paginate | --no-pager] [--no-replace-objects] [-- bare] [ --git-dir=<path>] [--work-tree=<path>] [-- namespace =<name> ] <command> [<args> ] These are common Git commands used in various situations: start a working area (see also: git help tutorial) clone Clone a repository into a new

[Reinforcement Learning] Value Function Approximation

纵然是瞬间 提交于 2020-12-02 08:17:58
为什么需要值函数近似? 之前我们提到过各种计算值函数的方法,比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数;对于 MDP 未知的情况,可以通过 MC 以及 TD 方法来获得值函数,为什么需要再进行值函数近似呢? 其实到目前为止,我们介绍的值函数计算方法都是通过查表的方式获取的: 表中每一个状态 $s$ 均对应一个 $V(s)$ 或者每一个状态-动作 <$s, a$> 但是对于大型 MDP 问题,上述方法会遇到瓶颈: 太多的 MDP 状态、动作需要存储 单独计算每一个状态的价值都非常的耗时 因此我们需要有一种能够适用于解决大型 MDP 问题的通用方法,这就是本文介绍的值函数近似方法。即: $$ \hat{v}(s, \mathbf{w}) \approx v_{\pi}(s) \ \text{or } \hat{q}(s, a, \mathbf{w}) \approx q_{\pi}(s, a) $$ 那么为什么值函数近似的方法可以求解大型 MDP 问题? 对于大型 MDP 问题而言,我们可以近似认为其所有的状态和动作都被采样和计算是不现实的,那么我们一旦获取了近似的值函数,我们就可以对于那些在历史经验或者采样中没有出现过的状态和动作进行泛化(generalize)。 进行值函数近似的训练方法有很多,比如: 线性回归 神经网络 决策树 ... 此外,针对

spring-session-data-redis解决session共享的问题

我怕爱的太早我们不能终老 提交于 2020-12-01 00:20:03
分布式系统要做到用户友好,需要对用户的session进行存储,存储的方式有以下几种: 本地缓存 数据库 文件 缓存服务器 可以看一些不同方案的优缺点 1.本地机器或者本地缓存。优点:速度快 缺点:服务宕机后重启用户信息丢失,用户不优好 2.数据库。优点:技术栈简单 缺点:速度慢 3.文件。优点:技术栈简单,速度适中 缺点:无灾备或者灾备方案成本高 4.缓存服务器。一般是内存服务器,优点:速度快 可以和原有技术栈契合,有现成的解决方案。缺点:不明显 如果使用java语言,并且缓存服务器为redis,可以使用开源的spring session项目来解决。 spring session项目现有三个自项目,分别是 spring-session-data-redis 使用redis方式 spring-session-hazelcast 使用hazelcast方式 spring-session-jdbc 使用jdbc方式 在这里我建议大家使用redis方式,它提供了注解式和编程式不同的方法。具体如何使用,网上有很多实例,我就不赘述。我想和大家一起深入内部看一下,spring-session项目的github地址为:https://github.com/spring-projects/spring-session.git 我们只看spring-session-data-redis,实现非常简单

近似计算和估值计算

不羁岁月 提交于 2020-11-30 23:35:22
前言 2019年的考试说明中对运算能力的详细描述是这样的:会根据法则、公式进行变形和正确运算,能根据问题的条件寻找与设计合理、简捷的运算途径,能根据问题要求进行<font color="red">估算或近似计算</font>。 运算求解能力是思维能力和运算技能的结合。运算包括对数值的计算和近似计算,对数学表达式的变形,对几何图形相关几何量的计算求解等。运算求解能力包括分析运算条件、探究运算方向、选择运算公式、确定运算程序等一系列过程中的思维能力,也包括在实施运算过程中遇到障碍而调整运算的能力。 对运算求解能力的考查,不仅包括数的运算,还包括式的运算,兼顾对算理和逻辑推理的考查。考查主要是以含字母的式的运算为主,包括数字的计算、代数式和某些超越式的恒等变形、集合的运算、解方程与不等式、三角恒等变形、求导运算、概率计算、向量运算和几何图形中的计算等。运算结果具有存在性、确定性和最简性。 运算求解能力是一项基本能力,在代数、三角函数、立体几何、平面解析几何、统计与概率、导数、向量等内容中都有所体现。运算的作用不仅是只求出结果,有时还可以辅助证明(以算代证)。运算能力是最基础的又是应用最广的一种能力,高考中对运算求解能力的考查主要体现在运算的合理性、准确性、熟练性、简捷性。 近似计算 根式:$\sqrt{2}=1.414\cdots$;$\sqrt{3}=1.732\cdots$;$

哈尔滨工业大学计算机学院-自然语言处理-课程总结

不问归期 提交于 2020-11-24 15:06:50
1. 前言 自然语言处理是关毅老师的研究生课程。 本博客仅对噪声信道模型、n元文法(N-gram语言模型)、维特比算法详细介绍。 其他的重点知识还包括概率上文无关文法(PCFG)、HMM形式化定义、词网格分词等等,比较简单,不做赘述。 2. 噪声信道模型 2.1 噪声信道模型原理 噪声信道模型的示意图如下所示: 该模型的目标是通过有噪声的输出信号试图恢复输入信号,依据贝叶斯公式,其计算公式如下所示: $$I = \arg \max _ { I } P ( I | O ) = \arg \max _ { I } \frac { P ( O | I ) P ( I ) } { P ( O ) } = \arg \max _ { I } P ( O | I ) P ( I )$$ $I$指输入信号,$O$指输出信号。 噪声模型的优点是具有普适性,通过修改噪声信道的定义,可以将很多常见的应用纳入到这一模型的框架之中,相关介绍见2.1。 2.2 噪声信道模型的应用 2.2.1 语音识别 语音识别的目的是通过声学信号,找到与其对应的置信度最大的语言文本。 计算公式与上文相同,此时的$I$为语言文本,$O$为声学信号。 代码实现过程中,有一个信息源以概率$P(I)$生成语言文本,噪声信道以概率分布$P(O|I)$将语言文本转换为声学信号。 模型通过贝叶斯公式对后验概率$P(I|O)$进行计算。

png图片压缩原理解析

给你一囗甜甜゛ 提交于 2020-11-24 06:15:09
什么是PNG PNG的全称叫便携式网络图型(Portable Network Graphics)是目前最流行的网络传输和展示的图片格式,原因有如下几点: 无损压缩:PNG图片采取了基于LZ77派生算法对文件进行压缩,使得它压缩比率更高,生成的文件体积更小,并且不损失数据。 体积小:它利用特殊的编码方法标记重复出现的数据,使得同样格式的图片,PNG图片文件的体积更小。网络通讯中因受带宽制约,在保证图片清晰、逼真的前提下,优先选择PNG格式的图片。 支持透明效果:PNG支持对原图像定义256个透明层次,使得图像的边缘能与任何背景平滑融合,这种功能是GIF和JPEG没有的。 PNG类型 PNG图片主要有三个类型,分别为 PNG 8/ PNG 24 / PNG 32。 PNG8:PNG 8中的8,其实指的是8bits(一个字节),相当于用2^8(2的8次方)大小来存储一张图片的颜色种类,2^8等于256,也就是说PNG 8能存储256种颜色,一张图片如果颜色种类很少,将它设置成PNG 8得图片类型是非常适合的。 PNG24:PNG 24中的24,相当于3乘以8 等于 24,就是用三个8bits分别去表示 R(红)、G(绿)、B(蓝)。R(0~255),G(0~255),B(0~255),可以表达256乘以256乘以256=16777216种颜色的图片,这样PNG 24就能比PNG

Linux下iostat命令详解

流过昼夜 提交于 2020-11-21 13:41:21
一、 iostat 命令简介 iostat是I/O statistics(输入/输出统计)的缩写,iostat工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况,同时也会汇报出CPU使用情况。iostat也有一个弱点,就是它不能对某个进程进行深入分析,仅对系统的整体情况进行分析。 二、iostat命令安装 # iostat属于sysstat软件包。可以直接安装。 [root@localhost ~]# yum -y install sysstat 三、iostat命令使用 语法 iostat (选项) (参数) 选项 -c:仅显示CPU使用情况; -d:仅显示设备利用率; -k:显示状态以千字节每秒为单位,而不使用块每秒; -m:显示状态以兆字节每秒为单位; -p:仅显示块设备和所有被使用的其他分区的状态; -t:显示每个报告产生时的时间; -V:显示版号并退出; -x:显示扩展状态。 参数 间隔时间:每次报告的间隔时间(秒); 次数:显示报告的次数。 实例 显示所有设备负载情况 [root@localhost ~]# iostat 说明: cpu属性值说明: %user:CPU处在用户模式下的时间百分比。 %nice:CPU处在带NICE值的用户模式下的时间百分比。 %system:CPU处在系统模式下的时间百分比。 %iowait