Delta

springboot2.x 整合redis

非 Y 不嫁゛ 提交于 2020-12-28 08:55:26
1.jar包依赖 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version> </dependency> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-jpa</artifactId> </dependency> 2.application.yml # redis配置 redis: host: localhost password: timeout: 2000 port: 6379 3.config配置类 package com.example.proserver.config; import lombok.Data; import org.springframework.boot.context.properties.ConfigurationProperties; /** * @Title: RedisProperties * @ProjectName proserver * @date 2019/3/511:33 */ @Data @ConfigurationProperties(prefix

【spark系列4】spark 3.0.1集成delta 0.7.0原理解析--delta自定义sql

心已入冬 提交于 2020-12-28 01:20:21
前提 本文基于 spark 3.0.1 delta 0.7.0 我们都知道delta.io是一个给数据湖提供可靠性的开源存储层的软件,关于他的用处,可以参考 Delta Lake,让你从复杂的Lambda架构中解放出来 ,于此类似的产品有hudi,Iceberg,因为delta无缝集成spark,所以我们来分析一下delta集成spark的内部原理以及框架,对于spark 3.x 与delta的集成是分两部分的,一部分是delta自定义的sql语法,另一部分是基于Catalog plugin API的DDL DML sql操作(spark 3.x以前是不支持的) 我们今天先分析第一部分 delta自定义的sql语法 自定义的DeltaDataSource 我们在用delta的时候,得指定delta特定的格式,如下: val data = spark.range(5, 10) data.write.format("delta").mode("overwrite").save("/tmp/delta-table") df.show() 那这个delta datasource是怎么集成到spark呢?我们来分析一下: 直接到 DataStreamWriter ,如下: val cls = DataSource.lookupDataSource(source, df

2019-2020学年第2学期-数学分析2

妖精的绣舞 提交于 2020-12-25 14:43:34
<table border="0"> <tr> <td><a href="#lecture_info"> 课程信息 </a></td> <td><a href="#schedule"> 教学计划 </a></td> <td><a href="#remark"> 注记随记 </a></td> <td><a href="#homework"> 作业 </a></td> </tr> </table> <a name="lecture_info"> 课程信息 </a> 曲阜师范大学数学科学学院, 2019级信息与计算科学专业. 上课时间: 1-18周 , 周二3-4节,周四1-2节,周五3-4节. 6课时/周, 共计108课时. 上课地点: 数学楼106教室. 晚自习答疑: 待定. 教材: 数学分析(上册,第五版) , 华东师范大学数学科学学院 编, 高等教育出版社, 2019, ISBN: 9787040506945. 第4版上册教材 下载 数学分析(下册,第五版) , 华东师范大学数学科学学院 编, 高等教育出版社, 2019, ISBN: 9787040513233. 习题解答: 数学分析习题课讲义(2), 李傅山、王培合 编著, 北京大学出版社, 2018, ISBN: 9787301291856. 参考资料: 【1】 吉米多维奇数学分析习题集学习指引(第2册) , 谢惠民、沐定夷

在公司写代码时,我总想回家带娃。

余生长醉 提交于 2020-12-25 10:23:07
桔妹导读 :离天空最近的地方,是父亲的肩膀。在这个特别的日子里,小编也搜集了一些滴滴年轻的工程师奶爸们的分享,听他们聊一聊当爸的初体验。也借此机会祝福所有做了父亲的工程师们,节日快乐! 内心充满激动和紧张 @张军 娃刚出生第五天黄疸严重,在医院住了五天,每天都会去医院给娃送母乳,但是医院管理严格,全程见不到娃,内心甚是想念。最难忘的是出院那天,去医院的路上,一想到就能见到娃,内心很是激动,那感觉已经超越了第一次约姑娘见面时内心的忐忑和紧张,也终于理解了父母对孩子的爱有多深。 见证了她 每一个 版本的「迭代」 @王道含 # Changelog # # 0.0.1 2019-3-21 feat: init # # 0.2.10 2019-5-31 feat: grab # # 0.3.2 2019-6-22 feat: turn over # # 0.5.7 2019-8-28 feat: sitting feat: climb # # 0.10.18 2020-2-8 feat: run # 1.0.5 2020-3-26 feat: say papa 作为我为数不多准时上线的产品,也见证了她一个一个版本的迭代。从一个脆弱的功能单一的噪音系统,通过硬件和软件的不断升级,逐步变成了一个人形自走多媒体交互语音系统。在陪伴和观察她成长的过程中,我也会有更多的想要去努力的动力

根据标签分布来选择损失函数

徘徊边缘 提交于 2020-12-24 09:34:48
来自 | 知乎 作者丨马东什么 来源丨https://zhuanlan.zhihu.com/p/304462034 编辑丨极市平台 本文仅作学术交流,如有侵权,请联系后台删除。 本文 约2000字 ,建议阅读 5 分钟 本文介绍了损失函数与标签分布的联系。 首先回到经典的面试问题: 为什么线性回归使用mse作为损失函数? 为什么逻辑回归二分类常用二元交叉熵作为损失函数? 熟悉lgb、xgb或者是sklearn中的各类回归模型包括了线性回归,tweedie回归等等应该都比较熟悉,我们在模型的框架之下可以选择不同的损失函数,以lightgbm为例: 针对于回归问题有非常多的备选损失函数,那么这些损失函数什么时候用,为什么? 回到基本面试问题,首先我们需要知道的是, 使用特定损失函数的前提是我们对标签的分布进行了某种假设,在这种假设的前提下通过极大似然法推出所有样本构成的极大似然公式,然后再使用凸优化的方法比如常见的梯度下降法进行求解。 以常见的二分类问题和回归问题为例: 二分类问题的常见假设就是标签服从伯努利分布: 伯努利分布 是一个离散型机率分布。试验成功,随机变量取值为1;试验失败,随机变量取值为0。成功机率为p,失败机率为q =1-p,N次试验后,成功期望为N*p,方差为N*p*(1-p) ,所以伯努利分布又称两点分布。 观察到的数据为D1,D2,D3,...,DN

深度强化学习在时序数据压缩中的应用--ICDE 2020收录论文

元气小坏坏 提交于 2020-12-21 15:39:55
彼节者有间,而刀刃者无厚;以无厚入有间,恢恢乎其于游刃必有余地矣 ----- 庖丁解牛 前言:随着移动互联网、IoT、5G等的应用和普及,一步一步地我们走进了数字经济时代。随之而来的海量数据将是一种客观的存在,并发挥出越来越重要的作用。时序数据是海量数据中的一个重要组成部分,除了挖掘分析预测等,如何高效的压缩存储是一个基础且重要的课题。同时,我们也正处在人工智能时代,深度学习已经有了很多很好的应用,如何在更多更广的层面发挥作用?深度学习的本质是做决策,用它解决具体的问题时很重要的是找到契合点,合理建模,然后整理数据优化loss等最终较好地解决问题。在过去的一段时间,我们在用深度强化学习进行数据压缩上做了一些研究探索并取得了一些成绩,已经在ICDE 2020 research track发表(Two-level Data Compression using Machine Learning in Time Series Database)并做了口头汇报。在这里做一个整体粗略介绍,希望对其它的场景,至少是其它数据的压缩等,带来一点借鉴作用。 1. 背景描述 1.1 时序数据 时序数据顾名思义指的是和时间序列相关的数据,是日常随处可见的一种数据形式。下图罗列了三个示例 a)心电图,b)股票指数,c)具体股票交易数据。 关于时序数据库的工作内容,简略地,在用户的使用层面它需要响应海量的查询

区块链之岛马耳他的区块链立法之路

限于喜欢 提交于 2020-12-19 01:57:19
点击上方 “Unitimes” 可以订阅哦! unitimes.io 全球视角,独到见解 马耳他政府对于区块链和通证一直持十分积极的态度。2018年11月1日,马耳他关于区块链技术及数字资产监管的三部法案,《马耳他数字创新管理局法案》(MDIA)、《虚拟金融资产法案》(VFA)、《创新技术安排和服务法案》(ITAS)同时生效,使得马耳他成为全世界第一个对区块链技术进行立法并实施的国家。 本文将通过对这三部法案的内容进行重点解读,从法规入手深入了解这个曾经默默无闻的岛国如何通过主动接纳和积极监管区块链行业,一举成为大名鼎鼎的“区块链之都”和区块链公司的投资圣地。 一 、《数字创新管理局法案》(The Malta Digital Innovation Authority Act) 《数字创新管理局法案》中规定,马耳他将设立专门的数字创新管理局(MDIA),通过适当承认和管理有关的创新技术安排和相关服务,寻求创新技术在马耳他的发展。创新技术包括:在分布式账单环境下使用的软件、代码、计算机协议和其他架构,智能合约和其他《数字创新管理局法案》定义的相关安排。 MDIA将全面负责分布式账单技术(即“区块链”),智能合约和相关安排领域的创新技术安排和服务提供商的认证。该法案详细规定了MDIA的组织机构设置规则和MDIA的多项职能和权力

R语言多项式线性模型:最大似然估计二次曲线

佐手、 提交于 2020-12-17 13:26:37
原文链接: http://tecdat.cn/?p=18348 “ 应用线性模型 ”中,我们打算将一种理论(线性模型理论)应用于具体案例。通常,我会介绍理论的主要观点:假设,主要结果,并进行示范来直观地解释。这里查看一个真实的案例研究,它包含真实数据,2400个观测值,34个变量。 这里只有11个观察值,一个简单的线性模型。让我们对这些数据进行线性回归 plot(base,pch=19,ylim=c(30,180)) abline(lm(y~x,data=base),col="red") 回归线(最大程度地减少误差平方和)是红色曲线 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 50.7225 39.3979 1.287 0.23 x 0.4867 0.2747 1.772 0.11 我们可以清楚地看到我们的曲线似乎是凹的,开始时增加,结束时减少,可以进行非参数平滑 scatter.smooth(x, y, lpars = list(col = "red") 我们可以进一步回答 “最大 数目在 哪里吗”, 可以建议一个值,找到一个置信区间吗? 我们可以考虑一个二次模型,换句话说,我们的预测将是 抛物线 。 lm(y~x+I(x^2),data=base) 我们可以看到

数论函数——莫比乌斯反演

若如初见. 提交于 2020-12-17 02:18:14
一些函数的一些性质 取整函数 $\lfloor x \rfloor$ (一)$\lfloor x \rfloor <= x < \lfloor x \rfloor +1$ (二)对任意x与正整数a,b$\lfloor \lfloor \frac{x}{a} \rfloor /b\rfloor=\lfloor \frac{x}{ab}\rfloor$ (三)对于正整数n,1 -- n中d的倍数个数为 $\lfloor \frac{n}{d} \rfloor$ (四)若n为正整数,$\lfloor \frac{n}{d}\rfloor$不同取值个数不超过$2\times\sqrt{n}种$ 证明: $(1)若d \leq{\sqrt{n}},\lfloor \frac{n}{d}\rfloor只有不超过\sqrt{n}种$ $(2)若d>\sqrt{n},\lfloor \frac{n}{d} \rfloor \leq \frac{n}{d} \leq \sqrt{n},\lfloor \frac{n}{d}\rfloor 不超过\sqrt{n}种$ $综上,\lfloor \frac{n}{d}\rfloor 不超过2\times{\sqrt{n}}种$ 调和数 定义 $$Hn=\sum\limits_{k=1}^{n}\frac{1}{k}$$运算得$$ Hn=ln(n)+r+o

Generative Adversarial Nets[AAE]

我只是一个虾纸丫 提交于 2020-12-16 10:24:50
本文来自《Adversarial Autoencoders》,时间线为2015年11月。是大神Goodfellow的作品。本文还有些部分未能理解完全,不过代码在 AAE_LabelInfo ,这里实现了文中2.3小节,当然实现上有点差别,其中one-hot并不是11个类别,只是10个类别。 本文提出“对抗自动编码器(AAE)”,其本质上是自动编码器和GAN架构的合体,通过将AE隐藏层编码向量的聚合后验与任意先验分布进行匹配完成变分推论(variational inference)。将聚合后验与先验进行匹配确保从该先验任何部分都能够生成有意义的样本。AAE的解码层可以看成是一个深度生成模型,可以将强加的先验映射到数据分布上。本文并介绍如何将AAE用在如半监督分类,图像分类,无监督聚类,维度约间和数据可视化。 本文主要是介绍了几种AAE的应用: Basic AAE (文中2到2.1之间的部分) Incorporatiing Label Information in the Adversarial Regularization (文中2.3小节) Supervised AAE (文中4小节) Semi-supervised AAE (文中5小节) Unsupervised Clustering with AAE (文中6小节) Dimensionality Reduction with