XData

HDFS+ClickHouse+Spark:从0到1实现一款轻量级大数据分析系统

拈花ヽ惹草 提交于 2020-08-10 04:25:02
在产品精细化运营时代,经常会遇到产品增长问题:比如指标涨跌原因分析、版本迭代效果分析、运营活动效果分析等。这一类分析问题高频且具有较高时效性要求,然而在人力资源紧张情况,传统的数据分析模式难以满足。本文尝试从0到1实现一款轻量级大数据分析系统——MVP,以解决上述痛点问题。 文章作者:数据熊,腾讯云大数据分析工程师。 一、背景及问题 在产品矩阵业务中,通过仪表盘可以快速发现增长中遇到的问题。然而,如何快速洞悉问题背后的原因,是一个高频且复杂的数据分析诉求。 如果数据分析师通过人工计算分析,往往会占用0.5-1天时间才能找到原因。因此,人工计算分析方式,占用人力大,且数据分析效率低。 另外,产品版本迭代与业务运营活动,也需要对新版本、新功能、新活动进行快速数据分析,已验证效果。 因此,在产品矩阵业务精细化运营中,存在大量的数据分析诉求,且需要快速完成。 在传统的数据分析模式下,对于每个需求,一般需要经历3-5天才能解决问题。除此之外,该模式还需要大量数据分析师对接需求。因此,在数据分析师人力紧缺情况下,该模式无法满足产品增长的数据分析诉求。 二、解决办法 在传统数据分析模式失效情况下,急需开拓新的数据分析模式,以快速满足产品增长的数据分析诉求。 为此,笔者和项目小团队从0到1实现一款轻量级大数据分析系统——MVP,希望通过MVP数据分析,驱动产品从"Minimum Viable

Python笔记:中国疫情随时间变化趋势

元气小坏坏 提交于 2020-08-10 03:53:16
涉及到时间序列的观察值,我们可以绘制折线图来做相关数据分析。例如: from pyecharts.charts import * from pyecharts import options as opts x_data = ['2-06', '2-13', '2-20', '2-27', '3-05', '3-12', '3-19', '3-26', '4-02', '4-09', '4-17'] # 现有确诊 y1_data = [20677, 46537, 49156, 36829, 22695, 13171, 6287, 2896, 987, 351, 122] # 累计治愈 y2_data = [817, 4131, 11788, 26403, 41966, 51533, 58381, 61731, 63612, 64236, 63494] line = (Line() .add_xaxis(x_data) .add_yaxis('现有确诊', y1_data, color='#10aeb5') .add_yaxis('累计治愈', y2_data, color='#e83132') .set_series_opts(label_opts=opts.LabelOpts(is_show=True)) .set_global_opts( title_opts=opts

MATLAB实例:多元函数拟合(线性与非线性)

China☆狼群 提交于 2020-08-10 00:43:41
MATLAB实例:多元函数拟合(线性与非线性) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多请看: 随笔分类 - MATLAB作图 之前写过一篇博文,是 关于一元非线性曲线拟合,自定义曲线函数 。 现在用 最小二乘法 拟合多元函数,实现线性拟合与非线性拟合,其中非线性拟合要求自定义拟合函数。 下面给出三种拟合方式,第一种是多元线性拟合(回归),第二三种是多元非线性拟合,实际中第二三种方法是一个意思,任选一种即可,推荐第二种拟合方法。 1. MATLAB程序 fit_nonlinear_data.m function [beta, r]=fit_nonlinear_data(X, Y, choose) % Input: X 自变量数据(N, D), Y 因变量(N, 1),choose 1-regress, 2-nlinfit 3-lsqcurvefit if choose==1 X1=[ones(length(X(:, 1)), 1), X]; [beta, bint, r, rint, states]=regress(Y, X1) % 多元线性回归 % y=beta(1)+beta(2)*x1+beta(3)*x2+beta(4)*x3+... % beta—系数估计 % bint—系数估计的上下置信界 % r—残差 %

在Vue中使用x-data-spreadsheet

▼魔方 西西 提交于 2020-08-06 14:04:44
在Vue中使用x-data-spreadsheet 1.引入x-data-spreadsheet 包 cnpm i --save x-data-spreadsheet 需要引入依赖包 cnpm i --save less-loader 构建对应vue文件 <template> <div id="x-spreadsheet-demo"></div> </template> <script> import Spreadsheet from 'x-data-spreadsheet'; import zhCN from 'x-data-spreadsheet/dist/locale/zh-cn'; Spreadsheet.locale('zh-cn', zhCN); export default { name: "xspreadsheet-demo", data() { return { jsondata: { type: '', label: '' }, }; }, mounted() { this.init() }, methods:{ init(){ const rows10 = { len: 100000 }; for (let i = 0; i < 100000; i += 1) { rows10[i] = { cells: { 0: { text: 'A-' + i }, 1:

使用Python+TensorFlow2构建基于卷积神经网络(CNN)的ECG心电信号识别分类(四)

为君一笑 提交于 2020-08-05 18:34:15
在上一篇文章中,我们已经对心电信号进行了预处理,将含有噪声的信号变得平滑,以便分类。本篇文章我们将正式开始利用深度学习对心电信号进行分类识别。 卷积神经网络 不论是传统机器学习,还是深度学习,分类的依据都是不同类别的数据中包含的不同特征。要进行分类识别就需要对数据的特征进行提取,但是二者的提取方式并不相同。对于传统的机器学习而言,数据的特征需要设计者或专业人员针对其特性进行手动提取,而深度学习则可以自动提取每类数据中的不同特征。对于卷积神经网络CNN而言,能够自动提取特征的关键在于卷积操作。经过卷积操作提取的特征往往会有冗余,并且多次卷积会使神经网络的参数过多不便于训练,所以CNN往往会在卷积层的后面跟上一个池化层。经过多次的卷积和池化后,较低层次的特征就会逐步构成高层次的特征,最后神经网络根据提取出的高层次特征进行分类。 另外需要指出的是,为什么在心电信号分类中可以使用CNN呢。这是因为CNN具有的卷积操作具有局部连接和权值共享的特征。 局部连接:用于区别不同种类的图片所需的特征只是整张图片中的某些局部区域,因此在进行卷积操作时使用的卷积核(感受野)可以只是几个不同小区域,而不必使用整张图片大小的卷积核(全连接)。这样做不仅可以更好地表达不同的特征,还能起到减少参数的作用。例如下图,左边是使用全连接的神经网络,右边是使用局部连接卷积核的网络。 权值共享:对于一类图片而言

中英文翻译数据集处理

自古美人都是妖i 提交于 2020-08-05 15:56:31
给定数据集格式为[ 英文+"\t" + 中文 He knows better than to marry her. 他聰明到不會娶她。 He had hoped to succeed, but he didn't. 他本希望可以成功,但是他没有。 分割英文和中文分别到en_list和cn_list train_file = 'data/translate_train.txt' dev_file = 'data/translate_dev.txt' def load_data(filename): cn = [] en = [] num_examples = 0 with open(filename, 'r', encoding='utf-8') as f: for line in f: line = line.strip().split('\t') en.append(["BOS"] + nltk.word_tokenize(line[0].lower()) + ['EOS']) cn.append(["BOS"] + [c for c in line[1]] + ['EOS']) return en, cn train_en, train_cn = load_data(train_file) dev_en, dev_cn = load_data(dev_file)

机器学习之线性回归_覃秉丰——源码

故事扮演 提交于 2020-08-04 18:31:35
一元线性回归 import numpy as np from matplotlib import pyplot as plt # 读取数据 data = np.genfromtxt('data.csv', delimiter=',') x_data = data[:, 0] y_data = data[:, 1] # plt.scatter(x_data, y_data) # plt.show() # 学习率 learning rate lr = 0.0001 # 斜率 k = -2 # 截距 b = -2 # 最大迭代次数 epochs = 500 # 最小二乘法 # #计算损失函数 def compute_loss(x_data, y_data, k, b): total_Error = 0 for i in range(0, len(x_data)): total_Error += (y_data[i] - (k * x_data[i] + b)) ** 2 return total_Error / (2.0 * len(x_data)) # 进行梯度下降 def gradient(x_data, y_data, k, b, lr, epochs): m = float(len(x_data)) for i in range(0, epochs): k_gradient =

14 深度学习-卷积

∥☆過路亽.° 提交于 2020-07-28 20:35:39
1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能 机器学习 深度学习 联系 人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,也是当今人工智能大爆炸的核心驱动。 人工智能>机器学习>深度学习 区别 为机器赋予人的智能, 是目的,是结果,适用图像分类、人脸识别 一种实现人工智能的方法, 应用领域是计算机视觉 一种实现机器学习的技术, 适合处理大数据 2. 全连接神经网络与卷积神经网络的联系与区别。 全连接神经网络 卷积神经网络 含义 全连接神经网络(DNN)是最朴素的神经网络,它的网络参数最多,计算量最大。 卷积神经网络是一种深度前馈人工神经网络,已成功地应用于图像识别。 联系 结构相似,输入输出以及训练的流程也基本一致。 区别 每层隐藏层的每个神经元都和相邻隐藏层的所有神经元相连接。 不是全连接的,隐藏层的每个神经元只是和上一个隐藏层某一小片相连。 卷积神经网络可以更好的处理图像数据。 3.理解卷积计算。 以digit0为例,进行手工演算。 from sklearn.datasets import load_digits #小数据集8*8 digits = load_digits() 0 0 5 13 9 1 0 0 0 0 13 15 10 15 5 0 0 3 15 2 0 11 8 0 0 4 12 0 0 8 8

WPA简单抓包分析

こ雲淡風輕ζ 提交于 2020-05-03 15:00:22
实验环境 kali,因为我的是虚拟机,需要再外接一块网卡 无线网卡的四种工作模式 被管理模式:当无线客户端直接与无线接入点连接时,就是用这个模式 ad hoc模式:当网络有相互直连的设备组成时,使用这个模式 主模式:这个模式永续无线网卡使用特制的驱动程序和软件工作 监听模式:使得网卡专心监听空气中的数据包 下图是四种模式的图示,来自《wireshark 数据包分析实战 第二版》 WPA—PSK破解原理 我们都知道破解 WPA-PSK 不是和 WEP 一样抓很多包就能破解的,这跟抓多少数据包一点关系也没有。破解的关键是要获取握手包,这个握手包叫4way-handshake四次握手包。 WPA 四次握手过程:   WPA-PSK 初始化工作:   使用SSID和passphares使用以下算法产生PSK。   在WPA-PSK中PMK=PSK,PSK=PMK=pdkdf2_SHA1(passphrase,SSID,SSID length,4096)   第一次握手:   AP广播SSID,AP_MAC(AA)→STATION   STATION 端使用接受到的SSID,AP_MAC(AA)和passphares使用同样算法产生PSK   第二次握手:   STATION 发送一个随机数SNonce,STATION_MAC(SA)→AP   AP端接受到SNonce,STATION

WPA简单抓包分析

谁说胖子不能爱 提交于 2020-05-03 14:52:42
实验环境 kali,因为我的是虚拟机,需要再外接一块网卡 无线网卡的四种工作模式 被管理模式:当无线客户端直接与无线接入点连接时,就是用这个模式 ad hoc模式:当网络有相互直连的设备组成时,使用这个模式 主模式:这个模式永续无线网卡使用特制的驱动程序和软件工作 监听模式:使得网卡专心监听空气中的数据包 下图是四种模式的图示,来自《wireshark 数据包分析实战 第二版》 WPA—PSK破解原理 我们都知道破解 WPA-PSK 不是和 WEP 一样抓很多包就能破解的,这跟抓多少数据包一点关系也没有。破解的关键是要获取握手包,这个握手包叫4way-handshake四次握手包。 WPA 四次握手过程:   WPA-PSK 初始化工作:   使用SSID和passphares使用以下算法产生PSK。   在WPA-PSK中PMK=PSK,PSK=PMK=pdkdf2_SHA1(passphrase,SSID,SSID length,4096)   第一次握手:   AP广播SSID,AP_MAC(AA)→STATION   STATION 端使用接受到的SSID,AP_MAC(AA)和passphares使用同样算法产生PSK   第二次握手:   STATION 发送一个随机数SNonce,STATION_MAC(SA)→AP   AP端接受到SNonce,STATION