维度

B02_NumPy数据属性(ndarray.ndim,ndarray.shape,ndarray.itemsize,ndarray.flags)

心已入冬 提交于 2020-03-11 01:18:07
NumPy数组属性 本章节我们将来了解 NumPy 数组的一些基本属性。 NumPy 数组的维数称为秩(rank),秩就是轴的数量,即数组的维度,一维数组的秩为 1,二维数组的秩为 2,以此类推。 在 NumPy中,每一个线性的数组称为是一个轴(axis),也就是维度(dimensions)。比如说,二维数组相当于是两个一维数组,其中第一个一维数组中每个元素又是一个一维数组。所以一维数组就是 NumPy 中的轴(axis),第一个轴相当于是底层数组,第二个轴是底层数组里的数组。而轴的数量——秩,就是数组的维数。 很多时候可以声明 axis。axis=0,表示沿着第 0 轴进行操作,即对每一列进行操作;axis=1,表示沿着第1轴进行操作,即对每一行进行操作。 NumPy 的数组中比较重要 ndarray 对象属性有: 属性 说明 ndarray.ndim 秩,即轴的数量或维度的数量 ndarray.shape 数组的维度,对于矩阵,n行m列 ndarray.size 数组元素的总个数,相当于.shape中的 n * m的值 ndarray.dtype ndarray对象的元素类型 ndarray.itemsize ndarray对象中每个元素的大小,以字节为单位 ndarray.flags ndarray对象的内存信息 ndarray.real ndarray元素的实部

关于nn.embedding的维度的定义,函数的理解,一些需要注意的点

被刻印的时光 ゝ 提交于 2020-03-09 18:23:51
关于nn.embedding的维度的定义,函数的理解,一些需要注意的点 定义 首先简单介绍一下nn.embedding,函数调用形式如下 torch.nn. Embedding ( num_embeddings , embedding_dim , padding_idx=None , max_norm=None , norm_type=2.0 , scale_grad_by_freq=False , sparse=False , _weight=None ) 其为一个简单的存储固定大小的词典的嵌入向量的查找表,意思就是说,给一个编号,嵌入层就能返回这个编号对应的嵌入向量,嵌入向量反映了各个编号代表的符号之间的语义关系。 输入为一个编号列表,输出为对应的符号嵌入向量列表。 参数解释 num_embeddings ( python:int ) – 词典的大小尺寸,比如总共出现5000个词,那就输入5000。此时index为(0-4999) embedding_dim ( python:int ) – 嵌入向量的维度,即用多少维来表示一个符号。 padding_idx ( python:int , optional ) – 填充id,比如,输入长度为100,但是每次的句子长度并不一样,后面就需要用统一的数字填充,而这里就是指定这个数字,这样,网络在遇到填充id时

python数据分析工具 | numpy

ⅰ亾dé卋堺 提交于 2020-03-08 16:44:18
Python中没有提供数组功能,虽然列表可以完成基本的数组功能,但并不是真正的数组,而且在数据量较大时,使用列表的速度回非常慢。因此,Numpy提供了真正的数组功能,以及对数据进行快速处理的函数。Numpy内置函数处理数据的速度是C语言级别的,因此,尽量使用其内置函数。 Numpy安装 Numpy安装和普通的第三方库安装一样,最常用的就是利用 pip 安装: pip install numpy 如果你想做数据分析的话,还是建议安装 anaconda(Windows、macOS、Linux均可使用) ,它是一个集成环境,包含了conda、Python在内的超过180个科学包及其依赖项,几乎所有你用到的库都已经帮你安装好了,同时如果需要其他的第三方库要安装,可以使用其中的 conda 便捷的安装相应库以及依赖。 Numpy基本操作 基本属性 numpy包含很多自己的属性和方法,下面通过一个栗子说明一下几个它自身的重要属性。 创建数组 import numpy as np data = np.array([[1, 2, 3], [4, 5, 6]]) # 创建二维数组 上面是最基本的创建数组方法,但是对于实际应用中,它内置的一些函数更为实用。例如: 下面举例展示一下其中部分用法: 基本操作 Numpy的一个显著特点就是它的矢量化,使得对其操作是面向整个数组而不是各个元素

[过拟合]早停法 (Early Stopping)

强颜欢笑 提交于 2020-03-08 09:39:09
1、过拟合 过拟合(overfitting)指的是只能拟合训练数据, 但不能很好地拟合不包含在训练数据中的其他数据的状态[来自 斋藤康溢] 解决过拟合问题有两个方向: 降低参数空间的维度或者降低每个维度上的有效规模(effective size)。降低每个参数维度的有效规模的方法主要是正则化,如权重衰变(weight decay)和 早停法(early stopping) 等。 降低参数数量的方法包括greedy constructive learning、剪枝和 权重共享(卷积) 等。 2、early stopping 2.1 定义 首先,先了解另一个东西,Callbacks.callbacks用于指定在每个epoch开始和结束的时候进行哪种特定操作。Callbacks中有一些设置好的接口,可以直接使用,如’acc’, 'val_acc’, ’loss’ 和 ’val_loss’等等。 而EarlyStopping是Callbacks的一种,EarlyStopping则是用于提前停止训练的callbacks。具体地, 可以达到当训练集上的loss不在减小(即减小的程度小于某个阈值)的时候停止继续训练。 2.2 意义 为了获得性能良好的神经网络,网络定型过程中需要进行许多关于所用设置(超参数)的决策。超参数之一是定型周期(epoch)的数量:亦即应当完整遍历数据集多少次

SSAS系列——【03】多维数据(多维数据集对象)

喜夏-厌秋 提交于 2020-03-08 02:10:57
原文: SSAS系列——【03】多维数据(多维数据集对象) 1、什么是Cube? 简单 Cube 对象由基本信息、维度和度量值组组成。 基本信息包括多维数据集的名称、多维数据集的默认度量值、数据源和存储模式等。维度是多维数据集中使用的实际维度组。所有维度都必须先在数据库的维度集合中定义,然后才能在多维数据集中引用。度量值组是多维数据集中的度量值集。度量值组是具有常见数据源视图和维度集的度量值的集合。度量值组是度量值的处理单元;可先对度量值组进行单独处理,然后再浏览。这个概念MSND解释的非常清楚,也不难理解,姑且Copy贴上来。 2、度量值和度量值组 度量值通常映射到事实数据表中的列。维度表中的属性列可以用于定义度量值,但是这些度量值通常在聚合行为方面具有半累加性或非累加性。 图 事实数据表中的度量值 简单 MeasureGroup 对象由基本信息、度量值、维度和分区组成。基本信息包括度量值组的 名称 、度量值的 类型 、 存储模式 和 处理模式 等。度量值是组成度量值组的实际度量值集。对于每个度量值,均有一个聚合函数定义、一个格式属性定义、一个数据项源定义等其他定义。维度是用于创建已处理度量值组的多维数据集维度的子集。分区是已处理度量值组的物理拆分的集合。在多维数据集中,度量值按照其基础事实数据表分组为多个度量值组。度量值组用于使维度和度量值相互关联

SSAS系列——【02】多维数据(维度对象)

我怕爱的太早我们不能终老 提交于 2020-03-08 02:10:23
原文: SSAS系列——【02】多维数据(维度对象) 1、维度是什么? 数学中叫参数,物理学中是独立的时空坐标的数目。0维是一点,1维是线,2维是一个长和宽(或曲线)面积,3维是2维加上高度形成体积面。在物理学上时间是第四维,与三个空间维不同的是,它只有一个,且只能往一方向前进。 图一 MSDN中关于维度的概念 2 、服务器对象的内容? 包括数据源、数据视图、数据库对象、安全角色和程序集。前4个都不难理解。关于程序集的概念,还需加强一下,程序集可为两种不同的类型:COM 和 CLR。CLR 程序集是使用 .NET Framework 编程语言(如 C#、Visual Basic .NET 和托管 C++)开发的程序集。说白了,你可以使用C#语言来编程处理服务器对象。 3、维度对象的内容? 简单 Dimension 对象由 基本信息 、 属性 和 层次结构 组成。基本信息包括维度的名称、维度的类型、数据源和存储模式等。属性可定义维度中的实际数据。属性可不必属于层次结构,但层次结构却要由属性生成。层次结构不但可创建级别的有序列表,还可定义用户浏览维度的方式。简单的讲,就像Session对象中的键值对一样,这里的key(基本信息)、Value(属性),但这里key之前可能存在一定的关系,所以多了一个层次结构。 维度的结构 a、最简单的——星型结构 特点:每个维度均基于一个通过主键

kylin的cube的原理

杀马特。学长 韩版系。学妹 提交于 2020-03-07 11:57:03
Kylin基本原理及概念 2019-01-24阅读 1K0 “带你走进Apache Kylin的世界” Kylin版本:2.5.1 前言 膜拜大神,Kylin作为第一个由国人主导并贡献到Apache基金会的开源项目,堪称大数据分析界的“神兽”。所以我也是抓紧时间来学习Kylin,感受Kylin所带来的魅力。 一、Kylin简介 Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求,它提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的Hive表。其核心是预计算,计算结果存在HBase中。 作为大数据分析神器,它也需要站在巨人的肩膀上,依赖HDFS、MapReduce/Spark、Hive/Kafka、HBase等服务。 二、Kylin优势 Kylin的主要优势为以下几点: 可扩展超快OLAP引擎:Kylin是为减少在Hadoop/Spark上百亿规模数据查询延迟而设计 Hadoop ANSI SQL 接口:Kylin为Hadoop提供标准SQL支持大部分查询功能 交互式查询能力:通过Kylin,用户可以与Hadoop数据进行亚秒级交互,在同样的数据集上提供比Hive更好的性能 多维立方体(MOLAP Cube):用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体 与BI工具无缝整合

Kylin膨胀率优化

倾然丶 夕夏残阳落幕 提交于 2020-03-03 07:00:15
维度设置 Hierarchy Dimensions:维度列中彼此间存在层级关系的列 职类(一二级职类)、行业(一二级行业)、地域(省、市、区)这些必选维度都可以设置为层级关系列,可大大降低维度组合的可能性 Aggregation Group:在不同的查询中,两组维度组合之间不会产生交叉 Rowkey顺序 将partition column 放在第一排; 将基数大的column放置在前面。 来源: CSDN 作者: liuwei063608 链接: https://blog.csdn.net/liuwei063608/article/details/104613579

Tableau_基础简介

故事扮演 提交于 2020-03-03 00:47:35
图表是为了更清晰的显示想要传达的信息。好的图表一定要保证能清晰展示出更多的信息,其次是美观。 Tableau简介 可接受多种文件格式:excel,json,csv等,也可以连接SQL,Spark等服务器。数据可容纳1000T。 数据源界面 连接:数据文件导入,比如Excel文件 工作表:如果是Excel表格,则其中的sheet1,sheet2则是工作表。点击右侧图标可概览数据。 数据类型分为基本的两大类: 维度(Abc):可理解为离散值,用于进行分类。 度量(#):数值型,具体还可以分为整数型、浮点型,可用于计算,形成新的数据. 当然,度量值与维度值可以相互转化。 工作表界面(图表) 聚合统计:各个分类(香港16个地区)下,可选择属性(酒店评分)总计、均值、最值等。类似于SQL中的group by 分布情况:也可以看各地区分类下,评分的分布状况。 在上方工具栏——分析——聚合度量,取消勾选。 图表信息量 图表的信息量可以通过多种形式展现 颜色、图形大小 上图可以从三个维度分析出结果: 纵坐标(评分) 元朗地区的酒店数量比较少(圆个数) 颜色(价格) 酒店价格比较高的只有很少几个 大小(评分人数) 大部分人的酒店评分在4.5左右,少数人 当然,也可以将维度中的名字拖拽到标签中,更直观的看到每个圆圈对应的 酒店。 【其他例子】 双轴 将两个度量放在同一个维度下比较。 多种不同的图形

《三体》的读书笔记与读后感3000字

自作多情 提交于 2020-03-02 10:48:24
《三体》的读书笔记与读后感3000字: 终于看完刘慈欣的《三体》(《The Three Body Problem》)全集,断断续续也就半个月的时间,却从未有过这样的思维冲击。好像作者把你想到的和想不到的,都写出来了。这是我看过的第一本科幻小说,感觉自己很幸运。 《三体》系列共三本,有人说第一本最好看,看完三本后我觉得他们是一个整体,串联起来才能描述一个无比宏大却又完整的宇宙生态系统。不仅是科学层面的宇宙,还是哲学层面的宇宙。首先在科学层面,各种客观存在的的宇宙运行规律(尤其是量子层面的)被作者以非常惊人的故事构造呈现出来,实在是佩服;还有一些哲学层面的东西,比如宇宙社会学,猜疑链,黑暗森林法则,这些似乎由人类社会中总结出来的规律,在大宇宙中同样适用——毕竟,无论对于地球上的人类还是宇宙中的生灵,生存是都是第一要义,而在有限的资源面前,要想更久生存,必须消灭竞争资源的异类。 因为之前刚刚看了一本书叫《神秘的量子生命》,对于量子力学方面的认知也有了一些,然后惊奇的发现《三体》这本科幻小说中直接提到的,或间接影射的量子力学知识,竟比作为科普读物的前者涵盖的范围要多得多,比如书中提到在文革时期被批判的叶文洁的爸爸,上世纪60年代的天体物理学家,竟因为支持“外部观察导致波函数的塌缩”而被判为唯心主义,从而被戴上“反革命”的高帽子,而这一理论其实是量子力学中很重要的一个规律;另外