数据建模

Coding and Paper Letter(七十)

丶灬走出姿态 提交于 2019-11-29 01:04:41
资源整理。 1 Coding: 1.JupyterHub的流量模拟器。 hubtraf 2.前端面试手册。 front end interview handbook 3.Python学习课程。 learn python 4.从ArcGIS/ESRI格式中提取栅格数据。从Readme来看,似乎在寻求GDAL大佬加持共同构建程序。 ArcRasterRescue 5.OCP-Hack项目是为参加OCP HackFest的伙伴准备的动手实验指导,主要是帮助伙伴在Azure上快速了解和运用Azure IoT Services, Azure Cognitiver Services, Azure Machine Learning等。本项目会持续更新以方便伙伴学习到最新的Azure内容。 OCPOpenHack 6.PaddlePaddle (PArallel Distributed Deep LEarning) 是一个简单易用、高效灵活、可扩展的深度学习平台,最初由百度科学家和工程师共同开发,目的是将深度学习技术应用到百度的众多产品中。 Paddle 7.“通过逐步堆叠高效培训BERT”的源代码。 StackingBERT 8.纽约女子机器学习与数据科学scikit learn研讨会资源。 nyc 2019 scikit sprint 9.PySAL与Python数据栈的地理数据科学。

数据仓库

廉价感情. 提交于 2019-11-28 08:16:33
为什么需要数据仓库? 传统的数据库中,存放的数据都是一些定制性数据较多,表是二维的,一张表可以有很多字段,字段一字排开,对应的数据就一行一行写入表中,特点就是利用二维表表现多维关系。 但这种表现关系的上限和下限就定死了,比如QQ的用户信息,直接通过查询info表,对应的username、introduce等信息即可,而此时我想知道这个用户在哪个时间段购买了什么?修改信息的次数?诸如此类的指标时,就要重新设计数据库的表结构,因此无法满足我们的分析需求。 在产品脑图中可以很清晰的看到根据业务需求设计所需的字段,因此也导致 数据库是根据业务需求进行设计 。 那么有的会问,为什么一开始就不考虑好这个扩展性呢?为什么数据库一开始就不以数据仓库的形式设计? 首先数据仓库,从字面上理解就可以感受到这是一个很大的空间,而且存储的物品很杂,里面会存放酱油、沐浴露、洗发精等物品,而数据库是存放酱油、盐等厨房用品,洗浴又是一个数据库。 另外一个就是,国内互联网的发展,一开始大家都是做个软件出来,大家一起用,这个时候只要满足的了需求即可,现今不止是需求还有用户的体验等各种方面,需要根据这些分析指标做调整。 小结: 数据库是跟业务挂钩的,而数据库不可能装下一个公司的所有数据,因此数据库的设计通常是针对一个应用进行设计的。 数据仓库是依照分析需求、分析维度、分析指标进行设计的。 什么是数据仓库? 数据仓库

知识、数据与模型

为君一笑 提交于 2019-11-28 04:21:38
很多领域都需要用知识和数据建立模型用于预测未来或认识过去。有些领域,知识很少,数据很多,数据容易获取,建立模型时主要用数据就能完成,比如图像识别、语音识别、垃圾识别,这主要针对具有人类日常知识的通用领域,数据标签获取难度低。有些领域,积累了很多知识,数据很少,公开的数据更少,数据获取费用很高,建模型时使用少量的数据,再上大量的知识,比如地下地质体地质建模、金融预测模型,这些针对专业性很强的领域,门槛较高,数据标签获取的难度大,费用高。目前流行的基于大数据的机器学习适合于数据密集型建模,不太适应缺少样本的专业领域的机器学习。基于符号学习的机器学习适合知识密集型建模,或许是专业领域智能建模的必有之路。 按照最早人工智能的发展设想,要达到强人工智能,类似于人类的智能,要先经过数据智能(学习),再经过符号(智能)学习,最后达到生物(人)智能。基于数据的学习计算量大,基于符号的机器学习计算量小,更符合人类的学习过程。而且人类知识也多以符号的形式存储和表达。因此,从这个角度说,目前处于人工智能的初级阶段。 钻井资料少、地震资料分辨率地,建立模型时往往利用大量的经验知识。目前流行的机器学习方法,主要基于统计学方法,需要用到大量数据,从数据中重建专家的经验知识。与传统的建模方法,即业务专家指导的数据空间插值方法不同。当不存在大量样本可以学习的情况下,甚至小样本也不存在的情况下

几分钟即可实现数据可视化,是怎么做到的?

前提是你 提交于 2019-11-28 03:05:38
随着企业数据的日久累计,企业生产的数据无论从数量空间还是从维度层次上都日益繁杂。面对大量数据,管理层常常望洋兴叹:要么企业自产的大量数据不能有效利用,无法提供决策依据;要么数据展示模式繁杂晦涩,无法快速甄别有效信息。如何将海量数据经过抽取、加工、提炼,通过可视化方式展示出来,改变传统的文字描述识别模式,让决策者更高效的掌握重要信息和了解重要细节,这关系到企业重大决策的制定和发展方向的研判。 数据可视化可为上述问题提供理想的解决方案。数据可视化是指以柱状图、饼状图、线型图等图形方式展示数据,让决策者更高效的了解企业的重要信息和细节层次。大量研究结果表明人类通过图形获取信息的速度比通过阅读文字获取信息的速度要快很多,因此通过可视化方式帮助用户改变传统的数据识别模式。 我认为一个好的数据可视化工具应该具备以下几方面: (1)能支持多种数据源的接入,如Excel文件,CSV,关系型数据库,大数据存储平台,搜索引擎... (2)多样的数据建模方式,如拖拽建模,SQL建模,存储过程建模... 拖拽式建模与SQL建模 (3)丰富的可视化组件展示,如柱状图,折线图,饼状图,gis地图,桑基图,表格,旭日图,平行坐标,日历热图... (4)多样的交互式分析操作,如数据联动,上钻,下钻,参数过滤,组件过滤... (5)灵活自有的布局方式 (6)便于分享与查看 以上案例通过 NBI大数据可视化工具(

数据集市

会有一股神秘感。 提交于 2019-11-27 16:17:45
仓库的主要区别:数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。 数据仓库 数据集市 数据的来源 生产系统、外部数据等 数据仓库 范围规模 企业级 部门级或工作组级 主题 以企业为主题 以部门或特殊的分析为主题 数据粒度 最细的粒度 较粗的粒度 数据结构 第三范式,规范化结构 星型模型、雪花模型、星座模型 历史数据 大量的历史数据 适度的历史数据 优化 处理海量数据、数据探索 便于访问和分析、快速查询 索引 高度索引 高度索引 数据集市可以分为两种类型—— 独立型数据集市和从属型数据集市 。独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构如图2所示。 数据仓库规模大、周期长,一些规模比较小的企业用户难以承担。因此,作为快速解决企业当前存在的实际问题的一种有效方法,独立型数据集市成为一种既成事实。独立型数据集市是为满足特定用户(一般是部门级别的)的需求而建立的一种分析型环境,它能够快速地解决某些具体的问题,而且 投资 规模也比数据仓库小很多。 独立型数据集市的存在会给人造成一种错觉,似乎可以先独立地构建数据集市

数据仓库建模与ETL实践技巧

不想你离开。 提交于 2019-11-27 16:17:22
一、数据仓库的架构 数据仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。数据仓库中的数据是细节的、集成的、面向主题的,以OLAP系统的分析需求为目的。 数据仓库的架构模型包括了星型架构(图二:pic2.bmp)与雪花型架构(图三:pic3.bmp)两种模式。如图所示,星型架构的中间为事实表,四周为维度表,类似星星;而相比较而言,雪花型架构的中间为事实表,两边的维度表可以再有其关联子表,从而表达了清晰的维度层次关系。 从OLAP系统的分析需求和ETL的处理效率两方面来考虑:星型结构聚合快,分析效率高;而雪花型结构明确,便于与OLTP系统交互。因此,在实际项目中,我们将综合运用星型架构与雪花型架构来设计数据仓库。 那么,下面我们就来看一看,构建企业级数据仓库的流程。 二、构建企业级数据仓库五步法 (一)、确定主题 即确定数据分析或前端展现的主题。例如:我们希望分析某年某月某一地区的啤酒销售情况,这就是一个主题。主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系,确定主题时要综合考虑。 我们可以形象的将一个主题想象为一颗星星:统计数值型数据(量度)存在于星星中间的事实表;分析角度(维度)是星星的各个角;我们将通过维度的组合,来考察量度。那么,

业务领域建模Domain Modeling

混江龙づ霸主 提交于 2019-11-27 13:06:28
工程实践题目:面向消费电子产品的搜索引擎设计 0x00 业务领域建模,模型由元素和元素间的关系组成,对业务建模的主要是分清项目该做什么,不该做什么,了解目标组织(将要在其中部署系统的组织)的结构及机制。 0x01应用域信息 从用户的角度出发分析: 完成一次信息检索首先需要需要登录到网站,输入需要搜索的关键字内容或者设置检索条件。从返回的搜索结果种选择自己感兴趣的信息,进行各种产品的对比。 项目的业务主角主要是用户。 0x02重要的域 用户:搜索事件的发起者,主要有登录及注册、搜索某产品,对比各类产品的属性,收藏产品 管理员:系统的维护者,负责控制的数据的爬取,建立数据的索引,是用户服务的提供者,其主要属性有:登录、管理爬虫、数据维护、管理用户信息。 用户与管理员之间为相互依赖的关系。 0x03类和对应属性 用户:   属性:id、密码、搜索信息、喜好   方法:全文搜索、条件检索、产品对比、登录、注销、添加产品收藏 管理员:   属性:id、密码、权限   方法:发布数据、爬取数据、限制用户行为、清洗数据 0x04图 用例图: UML类图: 来源: https://www.cnblogs.com/pyinal/p/11901548.html

金融风控数据建模导论

巧了我就是萌 提交于 2019-11-27 09:20:00
文章转载自:https://www.cnblogs.com/shujufenxi/p/10128253.html (一)序言 (二)序言 金融风控具体在哪个环节才需要数据建模 贷前审核 贷后管理 反欺诈 1.2 金融机构信贷风控流程介绍 (1)客户申请 没啥可说的 (2)资料填写 具体个人信息填写错误,金融机构会要求客户重新填写,如何联系客户资料填写错误,会要求冻结几天才能重新申请 (3)要素验证 根据客户的资料填写,做三要素或做四要素验证,比如说客户的手机号、银行卡、身份证是否匹配 (4)合规性验证 客户所在的行业是否是金融机构限制放贷的行业 (5)规则验证 人行征信情况 (6)黑名单 各个金融公司自有数据维度的黑名单 (7)反欺诈 反欺诈规则 (8)信用评分 (9)放款 (10)贷后管理 金融风控流程图,如下: (三)金融分控建模岗需掌握的技能 (1)统计学 大学层次 (2)数学 大学层次 (3)数据库 Orale或者MySQL (4)编程语言 Python、R和SAS (5)机器学习 LR、决策树、随机森林、Xgboost等等主流算法 (四)金融风控模型的核心内容 风控模型 基于LR(逻辑回归)的统计模型 机器学习模型,如随机森林和xgboost 策略制定 反欺诈策略 业务规则 三方数据规则 额度策略 (五)金融风控模型介绍 金融风控模型就是评分卡模型

业务领域建模Domain Modeling

有些话、适合烂在心里 提交于 2019-11-25 20:46:52
♦ 1) Collect application domain information – focus on the functional requirements – also consider other requirements and documents ♦ 2) Brainstorming – listing important application domain concepts – listing their properties/attributes – listing their relationships to each other ♦ 3) Classifying the domain concepts into: – classes – attributes / attribute values – relationships • association, inheritance, aggregation ♦ 4) Document result using UML class diagram  领域模型(domain model)是对领域内的概念类或现实世界中对象的可视化表示。领域模型也成为概念模型、领域对象模型和分析对象模型。领域模型是一种概念模型,也叫问题域模型。它表述的是某个领域的现实概念。上世纪80年代开始

译 - 第 1 章:EF入门

安稳与你 提交于 2019-11-25 18:43:19
章节信息 Entity Framework 6 Recipes 第二版 第一章: Chapter 1: Getting Started with Entity Framework ------------------------------------------------------------------------- 阅读说明: 1 术语第一次出现时用中文(原文)表示,如EntityType将表示成 实体类型(EntityType) 2 菜单名用粗体表示,如File将表示成 文件 3 右击,即鼠标右键点击 第 1 章:EF入门 使用关系型数据库是根据表及其行列去考虑问题的。表是高度结构化并且擅长基于集合的处理。在面向对象编程思想广泛应用前,我们都是过程式思考问题并且通过编写结构化、自顶向下、一个接一个函数的方式解决这些问题。它们的世界都是排好的:表、行和列在我们的代码中紧密地匹配结构化和过程化模式。在相当长的时间内,这种方式工作的非常好…… 在代码的世界里已经发生了相当大的变革。现在我们从对象和领域模型方面考虑问题。我们对现在世界的事物如客户和订单做架构、设计和编程。我们在白板上描绘我们问题集中的词语。我们在它们之间连线、描述关系和交互。我们根据这些草图制订规范和指派任务给开发团队。总之,我们在一个概念水平上做架构、设计和编码