相关性分析

优达(Udacity)customer_segments

我与影子孤独终老i 提交于 2019-12-06 15:04:50
github地址 机器学习纳米学位 非监督学习 项目 3: 创建用户分类 欢迎来到机器学习工程师纳米学位的第三个项目!在这个notebook文件中,有些模板代码已经提供给你,但你还需要实现更多的功能来完成这个项目。除非有明确要求,你无须修改任何已给出的代码。以 ‘练习’ 开始的标题表示接下来的代码部分中有你必须要实现的功能。每一部分都会有详细的指导,需要实现的部分也会在注释中以 ‘TODO’ 标出。请仔细阅读所有的提示! 除了实现代码外,你还 必须 回答一些与项目和你的实现有关的问题。每一个需要你回答的问题都会以 ‘问题 X’ 为标题。请仔细阅读每个问题,并且在问题后的 ‘回答’ 文字框中写出完整的答案。我们将根据你对问题的回答和撰写代码所实现的功能来对你提交的项目进行评分。 提示:**Code 和 Markdown 区域可通过 **Shift + Enter 快捷键运行。此外,Markdown可以通过双击进入编辑模式。 开始 在这个项目中,你将分析一个数据集的内在结构,这个数据集包含很多客户真对不同类型产品的年度采购额(用 金额 表示)。这个项目的任务之一是如何最好地描述一个批发商不同种类顾客之间的差异。这样做将能够使得批发商能够更好的组织他们的物流服务以满足每个客户的需求。 这个项目的数据集能够在 UCI机器学习信息库 中找到.因为这个项目的目的,分析将不会包括’Channel

阅读GIC-500 Technical Reference Manual笔记

不羁岁月 提交于 2019-12-06 10:26:38
转自: https://www.cnblogs.com/arnoldlu/p/7406441.html 1.前言 了解Linux中断子系统,同时也需要了解ARM体系结构中断处理流程;在熟悉整个软硬件架构和流程基础上,才能对流程进行细化,然后找出问题的瓶颈。《 2. 梳理中断处理子系统 》 但是所有的优化都离不开一个量化的过程,有个可靠、高效、可读性强的度量必不可少。《 3. 一种测量中断性能手段 》 最后基于此,进行中断性能的优化。《 4.中断性能优化 》 2. 梳理中断处理子系统 中断系统涉及到软硬件两部分,具体到ARM系统和Linux涉及到很多相关点。 硬件以Cortex-A53为基础,整个GIC架构包括两部分:CPU内部的GIC CPU Interface( Cortex-A53 Chapter 9 )和CPU外部的GIC external distributor component。 《ARM Cortex-A53 MPCore Processor Technical Reference Manual》简单介绍了A53核内部的GIC CPU Interface。 《ARM Generic Interrupt Controller Architecture Specification v3/v4》详细介绍了整个GIC架构的方方面面,具体实现比如GIC-600在《GIC-600

《数据挖掘在高校课程相关性中的应用研究》 文献笔记(十一)

白昼怎懂夜的黑 提交于 2019-12-06 06:55:59
一、基本信息 标题:数据挖掘在高校课程相关性中的应用研究 时间:2012 来源: 科技通报 关键词:数据挖掘; Apriori算法; 关联规则; 课程相关性; 二、研究内容 基于关联规则的数据挖掘分析方法: Apriori算法核心:关联规则挖掘流程图 学生成绩表Table 1 Student achievement analysis of basic data table 事务数据库Table 2 Transaction database 关联规则挖掘结果Table 3 Association rules mining results 三、结论 非常具体的基于关联规则的数据挖掘分析方法,有流程图和表图。后面还有关于课程相关性的应用但是和成绩分析关联不大没有放到内容中。 四、参考文献 [15]数据挖掘在高校课程相关性中的应用研究[J]. 姚双良. 科技通报. 2012(12) 来源: https://www.cnblogs.com/zzq1234/p/11967205.html

PMP模拟错题总结

两盒软妹~` 提交于 2019-12-05 14:18:17
本打算15天完成第二轮复习的,结果项目太忙,拖成了25天。第二轮主要以小绿书为主,就是如下这本 怎么说呢,题目偏向于考ITTO的内容,情景题比较少。可以使用“管理圈”APP作为补充 1.敏感性分析的结果通常用龙卷风图来表示 2.在制定风险管理计划时,项目经理通过审查项目文件来识别风险 3.识别风险的输入项目管理计划中,有进度管理计划、成本管理计划、质量管理计划 4.对于大型采购,采购组织可以自行编制独立估算,或者邀请外部专业估算师做出成本估算,并将此作为标杆,用来与潜在卖方的应答做比较 5.优先排序是定性风险分析的关键词 6.卖方如果是按合同规定完成工作的,不管买方主观评价如何,合同状态都是完成 7.风险审计、技术绩效分析以及储备分析用来监督风险 8.相关方的风险承受力是风险管理计划的一部分内容 9.项目组合的范围与组织战略直接相关。所以在组织战略发生变化之后,项目组合范围也要发生变化 10.阶段审查又称为阶段关口,在项目阶段结束时进行 11.多阶段管理有利于管控项目 12.项目阶段划分需要考虑具体项目的具体需要 13.在项目执行阶段,就是做项目,不与运营发生直接关系 14.预测型生命周期和适应型生命周期的组合就是混合型项目生命周期 15.迭代型和增量型生命周期的组合是适应型生命周期 16.项目经理应该确保项目管理方法有利于实现商业文件的意图 17.直接服务于执行组织战略目标的项目

蔓灵花(BITTER)APT组织针对中国境内军工、核能、政府等敏感机构的最新攻击活动报告

余生颓废 提交于 2019-12-05 04:34:44
原文地址: https://s.tencent.com/research/report/615.html 腾讯御见安全中心 一、概述 蔓灵花(T-APT-17、BITTER)APT组织是一个长期针对中国、巴基斯坦等国家进行攻击活动的APT组织,该APT组织为目前活跃的针对境内目标进行攻击的境外APT组织之一。 该组织主要针对政府、军工业、电力、核等单位进行攻击,窃取敏感资料,具有强烈的政治背景。该组织最早在2016由美国安全公司Forcepoint进行了披露,并且命名为“BITTER”,同年国内友商360也跟进发布了分析报告,命名为“蔓灵花”,鉴于对“谁先发现谁命名”的原则,我们继续沿用友商们对该组织的命名。 该组织的名称的命名由来为,该组织的特马数据包头部以“BITTER”作为标识,因此命名为“BITTER”。但是值得注意的是,自从该活动被曝光后,该组织就修改了数据包结构,不再以“BITTER”作为数据包的标识,改为五字节的随机字符进行代替。 腾讯御见威胁中心在今年五月份捕捉到了疑似该组织对我国境内敏感单位的攻击活动,但是由于当时无法下载到具体的攻击模块,因此无法进行进一步的关联和分析。 而在十月底,腾讯御见威胁情报中心再次捕捉到了疑似该组织对我国的军工业、核能、政府等重点单位的攻击,并且获取到了完整的攻击武器库,经过进一步的关联分析,我们确认该攻击组织就是2016年曝光的蔓灵花

《基于数据挖掘技术的课程相关性分析及其应用研究》 文献笔记(九)

你离开我真会死。 提交于 2019-12-04 18:25:35
一、基本信息 标题:基于数据挖掘技术的课程相关性分析及其应用研究 时间:2018 来源:四川师范大学 关键词:成绩分析系统; 功能区分; 数据库; 课程管理; 二、研究内容 1 .数据挖掘流程 2.简单相关分析参数设置 3.寻找频繁项集的过程 三、结论 对于数据挖掘的过程的步骤通过这篇文献能够不在一片茫然,可以按照图解一步步来。在通过前面的算法进行分析。 四、参考文献 [13]吴文玲. 基于数据挖掘技术的课程相关性分析及其应用研究[D].四川师范大学,2018. 来源: https://www.cnblogs.com/zzq1234/p/11877303.html

解密Go语言之 pprof

最后都变了- 提交于 2019-12-04 15:05:04
相信很多人都听过“雷神 3”关于性能优化的故事。在一个 3D 游戏引擎的源码里,John Carmack 将 1/sqrt(x) 这个函数的执行效率优化到了极致。 一般我们使用二分法,或者牛顿迭代法计算一个浮点数的平方根。但在这个函数里,作者使用了一个“魔数”,根本没有迭代,两步就直接算出了平方根。令人叹为观止! 因为它是最底层的函数,而游戏里涉及到大量的这种运算,使得在运算资源极其紧张的 DOS 时代,游戏也可以流畅地运行。这就是性能优化的魅力! 工作中,当业务量比较小的时候,用的机器也少,体会不到性能优化带来的收益。而当一个业务使用了几千台机器的时候,性能优化 20%,那就能省下几百台机器,一年能省几百万。省下来的这些钱,给员工发年终奖,那得多 Happy! 一般而言,性能分析可以从三个层次来考虑:应用层、系统层、代码层。 应用层主要是梳理业务方的使用方式,让他们更合理地使用,在满足使用方需求的前提下,减少无意义的调用;系统层关注服务的架构,例如增加一层缓存;代码层则关心函数的执行效率,例如使用效率更高的开方算法等。 做任何事,都要讲究方法。在很多情况下,迅速把事情最关键的部分完成,就能拿到绝大部分的收益了。其他的一些边边角角,可以慢慢地缝合。一上来就想完成 100%,往往会陷入付出了巨大的努力,却收获寥寥的境地。 性能优化这件事也一样,识别出性能瓶颈,会让我们付出最小的努力

相关分析流程总结

蓝咒 提交于 2019-12-04 05:56:04
为了便于理解,我们先简单介绍下相关分析,然后按照分析流程顺序,对每一步可能会涉及的问题进行简要说明。 相关分析 使用相关分析,通常是研究两个变量的相关性情况。比如学习成绩和听课质量的关系;员工敬业度与薪资的关系等等。 1.数据类型 相关分析的适用范围很广,理论上讲,凡是考察两个变量相关性,都可以叫做相关分析。 但依据习惯,我们通常说的相关分析,多指的是 两个定量数据 之间的 简单相关分析 ,这就要求两个变量都是定量数据,即选项数字大小要可比较,且有实际意义。 如果两个数据均为定类数据,则不可以直接用相关分析,而应该使用卡方分析测量相关性(准确说应该是差异分析)。 如果一个是定类数据,一个是定量数据,则应该使用方差分析。 这种误用常见于分析 背景信息题与核心研究题项的相关情况。 2. 正态性 相关分析要求数据服从正态分布,因此分析前需要检验数据的正态性。 正态性有多种检验方法,常见方法如:正态图、正态性检验、P-P图/Q-Q图等。 正态性的判断标准可以查看之前的文章: 多种判断正态性的方法详细说明 ​ 由于相关分析对正态性要求比较宽松,即使违反计算结果也比较稳健,只要数据基本满足正态即可。如果数据完全不正态,则可以用Spearman相关系数。 3. 查看线性趋势 当两个定量数据在散点图上的散点呈现直线趋势时,就可以认为两者存在直线相关趋势,这也是相关分析的一个基本前提。 SPSSAU

深度解密Go语言之 pprof

坚强是说给别人听的谎言 提交于 2019-12-04 05:29:28
目录 什么是 pprof pprof 的作用 pprof 如何使用 runtime/pprof net/http/pprof pprof 进阶 Russ Cox 实战 查找内存泄露 总结 参考资料 相信很多人都听过“雷神 3”关于性能优化的故事。在一个 3D 游戏引擎的源码里,John Carmack 将 1/sqrt(x) 这个函数的执行效率优化到了极致。 一般我们使用二分法,或者牛顿迭代法计算一个浮点数的平方根。但在这个函数里,作者使用了一个“魔数”,根本没有迭代,两步就直接算出了平方根。令人叹为观止! 因为它是最底层的函数,而游戏里涉及到大量的这种运算,使得在运算资源极其紧张的 DOS 时代,游戏也可以流畅地运行。这就是性能优化的魅力! 工作中,当业务量比较小的时候,用的机器也少,体会不到性能优化带来的收益。而当一个业务使用了几千台机器的时候,性能优化 20%,那就能省下几百台机器,一年能省几百万。省下来的这些钱,给员工发年终奖,那得多 Happy! 一般而言,性能分析可以从三个层次来考虑:应用层、系统层、代码层。 应用层主要是梳理业务方的使用方式,让他们更合理地使用,在满足使用方需求的前提下,减少无意义的调用;系统层关注服务的架构,例如增加一层缓存;代码层则关心函数的执行效率,例如使用效率更高的开方算法等。 做任何事,都要讲究方法。在很多情况下,迅速把事情最关键的部分完成

《Spark高级数据分析第2版》PDF中英文代码+《Hadoop权威指南第4版》PDF代码

匿名 (未验证) 提交于 2019-12-02 23:55:01
《Spark高级数据分析第2版》由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。 《Spark高级数据分析(第2版)》中文PDF+英文PDF+源代码 《Spark高级数据分析(第2版)》中文PDF,452页,带目录,文字可复制;英文PDF,455页,带目录,文字可复制;配套源代码。 下载: https://pan.baidu.com/s/1AljbMRZcv5_vJ5GxStfrpg 提取码: iaar 根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。涵盖模式如下: ● 音乐推荐和Audioscrobbler数据集● 用决策树算法预测森林植被● 基于K均值聚类进行网络流量异常检测 ● 基于潜在语义算法分析维基百科● 用GraphX分析伴生网络● 对纽约出租车轨迹进行空间和时间数据分析 ● 通过蒙特卡罗模拟来评估金融风险● 基因数据分析和BDG项目● 用PySpark和Thunder分析神经图像数据 学习参考:《Hadoop权威指南第四版》中文PDF+英文PDF+代码 《Hadoop权威指南(第四版)》中文PDF,734页,带书签目录;英文PDF,805页