聚类

数据分析方法和思维之RFM用户分群

拈花ヽ惹草 提交于 2021-01-16 19:40:59
01 写在前面 在运营场景中, 经常需要对用户进行分层, 把整体的用户分层不同的层次的用户, 然后针对不同层次的用户采取不同的运营策略, 也被称作精细化运营。但是如何运用科学的方法对用户进行划分呢。 经常遇到的例子是这样的, 比如针对抖音的打赏的用户, 把这些用户按照不同的价值度进行划分, 然后针对不同价值的用户发放不同的优惠套路, 比如充值多少优惠多少 经常产品就会按照单一的月付费次数规则去划分, 比如如下, 我们就可以得到三种不同价值的用户, 这种划分的方法简单来看是没有大问题的, 但是对于数据分析师来说并不是科学的方法。 主要的缺点有两个, 首先是只用单一的付费次数来衡量用户的价值度, 没有考虑用户的付费金额, 一个用户假如付费的次数很频繁, 但付费的金额小, 那么他的价值度可能不如另外一个用户付费次数小于他的 但付费金额比他高很多。 另外人为定的划分的标准比如用付费次数 10, 100作为两个划分的临界点, 没有科学性, 很容易分出来的几乎绝大多数都变成高价值的用户, 这样肯定是不合理的。 一般来说, 肯定是高价值的用户的数量远远小于低价值的用户, 但这种数量是跟我们划分的标准紧密相关的, 不同的人定的划分的数值标准是不一样的, 那么定出来的高价值和低价值的差别就会较大, 所以我们需要去用一种科学的, 通用的划分方法去做用户分群。 而RFM作为用户价值的划分的经典模型,

吴恩达《Machine Learning》精炼笔记 8:聚类 KMeans 及其 Python实现

走远了吗. 提交于 2021-01-15 13:10:13
作者:Peter 红色石头的个人网站: 红色石头的个人博客-机器学习、深度学习之路 ​ www.redstonewill.com 系列文章: 吴恩达《Machine Learning》精炼笔记 1:监督学习与非监督学习 吴恩达《Machine Learning》精炼笔记 2:梯度下降与正规方程 吴恩达《Machine Learning》精炼笔记 3:回归问题和正则化 吴恩达《Machine Learning》精炼笔记 4:神经网络基础 吴恩达《Machine Learning》精炼笔记 5:神经网络 吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议 吴恩达《Machine Learning》精炼笔记 7:支持向量机 SVM 本周的主要知识点是无监督学习中的两个重点:聚类和降维。本文中首先介绍的是聚类中的K均值算法,包含: 算法思想 图解K-Means sklearn实现 Python实现 无监督学习unsupervised learning 无监督学习简介 聚类和降维是无监督学习方法,在无监督学习中数据是没有标签的。 比如下面的数据中,横纵轴都是xx,没有标签(输出yy)。在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,快速这个数据的中找到其内在数据结构。 无监督学习应用 市场分割 社交网络分析 组织计算机集群 了解星系的形成 聚类

CornerNet 算法笔记

≯℡__Kan透↙ 提交于 2021-01-14 12:58:34
论文名称:CornerNet: Detecting Objects as Paired Keypoints 论文链接: https://arxiv.org/abs/1808.01244 代码链接: https://github.com/princeton-vl/CornerNet 简介 这篇文章是ECCV2018的一篇目标检测论文,该论文的创新之处在于使用Keypoints代替原来的anchor思想进行目标检测,提出检测目标左上点和右下点来确定一个边界框,提出一个新的池化方法:corner pooling,在mscoco数据集上达到42.2%的ap,精度上是当时的单阶段目标检测器的state of the art,但是速度略慢,大约1fps(论文为Titan X 244ms/f),无法满足工程需求。 相对于基于anchor检测器创新意义有: anchor数量巨大,造成训练正负样本不均衡(anchor机制解决方式为难例挖掘,比如ohem,focal loss) anchor超参巨多,数量,大小,宽高比等等(比如yolo多尺度聚类anchor,ssd的多尺度aspect ratio) 算法整体架构 如上图fig1,经过特征提取主干网络(主干网络为Hourglass-104)后分为两个分支(两个分支分别接前面提到的corner pooling,随后细谈),一个分支生成目标左上点热力图

三维目标识别算法综述

感情迁移 提交于 2021-01-13 18:46:54
点击上方“ 3D视觉工坊 ”,选择“星标” 干货第一时间送达 目前三维点云数据的获取方法相对快捷,同时三维点云数据的采集不受光照影响,也规避了二维图像遇到的光照、姿态等问题,因此基于点云数据的三维物体识别也引起了人们的重视。 三维点云物体识别方法多是通过提取物体的特征点几何属性、形状属性、结构属性或者多种属性的组合等特征进行比对、学习,从而完成物体的识别与分类。可以分为以下四类方法: 1.基于局部特征的目标识别 基于局部特征的物体识别方法主要是通过局部来识别整体。该方法无需对处理数据进行分割,往往通过提取物体的关键点、边缘或者面片等局部特征并进行比对来完成物体的识别。其中,特征提取是物体识别中非常关键的一步,它将直接影响到物体识别系统的性能。基于局部特征的方式对噪声和遮挡有更好的鲁棒性,同时不受颜色和纹理信息缺乏的限制。由于局部特征描述子仅使用参考点邻域信息,所以不对场景进行分割即可处理复杂场景。但是局部特征描述子维度较高,需要消耗更多的内存,同时存在计算复杂度高,实时性差等问题。 点特征直方图(PFH)和快速点特征直方图(FPFH)是Rusu R B等人提出的相对早期的局部特征描述子。采用统计临近点对夹角的方式构造特征描述子,这也是局部特征描述子构造的典型方式,在此基础上形成了基于局部特征匹配的目标识别和位姿估计的经典框架,如下图所示。表1对典型的局部三维描述符进行了总结

万字综述:行业知识图谱构建最新进展

限于喜欢 提交于 2021-01-09 17:15:46
作者|李晶阳[1],牛广林[2],唐呈光[1],余海洋[1],李杨[1],付彬[1],孙健[1] 单位|阿里巴巴-达摩院-小蜜Conversational AI团队[1],北京航空航天大学计算机学院[2] 摘要 行业知识图谱是行业认知智能化应用的基石。目前在大部分细分垂直领域中,行业知识图谱的 schema 构建依赖领域专家的重度参与,该模式人力投入成本高,建设周期长,同时在缺乏大规模有监督数据的情形下的信息抽取效果欠佳,这限制了行业知识图谱的落地且降低了图谱的接受度。 本文对与上述 schema 构建和低资源抽取困难相关的最新技术进展进行了整理和分析,其中包含我们在半自动 schema 构建方面的实践,同时给出了 Document AI 和长结构化语言模型在文档级信息抽取上的前沿技术分析和讨论,期望能给同行的研究工作带来一定的启发和帮助。 引言 从计算到感知再到认知的人工智能技术发展路径已经成为大多人工智能研究和应用专家的共识。机器具备认知智能,进而实现推理、归纳、决策甚至创作,在一定程度上需要一个充满知识的大脑。知识图谱 [4, 18, 19],作为互联网时代越来越普及的语义知识形式化描述框架,已成为推动人工智能从感知能力向认知能力发展的重要途径。 知识图谱的应用现在非常广泛:在通用领域,Google、百度等搜索公司利用其提供智能搜索服务,IBM Waston 问答机器人

机器学习基础 | 监督学习与无监督学习的快速入门指南

我的未来我决定 提交于 2021-01-07 17:27:21
介绍 监督学习和无监督学习有什么区别? 对于机器学习的初学者和新手来说,这是一个常见的问题。答案 是理解机器学习算法本质的核心。如果没有明白监督学习与无监督学习之间的区别,你的机器学习之旅就无法继续进行 。 实际上,这是你踏上机器学习之旅之初应该学习的东西。如果我们不了解线性回归,逻辑回归,聚类,神经网络等算法的适用范围,就不能简单地跳到模型构建阶段。 如果我们不知道机器学习算法的目标是什么,我们将无法建立一个准确的模型。这就是监督学习与无监督学习的由来。 在这篇文章中,我将用例子讨论这两个概念,并回答一个大问题——如何决定何时使用监督学习或非监督学习? 什么是监督学习? 在监督学习中,计算机是通过数据来训练的。它从过去的数据中学习,并将学习到的东西应用到现在的数据中,以预测未来的事件。在这种情况下,输入数据和期望的输出数据都为预测未来事件提供帮助。 为了准确预测,输入数据被标记了正确的类别。 监督机器学习分类 重要的是要先记住,所有有监督学习算法本质上都是复杂的算法,分为分类或回归模型。 1) 分类模型: 分类模型用于输出变量可以分类的问题,例如“是”或“否”、“通过”或“失败”。分类模型用于预测数据的类别。现实生活中的例子包括垃圾邮件检测、情绪分析、考试记分卡预测等。 2) 回归模型 :回归模型用于输出变量为实际值的问题,例如唯一的数字、美元、工资、体重或压力

SciKit-Learn 可视化数据:主成分分析(PCA)

自古美人都是妖i 提交于 2021-01-07 08:35:37
保留版权所有,转帖注明出处 <div class="article-child "><h2>章节</h2><ul><li class="page_item page-item-4067"><a href="https://www.qikegu.com/docs/4067">SciKit-Learn 加载数据集</a></li> <li class="page_item page-item-4071"><a href="https://www.qikegu.com/docs/4071">SciKit-Learn 数据集基本信息</a></li> <li class="page_item page-item-4075"><a href="https://www.qikegu.com/docs/4075">SciKit-Learn 使用matplotlib可视化数据</a></li> <li class="page_item page-item-4080"><a href="https://www.qikegu.com/docs/4080">SciKit-Learn 可视化数据:主成分分析(PCA)</a></li> <li class="page_item page-item-4082"><a href="https://www.qikegu.com/docs/4082">SciKit

使用PCA可视化数据

人盡茶涼 提交于 2021-01-07 08:11:49
主成分分析(PCA)是一个很好的工具,可以用来降低特征空间的维数。PCA的显著优点是它能产生不相关的特征,并能提高模型的性能。 它可以帮助你深入了解数据的分类能力。在本文中,我将带你了解如何使用PCA,同时提供Python代码,完整的项目可以在GitHub链接: https://github.com/conorosully/medium-articles 。 什么是PCA 我们先来复习一下这个理论,但是如果你想确切了解PCA是如何工作的,我们不会详细介绍,网上有大量学习资源。 PCA用于减少用于训练模型的特征维度数量,它通过从多个特征构造所谓的主成分(PC)来实现这一点。 PC的构造方式使得PC1方向在最大变化上尽可能地解释了你的特征,然后PC2在最大变化上尽可能地解释剩余特征,PC1和PC2通常可以解释总体特征变化中的绝大部分信息。 另一种思考方法是,前两个PC可以很好地概括大部分特征。这很重要,因为正如我们将看到的,它允许我们在二维平面上可视化数据的分类能力。 数据集 让我们来看看一个实际的例子,我们将使用PCA来探索乳腺癌数据集( http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(diagnostic)),我们使用下面的代码导入该数据集 。 import numpy as np import

你和 BAT 的数据分析师差在哪儿?

妖精的绣舞 提交于 2021-01-07 05:02:04
说起近几年热门高薪的工作,数据分析师绝对算得上头牌。 一方面薪资高,打开拉勾招聘 App 就会发现,数据分析师的岗位薪资都是20K起。 另一方面,数据分析师目前依旧还是企业的强需求,大量的企业都很难招到合格的数据分析人员。(Burning Glass Technologies的数据显示,未来 10 年,数据分析师的工作预计还将增长 14.3%。) 那么问题来了—— 你的薪资水平,达到均值了么? 你觉得你是心仪公司的“香饽饽”吗? 坦诚地讲,目前虽然有很多人在从事数据分析的岗位,但最多只能叫“提数机器”。他们的典型特征就是:半路出家、不懂业务、不懂技术。 15 年,你会用 Excel,会查 SQL 数据库,那你不难找到一份数据相关的好工作。 后来,你得会做 BI 可视化,会用 SPSS 做数据挖掘,能做漂亮的报表,还得了解点 Python …… 现在,MySQL 、 Python 、 BI 这些都是数据分析的基础技能,除此之外,你还要懂统计、数据清洗、特征工程、建模、算法…… 而且互联网红利期已经过去,凭“感觉”,靠“经验”去做决策的风险越来越大,只有通过高质量的数据分析,才能更加直观高效准确。 这也从业务需求上,倒逼数据从业者有更高的数据分析能力。对于那些底层数据分析师,高薪前景都与他们无关,还面临随时被踢出局的风险。 到底该如何有效提升数据分析能力,制胜职场? 这个双十一

使用树状图做层次聚类分析

空扰寡人 提交于 2021-01-05 14:02:56
一、实验目的 如果您以前从未使用过树状图,那么使用树状图是查看多维数据如何聚集在一起的好方法。 在这本笔记本中,我将简单探索通过层次分析,借助树状图将其可视化。 二、层次分析 层次分析是聚类分析的一种,scipy有这方面的封装包。 linkage函数从字面意思是链接,层次分析就是不断链接的过程,最终从n条数据,经过不断链接,最终聚合成一类,算法就此停止。 dendrogram是用来绘制树形图的函数。 三、实验数据 grain_variety是标签,其他列为多种属性的值(特征)。 from scipy . cluster . hierarchy import linkage , dendrogram import matplotlib . pyplot as plt import pandas as pd seeds_df = pd . read_csv ( 'seeds-less-rows.csv' ) seeds_df . head () #移除grain_variety varieties = list ( seeds_df . pop ( 'grain_variety' )) varieties ['Kama wheat', 'Kama wheat', 'Kama wheat', 'Rosa wheat', 'Rosa wheat', 'Rosa wheat', 'Rosa