聚类

用户画像系列——用户画像数据建模方法

一笑奈何 提交于 2021-02-12 12:04:01
伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。 一、什么是用户画像? 男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟。 这样一串描述即为用户画像的典型案例。如果用一句话来描述,即: 用户信息标签化。 如果用一幅图来展现,即: 二、为什么需要用户画像 用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理 ,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少? 也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况? 大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解” 人。 当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。 三、如何构建用户画像 一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如,判断用户偏好。短文本,每个标签通常只表示一种含义

【值得收藏】史上最全免费SPSS教学视频资源

你。 提交于 2021-02-12 08:41:35
点击 “一起学SPSS” 可以订阅哦! “一起学SPSS”倾情整理 视频源自土豆网、优酷网等网站,复制 链接(红色) 至PC浏览器或手机浏览器观看即可。 一、陈老师SPSS课程 链接: http://i.youku.com/u/UMjk0OTUwMjQ1Ng==/videos 内容:华中科技大学陈老师SPSS课程共106个视频,(医学统计为主),极力推荐。 二、SPSS软件应用 链接: http://www.tudou.com/home/magushan/item 内容:标题包含“ SPSS软件应用 ”及“ SPSS软件操作演示 ”的教学视频(安徽大学,社会学相关内容),讲解比较细致,值得推荐。此外该播客中还包含其他统计理论课的教学视频,如《统计思想》、《社会学研究方法》以及SPSS在各种社会调查实例的应用。 三、中山大学 卫生统计学 链接: http://www.youku.com/playlist_show/id_17269792.html 内容:中山大学卫生统计学视频共49个(医学相关内容) 四、SPSS19.0视频教程 链接: http://www.youku.com/playlist_show/id_21834073.html 内容:(社会学、经济学相关内容) 第1章 认识SPSS 第2章 数据文件建立和管理 第3章 基本统计分析 第4章 平均数差异检验 第5章 方差分析

机器学习小白必知必会

依然范特西╮ 提交于 2021-02-12 04:22:41
机器学习是一门多领域交叉学科,需要很多知识储备。 对于机器学习,很多人也只是一知半解,想要知其然、究其实,但是面对各种各样的书籍、文章却无从下手,摸不清门路。 小白该具备哪些知识点呢? 01 概念初识 机器学习领域内有很多专业术语,如繁星一般,穿插在各种技术文档、文献、书籍等资料中。学习机器学习的第一步就是了解这些专业术语,能够“读懂”各类文档。下面是一些比较常见的概念和定义: 实例: 表示具体的一件事物,可以是一本书,一只鸟等等,实例具有诸多属性,比如鸟的羽毛颜色、翅膀长度、鸟喙形状等等,我们可以凭借这些属性来判断鸟属于什么种类。 标签: 标签表示我们所关注的实例的“结果”或者“类型”,它是机器学习系统中预测的结果,或者是训练数据中所标识的正确答案。比如一本书可能是中文图书,也可能是外文图书,这就是这本书的标签或者说分类。 属性: 属性表示实例本身所具有的特性,实例与属性密不可分。实例往往具有很多属性,而在机器学习过程中,我们只关注对实例打标签有意义的属性。比如在判断书属于什么种类时,很明显出版时间这一属性对我们做决策并没有太大意义。 样本: 样本代表实例和实例标签的结合,用于模型训练和效果测试。在模型训练过程中,我们用大量实例的属性值(或特征)以及标签去调节模型中的参数,在测试阶段,使用训练好的模型输入实例的属性值,将模型的预测结果与对应实例的标签做对比。 大数据:

Pandas数据处理(三) — 分组聚类(groupby)

旧街凉风 提交于 2021-02-11 13:36:19
点击上方 Z先生点记 ,加为星标 第一时间收到 Python 技术干货! 分组(Group)的理解 处理数据时,在一个数据列表中会以某一列的元素作为参考基点,统计该列中每个不重复元素对应其他列的相关数据,这里可能我描述的比较复杂,可以通过下面两张表格数据处理前后帮助理解: 源数据为5列,分别为 age、gender、occupation、zip_code; 下面我需要对 occupation (职业)这一列进行分组分析、统计一下每类职业对应 gender、age 的最大、最小、平均值,处理结果如下: 以上就是聚类分组的简单介绍,Pandas 包里提供了函数 goupby 进行日常操作,本文将基于 Pandas 的 groupby 的用法做一个简单了解 1,库导入,数据读取 import pandas as pd users = pd.read_table( "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user" ,sep = "|" ,index_col = 'user_id' ) users.head() 数据以 age,gender,occupation ,zip_code 作为一条样本存入数据集中,接下来的处理将围绕 age,gender,occupation 三列作为分析对象; 2,把

Annoy 近邻算法

自作多情 提交于 2021-02-10 07:31:32
Annoy 随机选择两个点,以这两个节点为初始中心节点,执行聚类数为2的kmeans过程,最终产生收敛后两个聚类中心点 二叉树底层是叶子节点记录原始数据节点,其他中间节点记录的是分割超平面的信息 但是上述描述存在两个问题: (1)查询过程最终落到叶子节点的数据节点数小于 我们需要的Top N相似邻居节点数目怎么办? (2)两个相近的数据节点划分到二叉树不同分支上怎么办? 针对这个问题可以通过两个方法来解决: (1)如果分割超平面的两边都很相似,那可以两边都遍历 (2) 建立多棵二叉树树,构成一个森林 (3)所有树返回近邻点都插入到优先队列中,求并集去重, 然后计算和查询点距离, 最终根据距离值从近距离到远距离排序, 返回Top N近邻节点集合 Summary of features Euclidean distance , Manhattan distance , cosine distance , Hamming distance , or Dot (Inner) Product distance Cosine distance is equivalent to Euclidean distance of normalized vectors = sqrt(2-2*cos(u, v)) Works better if you don't have too many

机器学习中的类别不均衡问题

北慕城南 提交于 2021-02-07 06:36:38
<br/> ##基础概念 类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值,因为这样的学习算法不能预测出正样本。这里我们可以知道不均衡问题会导致样本较少那一类的高错分率,即较少一类的样本会有较大的比例会被预测成样本数量较多的那一类。 <br/> ##解决方法 1、欠采样,减少数量较多那一类样本的数量,使得正负样本比例均衡。 2、过采样,增加数量较少那一类样本的数量,使得正负样本比例均衡。 3、不处理样本,样本分类阈值移动。 <br/> ##欠采样 <br/> ###随机欠采样 随机欠采样是指随机从多数类样本中抽取一部分数据进行删除,随机欠采样有一个很大的缺点是未考虑样本的分布情况,而采样过程又具有很大的随机性,可能会误删多数类样本中一些重要的信息。 <br/> ###EasyEnsemble 和 BalanceCascade EasyEnsemble是通过多次从多数类样本有放回的随机抽取一部分样本生成多个子数据集,将每个子集与少数类数据联合起来进行训练生成多个模型,然后集合多个模型的结果进行判断。这种方法看起来和随机森林的原理很相似。

数据挖掘相关知识介绍

人盡茶涼 提交于 2021-02-07 06:19:16
1、数据挖掘定义 把数据库中大量数据背后隐藏的重要信息抽取出来,然后为公司创造很多潜在的利润,针对这种海量数据库中挖掘数据信息的技术称为数据挖掘(DM)。 2、数据挖掘的分类 按照数据库种类:关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘。 按知识类别来分:关联、特征描述、分类分析、聚类分析、趋势、偏差分析。 按知识抽象层次:一般文化知识、初级知识、多层次知识。 3、数据挖掘常用技术 人工神经网络:仿照生理神经网络结构的非线性预测模型,通过学习模式识别。 决策树:代表决策集的树形结构。 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。 紧邻算法:将数据集合中每一个记录进行分类的方法。 规则推导:从统计意义上对数据进行规则寻找和推导。 4、数据挖掘和数据仓库的关系 数据挖掘的关键在于通过访问正确、完整、集成的数据,才能进行深层次的分析,寻求有益的信息。数据仓库是提供数据的源头,并且数据仓库的联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。如果两者结合起来可以实现数据的有效联结,可以给数据挖掘带来便利和功能。 5、数据挖掘技术的应用过程 确定挖掘对象:要清晰定义挖掘对象、认清数据挖掘的目标。 准备数据:根据确定的挖掘对象,然后搜索所有与业务对象有关的内部和外部数据

黑灰产攻击洪峰来袭,企业如何守住自己的钱袋子?

我与影子孤独终老i 提交于 2021-02-06 10:41:20
简介: 风控大考最佳实践 根据阿里云历史行业风险治理相关数据显示,未经风险管控的自然流量中,约三分之一比例属于疑似黑灰产的高风险行为;而在建立合理的风控指标监控体系并采取风险防控手段后,高风险用户比例下降至3%以内,下降比率超过90%。 有效的风险防控方案是保障各类营销、促活拉新等活动效果的必要手段。 随着春节临近,部分互联网行业迎来业务高峰,企业为了争夺用户流量将投入大量获客、营销资源,但同时也将面临风控大考。 由于各行业、企业的业务场景及逻辑多种多样,黑灰产需要借助工具才能实现团伙作案。阿里云安全团队梳理了近年来主流的被黑灰产使用的作案工具,并分析其作案原理及攻击手法,为企业提升防控精准度和防控效率提供参考。 云 手 机 云手机即一台运行在云端服务器的虚拟手机,具备云计算赋予的超大规模、弹性扩容、成本低等优势,经常被用于移动办公、AIoT、工业互联网等场景。然而,这些创新的技术工具也被黑灰产瞄上,用在了攻击套利方面。 传统风险治理主要通过设备指纹等技术手段进行风控管理,因此黑灰产需要购买多台真机才能完成作案。但借助云手机,黑灰产只需要一个云手机厂商账号就可以同时开启大量新机批量套利,作案成本大大降低。 此外,黑灰产可以将云手机虚拟成各类实体手机的品牌型号作案,企业风控人员如果对云手机没有足够的认知,很难将作弊类的云手机设备与正常云手机用户区分开,风险识别挑战增加。 常见套利场景

聚类-异常检测

♀尐吖头ヾ 提交于 2021-02-05 02:39:22
聚类-异常检测 参考文章: (1)聚类-异常检测 (2)https://www.cnblogs.com/bonelee/p/7776565.html 备忘一下。 来源: oschina 链接: https://my.oschina.net/u/4437974/blog/4945874

通过客户流失预测案例感悟数据分析设计方法思考——数据驱动、AI驱动

让人想犯罪 __ 提交于 2021-02-04 12:44:51
国际著名的咨询公司Gartner在2013年总结出了一套数据分析的框架,数据分析的四个层次:描述性分析、诊断性分析、预测性分析、处方性分析。 Gartner于2020年中给出预测,到2024年底,75%的企业机构将从AI试点转为AI运营。同期,Gartner发布了数据与分析领域的十大技术趋势,首先映入眼帘的是:更智能、更高速、更负责的AI,也指出了仪表板的衰落,更青睐上层次和实用化的决策智能。 1. 前言 我们在设计数据分析产品和数据可视化的时候,依据是什么?怎样设计数据分析产品才能给用户更多的业务支撑?我们做趋势预测、精准识别目的是什么? 最近,我有些感悟分享与读者探讨、研究。 对于设计数据分析产品和数据可视化,我们首先想到的是需求,然后是业务机理。但是,在大数据、新一代人工智能高速发展的今天,对比Gartner给出数据分析咨询意见,我们不应拘泥于当前的业务场景,业务创新也可以通过新技术引领。 我们回到数据分析产品和数据可视化设计,除了需求和业务机理以外,我们不妨以金字塔思维模型来构建这样的场景。 一、目的 我们的目的是实现经济发展和利润,解决未来或当下的问题。比如新零售业务核心是围绕客户展开,解决客户发展和流速问题,是企业发展和利润的基石。 二、分析需求和识别待解决问题 分析需求是深入业务机理,重塑业务模型,以发展的眼光识别问题,解决问题。仍以新零售客户发展为例