前言
本想写一个纯AI的基础版,后发现还是要结合实际更好。AI落地比较多在我所知有NLP(自然语言),CV(图像),推荐系统等,我选择拿推荐系统来做后续介绍。本文仅代表个人的学习过程,可能内容会有冗余,懒得整理。
黄色星星是数学能力
蓝色星星是编程能力
ML & DL
扫盲+复习,对于很多不知道机器学习和深度学习区别的人。
传统机器学习就是自己去人工找特征,有很多办法:PCA,SVD等
深度学习就是用大量数据,机器自动帮你提取特征,但是解释性很差。
推荐系统
按照AI标准流程,需要 数据 ,模型, 预测。
推荐系统的数据,首先要有人物画像和标签系统。
用户画像 : 定义请Google
用户画像准则
- 统一标识, 跨平台数据的User,统一一个ID
- 给用户打标签
八字原则:用户消费行为分析
用户标签:性别、年龄、地域、收入、学历、职业等
消费标签:消费习惯、购买意向、是否对促销敏感
行为标签:时间段、频次、时长、收藏、点击、喜欢、评分
(User Behavior可以分成Explicit Behavior和Implicit Behavior)
内容分析:对用户平时浏览的内容进行分析,比如体育、游戏、八卦 - 基于标签指导业务
用户生命周期的三个阶段
获客:如何进行拉新,通过更精准的营销获取客户;
粘客:个性化推荐,搜索排序,场景运营等;
留客:流失率预测,分析关键节点降低流失率
标签从哪里来
典型的方式有:
PGC:专家生产
UGC:普通生产
标签是对高维事物的抽象(降维)
聚类算法:K-Means,EM聚类,Mean-Shift,DBSCAN,层次聚类,PCA
距离的定义
欧氏距离
曼哈顿距离
切比雪夫距离
余弦距离
数据规范化
-
Min-max规范化
将原始数据投射到指定的空间[min,max]
新数值 = (原数值-极小值)/ (极大值 - 极小值)
当min=0, max=1时,为[0,1]规范化
sklearn中的MinMaxScaler -
Z-Score规范化
将原始数据转换为正态分布的形式
新数值 = (原数值 - 均值)/ 标准差
sklearn中的preprocessing.scale() -
小数定标规范化
通过移动小数点的位置来进行规范化
使用numpy
评测指标
Tag方法
- SimpleTagBased
- NormTagBased
- TF-IDF
TPOT : 基于Python的AutoML工具
- 目前只能做有监督学习
- 支持的分类器主要有贝叶斯、决策树、集成树、SVM、KNN、线性模型、xgboost
- 支持的回归器主要有决策树、集成树、线性模型、xgboost
- 数据预处理:二值化、聚类、降维、标准化、正则化等
- 特征选择:基于树模型、基于方差、基于F-值的百分比
- 可以通过export()方法把训练过程导出为形式为sklearn pipeline的.py文件
来源:CSDN
作者:微笑的猫头鹰
链接:https://blog.csdn.net/ww65369186/article/details/103973117