ctr

机器学习面试--算法评价指标

匿名 (未验证) 提交于 2019-12-03 00:41:02
机器学习分为三个阶段 : 第一阶段: 学习模型 。采用学习算法,通过对训练集进行归纳学习得到分类模型; 第二阶段: 测试模型 。将已经学习得到的分类模型用于测试集,对测试集中未知类别的实例进行分类。 第三阶段: 性能评估 。显然,通过测试集产生的分类未必是最佳的,这就导致对测试集的分类可能产生错误。而人们希望尽量得到信呢个最佳的分类模型,就是的对分类器性能评价至关重要。只有通过优秀的评价标准才能选择出性能更好的分类器。 不同机器学习算法的评价指标: 回归是对连续的实数值进行预测,即输出值是连续的实数值,而分类中是离散值。 (1)平均绝对误差(Mean Absolute Error,MAE)又被称为 l1 范数损失(l1-norm loss) (2)平均平方误差(Mean Squared Error,MSE)又被称为 l2 范数损失(l2-norm loss) 计算公式 : Accuracy = (TP+TN)/(TP+TN+FP+FN) 在 正负样本不平衡 的情况下,准确率这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用Accuracy,即使全部预测成负类(不点击)Accuracy也有 99% 以上,没有意义。 定义 :正确分类的正例个数占分类为正例的实例个数的比例,也称 查准率 。 计算公式 : TP/(TP+FP) 定义

Kaggle滑水 - CTR预估(FM_FFM)

匿名 (未验证) 提交于 2019-12-03 00:27:02
本文继续以Avazu-CTR赛题为背景,尝试采用 FM (Factorization Machine,因子分解机)及 FFM (Field-aware Factorization Machine,场感知因子分解机)来进行CTR预估任务。 本文的源码托管于我的Github: PnYuan - Kaggle_CTR ,欢迎查看交流。 商用推荐场景中的CTR预估工作易面临大规模稀疏数据的挑战。 因子分解机 ( Factorization Machine, 简称 FM )模型的引入正对于此,其通过对参数矩阵的低秩分解,来解决高维训练的低效问题。这里,首先示例性地介绍 数据稀疏 和 特征组合 的相关内容,然后引出FM模型及其拓展形式FFM。 设用于CTR预估的原始数据如下表所示(表1): 时间戳(time) 用户性别(sex) 网站类型(st) 广告类型(at) 是否点击(clicked?) 16102206 male 1 2 1 16110218 - 3 1 0 16110222 female - 6 1 类似数据中常包含大量离散型特征(categorical features),如上表中的特征“ 用户性别 , 网站类型 ”等,独热编码(One-hot)常被用于此类特征的预处理。设经过编码转换后的新数据如下表所示(表2): time sex_1 sex_2 st_1 st_2 st_3 …

CTR预估经典模型总结

匿名 (未验证) 提交于 2019-12-02 23:47:01
1.CTR CTR预估是对每次广告的点击情况做出预测,预测用户是点击还是不点击。 CTR预估和很多因素相关,比如历史点击率、广告位置、时间、用户等。 CTR预估模型就是综合考虑各种因素、特征,在大量历史数据上训练得到的模型。 CTR预估的训练样本一般从历史log、离线特征库获得。 样本标签相对容易,用户点击标记为1,没有点击标记为0。特征则会考虑很多,例如用户的人口学特征、广告自身特征、广告展示特征等。这些特征中会用到很多类别特征,例如用户所属职业、广告展示的IP地址等。一般对于类别特征会采样One-Hot编码,例如职业有三种:学生、白领、工人,那么会会用一个长度为3的向量分别表示他们:[1, 0, 0]、[0, 1, 0]、[0, 0, 1],可是这样会使得特征维度扩展很大,同时特征会非常稀疏。 2. CTR预估经典模型总结 https://www.cnblogs.com/xianbin7/p/10661572.html 3.FM https://blog.csdn.net/g11d111/article/details/77430095 https://blog.csdn.net/hiwallace/article/details/81333604

从技术角度聊聊,短视频为何让人停不下来?

匿名 (未验证) 提交于 2019-12-02 22:56:40
阿里妹导读:基于时间碎片化、视频交互强、内容丰富、体验好等因素,短视频近几年处在流量风暴的中心,各大平台纷纷涉足短视频领域。因此,平台对短视频内容的推荐尤为重要,千人千面是短视频推荐核心竞争力。短视频一般从“点击率”与“观看时长”两方面优化来提升用户消费时长。 接下来,UC事业部国际研发团队的童鞋,将从这两方面重点论述短视频模型点击时长多目标优化。 作者:邢日良、马泽峰、彭卫华 背景 目前,信息流短视频排序是基于CTR预估Wide&Deep深层模型。在Wide&Deep模型基础上做一系列相关优化,包括相关性与体感信号引入、多场景样本融合、多模态学习、树模型等,均取得不错收益。 总体上,短视频模型优化可分为两部分优化: 感知相关性优化――点击模型以优化(CTR/Click为目标) 真实相关性优化――时长多目标优化(停留时长RDTM/播放完成率PCR) 上述收益均基于点击模型的优化,模型能够很好地捕抓USER-ITEM之间感知相关性,感知权重占比较高,弱化真实相关性,这样可能导致用户兴趣收窄,长尾问题加剧。此外,观看时长,无论是信息流、竞品均作为重要优化目标。在此背景下,短视频排序模型迫切需要引入时长多目标优化,提升推荐的真实相关性,寻求在时长上取得突破。 时长多目标的引入,排序模型不仅仅优化点击目标,同时也要兼顾时长目标,使得排序模型的感知相关性与真实相关性之间取得收益最大化的平衡

使用MTA HTML5统计API来分析数据

匿名 (未验证) 提交于 2019-12-02 22:09:29
在开发个人博客的时候,用到了腾讯移动分析(MTA),相比其他数据统计平台来说我喜欢她的简洁高效,易上手,同时文档也比较全面,提供了数据接口供用户调用。 在看了MTA演示 Demo 和 官方文档 后,我就决定使用 .NET Core将其HTML5统计API进行封装,以供博客直接调用,省去各种鉴权生成sign的操作。 首先需要在 MTA 官网进行HTML5应用创建,当然她还支持小程序和移动App。 然后就可以看到如上图的应用管理界面,如果你不打算使用其API接口,直接拿到统计代码嵌入在自己网站中即可,不出意外10分钟左右即可查看网站部分指标的实时数据,次日可以查看昨日的全部数据。 接下来继续,在调用MTA接口之前需要先生成sign, 双方维护同一份私钥,在发起请求的时候,发起方(合作方)将当前的请求参数数组,按照key值进行排序,然后'key=value'拼接到加密串后,进行md5的编码。接收方以同样的处理方式,对ts小于或等于30分钟的请求进行处理,sign一致则合法,否则失败。 有了这段算法描述,利用C#代码实现如下: /// <summary> /// 生成sign /// </summary> /// <param name="keyValues"></param> /// <returns></returns> public static string

linux命令文件

痞子三分冷 提交于 2019-12-02 13:52:33
一, 操作系统的帮助命令:0 1, man----------获取命令/参数帮助等信息 2, help----------获取命令参数信息 写的格式—heip/-help/-h/--h 3, bash, :, ., [, alias, bg, bind, break, builtin, caller, cd, command, compgen, complete, compopt, continue, declare, dirs, disown, echo, enable, eval, exec, exit, export, false, fc, fg, getopts, hash, help, history, jobs, kill, let, local, logout, mapfile, popd, printf, pushd, pwd, read, readonly, return, set, shift, shopt, source, suspend, test, times, trap, true, type, typeset, ulimit, umask, unalias, unset, wait -------这些命令统称为内置命令 二, 操作命令快捷方式: 1, 利用上下键----快速调取历史命令(输入的命令都会保存到临时内存中)--保存到磁盘文件 2,

CTR@因子分解机

狂风中的少年 提交于 2019-12-01 04:37:39
1. FM算法   FM(Factor Machine,因子分解机)算法是一种基于矩阵分解的机器学习算法,为了解决大规模稀疏数据中的特征组合问题。FM算法是推荐领域被验证效果较好的推荐算法之一,在电商、广告、直播等推荐领域有广泛应用。 2. FM算法优势   特征组合:通过对两两特征组合,引入交叉项特征。   解决维数灾难:通过引入隐向量,实现对特征的参数估计。 3. FM表达式                       来源: https://www.cnblogs.com/LuckPsyduck/p/11654472.html

CTR预估模型——FM、FFM、DeepFM

北战南征 提交于 2019-11-30 21:05:40
一、CTR(Click Through Rate,点击率)   点击率(click-through rate, CTR) 是点击特定链接的用户与查看页面,电子邮件或广告的总用户数量之比。它通常用于衡量某个网站的在线广告活动是否成功,以及电子邮件活动的有效性,是互联网公司进行流量分配的核心依据之一。   无论使用什么类型的模型,点击率这个命题可以被归纳到二元分类的问题,我们通过单个个体的特征,计算出对于某个内容,是否点击了,点击了就是1,没点击就是0。对于任何二元分类的问题,最后我们都可以归结到逻辑回归上面。 早期的人工特征工程 + LR(Logistic Regression):这个方式需要大量的人工处理,不仅需要对业务和行业有所了解,对于算法的经验要求也十分的高。 GBDT(Gradient Boosting Decision Tree) + LR:提升树短时这方面的第二个里程碑,虽然也需要大量的人工处理,但是由于其的可解释性和提升树对于假例的权重提升,使得计算准确度有了很大的提高。 FM-FFM:FM和FFM模型是最近几年提出的模型,并且在近年来表现突出,分别在由Criteo和Avazu举办的CTR预测竞赛中夺得冠军,使得到目前为止,还都是以此为主的主要模型占据主导位置。 Embedding模型可以理解为FFM的一个变体。   CTR预估技术从传统的Logistic回归

计算广告CTR预估系列(七)--Facebook经典模型LR+GBDT理论与实践

南楼画角 提交于 2019-11-29 06:44:17
计算广告CTR预估系列(七)--Facebook经典模型LR+GBDT理论与实践 2018年06月13日 16:38:11 轻春 阅读数 6004 更多 分类专栏: 机器学习 机器学习荐货情报局 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接: https://blog.csdn.net/u010352603/article/details/80681100 计算广告CTR预估系列(七)–Facebook经典模型LR+GBDT理论与实践 计算广告CTR预估系列(七)–Facebook经典模型LR+GBDT理论与实践 一、介绍 二、评估函数 2.1 Normalized Cross-Entropy(NE) 2.2 Calibration 三、模型架构 3.1 决策树Feature Transforms 3.2 Data freshness 3.3 LR线性分类器 四. 线上模型架构 4.1 label标注 4.2 模型架构 4.3 挑战 五、处理大量训练数据 5.1 Uniform subsampling 5.2 Negative down sampling 5.3 Model Re-Calibration 六、各种实验结果 6.1 Number of boosting trees 6.2 Boosting