2019雏鹰训练营第三次作业

冷暖自知 提交于 2019-12-05 20:24:27

热身

因为图片较多,新建一个随笔
在VMware15安装Ubuntu 16.04:https://www.cnblogs.com/Lin1031/p/11921177.html

Count-min sketch

一开始看到题目sketch,不是做UI设计用的软件吗,还要MAC OS。
后来再往下看Count-min sketch。

Count-min Sketch 是一个概率数据结构,用作数据流中事件的频率表。
实际的草图数据结构是 w 列和 d 行的二维数组。
参数 w 和 d 在创建草图时是固定的,并确定时间和空间需求以及在查询频率或内部产品草图时的错误概率。
与每个 d 行相关联的是一个单独的散列函数。

1.添加元素
当一个新的类型 i 事件到达时,我们更新如下:对于表中的每一行 j,应用相应的散列函数来获得列索引 k = hj(i)。然后将第 j 行第 k 列中的值加 1。

2.查询(统计元素个数)

草图大小和精度之间的相关性

参考文献
[1]PROBABILISTIC DATA STRUCTURES FOR WEB ANALYTICS AND DATA MINING:https://highlyscalable.wordpress.com/2012/05/01/probabilistic-structures-web-analytics-data-mining/
[2]Bloom Filter 和 Count-Min Sketch 介绍:https://titanssword.github.io/2018-02-23-Bloom%20Filter%20and%20Count-Min%20Sketch.html

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!