TopK问题是一个经典的海量数据处理问题,比如微博热搜每隔10分钟都会更新出排行前10的热门搜索信息,再或者通过大数据找出一个地区最爱吃的水果等,都可以使用TopK问题来解决,其核心思想就是最小堆的引入。
TopK问题分析
在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被称为TopK问题。
下面我们通过一个简单的例子来说明:假如面试官给你100W个数据,请找出其最大的前K个数,而且现在只有1M的空间?
在32位操作系统中,默认一个字节为4个字节,则有下列运算:
NeedSize = 100W * 4 / 1024 /1024 = 4M
计算结果大约等于4M,很显然1M的空间根本不够。也就是说,即使用最复杂的方法你也无法找到一个合适的空间来存储,因此引入了最小堆数据结构。
下面我只说实现的核心思路,对此有不理解的请查看最大堆和最小堆的相关性质。思路如下:
(1)定义两个数组,arr用于存储海量数据,top用于存储最小堆(底层可以借助vector)
(2)将海量数据的前K个元素先填满top堆
(3)调整top堆为最小堆结构
(4)通过遍历将新数据与堆顶元素(此时堆顶元素是堆里最小的数据)进行比较,大于堆顶就入堆,并向下调整堆结构
(5)遍历结束,则堆中的元素即n个数中最大的前K个
//TopK.h
#pragma once
#include<iostream>
#include<time.h>
using namespace std;
#define N 100000
//向下调整(最小堆)
template<class T>
void AdjustDown(T* top,size_t root,size_t k)
{
size_t parent = root;
size_t child = parent * 2 + 1;
while(child < k)
{
//若右孩子存在并且小于k而且右孩子小于左孩子
if(child+1<k && top[child+1] < top[child])
{
++child; //让child指向那个较小的孩子
}
//当前较小的孩子小于父亲时则交换
if(top[child] <top[parent])
{
swap(top[child],top[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
template<class T>
void TopK(T* arr,T* top,size_t k)
{
//先将top数组存满
for(size_t i = 0;i < k;i++)
{
top[i] = arr[i];
}
//从第一个非叶子结点开始向下调整
for(int end = (k-2)/2;end >= 0;end--)
{
AdjustDown(top,end,k);
}
//此时小堆已经形成
for(size_t j = k;j < N;++j)
{
if(arr[j] > top[0])//堆顶元素小于新比较的元素
{
swap(top[0],arr[j]);
AdjustDown(top,0,k);
}
}
//遍历完成,top数组内存储的就是最大的前K个数
for(size_t index = 0;index < k;index++)
{
cout<<top[index]<<" ";
}
cout<<endl;
}
//TopK.cpp
#include"TopK.h"
#define K 10
void Test()
{
int arr[N] = {0};
int top[K] = {0};
srand((unsigned)time(NULL));//随机种子
for(size_t index = 0;index < N;index++)
{
arr[index] = rand();
}
TopK(arr,top,K);
}
int main()
{
Test();
return 0;
}
CVTE笔试题之TopK问题
问题描述:本公司现在要给公司员工发福利,在员工工作时间会提供大量的水果供员工补充营养。由于水果种类比较多,但是又不知道哪种水果比较受欢迎,然后公司就让每个员工报告了自己最爱吃的K种水果,并且告知已经将所有员工喜欢的水果存储于一个数组中,然后让我们统计出所有水果出现的次数,并且求出大家最喜欢吃的前K种水果。
算法分析:往往笔试过程中,要求在很短的时间内写出一个算法,直接调用标准库里的函数是比较方便的,比如这道题就是对STL中三种容器的考察,具体步骤如下:
(1)首先,使用vector来存储所有的水果。
(2)其次,采用map将vector中存在的水果的数量统计出来,map支持下标访问。
(3)最后,通过优先级队列来建立小堆,然后就是TopK问题。
代码实现:
#include<iostream>
#include<queue>
#include<vector>
#include<string>
#include<map>
using namespace std;
void GetFavouriteFruit(vector<string>& fruits,size_t k)
{
//1.通过map统计水果出现的次数
map<string,int> _map;
for(size_t i = 0;i < fruits.size();++i)
{
_map[fruits[i]] ++;
}
//自定义仿函数,比较map键值对的第二个元素即水果出现的次数
struct Compare
{
bool operator()(map<string,int>::iterator left,map<string,int>::iterator right)
{
return left->second < right->second;
}
};
//2.通过优先级队列来建立小堆,对水果出现的次数进行排序
priority_queue<map<string,int>::iterator, vector<map<string,int>::iterator>, Compare> _pq;
map<string,int>::iterator it = _map.begin();
while(it != _map.end())
{
_pq.push(it);//将包含水果名称和水果出现的次数存储于优先级队列里
++it;
}
//3.打印次数最多的k种水果
while(k--)
{
cout<<_pq.top()->first<<" : "<<_pq.top()->second<<endl;
_pq.pop();
}
}
int main()
{
vector<string> V; //定义存放水果的数组
V.push_back("苹果");
V.push_back("香蕉");
V.push_back("西瓜");
V.push_back("葡萄");
V.push_back("哈密瓜");
V.push_back("菠萝");
V.push_back("橘子");
V.push_back("火龙果");
V.push_back("橙子");
V.push_back("香蕉");
V.push_back("香蕉");
V.push_back("香蕉");
V.push_back("香蕉");
V.push_back("葡萄");
V.push_back("橘子");
GetFavouriteFruit(V, 3);
return 0;
}
来源:CSDN
作者:YPT_victory
链接:https://blog.csdn.net/ypt523/article/details/79683866