海量数据的topK问题
问题描述: 有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10) 问题分析: 由于(1)输入的大量数据;(2)只要前K个,对整个输入数据的保存和排序是相当的不可取的。 可以利用数据结构的 最小堆 来处理该问题。 最小堆如图所示,对于每个非叶子节点的数值,一定 不大于 孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然 根节点 是其中的最小数值)。 每次有数据输入的时候可以先与根节点比较。若不大于根节点,则舍弃;否则用新数值替换根节点数值。并进行最小堆的调整。如下图: import java.util.Scanner; /** * @author 浩 * @version 创建时间:2016年5月17日 上午8:46:03 */ public class TopK { public static final int K =10; public static void main(String[] args) { Scanner in = new Scanner(System.in); int []max = new int[10]; for(int i=0;i<10;i++){ max[i] = in.nextInt(); } buildHeap(max); while(in.hasNextInt()){