[LeetCode in Python] 692 (M) top k frequent words 前K个高频单词

扶醉桌前 提交于 2020-03-22 03:56:13

题目:

https://leetcode-cn.com/problems/top-k-frequent-words/

给一非空的单词列表,返回前 k 个出现次数最多的单词。
返回的答案应该按单词出现频率由高到低排序。如果不同的单词有相同出现频率,按字母顺序排序。

示例 1:

输入: ["i", "love", "leetcode", "i", "love", "coding"], k = 2
输出: ["i", "love"]
解析: "i" 和 "love" 为出现次数最多的两个单词,均为2次。
注意,按字母顺序 "i" 在 "love" 之前。
 
示例 2:

输入: ["the", "day", "is", "sunny", "the", "the", "the", "sunny", "is", "is"], k = 4
输出: ["the", "is", "sunny", "day"]
解析: "the", "is", "sunny" 和 "day" 是出现次数最多的四个单词,
出现次数依次为 4, 3, 2 和 1 次。

注意:

假定 k 总为有效值, 1 ≤ k ≤ 集合元素数。
输入的单词均由小写字母组成。

解题思路

  • python自带最小堆的实现heapq
  • heapq有取top k的函数heapq.nlargest(n, iterable[, key]))
  • 上面函数的第三个参数支持多参数级联比较
  • 直接使用nlargest()无法同时满足频率降序和名称升序
  • 技巧是将频率前加-号,然后转为使用nsmallest()

代码

class Solution:
    def topKFrequent(self, words: List[str], k: int) -> List[str]:
        # - statistic word frequency
        freq_dict = {}
        for w in words:
            if w not in freq_dict:
                freq_dict[w] = 0
            freq_dict[w] += 1

        # - top k, sort by -freq and word
        return heapq.nsmallest(k, freq_dict, key=lambda w:(-freq_dict[w], w))

注意

  • 使用heapq属于投机取巧,严格来讲,需要自己实现nsmallest()才能达到考察目的
  • 更通用的做法,是参考quicksort的partition步骤,来实现top k的排序
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!