burning

综合练习:词频统计

浪尽此生 提交于 2020-01-10 09:53:33
综合练习 词频统计预处理 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 str = '''Passion is sweet Love makes weak You said you cherised freedom so You refused to let it go Follow your faith Love and hate never failed to seize the day Don't give yourself away Oh when the night falls And your all alone In your deepest sleep What are you dreeeming of My skin's still burning from your touch Oh I just can't get enough I said I wouldn't ask for much But your eyes are dangerous So the tought keeps spinning in my head Can we drop this masquerade I can't predict where it ends If you're the rock I'll crush against Trapped in a

Spark SQL 笔记

老子叫甜甜 提交于 2019-12-02 16:46:39
Spark SQL 简介 SparkSQL 的前身是 Shark, SparkSQL 产生的根本原因是其完全脱离了 Hive 的限制。(Shark 底层依赖于 Hive 的解析器, 查询优化器) SparkSQL 支持查询原生的 RDD。 能够在 scala/java 中写 SQL 语句。 支持简单的 SQL 语法检查, 能够在 Scala 中 写Hive 语句访问 Hive 数据, 并将结果取回作为RDD使用 Spark on Hive 和 Hive on Spark Spark on Hive: Hive 只作为储存角色, Spark负责 sql 解析优化, 执行。 Hive on Spark: Hive 即作为存储又负责 sql 的解析优化, Spark 负责执行。 Dataset 与 DataFrame Dataset 是一个分布式数据容器,与 RDD 类似, 然而 DataSet 更像 传统数据库的二维表格, 除了数据以外, 还掌握的结构信息, 即schema。 同时, 与 Hive 类似, Dataset 也支持嵌套数据类型 (struct、array 和 map)。 从 API 易用性角度上看, DataSet API 提供的是一套高层的关系操作, 比函数式的 RDD API 更加友好, 门槛更低。 Dataset 的底层封装的是RDD, 当 RDD 的泛型是 Row

[Agc030B]Tree Burning_贪心

旧街凉风 提交于 2019-12-02 03:18:39
Tree Burning 题目链接 : https://atcoder.jp/contests/agc030/tasks/agc030_b 数据范围 :略。 题解 : 开始以为是左右左右这样,发现过不去样例。 看了样例之后,觉得是:看左边右边哪个比较长,走长的那个。 发现过了第一个样例,过不去第二个了.... 看了看第二个样例,又画了画第三个样例,加上枫哥在给我这道题之前的提示:你要大胆猜啊... 发现:一定是先忘一个方向连续走几个,然后左右横跳。 这个就对了,用数学归纳法容易证明。 所以我们只需要开始逆时针连续走了多少个,然后用什么前缀和啥的随便求一求就好了。 求完了之后,把序列反转再来一次即可。 代码 : #include <bits/stdc++.h> #define N 1000010 using namespace std; typedef long long ll; char *p1, *p2, buf[100000]; #define nc() (p1 == p2 && (p2 = (p1 = buf) + fread(buf, 1, 100000, stdin), p1 == p2) ? EOF : *p1 ++ ) int rd() { int x = 0, f = 1; char c = nc(); while (c < 48) { if (c == '-')