简介
使用linux简单的命令进行词频统计
效果图
过程
将需要的内容保存至test文件中
cat test
词频统计思路
- 使用换行符\n将所有的空格替换
- 去掉标点符号
- sort、uniq进行统计
脚本命令简单
cat test | tr ' ' '\n' | sed 's/[.,]//g' | sort | uniq -c
Linux命令知识点解释:
-
sort:
Linux sort命令用于将文本文件内容加以排序。
-
uniq
Linux uniq 命令用于检查及删除文本文件中重复出现的行列,一般与 sort 命令结合使用。 参数-c: -c或--count 在每列旁边显示该行重复出现的次数。
问题
第一行不知道为啥是12 个空,经过试验发现是每个英文段落的首行缩进部分没有去除。
来源:CSDN
作者:变秃,才能变强
链接:https://blog.csdn.net/Dchanong_/article/details/104581658