【Linux学习记录 D:02】——使用tr、sort、uniq命令进行词频统计

旧巷老猫 提交于 2020-03-01 01:39:08

简介

使用linux简单的命令进行词频统计

效果图

在这里插入图片描述

过程

将需要的内容保存至test文件中

cat test

在这里插入图片描述

词频统计思路

  • 使用换行符\n将所有的空格替换
  • 去掉标点符号
  • sort、uniq进行统计

脚本命令简单

cat test | tr ' ' '\n' | sed 's/[.,]//g' | sort | uniq -c

Linux命令知识点解释:

  • sort:

     Linux sort命令用于将文本文件内容加以排序。
    
  • uniq

     Linux uniq 命令用于检查及删除文本文件中重复出现的行列,一般与 sort 命令结合使用。
     参数-c:
     		-c或--count 在每列旁边显示该行重复出现的次数。
    

问题

在这里插入图片描述

第一行不知道为啥是12 个空,经过试验发现是每个英文段落的首行缩进部分没有去除。

标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!