jieba

python库之jieba小试牛刀 3

点点圈 提交于 2021-02-18 01:37:49
关键词提取 1 基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件 sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 withWeight 为是否一并返回关键词权重值,默认值为 False allowPOS 仅包括指定词性的词,默认值为空,即不筛选 jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件 关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径 用法:jieba.analyse.set_idf_path(file_name) # file_name为自定义语料库的路径 关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径 用法: jieba.analyse.set_stop_words(file_name) # file_name为自定义语料库的路径 #!usr/bin/env

小白机器学习实用笔记

两盒软妹~` 提交于 2021-01-20 10:32:07
小白机器学习实用笔记 一.什么是机器学习 机器学习项目流程 特征工程三大步骤:特征抽取、预处理、降维 数据类型 数据集 监督学习与无监督学习 二.用sklearn对特征进行提取(特征抽取) 1: 字典的文字特征提取 2:count方式提取文字特征 3:tf-idf对文字特征提取 打算利用空余时间学习python机器学习,通过写文章的方式来记录学习成果。持续更新中。。。。。 一.什么是机器学习 机器学习是一种数据科学技术,它帮助计算机从现有数据中学习,从而预测未来的行为、结果和趋势 机器学习项目流程 1.根据原始数据明确问题,该做什么 2.特征工程 3找到合适算法,进行训练预测 4模型的评估,判定效果 特征工程三大步骤:特征抽取、预处理、降维 1.特征抽取:将文字、图像等转化为数字 2.预处理:将数字转化为格式统一、符合规范的数值,并且减少特殊值 3.降维:进行数据的筛选,取出最有代表性的数据特征 数据类型 · 散 型 数 据 : 由 记 录 不 同 类 别 个 体 的 数 目 所 得 到 的 数 据 , 又 称 计 数 数 据 , 所 有 这 些 数 据 全 部 都 是 整 数 , 而 且 不 能 再 细 分 , 也 不 能 进 一 步 提 高 他 们 的 精 确 度 。 · 连 续 型 数 据 : 变 量 可 以 在 某 个 范 围 内 取 任 一 数 , 即 变 量 的 取 值

爬取bilibili的弹幕制作词云

╄→гoц情女王★ 提交于 2021-01-12 20:36:07
爬取哔哩哔哩的弹幕,http://comment.bilibili.com/6315651.xml 需要知道cid,可以F12,F5刷新,找cid,找到之后拼接url 也可以写代码,解析response获取cid,然后再拼接 使用requests或者urllib都可以 我是用requests,请求该链接获取到xml文件 代码:获取xml def get_data (): res = requests.get( 'http://comment.bilibili.com/6315651.xml' ) res.encoding = 'utf8' with open ( 'gugongdanmu.xml' , 'a' , encoding = 'utf8' ) as f: f.writelines(res.text) 解析xml, def analyze_xml (): f1 = open ( "gugongdanmu.xml" , "r" , encoding = 'utf8' ) f2 = open ( "tanmu2.txt" , "w" , encoding = 'utf8' ) count = 0 # 正则匹配解决 xml 的多余的字符 dr = re.compile( r'<[^>]+>' , re.S) while 1 : line = f1.readline() if

python实现爬取指定bilibili视频的弹幕并制作词云

匆匆过客 提交于 2021-01-12 20:01:30
先看下最终实现的效果 具体实现思路是 1.爬取带有弹幕信息的网页 2.处理爬取得到的内容并提取所需要的弹幕信息,然后写入文本中 3.通过词云库将文本处理成想要的图片 所需要用到的库 import requests from bs4 import BeautifulSoup import pandas as pd import re import jieba from wordcloud import WordCloud from scipy.misc import imread import matplotlib.pyplot as plt 首先爬取想要的信息 ps(哔哩哔哩的弹幕全部保存在 http://comment.bilibili.com/ 122512779 .xml 中,红色字体为该视频的cid,可以在当前视频页通过:查看网页源代码—ctrl+f查找cid-出现的第一个9位cid,来获取) url = ' http://comment.bilibili.com/.xml ' # 对方的url header = { ' User-Agent ' : ' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari

python爬虫:bilibili弹幕爬取+词云生成

五迷三道 提交于 2021-01-12 19:20:04
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上。 我的B站教学 :https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所以我们的整体操作进行如下: 1. 到B站获取cid 2. 将cid与网站固定格式进行链接 3. 用python请求网页 4. 进行简单的单词处理 5. 生成词云 接下来我们就按照刚才说的顺序进行详细解释 操作顺序 1.到B站获取cid 首先点进一个视频网页,点击F12-network获取监测页面,然后一定要点击 播放视频 ,我们就会在监测页面中看到一个叫 heartbeat 的XHR脚本,点开任意一个即可。 点击之后我们需要看Headers,里边包括了我们想知道的信息。往下滚动就会发现cid,这个id是唯一的,也就是说下次抓取的时候还可以用这个id。 2.将cid与网站固定格式进行链接 我们拿到cid之后就可以去检查一下是否可以获取弹幕了。获取的固定xml格式是: https://comment.bilibili.com/视频的cid.xml 例如在这里我们的页面就是: 'https://comment.bilibili.com/94198756.xml' 我们把这个链接用网页的方式打开,就能看到如下内容: 这样我们就确定可以爬取了。 3.用python请求网页 因为是开源的

史上最全中文分词工具整理

喜欢而已 提交于 2021-01-12 01:49:05
一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。 在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。 我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

史上最全中文分词工具整理

泄露秘密 提交于 2021-01-12 01:48:54
一.中文分词 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择 LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。 在第二届国际汉语分词测评中,共有四家单位提供的测试语料 (Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。 我们在统一测试环境下,对上述流行分词软件和 THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

大邓强力推荐-jupyter notebook使用小技巧

依然范特西╮ 提交于 2021-01-06 13:52:37
1. 快捷键 在jupyter notebook菜单栏有Help按钮,可以查看jupyter的快捷键 2. 将多个变量输出 一般jupyter notebook默认只打印最后一个变量的结果。比如 from pydataset import data quakes = data ( 'quakes' ) quakes . head ( 10 ) #前10行数据 quakes . tail ( 3 ) #后3行数据 通过设置InteractiveShell.ast node interactivity参数为all,就可以让所有的变量或者声明都能显示出来 from IPython . core . interactiveshell import InteractiveShell InteractiveShell . ast_node_interactivity = 'all' from pydataset import data quakes = data ( 'quakes' ) quakes . head ( 10 ) #前10行数据 quakes . tail ( 3 ) #后3行数据 3. 问号? 除了Help菜单能让我们快读查看numpy、pandas、scipy和matplotlib库,其实在cell中使用 ? 可以查看库、函数、方法和变量的信息。 #查看库的信息

大邓强力推荐-jupyter notebook使用小技巧

人盡茶涼 提交于 2021-01-06 12:09:02
1. 快捷键 在jupyter notebook菜单栏有Help按钮,可以查看jupyter的快捷键 2. 将多个变量输出 一般jupyter notebook默认只打印最后一个变量的结果。比如 通过设置InteractiveShell.astnodeinteractivity参数为all,就可以让所有的变量或者声明都能显示出来 3. 问号? 除了Help菜单能让我们快读查看numpy、pandas、scipy和matplotlib库,其实在cell中使用 ?可以查看库、函数、方法和变量的信息。 4. 在notebook中画图 作图最常用的就是matplotlib,记得在cell中写上这句 5. IPython魔法命令 查看当前工作目录 % pwd 执行上面的代码,得到 '/Users/suosuo/Desktop/20180820 jupyter notebook技巧' 更改当前工作目录 查看目录文件列表 6. 执行shell命令 命令行的命令前面加个 !即可在notebook中进行。 比如我们想要安装jieba库,需要打开终端输入 7. markdown标记语言 一级标题 # 一级标题 二级标题 ## 二级标题 三级标题 ### 三级标题 有序列表 元素1 元素2 元素3 会被MathJax渲染成 而在.ipynb文件中增加了下图的这个按钮

听说你一直在找的数据分析教程,终终终于免费啦!

六月ゝ 毕业季﹏ 提交于 2020-12-29 19:15:16
从各大招聘网站中可以看到,今年招聘信息少了很多,但 数据分析相关岗位有一定增加, 而 数据分析能力几乎 已 成为每个岗位的必备技能 。是 什么原因让企业如此重视“数据人才”? 伴随滴滴出行、智慧营销等的落地商用,部分企业尝到了数据带来的巨额红利,各大企业开始关注曾经“无用”的数据。 如今,企业每天会产生海量的数据,BAT日均数据更是达到了PB级别。 因此,企业需要大量专业人才来分析挖掘数据的价值,以提升企业利润。 所以市场上才会出现如此巨大的数据人才需求。可以说,数据分析将是每个从业者个人能力最重要的补充,也是BAT这类大公司急招人才的必备技能。 但是一提数据分析,很多人就觉得无从下手,知识点零散总是抓不住重点,学习起来相当吃力,常常毫无头绪,搞不清关键数据。 别急,这有一份由 开课吧 提供赞助,并由 廖雪峰 历时3个月 精心打磨的 《数据分析全套讲解》 学习视频 。本资料是最新升级版本,包含了 基础 和 进阶 两大部分内容, 可帮你 全面迅速提升数据分析技能,还能指导你用数据化思维工作,让分析有章可循。 这套 全新 的数据分析资料 原价值1980元 ,现在小编为大家争取到了 168个免费名额 ( 超额之后需要付费观看哦 ) 。 ( ps:篇幅原因只列出关键知识点,详细资料扫码领取 ) 一、基础篇-数据分析必备技能 本部分由浅入深系统化讲解,内容详尽