jieba

python从入门到放弃

情到浓时终转凉″ 提交于 2020-12-26 02:04:40
01 计算机基础及python介绍 1、计算机基础 2、编程语言及python介绍 3、python2与python3的区别 4、PEP8 python编码规范 02 python入门基本语法 1、python入门语法 2、流程控制 03 数据类型及内置方法 1、数字类型 2、字符串类型 3、列表类型 4、元组类型 5、字典类型 6、集合 04 字符编码及文件处理 1、字符编码 2、深浅拷贝 3、文件处理 05 函数 1、函数的基本使用 2、函数的参数 3、函数对象 4、函数嵌套、名称空间及作用域 5、闭包函数 6、装饰器 7、迭代器 8、生成器 9、三元表达式、列表生成式与生成器表达式 10、面向过程编程 11、匿名函数与内置函数 12、函数递归 13、常见内置方法 06 模块与包 1、模块与包 2、软件开发目录规范 07 常用模块 1、turtle模块 2、time模块 3、pyinstaller模块 4、jieba模块 5、wordcloud模块 6、datetime模块 7、random模块 8、os模块 9、sys模块 10、hashlib模块 11、pickle模块 12、json模块 13、collections模块 14、openpyxl模块 15、subprocess模块 16、re模块 17、logging模块 项目1:ATM+购物商城 ATM+购物商城 08

爬虫大作业(虎扑足球新闻)

倖福魔咒の 提交于 2020-12-21 20:25:31
import requests from bs4 import BeautifulSoup import jieba from PIL import Image,ImageSequence import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud,ImageColorGenerator def changeTitleToDict(): f = open('yingchao.txt', 'r',encoding='utf-8') str = f.read() stringList = list(jieba.cut(str)) symbol = {"/", "(", ")" , " ", ";", "!", "、" , ":"} stringSet = set(stringList) - symbol title_dict = {} for i in stringSet: title_dict[i] = stringList.count(i) print(title_dict) return title_dict for i in range(1,10): page = i; hupu = 'https://voice.hupu.com/soccer/tag/496-%s

Win8.1 Anaconda下安装第三方库,以jieba wordcloud为例

拜拜、爱过 提交于 2020-12-19 07:35:04
最近在看情感分析的东西,于是在spyder里import jieba,and then就报错了。 百度之后,发现jieba是一个第三方库,它并不存在于anaconda内置的packages中。所以在用conda install jieba或者打开 Anaconda Navigator来导入都会失败。 于是,我百度,失败,再百度,再失败,再再百度,再再失败……我看的是情感分析,然后在这里卡了也就几小时…… 上演500个回合后,我终于领悟到安装的精髓了。 安装成功,终于可以导入啦!老天啊,我终于安装到了 (于是,我决定下这篇笔记,纪念这充满意义的过程) 这是我在win8.1环境下的操作,其他系统请掉头。 一.jieba 1.At first, 我们需要把jieba 下载到自己的电脑。(下载地址: https://pypi.org/project/jieba/) 页面如下:(进入后点击左侧的download files,然后点击右侧的压缩包下载) 2.下载后,解压,接着把它放到anaconda的其他库的存放位置。(jieba里有个setup.py,我们安装就是要用到这个宝宝,关键人物呀!) 我自己是把Anaconda放在F盘,然后其他库的安装包放在在F:\Anaconda\pkgs里,所以我就把下载的jieba放到这个文件夹下啦! 3.接下来,打开电脑里的程序:Anaconda

jieba结巴分词

走远了吗. 提交于 2020-12-17 15:28:16
pip install jieba 安装jieba模块 如果网速比较慢, 可以使用豆瓣的Python源: pip install -i https://pypi.douban.com/simple/ jieba 一、分词: import jieba seg_list = jieba.cut( "从没见过我这么弱的垃圾" , cut_all= True) print( "全模式:" + " ".join(seg_list)) # 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义 seg_list = jieba.cut( "从没见过我这么弱的垃圾") print( "精确模式:" + " ".join(seg_list)) # 精确模式,试图将句子最精确地切开,适合文本分析 seg_list = jieba.cut_for_search( "从没见过我这么弱的垃圾") print( "搜索引擎模式:" + " ".join(seg_list)) # 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词,符合中国人的使用习惯 打印结果: 全模式: 从没 没见 过 我 这么 弱 的 垃圾 精确模式: 从没 见 过 我 这么 弱 的 垃圾 搜索引擎模式: 从没 见 过 我 这么 弱 的 垃圾 也可以这样写: import

充气娃娃什么感觉?Python告诉你

最后都变了- 提交于 2020-12-17 01:50:21
上期为大家介绍了requests库的基本信息以及使用requests库爬取某东的商品页,收到了很多同学的反馈说期待猪哥的更新,猪哥感到非常开心,今天就带大家来玩一把刺激的! 一、需求背景 在实际开发过程中,在我们动手开发之前,都是由产品经理为我们(测试、前端、后端、项目经理等)先讲解一下需求,我们了解了需求之后,才开始一起来讨论技术方案。 我们自己实现一些小功能时同样需要讨论需求,也就是告诉别人我们为什么要做这个东西?或者我们想利用这款产品解决什么问题。 我们常常看到一些有关充气娃娃的表情包和图片或新闻,但是这种东西很少会像一些小视频一些相互交流,大家可能都是偷摸玩耍。所以猪哥相信其实大部分同学并没有亲身体验过充气娃娃到底是什么感觉(包括猪哥),所以猪哥很好奇究竟是什么一种体验?真的如传言中那样爽吗? 二、功能描述 基于很多人没有体验过充气娃娃是什么感觉,但是又很好奇,所以希望通过 爬虫+数据分析 的方式直观而真是的告诉大家(下图为成品图)。 三、技术方案 为了实现上面的需求以及功能,我们来讨论下具体的技术实现方案: 分析某东评论数据请求 使用requests库抓取某东的充气娃娃评论 使用词云做数据展示 四、技术实现 上篇文章中就给大家说过,今天我们以某东商品编号为: 1263013576 的商品为对象,进行数据分析,我们来看看详细的技术实现步骤吧! 本教程只为学习交流

python——拉勾网信息爬取

可紊 提交于 2020-12-16 18:50:08
原文: https://www.cnblogs.com/sui776265233/p/11146969.html python爬取拉勾网数据并进行数据可视化 阅读目录 一、爬取和分析相关依赖包 二、分析网页结构 三、数据清洗后入库 四、数据可视化展示 五、爬虫及可视化完整代码 爬取拉勾网关于python职位相关的数据信息,并将爬取的数据已csv各式存入文件,然后对csv文件相关字段的数据进行清洗,并对数据可视化展示,包括柱状图展示、直方图展示、词云展示等并根据可视化的数据做进一步的分析,其余分析和展示读者可自行发挥和扩展包括各种分析和不同的存储方式等。。。。。 回到顶部 一、爬取和分析相关依赖包 Python版本: Python3.6 requests: 下载网页 math: 向上取整 time: 暂停进程 pandas:数据分析并保存为csv文件 matplotlib:绘图 pyecharts:绘图 statsmodels:统计建模 wordcloud、scipy、jieba:生成中文词云 pylab:设置画图能显示中文 在以上安装或使用过程中可能读者会遇到安装或导入失败等问题自行百度,选择依赖包的合适版本 回到顶部 二、分析网页结构 通过Chrome搜索'python工程师',然后右键点击检查或者F12,,使用检查功能查看网页源代码,

jieba分词

蓝咒 提交于 2020-12-16 09:24:35
一. 三种模式 精确模式 ,试图将句子最精确地切开,适合文本分析; 全模式 ,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式 ,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 二. 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 三. 功能 1.分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 jieba.lcut 以及

使用PHP的FFI调用cjieba分词的动态库

心不动则不痛 提交于 2020-12-09 00:25:25
选用CJieba的原因是FFI使用的是C的调用约定,如果用Cpp,还得自己包装一下,然后extern C,让编译器生成标准C的动态库。 碰到的问题 段错误 C变量没有初始化 直接调用了C的函数,没有通过FFI 初始化后的的C对象调用 非空判断 需要使用 FFI::isNull($x) 指针形式的数组 不能用foreach 指针形式数组的循环 查看C代码发现Cut部分如下: CJiebaWord* Cut(Jieba handle, const char* sentence, size_t len) { cppjieba::Jieba* x = (cppjieba::Jieba*)handle; vector words; string s(sentence, len); x->Cut(s, words); CJiebaWord* res = (CJiebaWord*)malloc(sizeof(CJiebaWord) * (words.size() + 1)); size_t offset = 0; for (size_t i = 0; i < words.size(); i++) { res[i].word = sentence + offset; res[i].len = words[i].size(); offset += res[i].len; } if (offset !

人工智能-语音合成-语音识别

拈花ヽ惹草 提交于 2020-12-06 05:26:50
图灵机器人: http://www.tuling123.com 百度开发平台: http://ai.baidu.com/ 下载 baidu-api 如果已安装pip,执行 pip install baidu-aip 即可。 ffmpeg 先下载文件,再配置到系统路径 下载完安装包,解压后,将该绝对路径 配置到系统路径。 配置成功如下: 打开电脑的录音机。 jieba中文分词 1. 2.创建应用 3.自动生成 4. 语音合成 1. 2.复制代码到一个新的py文件中。 3.右键运行,即可将文字转成语音。 代码: # 语言合成 文字 ->语音 from aip import AipSpeech """ 你的 APPID AK SK """ APP_ID = ' 11262331 ' API_KEY = ' Weu6QCLgU8oCPvULqpOSer7c ' SECRET_KEY = ' wMThGsaL8NPdNgE6z4A3Rmes1DvWNBO1 ' client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) result = client.synthesis( ' 你好呀,我的贝贝 ' , ' zh ' , 1 , { ' vol ' : 5 , ' spd ' : 6 , ' pit ' : 3 , ' vol ' : 9 , ' per '

wordcloud + jieba 生成词云

北战南征 提交于 2020-12-04 08:52:48
利用jieba库和wordcloud生成中文词云。 jieba库:中文分词第三方库     分词原理:      利用中文 词库,确定汉字之间的关联概率,关联概率大的生成词组    三种分词模式:     1、精确模式:把文本精确的切分开,不存在冗余单词     2、全模式:把文本中所有可能的词语都扫描出来,有冗余      3、搜索引擎模式:在精确模式基础上,对长词再次切分    常用函数:     jieba.lcut(s) # 精确模式 ,返回列表类型的分词结果     jieba.lcut(s,cut_all=True) # 全模式 ,返回列表类型的分词结果     jieba.lcut_for_search(s,cut_all=True) # 搜索引擎模式 (精确模式后对过长的词再精确分词),返回列表类型的分词结果     jieba.add_word(w)  #在参考的中文词库中 添加 自定义的词,如:jieba.add_word(“产生式系统”),无返回     jieba.del_word(w)  #在参考的中文词库中 删除 词     jieba.analyse.extract_tags(sentence,topK=10)  # 关键词提取 ,返回权重最大的10个词语,返回列表类型的提取结果, 注意: import jieba.analyse