python数据挖掘

python数据挖掘第一篇:正则表达式

眉间皱痕 提交于 2019-12-12 19:33:47
正则表达式 re 模块 re.match(pattern,string[,flag]) match方法 从首字母开始匹配,如果包含pattern字符串,则匹配成功,返回match对象,失败则返回None. 【注】只从起始位置开始匹配 ,flag表示可选项 re.I 使匹配对大小写不敏感 re.L 做本地化识别(locale-aware)匹配 re.M 多行匹配,影响 ^ 和 $ re.S 使 . 匹配包括换行在内的所有字符 re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B. re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。 print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配 运行结果:(0,3) re.search(pattern,string[,flag]) search方法不一定从起始位置开始匹配 【注】如果存在多个匹配对象,只返回第一个 re.findall(pattern,string[,flag]) 返回所有匹配到的pattern,返回形式为数组 re.sub(pattern,repl,string) #做替换,删除 pattern = re.compile(pattern_str) # 返回一个正则表达式对象 res = pattern

Python跌落神坛了吗?现在学Python晚了吗?

Deadly 提交于 2019-12-12 19:24:45
Python还有“敌人”吗? 最近网络上一则帖子吸引了笔者,大意内容为: 据说A是有2年多经验的Python工程师,面一个公司相关的岗位,由于人手紧缺,所以只问了一个框架,就按笔者提的29K办理了入职。 对此,网友在下面评论:太少了,Python不都是50K起吗? 关于这则帖子背后的动机或者真实性,我们不再去追究。不过这从侧面反映出了Python的火热,也说明了Python的壮大带给其他语言的焦虑和压力。所以,当我们聊Python时,我们究竟该聊些什么? 当我们要学Python时 就该“打醒自己”! 短时间掌握一门技能是现在社会的需求,而Python恰好满足,但我们该如何思考,不随波逐流呢? 从大公司角度而言: 国内基于Python创业成功的案例不在少数,豆瓣、知乎、果壳,都是 Python,大家对Python自然有信心。并且从这几家公司出来的程序员与 CTO,创业的话一般都会选择Python,雪球定会越滚越大。 从小公司角度而言: 现在创业公司越来越多,用Python出项目快,开发成本小,雇佣的员工数量也可以保持在可控范围。 从个人而言: 大厂追着Python,所以现状是整体缺人,由职友集给出的数据也可以看到,Python是逐年升高,加上应届生,平均薪资竟然直逼25K! 自学Python?其实也不难! 掌握这些技能,10分钟一个网站(不花钱) 现在大家学习Python

python描述符\get/set/delete,init/new/call,元类

妖精的绣舞 提交于 2019-12-10 16:24:15
1.描述符__get__, set , delete 描述符是什么:描述符本质就是一个新式类,在这个新式类中,至少实现了____get__(), set (), delete ()中的一个,这也被称为描述符协议 ** get **():调用一个属性时,触发 ** set **():为一个属性赋值时,触发 ** delete **():采用del删除属性时,触发 这三者来对于类的属性生成一个类,然后对一个新类立面的特征进行调用方法 使用方法 class FooSet: def __get__(self, instance, owner): print('你调用了该方法') def __set__(self, instance, value): print('你修改了') def __delete__(self, instance): print('你删除了') class Foo: name = FooSet() foo = Foo() #调用生成对象的属性 print(foo.name) #修改生成对象的属性 foo.name = 123 #删除生成对象的属性 del foo.name 包含这三个方法的新式类称为描述符,由这个类产生的实例进行属性的调用/赋值/删除,并不会触发这三个方法 2. init ,_ new , call __new__方法的第一个参数是这个类

python数据挖掘(5.Apriori算法)

六眼飞鱼酱① 提交于 2019-12-10 04:22:23
第一章我们介绍了最基础的亲和性分析,尝试了所有的规则计算了所有的置信度和支持度,但是这个方法效率不高而且我们使用的数据集只有5种商品,但是实际生活中即使是小商店的商品也会超过百种,而网店商品的种类则可能更多,依旧使用第一章的亲和性分析,那么随着商品数量的增加,计算量和计算的时间也会急剧增加,所以需要一个聪明的算法来解决这个问题 Apriori算法 Apriori 算法诗一个景点的亲和性分析算法,他只从数据集中频繁出现的商品中选取共同出现的商品组成 频繁项集 ,避免上述复杂度呈指数级增长的问题,一旦找到了 频繁项集 ,生成关联规则就很容易了。 Apriori算法首先保证规则在数据集中有足够的支持度,最重要的一个参数就是 最小支持度 比如要生成商品A B的频繁项集(A,B)要求支持度至少为30,那么A,B都必须至少在数据集中出现30次,更大的频繁项集也要最受这个约定。 这一章我们通过电影推荐的问题来举例。 数据集地址在文章开头 In [1]: import numpy as np In [2]: import pandas as pd In [3]: all_ratings = pd.read_csv('/Users/gn/scikit--learn/ml-100k/u.data',delim ...: iter="\t", header=None, names = ["UserID"

Python开源爬虫框架:Scrapy架构分析

不羁的心 提交于 2019-12-10 01:59:12
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样。 上面介绍的只是爬虫的一些概念而非搜索引擎,实际上搜索引擎的话其系统是相当复杂的,爬虫只是搜索引擎的一个子系统而已。 Python开源的爬虫框架Scrapy是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 一、概述 Scrapy是一个用 Python 写的 Crawler Framework ,简单轻巧,并且非常方便,并且官网上说已经在实际生产中在使用了,不过现在还没有 Release 版本,可以直接使用他们的

Python Scrapy 实战

谁都会走 提交于 2019-12-08 21:30:23
Python Scrapy 什么是爬虫? 网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 Python 爬虫 在爬虫领域,Python几乎是霸主地位,将网络一切数据作为资源,通过自动化程序进行有针对性的数据采集以及处理。从事该领域应学习爬虫策略、高性能异步IO、分布式爬虫等,并针对Scrapy框架源码进行深入剖析,从而理解其原理并实现自定义爬虫框架。 Python 爬虫爬虫框架 Scrapy Scrapy 是用 Python 编写实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 Python Scrapy 核心 Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。 Downloader(下载器): 负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理

python爬虫之Scrapy学习

心已入冬 提交于 2019-12-08 20:22:28
在爬虫的路上,学习 scrapy 是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习 scrapy ,那么很好,我们一起学习。开始接触 scrapy 的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学起。从本篇起,博主将开启 scrapy 学习的系列,分享如何快速入门scrapy并熟练使用它。 本篇作为第一篇,主要介绍和了解 scrapy ,在结尾会向大家推荐一本关于学习 scrapy 的书,以及获取的方式。 为什么要用爬虫框架? 如果你对爬虫的基础知识有了一定了解的话,那么是时候该了解一下爬虫框架了。那么为什么要使用爬虫框架? 学习框架的根本是学习一种编程思想,而不应该仅仅局限于是如何使用它。从了解到掌握一种框架,其实是对一种思想理解的过程。 框架也给我们的开发带来了极大的方便。许多条条框框都已经是写好了的,并不需要我们重复造轮子,我们只需要根据自己的需求定制自己要实现的功能就好了,大大减少了工作量。 参考并学习优秀的框架代码,提升编程代码能力。 博主当时是根据这几点来进行爬虫框架的学习的,但是切记核心目标是掌握一种框架思想,一种框架的能力,掌握了这种思想你才能更好的去使用它,甚至扩展它。 scrapy框架的介绍 比较流行的爬虫的框架有 scrapy 和 pyspider ,但是被大家所钟爱的我想非 scrapy 莫属了。 scrapy 是一个开源的高级爬虫框架

整理的机器学习资源大全

假如想象 提交于 2019-12-07 14:48:16
本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。 伯乐在线已在 GitHub 上发起「机器学习资源大全中文版」的整理。欢迎扩散、欢迎加入。 https://github.com/jobbole/awesome-machine-learning-cn C++ 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库 OpenCV —它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。 通用机器学习 MLPack DLib ecogg shark Closure 通用机器学习 Closure Toolbox —Clojure语言库与工具的分类目录 Go 自然语言处理 go-porterstemmer —一个Porter词干提取算法的原生Go语言净室实现 paicehusk —Paice/Husk词干提取算法的Go语言实现 snowball —Go语言版的Snowball词干提取器 通用机器学习 Go Learn — Go语言机器学习库 go-pr —Go语言机器学习包. bayesian —Go语言朴素贝叶斯分类库。 go-galib —Go语言遗传算法库。 数据分析/数据可视化 go-graph —Go语言图形库。 SVGo

python数据分析入门之高效的学习路径

余生长醉 提交于 2019-12-06 18:48:21
文章目录 广泛被应用的数据分析 数据分析的流程 数据获取:公开数据、Python爬虫 数据存取:SQL语言 数据预处理:Python(pandas) 概率论及统计学知识 Python 数据分析 系统实战与数据思维 广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单…… 数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据…… 如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品、用户调研、支撑决策,数据分析可以将数据的价值最大化。 数据分析人才热度也是高居不下,一方面企业的数据量在大规模的增长,对于数据分析的需求与日俱增;另一方面,相比起其他的技术职位,数据分析师的候选者要少得多。 数据分析师应该具备哪些技能 我们从拉勾上找了一些最具有代表性的数据分析师职位信息,来看看薪资不菲的数据分析师,到底需要哪些技能。(具体自己去拉钩查询总结) 其实企业对数据分析师的基础技能需求差别不大,可总结如下: SQL数据库的基本操作,会基本的数据管理 会用Excel/SQL做基本的数据分析和展示 会用脚本语言进行数据分析,Python or

初学python书籍推荐

十年热恋 提交于 2019-12-06 17:08:45
初学python书籍推荐 python书籍合集下载: Python书籍1:https://download.csdn.net/download/qq_31939617/10364629 下载 Python书籍2 :https://download.csdn.net/download/qq_31939617/10364633 下载 Python书籍3 :https://download.csdn.net/download/qq_31939617/10369737 下载 Python书籍4 :https://download.csdn.net/download/qq_31939617/10369740 下载 Python书籍5 :https://download.csdn.net/download/qq_31939617/10369756 下载 Python书籍6 :https://download.csdn.net/download/qq_31939617/10371110 下载 Python书籍7 :https://download.csdn.net/download/qq_31939617/10371129 下载 1.Python编程:从入门到实践     我自己最初看的这本书,觉得非常适合入门   2.python入门经典-图灵图书 3.《Python学习手册(第4版)》