常用内置模块与包
- 内置模块都是Python内部提供的
- 要学习Python内置的规则
一、subprocess模块
- 可以通过Python代码给操作系统终端发送命令,并且可以返回结果
- sub:子
- process:进程
import subprocess while True: # 1.让用户输入终端命令 cmd_str = input('请输入终端命令:').strip() # Popen(cmd命令,shell=True, # stdout=subprocess.PIPE,stderr=subprocess.PIPE) # 调用Popen就会将用户的终端命令发送给本地操作系统的终端 # 得到一个对象,对象中包含着正确或者错误的结果 obj = subprocess.Popen( cmd_str,shell=True, stdout=subprocess.PIPE, # 配置一个输入正确的结果 stderr=subprocess.PIPE # 配置一个输入错误的结果 ) success = obj.stdout.read().decode('gbk') if success: print(success) error = obj.stdout.read().decode('gbk') if error: print(error)
二、re模块
- 什么是正则表达式与re模块?
- 正则表达式
- 正则表达式是一门独立的技术,任何语言都可以使用正则表达式,正则表达式是由一堆特殊的字符组合而来的
- 字符串和元字符组合使用
- re模块
- 在python中,若想要使用正则表达式,必须通过re模块来实现
- 正则表达式
- 为什么要使用正则表达式?
- 正则表达式可以帮我们过滤并提取出想要的字符数据
- 比如要获取“一堆字符串”中的“某些字符”
- 应用场景:
- 爬虫:re,BeautifulSoup4,Xpath,selector
- 数据分析过滤数据:re,pandas,numpy
- 用户名与密码,手机认证:检测输入内容的合法性
- 如何使用
- import re
检测手机号(这是使用if判断):
检测手机号码的合法性 需求:11位、以开头13/14/15/17/18/19
while True: telephone_number = input('请输入手机号:').strip() if len(telephone_number) == 11 and (telephone_number.startswith('13') or telephone_number.startswith('14') or telephone_number.startswith('15') or telephone_number.startswith('17') or telephone_number.startswith('18') or telephone_number.startswith('19')): print('手机号码合法') break else: print('手机号码不合法')
这是用re效验
import re while True: telephone_number = input('请输入手机号码:').strip() # 参数1:正则表达式 '' # 参数2;需要过滤的字符串 if re.match('^(13|14|15|17|18|19)[0-9]{9}$', telephone_number): print('手机号码合法') break else: print('手机号码不合法')
与上面if语句判断,优缺点一目了然
字符组: - [0-9] 可以匹配到一个0-9的字符 - [9-0]: 报错, 必须从小到大 - [a-z]: 从小写的a-z - [A-Z]: 从大写A-Z - [z-A]: 错误, 只能从小到大,根据ascii表来匹配大小。 - [A-z]: 总大写的A到小写的z。 注意: 顺序必须要按照ASCII码数值的顺序编写。
元字符地址:https://images2015.cnblogs.com/blog/1036857/201705/1036857-20170529203214461-666088398.png
组合使用 - \w\W: 匹配字母数字下划线与非字母数字下划线,匹配所有。 - \d\D: 无论是数字或者非数字都可以匹配。 - \t: table - \n: 换行 - \b: 匹配单词结尾,tank jasonk - ^: startswith - '^'在外面使用: 表示开头。 - [^]: 表示取反的意思。 - $: endswith - ^$: 配合使用叫做精准匹配,如何限制一个字符串的长度或者内容。 - |: 或。ab|abc如果第一个条件成立,则abc不会执行,怎么解决,针对这种情况把长的写在前面就好了,一定要将长的放在前面。 - [^...]: 表示取反的意思。 - [^ab]: 代表只去ab以外的字符。 - [^a-z]: 取a-z以外的字符。
re模块三种比较重要的方法:
- findall():——> [ ]
- 可以匹配“所有字符”,拿到返回的结果,返回的结果是一个列表
- search():——>obj——>obj.group()
- 在匹配一个字符成功后,拿到结果后结束,不往后匹配
- match():——>obj——>obj.group()
- 从匹配字符的开头匹配,若开头不是想要的内存,则返回None
findall
str1 = 'sean tank yang' # findall res = re.findall('[a-z]{4}', str1) print(res) #返回的是列表可以直接输出结果 ['sean', 'tank', 'yang']
search
# search res = re.search('[a-z]{4}', str1) print(res) print(res.group()) <_sre.SRE_Match object; span=(0, 4), match='sean'> sean # 成功匹配一个以后,结束,不再往后匹配
match
# match res = re.match('sean', str1) print(res) print(res.group()) <_sre.SRE_Match object; span=(0, 4), match='sean'> sean #如果开头是'sean' 就返回结果,如果不是将返回None且报错 # 避免报错的方法 res = re.match('tank', str1) if res: print(res.group())
三、简单了解爬虫
- 爬虫四部原理
- 发送请求:requests
- 获取响应数据:对方机器直接返回的
- 解析并提取想要的数据:re
- 保存提取后的数据:with open()
- 爬虫三部曲
- 发送请求
- 解析数据
- 保存数据
import requests import re # 1.发送请求 def get_page(url): response = requests.get(url) return response # 伪代码: # response = get_page('url地址') # parser_page(response,text) # 2.解析数据 def parser_page(text): #response.text # re.findall('正则表达式','过滤的文本') res_list = re.findall('<div class="item">.*?<a href="(.*?)">.*?<span class="title">(.*?)</span>.*?<span class="rating_num".*?>(.*?)</span>.*?<span>(.*?)人评价' , text) for movie_tuple in res_list: yield movie_tuple # 3.保存数据 # 伪代码 # res_list = parser_page(text) # save_data(res_list) def save_data(res_list_iter): with open('douban.txt', 'a', encoding='utf-8')as f: for movie_tuple in res_list_iter: movie_url, movie_name, movie_point, movie_num = movie_tuple str1 = f""" 电影地址:{movie_url} 电影名字:{movie_name} 电影评分:{movie_point} 评价人数:{movie_num} """ f.write(str1) n = 0 for line in range(10): url = f'https://movie.douban.com/top250?start={n}&filter=' n += 25 print(url) response = get_page(url) res_list_iter = parser_page(response.text) save_data(res_list_iter)
四、logging模块
- 用来记录日志的模块,一般记录用户在软件中的操作
import os import logging.config # 定义三种日志输出格式 standard_format = '[%(asctime)s][%(threadName)s:%(thread)d][task_id:%(name)s][%(filename)s:%(lineno)d]' \ '[%(levelname)s][%(message)s]' #其中name为getlogger指定的名字 simple_format = '[%(levelname)s][%(asctime)s][%(filename)s:%(lineno)d]%(message)s' id_simple_format = '[%(levelname)s][%(asctime)s] %(message)s' # 定义日志输出格式 # 注意1: log文件的目录 BASE_PATH = os.path.dirname(os.path.dirname(__file__)) logfile_dir = os.path.join(BASE_PATH, 'log_dir') # print(logfile_dir) # 注意2: log文件名 logfile_name = 'user.log' # 如果不存在定义的日志目录就创建一个 if not os.path.isdir(logfile_dir): os.mkdir(logfile_dir) # log文件的全路径 logfile_path = os.path.join(logfile_dir, logfile_name) # 注意3:log配置字典 LOGGING_DIC = { 'version': 1, 'disable_existing_loggers': False, 'formatters': { 'standard': { 'format': standard_format }, 'simple': { 'format': simple_format }, }, 'filters': {}, 'handlers': { #打印到终端的日志 'console': { 'level': 'DEBUG', 'class': 'logging.StreamHandler', # 打印到屏幕 'formatter': 'simple' }, # 打印到文件的日志,收集info及以上的日志 'default': { 'level': 'DEBUG', 'class': 'logging.handlers.RotatingFileHandler', # 保存到文件 'formatter': 'standard', 'filename': logfile_path, # 日志文件 'maxBytes': 1024*1024*5, # 日志大小 5M 'backupCount': 5, 'encoding': 'utf-8', # 日志文件的编码,再也不用担心中文log乱码了 }, }, 'loggers': { #logging.getLogger(__name__)拿到的logger配置 '': { 'handlers': ['default', 'console'], # 这里把上面定义的两个handler都加上,即log数据既写入文件又打印到屏幕 'level': 'DEBUG', 'propagate': True, # 向上(更高level的logger)传递 }, }, } # 注意4: def get_logger(user_type): # 1.加载log配置字典到loggin模块的配置中 logging.config.dictConfig(LOGGING_DIC) # 2. 获取日志对象 logger = logging.getLogger(user_type) return logger logger = get_logger('user') logger.info('只要思想不滑坡,方法总比问题多')
五、包的理论
- 什么是包?
- 包是一个带有
__init__.py
的文件夹,包也可以被导入,并且可以一并导入包下的所有模块
- 包是一个带有
- 为什么要使用包?
- 包可以帮我们管理模块,在包中有一个
__init__.py
,由它来帮助我们管理模块
- 包可以帮我们管理模块,在包中有一个
- 怎么使用包?
- import 包.模块名
- form 包 import 模块名
- from 包.模块名 import 模块中的名字
- 导入包时发生的事情:
- 当包被导入时,会以包中的
__init__.py
来产生一个名称空间 - 然后执行
__init__.py
文件,会将__init__.py
中所有的名字添加到名称空间中 - 接着会将包下所有模块的名字加载到
__init__.py
产生的名称空间中 - 导入的模块指向的名称空间其实就是
__init__.py
产生的名称空间中
- 当包被导入时,会以包中的
补充
防止导入模块时自动执行测试功能
# 在被导入模块中使用main,防止检测时自动执行代码 if __name__ == '__main__': print('from aaa...')