Sublime Text

使用Pandas分块处理大文件

倾然丶 夕夏残阳落幕 提交于 2020-08-18 21:10:14
使用Pandas分块处理大文件 问题:今天在处理快手的用户数据时,遇到了一个差不多600M的txt文本,用sublime打开都蹦了,我用pandas.read_table()去读,差不多花了近2分钟,最后打开发现差不多3千万行数据。这仅仅是打开,如果要处理不知得多费劲。 解决:我翻了一下文档,这一类读取文件的函数有两个参数:chunksize、iterator 原理就是不一次性把文件数据读入内存中,而是分多次。 1、指定chunksize分块读取文件 read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。 table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) for df in table: 对df处理 #如df.drop(columns=['page','video_id'],axis=1,inplace=True) #print(type(df),df.shape)打印看一下信息12345 我这里又对文件进行了划分,分成若干个子文件分别处理(没错,to_csv也同样有chunksize参数) 2、指定iterator=True iterator

Python之文件操作

做~自己de王妃 提交于 2020-08-18 14:45:38
Python可以对文件进行查看、创建等功能,可以对文件内容进行添加、修改、删除,且所使用到的函数在Python3.5.x为 open ,在Python2.7.x同时支持 file 和 open ,但是在3.5.x系列移除了 file 函数。 Python文件打开方式 文件句柄 = open('文件路径','打开模式') Ps: 文件句柄相当于于变量名,文件路径可以写为绝对路径也可以写为相对路径。 Python打开文件的模式 基本的模式 模式 说明 注意事项 r 只读模式 文件必须存在 w 只写模式 文件不存在则创建文件,文件存在则清空文件内容 x 只写模式 文件不可读,文件不存在则创建,存在则报错 a 追加模式 文件不存在创建文件,文件存在则在文件末尾添加内容 带 + 的模式 模式 说明 r+ 读写 w+ 写读 x+ 写读 a+ 写读 带 b 的模式 模式 说明 rb 二进制读模式 wb 二进制写模式 xb 二进制只写模式 ab 二进制追加模式 提示: 以b方式打开时,读取到的内容是字节类型,写入时也需要提供字节类型 带 + 带 b 的模式 模式 说明 rb+ 二进制读写模式 wb+ 二进制读写模式 xb+ 二进制只写模式 ab+ 二进制读写模式 Python文件读取方式 模式 说明 read([size]) 读取文件全部内容,如果设置了size,那么久读取size字节

ubuntu20上安装starUML3

孤街醉人 提交于 2020-08-18 09:49:25
starUML3支持跨平台,是一款非常好用的UML绘图工具,但是虽然你不购买还是能使用但是会像sublime一样一直给你提示购买,接下来就是怎样破解这个软件了。 下载AppImage文件,使用appimagetool-x86_64进行解压,解压之后再安装asar, 对appimage文件进行解压 ./StarUML-3.2.2.AppImage --appimage-extract 进入目录 进入目录/appDir/StarUML.app/Contents/Resources 修改内容如下 checkLicenseValidity ( ) { this . validate ( ) . then ( ( ) => { setStatus ( this , true ) } , ( ) => { //setStatus(this, false) //UnregisteredDialog.showDialog() setStatus ( this , true ) //新增 } ) } 然后使用appimagetool进行打包 ./appimagetool-x86_64.AppImage ./squashfs-root/ 接下来就是启动starUML了,再也不提示购买了 asar 需要使用npm进行安装,也就是需要对你的电脑配置node.js环境 最后想软件启动更方便可以使用

mingw控制台中文乱码

孤人 提交于 2020-08-18 09:10:26
乱码原因 直接先用一段话讲乱码原因,看不懂老老实实就往下看吧 其实我用Sublime或者VSCode等编辑器写代码出现的控制台中文乱码问题是 编译器mingw输出的数据使用的是UTF-8编码,而控制台用了GBK编码来解析它 。 其实编码只要统一,用UTF8或者GBK都行,但用了错误的编码去解析文件就会出错。 问题来源 如果我们写轻量代码(比如写算法题)也用VS之类的IDE,就太不划算了;虽然也有Codeblocks、Dev C++这样的小一点的IDE,但用起来还是可以发现让人很不爽的缺点。 之前尝试用VS Code写C++代码,挺不错的,好看方便。但问题就是难配置,最大的问题是 控制台中文乱码 ,我搞了好久都没搞好,今天终于解决了。 在网上找到一段话是这么讲的: Windows(中文)默认的字符集是Windows-936(GBK),mingw的内部是GCC,而GCC编译器默认编译的时候是按照UTF-8解析和输出的,当未指定字符集时一律当作UTF-8进行处理,于是造成乱码。 根据上边这段话,我有点灵感,但还是有疑问,见下。 问题分析 我电脑的CMD编码设置的是UTF-8,代码文件的编码也是UTF-8,如果mingw默认按UTF-8处理的话,可以看到这里用的编码全都是UTF-8,那应该不会出现乱码的。 但我们确实看到了乱码啊!? 当我去看我的注册表(见下图),发现代码链接

Lua5.3.5在Win上的安装

让人想犯罪 __ 提交于 2020-08-18 08:27:18
1. 进入lua官网 https://www.lua.org 2. 点击download 3. 点击 get a binary 4. 选择lua版本 (此处选择最新的) 5. 进入下载页, 直接点击 Tools Executables 无需安装 6. 选择win64 / 32版本 (根据自己的系统选择) 7. 下载完成,解压到D:/Lua (目录地址自定义) 8. 将lua所在目录加入环境变量 8. 验证安装 此处输入lua53 , 如果觉得麻烦可以将lua53.exe修改为lua.exe(如果没有其它版本的lua) 9. Lua编辑器 1. 命令行cmd 直接输入 lua53回车,进入lua运行环境中 2. sublime text 点击 new .... 复制一下json内容到文件中,替换原有内容。 { "cmd": ["D:/Lua/lua53.exe", "$file"], "file_regex": "^(?:lua:)?[t ](...*?):([0-9]*):?([0-9]*)", "selector": "source.lua" } 保存为 lua53(名字自定义) 然后tool => build system 选择lua53。 运行文件: ctrl + B运行 3. vscode 安装插件 lua debug ctrl + F5 非调试模式运行 F5 调试模式运行

HTML入门1

邮差的信 提交于 2020-08-18 07:57:35
一、网页的组成 网页由文字、图片、输入框、视频、音频、超链接等组成。 二、html,css,js的区别 Html 结构标准 相当于人的身体,只有架构 有结构 Css 表现标准 相当与给人化妆 变的更漂亮 有衣服 Js 行为标准 相当于人在唱歌,页面更灵动 动起来 三、常用浏览器 1.IE 火狐 谷歌 猎豹 Safari opera 2 . 浏览器内核 :也就是浏览器所采用的渲染引擎,渲染引擎决定了浏览器如何显示网页的内容,即浏览器的 格式信息(浏览器的兼容性问题) IE 谷歌/欧鹏 火狐 苹果 trident blink gecko webkit 四、浏览器和服务器之间的关系 浏览器通过http协议向服务器发送报文,服务器通过解析之后,响应报文,返回给浏览器。 五、常用快捷键 Ctrl+c 复制 Ctrl+v 粘贴 Ctrl+s 保存 ctrl+x 剪切 ctrl+z 撤销一步 windows+d 返回桌面 windows+e 打开我的电脑 windows+r 打开运行 alt+tab 切换软件 ctrl+tab 软件文档之间的切换 f2 重命名 f5 刷新页面(制作网页的时候经常用) 六、HTML 1. html ( Hyper text markup language ) 超文本标记语言。 超文本:超链接。(实现页面跳转) 2. html结构标准 < ! doctype

sublime3 Package Control不能使用

筅森魡賤 提交于 2020-08-18 07:56:21
手动下载插件包: https://sublime.wbond.net/Package%20Control.sublime-package ,复制到%SumlimeText_HOME%\Data\Installed Packages路径(preference->browse packages...),重启 sublimeText 就行了。 按Ctrl + shift + P 搜索 Package Control : Install .... 回车 我这边遇到的问题是 解决办法: 1.打开cmd->ping sublime.wbond.net -> 找对对应的ip写在 hosts里面,我ping完ip是50.116.33.29 打开hosts 将50.116.33.29 sublime.wbond.net加到最后一行保存退出 2.想个办法把这个文件下载下来https://packagecontrol.io/channel_v3.json,不能翻墙的用这个 http://yunpan.cn/cHBsMf6nKSQWW (提取码:5d43) 把channel_v3.json文件部署到一个服务上,自己想个办法,我这边将该文件放到了Java Web程序中用127.0.0.1:4000/document/channel_v3.json就可以正常访问到 Preferences->package

Sublime Text3中文乱码解决方案

依然范特西╮ 提交于 2020-08-17 09:01:26
Sublime Text3中文乱码解决方案 Sublime Text 简单介绍 问题 解决方案 注意事项 Sublime Text 简单介绍 Sublime Text 是一个文本编辑器(收费软件,可以无限期试用,但是会有激活提示弹窗),同时也是一个先进的代码编辑器。Sublime Text是由程序员Jon Skinner于2008年1月份所开发出来,它最初被设计为一个具有丰富扩展功能的Vim。 Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。 问题 最近在进行sublime进行C++程序的运行时,发生了中文乱码现象,在经过一段时间的捣腾后,基本可以解决问题,以下附上解决方案。 先给上原图: 下面再附上解决后的图: 解决方案 1.直接在文件的 Reload with Encoding 里面点击 Chinese Simplified(GBK) ,然后关闭exe文件,退出sublime,重新进来再编译。(不太记得如果没有进行下面的操作是否会有这个选项

教你一招另辟蹊径抓取美团火锅数据

时光毁灭记忆、已成空白 提交于 2020-08-17 03:05:53
最近有个小伙伴在群里问美团数据怎么获取,而且她只要火锅数据,她在上海,只要求抓上海美团火锅的数据,而且要求也不高,只要100条,想做个简单的分析,相关的字段如下图所示。 乍一看,这个问题还真的是蛮难的,毕竟美团也不是那么好抓,什么验证码,模拟登陆等一大堆拂面而来,吓得小伙伴都倒地了。 通过F12查看,抓包,分析URL,找规律,等等操作。 不过白慌,今天小编给大家介绍一个小技巧,另辟蹊径去搞定美团的数据,这里需要用到抓包工具Fiddler。讲道理,之前我开始接触网络爬虫的时候也没有听过这个东东,后来就慢慢知道了,而且它真的蛮实用的,建议大家都能学会用它。这个工具专门用于抓包,而且其安装包也非常小,如下图所示。 接下来,我们开始进行抓取信息。 1、在Fiddler的左侧找到meituan网站的链接,如下图所示。链接的左边返回的response(响应)的文件类型,可以看到是JSON文件,尔后双击这一行链接。 2、此时在右侧会显示下图的界面,点击黄色区域内的那串英文“Responsebody is encoded. Click to decode.”意思是response是加密的,点击此处进行解码,对返回的网页进行解码。 3、此时会弹出下图所示的界面,在WebView中可以看到返回的数据,与网页中的内容对应一致。 4、不过美团网限制一页最多显示32条火锅信息,如下图所示。 5

VSCode + WSL 2 + Ruby环境搭建详解

穿精又带淫゛_ 提交于 2020-08-17 03:03:01
vscode配置ruby开发环境 vscode近年来发展迅速,几乎在3年之间就抢占了原来vim、sublime text的很多份额,犹记得在2015-2016年的时候,ruby 推荐的开发环境 基本上都是vim和sublime text,然而,随着vscode的发展,vscode下ruby的开发体验已经非常不错。现在基本上使用win 10 wsl2 + vscode + windows terminal的体验已经不逊于mac + vim (sublime) + item 2的体验了 总体步骤 使用win10专业版配置ruby开发环境大致分为以下几步: 开启win10 wsl功能 升级wsl2 安装ubuntu 安装ruby(rvm) 安装vscode 安装vscode wsl扩展 安装vscode ruby相关扩展 经过以上7步就可以开始愉悦的ruby开发了,再开始之前,可以先看个效果图。 1. 开启win10 wsl功能 ruby对Linux和Mac比较友好,在windows下很多第三方库要配合mingw或msys2才能安装,不过好在windows 10提供了Linux子系统,在win10 2004版本中wsl也升级到了wsl2,速度更快,功能更完善。 要使用wsl2需要先在控制面板中开启wsl功能: 适用于Linux的Windows子系统 虚拟机平台 2. 升级wsl2