Christine

如何用Python从海量文本抽取主题?

白昼怎懂夜的黑 提交于 2020-12-16 15:29:37
摘自 https://www.jianshu.com/p/fdde9fc03f94 你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文使用Python对超过1000条文本做主题抽取,一步步带你体会非监督机器学习LDA方法的魅力。想不想试试呢? 淹没 每个现代人,几乎都体会过信息过载的痛苦。文章读不过来,音乐听不过来,视频看不过来。可是现实的压力,使你又不能轻易放弃掉。 假如你是个研究生,教科书和论文就是你不得不读的内容。现在有了各种其他的阅读渠道,微信、微博、得到App、多看阅读、豆瓣阅读、Kindle,还有你在RSS上订阅的一大堆博客……情况就变得更严重了。 因为对数据科学很感兴趣,你订阅了大量的数据科学类微信公众号。虽然你很勤奋,但你知道自己依然遗漏了很多文章。 学习了 Python爬虫课 以后,你决定尝试一下自己的屠龙之术。依仗着爬虫的威力,你打算采集到所有数据科学公众号文章。 你仔细分析了微信公众号文章的检索方式,制定了关键词列表。巧妙利用搜狗搜索引擎的特性,你编写了自己的爬虫,并且成功地于午夜放到了云端运行。 开心啊,激动啊…… 第二天一早,天光刚亮,睡眠不足的你就兴冲冲地爬起来去看爬取结果。居然已经有了1000多条!你欣喜若狂,导出成为csv格式,存储到了本地机器,并且打开浏览。

Linux命令行与shell脚本编程大全.第3版pdf

余生长醉 提交于 2020-11-14 12:03:42
下载地址: 网盘下载 这是一本关于Linux命令行与shell脚本编程的全方位教程,主要包括四大部分:Linux命令行,shell脚本编程基础,高级shell脚本编程,如何创建实用的shell脚本。本书针对Linux系统的最新特性进行了全面更新,不仅涵盖了详尽的动手教程和现实世界中的实用信息,还提供了与所学内容相关的参考信息和背景资料。通过本书的学习,你将轻松写出自己的shell脚本。 作者简介: Ricahard Blum 已在IT行业打拼20余年,担任过UNIX、Linux、Novell和Windows Server的系统及网络管理员,在Linux和开源软件领域著作颇丰。他还是一名网络课程讲师,美国多所大学和学院都采用他的Linux基础课程。 Christine Bresnahan 系统管理员,已经在IT行业工作了30余年,通过CompTIA Linux+、LPIC-1、Linux Essentials认证。目前在印第安纳波利斯市常春藤技术社区学院担任兼职教授,讲授Linux系统管理、Linux安全和Windows安全、Python编程等课程。 译者简介: 门佳 资深GNU/Linux用户,喜欢溯本求源,挖掘技术背后的细节。作为技术爱好者,对编译技术、Linux系统编程、Perl、网络协议分析、Web开发等均有涉猎,译有《Linux Shell脚本攻略》《TCP

第3章-SQL2

五迷三道 提交于 2020-10-15 19:50:06
1.DML 1.目的:在MySQL管理软件中,DDL已经定义了数据库结构。那么如何对其中的数据进行管理呢?可以通过SQL语句中的DML语言来实现数据的操作,包括使用 INSERT 实现数据的 插入 DELETE 实现数据的 删除 UPDATE 实现数据的 更新。 2.插入数据insert: 完整插入:insert into 表名(值1,值2,值3..值n); 3.更新数据update: UPDATE 表名 SET 列名=值 WHERE CONDITION; 4.删除数据delect:delect from 表名 where condition; 2.DQL 1.目的:在MySQL管理软件中,可以通过SQL语句中的DQL语言来实现数据的 SELECT 查询操作 互联网用户查询余额,查询装备,查询商品的操作。 2.mysql查询: 准备环境: 创建表:create table t1 (id int,name varchar(20),age int); 插入数据:insert into t3 valuse(1,'zhangsan',23); insert into t3 valuse(2,'zhangsani',24); insert into t3 valuse(3,'wangliu',18); 创建库:create database company; 创建表:create table

【今日CV 计算机视觉论文速览】 11 Mar 2019

久未见 提交于 2020-04-30 21:10:29
今日CS.CV计算机视觉论文速览 Mon, 11 Mar 2019 Totally 35 papers Interesting: 📚 Three-Player GAN ,在通常GAN的基础上增加了生成器和分类器间的竞争。利用C来合成更为困难的样本,随后这些样本将提高分类器的能力。(from ESAT-PSI) 当分类器加入时,生成的数据分布改变了不再是real/fake,而是更难分辨的中间数据: 📚 , 基于分级的方法来实现弱监督语义分割,加快语义分割的速度。(from Eindhoven University of Technology) 基础分类器先分类,而后将相关车辆行人的像素交给子分类器,右图是相关数据集和模型表现。 📚 3DN ,三维的可变形网络,实现了三维模型的风格迁移。(from USC) 其损失包含了以下部分: mesh的两项为形状损失,包含了CD(chamfer )和EMD(earth mover)两项,来确定变型后的模型与目标模型的外形。point的两项用于保持对称性,所以要通过点云来比较。为了避免自交叉引入了局域变异不变性损失,保持源形状的局域几何特性拉普拉斯损失。 code :github.com/laughtervv/3DN 📚 FastDepth ,用于嵌入式设备的快速单目深度估计,利用了depthwise

shell学习之awk或gawk

天大地大妈咪最大 提交于 2019-12-10 05:43:47
AWK 是该编程语言本身的名称,它编写于 1977 年。其名称是三个主要作者的姓的首字母缩写:Drs. A. Aho、P. Weinberger 和 B. Kernighan。 因为 AWK 是一种文本处理和模式匹配语言,所以它通常称为数据驱动的语言,程序语句描述需要进行匹配和处理的输入数据,而不是程序操作步骤的序列,在许多语言中都是这样的。AWK 程序在其输入数据中搜索包含模式的记录、对该记录执行指定的操作,直到程序到达输入的末尾。 AWK 语言是一种 UNIX 备用工具,它是一种功能强大的文本操作和模式匹配语言,特别适用于进行信息检索,这使得它非常适合用于当今的数据库驱动的应用程序。 虽然基本在linux的发行版中都没有默认安装gawk程序,但是我用的腾讯云的机器上是已经安装了,腾讯云默认安装了很多软件。 我还是比较喜欢用ubuntu的,可以使用apt-get install 安装,在mac中可以用 brew install,或者你可以下载了编译安装! gawk程序让流编辑迈上了一个新的台阶,它 提供了一种编程语言而不只是编辑器命令。常用来从大文本文件中提取数据元素,并将它们格式化成可读的 报告。在gawk编程语言中,你可以做下面的事情: 定义变量来保存数据; 使用算术和字符串操作符来处理数据; 使用结构化编程概念(比如if-then语句和循环)来为数据处理增加处理逻辑;