英语 | 易学教程

英文文本预处理

阅读更多关于英文文本预处理

这里主要讲解下英语词语处理的过程。（参考伯禹教育课程）读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型根据停用词词频 TF-IDF等方法计算每个英文的词频。然后建立词语与索引的映射。 import collections import re def read_time_machine(): with open('/home/kesci/input/timemachine7163/timemachine.txt', 'r') as f: lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f] return lines lines = read_time_machine() print('# sentences %d' % len(lines)) re()正则函数在这里re.sub('[^a-z]时把除a-z的其他字符都换成空格这是最简单的方法分词我们对每个句子进行分词，也就是将一个句子划分成若干个词（token），转换为一个词的序列。 In [2]: def tokenize(sentences, token='word'): """Split sentences into word or char tokens"""

洛谷 P1540 机器翻译

阅读更多关于洛谷 P1540 机器翻译

题目来源:洛谷 P1540 机器翻译题目链接链接: 点击这里题目如下: 小晨的电脑上安装了一个机器翻译软件，他经常用这个软件来翻译英语文章。题目描述这个翻译软件的原理很简单，它只是从头到尾，依次将每个英文单词用对应的中文含义来替换。对于每个英文单词，软件会先在内存中查找这个单词的中文含义，如果内存中有，软件就会用它进行翻译；如果内存中没有，软件就会在外存中的词典内查找，查出单词的中文含义然后翻译，并将这个单词和译义放入内存，以备后续的查找和翻译。假设内存中有M个单元，每单元能存放一个单词和译义。每当软件将一个新单词存入内存前，如果当前内存中已存入的单词数不超过M-1，软件会将新单词存入一个未使用的内存单元；若内存中已存入MM个单词，软件会清空最早进入内存的那个单词，腾出单元来，存放新单词。假设一篇英语文章的长度为N个单词。给定这篇待译文章，翻译软件需要去外存查找多少次词典？假设在翻译开始前，内存中没有任何单词。输入格式共22行。每行中两个数之间用一个空格隔开。第一行为两个正整数M,N，代表内存容量和文章的长度。第二行为N个非负整数，按照文章的顺序，每个数（大小不超过1000）代表一个英文单词。文章中两个单词是同一个单词，当且仅当它们对应的非负整数相同。输出格式一个整数，为软件需要查词典的次数。输入样例: 3 7 1 2 1 5 4 4 1 输出样例: 5

使用RegularExpressionValidator验证

阅读更多关于使用RegularExpressionValidator验证

使用RegularExpressionValidator验证: 只能输入数字：“^[0-9]*$” 只能输入n位的数字：“^d{n}$” 只能输入至少n位数字：“^d{n,}$” 只能输入m-n位的数字：“^d{m,n}$” 只能输入零和非零开头的数字：“^(0|[1-9][0-9]*)$” 只能输入有两位小数的正实数：“^[0-9]+(.[0-9]{2})?$” 只能输入有1-3位小数的正实数：“^[0-9]+(.[0-9]{1,3})?$” 只能输入非零的正整数：“^+?[1-9][0-9]*$” 只能输入非零的负整数：“^-[1-9][0-9]*$” 只能输入长度为3的字符：“^.{3}$” 只能输入由26个英文字母组成的字符串：“^[A-Za-z]+$” 只能输入由26个大写英文字母组成的字符串：“^[A-Z]+$” 只能输入由26个小写英文字母组成的字符串：“^[a-z]+$” 只能输入由数字和26个英文字母组成的字符串：“^[A-Za-z0-9]+$” 只能输入由数字、26个英文字母或者下划线组成的字符串：“^w+$” 验证用户密码:“^[a-zA-Z]w{5,17}$”正确格式为：以字母开头，长度在6-18之间，只能包含字符、数字和下划线。验证是否含有^%&',;=?$"等字符：“[^%&',;=?$x22]+” 只能输入汉字：“^[u4e00-u9fa5],{0

20200212 seo文章（1）

阅读更多关于 20200212 seo文章（1）

1.准备工作和内容来源先想好内容来源，再考虑建设网站通过SEO创建一个成功的网站，考虑四个因素 * 用户需求 * 网站程序 * 网站内容 * 懂seo的运营一般情况下，内容来源的渠道有：书籍扫描（用涂书笔记）内容组合（》=3模块）添加评论（50到100字以内的评论）可以转载和使用优秀的评论原创、重新编辑、转载自微信公众号、或者国外翻译 2.域名注册技巧中文关键词 * 与公司名称对应，拼音或者字母 * 双拼或三个字母+数字，举例 ganji58 51youku ali88 * 拼音或英文？采用常用的方式！job or gongzuo 英文关键词 * wholesale Flowers * wholesale wedding flowers * ebags BlackSocks amazon lightinthebox tomtop * 如果英文网站纯粹考虑排名可以将域名和关键词一样注册相同 * 选择域名需要注意品牌的塑造问题中英文混合的关键词 * seo培训 * iso9001认证 3.网站设计越简单越好 * 远离那些太重的因素：flash，table，java script 等 * 采用Div+css来架构网站 * 遵循F型树状结构营销型企业网站以下功能可以隐藏：登录、注册、设置为首页用户留言评论、站内搜索 4内容长度普通的内容多长

20200212

阅读更多关于 20200212

时间在一天一天的过，今天已经是倒数第二天学习英语作文了，我自己没有坚持每天free writing 所以收获没有其他人那么大，这些点也值得反思。英语课的收获，在于高效学习的方式，学而不思则罔，思而不学则殆。今天继续再看高数，还是挺有难度，明天收集整合一下资料吧，考研定学校也一直想逃避的状态。单词多复习，多看。来源： https://www.cnblogs.com/qijiang233/p/12301181.html

20200212早会

阅读更多关于 20200212早会

1、和公司联系，确定下面到底做不做 2、制定纲要，要落实到解决具体问题，要顺着纲要能够一步步做下去。 3、写英语论文：先用已有的英语知识储备写，个别单词用不到位再去找翻译（我也要开始学习英语了得）来源： https://www.cnblogs.com/zhaideang/p/12297735.html

字符编码

阅读更多关于字符编码

一什么是字符编码　　计算机要想工作必须通电,即用‘电’驱使计算机干活,也就是说‘电’的特性决定了计算机的特性。电的特性即高低电平(人类从逻辑上将二进制数1对应高电平,二进制数0对应低电平)，关于磁盘的磁特性也是同样的道理。　　结论：计算机只认识数字　　很明显，我们平时在使用计算机时，用的都是人类能读懂的字符（用高级语言编程的结果也无非是在文件内写了一堆字符），如何能让计算机读懂人类的字符？　　必须经过一个过程：　　#字符--------（翻译过程）------->数字　　#这个过程实际就是一个字符如何对应一个特定数字的标准，这个标准称之为字符编码. 二字符编码的发展史与分类(了解) 计算机由美国人发明，最早的字符编码为ASCII，只规定了英文字母数字和一些特殊字符与数字的对应关系。最多只能用 8 位来表示（一个字节=1byte字节=8bit），即：2**8 = 256，所以，ASCII码最多只能表示 256 个符号当然我们编程语言都用英文没问题，ASCII够用，但是在处理数据时，不同的国家有不同的语言，日本人会在自己的程序中加入日文，中国人会加入中文。而要表示中文，单拿一个字节表表示一个汉字，是不可能表达完的(连小学生都认识两千多个汉字)，解决方法只有一个，就是一个字节用>8位2进制代表，位数越多，代表的变化就多，这样，就可以尽可能多的表达出不通的汉字所以

考研成绩

阅读更多关于考研成绩

考研成绩出来了，先汇报一下：政治：57；英语：52；离散数学：109；专业课：104。这个成绩真是预料之中，又意料之外。来看看我预测的成绩：政治：50；英语：45；离散数学：120；专业课：120。总分跟我预测的基本差不多。不过意外的是，我最拿手的科目却考的最差（跟高考时候一样），最不拿手的却考的还挺不错——对于一个英语四级还没过的人来说，英语考到52应该很不错了。不管怎么样，321的总分和52的英语上线应该是没什么问题了。等着面试了。来源： https://www.cnblogs.com/na57/archive/2005/03/11/116708.html

【日记录】20200209日记录

阅读更多关于【日记录】20200209日记录

20200209日记录日常任务背单词 1.背单词的量目前需要加到250，但暂时不宜再过多专业课按制定计划背书 1.按照我们之前的经验可以按照这个顺序来背书：法理 ——宪法 ——刑法——民法——法制史但由于考虑到目前民法典尚未公布且我们已经有了基础，我们可以适当调整顺序：法理——宪法——刑法——法制史——民法背2篇小作文/1篇大作文： 1.王江涛的考研英语高分写作根据初步目前的调查2019年2020年没有过多的区别，所以我们可以就积累素材的方面来每篇文章进行初步背诵，积累我们的素材。经济学人2篇汉语练字一页英语练字一页听力口语知识点随机抽查总结主线任务来源： https://www.cnblogs.com/yyyyfly1/p/12289702.html

程序员思维学英语语法---限定词详解

阅读更多关于程序员思维学英语语法---限定词详解

程序员思维学英语语法第三章限定词详解 1. 限定词的定义 2. 限定词的分类 2.1 冠词（Article） 2.2. 形容词性的物主代词（Possessive Pronoun） 2.3 数词（Numeral） 2.4 名词所有格（Possessive Nouns）第三章限定词详解本章主要目的：了解限定词定义和分类 1. 限定词的定义限定词：在名词词组中对中心名词起限定作用的词类 2. 限定词的分类 2.1 冠词（Article）不定冠词（a，an）定冠词（the）具体详解请看冠词详解 2.2. 形容词性的物主代词（Possessive Pronoun）指示限定词（this，that，these，those，such）关系限定词（whose，which）疑问限定词（what，whose，which）不定限定词（no，some，any，each，every，enough，either，neither，all，both，half，several，many，much，(a) few，(a) little，other，another）具体详解请看代词详解-物主代词 2.3 数词（Numeral）序数词（one，two，three）基数词（first，second，third）倍数词（double，half，one third）量词（a cup of

订阅英语