英语

英文文本预处理

☆樱花仙子☆ 提交于 2020-02-15 02:10:09
这里主要讲解下英语词语处理的过程。(参考伯禹教育课程) 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 根据停用词 词频 TF-IDF等方法计算每个英文的词频。然后建立词语与索引的映射。 import collections import re def read_time_machine(): with open('/home/kesci/input/timemachine7163/timemachine.txt', 'r') as f: lines = [re.sub('[^a-z]+', ' ', line.strip().lower()) for line in f] return lines lines = read_time_machine() print('# sentences %d' % len(lines)) re()正则函数 在这里re.sub('[^a-z]时把除a-z的其他字符都换成 空格 这是最简单的方法 分词 我们对每个句子进行分词,也就是将一个句子划分成若干个词(token),转换为一个词的序列。 In [2]: def tokenize(sentences, token='word'): """Split sentences into word or char tokens"""

洛谷 P1540 机器翻译

橙三吉。 提交于 2020-02-14 17:59:16
题目来源:洛谷 P1540 机器翻译 题目链接链接: 点击这里 题目如下: 小晨的电脑上安装了一个机器翻译软件,他经常用这个软件来翻译英语文章。 题目描述 这个翻译软件的原理很简单,它只是从头到尾,依次将每个英文单词用对应的中文含义来替换。对于每个英文单词,软件会先在内存中查找这个单词的中文含义,如果内存中有,软件就会用它进行翻译;如果内存中没有,软件就会在外存中的词典内查找,查出单词的中文含义然后翻译,并将这个单词和译义放入内存,以备后续的查找和翻译。 假设内存中有M个单元,每单元能存放一个单词和译义。每当软件将一个新单词存入内存前,如果当前内存中已存入的单词数不超过M-1,软件会将新单词存入一个未使用的内存单元;若内存中已存入MM个单词,软件会清空最早进入内存的那个单词,腾出单元来,存放新单词。 假设一篇英语文章的长度为N个单词。给定这篇待译文章,翻译软件需要去外存查找多少次词典?假设在翻译开始前,内存中没有任何单词。 输入格式 共22行。每行中两个数之间用一个空格隔开。 第一行为两个正整数M,N,代表内存容量和文章的长度。 第二行为N个非负整数,按照文章的顺序,每个数(大小不超过1000)代表一个英文单词。文章中两个单词是同一个单词,当且仅当它们对应的非负整数相同。 输出格式 一个整数,为软件需要查词典的次数。 输入样例: 3 7 1 2 1 5 4 4 1 输出样例: 5

使用RegularExpressionValidator验证

无人久伴 提交于 2020-02-13 02:01:19
使用RegularExpressionValidator验证: 只能输入数字:“^[0-9]*$” 只能输入n位的数字:“^d{n}$” 只能输入至少n位数字:“^d{n,}$” 只能输入m-n位的数字:“^d{m,n}$” 只能输入零和非零开头的数字:“^(0|[1-9][0-9]*)$” 只能输入有两位小数的正实数:“^[0-9]+(.[0-9]{2})?$” 只能输入有1-3位小数的正实数:“^[0-9]+(.[0-9]{1,3})?$” 只能输入非零的正整数:“^+?[1-9][0-9]*$” 只能输入非零的负整数:“^-[1-9][0-9]*$” 只能输入长度为3的字符:“^.{3}$” 只能输入由26个英文字母组成的字符串:“^[A-Za-z]+$” 只能输入由26个大写英文字母组成的字符串:“^[A-Z]+$” 只能输入由26个小写英文字母组成的字符串:“^[a-z]+$” 只能输入由数字和26个英文字母组成的字符串:“^[A-Za-z0-9]+$” 只能输入由数字、26个英文字母或者下划线组成的字符串:“^w+$” 验证用户密码:“^[a-zA-Z]w{5,17}$”正确格式为:以字母开头,长度在6-18之间, 只能包含字符、数字和下划线。 验证是否含有^%&',;=?$"等字符:“[^%&',;=?$x22]+” 只能输入汉字:“^[u4e00-u9fa5],{0

20200212 seo文章(1)

人盡茶涼 提交于 2020-02-13 00:34:26
1.准备工作和内容来源 先想好内容来源,再考虑建设网站 通过SEO创建一个成功的网站,考虑四个因素 * 用户需求 * 网站程序 * 网站内容 * 懂seo的运营 一般情况下,内容来源的渠道有: 书籍扫描(用涂书笔记) 内容组合(》=3模块) 添加评论(50到100字以内的评论)可以转载和使用优秀的评论 原创、重新编辑、转载自微信公众号、或者国外翻译 2.域名注册技巧 中文关键词 * 与公司名称对应,拼音或者字母 * 双拼或三个字母+数字,举例 ganji58 51youku ali88 * 拼音或英文?采用常用的方式!job or gongzuo 英文关键词 * wholesale Flowers * wholesale wedding flowers * ebags BlackSocks amazon lightinthebox tomtop * 如果英文网站纯粹考虑排名 可以将域名和关键词一样注册相同 * 选择域名需要注意品牌的塑造问题 中英文混合的关键词 * seo培训 * iso9001认证 3.网站设计越简单越好 * 远离那些太重的因素:flash,table,java script 等 * 采用Div+css来架构网站 * 遵循F型树状结构 营销型企业网站以下功能可以隐藏: 登录、注册、设置为首页 用户留言评论、站内搜索 4内容长度 普通的内容多长

20200212

試著忘記壹切 提交于 2020-02-12 22:15:58
时间在一天一天的过,今天已经是倒数第二天学习英语作文了,我自己没有坚持每天free writing 所以收获没有其他人那么大,这些点也值得反思。 英语课的收获,在于高效学习的方式,学而不思则罔,思而不学则殆。 今天继续再看高数,还是挺有难度,明天收集整合一下资料吧,考研定学校也一直想逃避的状态。 单词多复习,多看。 来源: https://www.cnblogs.com/qijiang233/p/12301181.html

20200212早会

梦想与她 提交于 2020-02-12 08:50:49
1、和公司联系,确定下面到底做不做 2、制定纲要,要落实到解决具体问题,要顺着纲要能够一步步做下去。 3、写英语论文:先用已有的英语知识储备写,个别单词用不到位再去找翻译(我也要开始学习英语了得) 来源: https://www.cnblogs.com/zhaideang/p/12297735.html

字符编码

喜欢而已 提交于 2020-02-11 22:55:12
一 什么是字符编码   计算机要想工作必须通电,即用‘电’驱使计算机干活,也就是说‘电’的特性决定了计算机的特性。电的特性即高低电平(人类从逻辑上将二进制数1对应高电平,二进制数0对应低电平),关于磁盘的磁特性也是同样的道理。   结论:计算机只认识数字   很明显,我们平时在使用计算机时,用的都是人类能读懂的字符(用高级语言编程的结果也无非是在文件内写了一堆字符),如何能让计算机读懂人类的字符?   必须经过一个过程:   #字符--------(翻译过程)------->数字   #这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为字符编码. 二 字符编码的发展史与分类(了解) 计算机由美国人发明,最早的字符编码为ASCII,只规定了 英文字母数字和一些特殊字符与数字 的对应关系。最多只能用 8 位来表示(一个字节=1byte字节=8bit),即:2**8 = 256,所以,ASCII码最多只能表示 256 个符号 当然我们编程语言都用英文没问题,ASCII够用,但是在处理数据时,不同的国家有不同的语言,日本人会在自己的程序中加入日文,中国人会加入中文。 而要表示中文,单拿一个字节表表示一个汉字,是不可能表达完的(连小学生都认识两千多个汉字),解决方法只有一个,就是一个字节用>8位2进制代表,位数越多,代表的变化就多,这样,就可以尽可能多的表达出不通的汉字 所以

考研成绩

人走茶凉 提交于 2020-02-10 09:13:32
考研成绩出来了,先汇报一下: 政治:57;英语:52;离散数学:109;专业课:104。 这个成绩真是预料之中,又意料之外。 来看看我预测的成绩: 政治:50;英语:45;离散数学:120;专业课:120。 总分跟我预测的基本差不多。不过意外的是,我最拿手的科目却考的最差(跟高考时候一样),最不拿手的却考的还挺不错——对于一个英语四级还没过的人来说,英语考到52应该很不错了。 不管怎么样,321的总分和52的英语上线应该是没什么问题了。等着面试了。 来源: https://www.cnblogs.com/na57/archive/2005/03/11/116708.html

【日记录】20200209日记录

帅比萌擦擦* 提交于 2020-02-10 04:19:05
20200209日记录 日常任务 背单词 1.背单词的量目前需要加到250,但暂时不宜再过多 专业课按制定计划背书 1.按照我们之前的经验可以按照这个顺序来背书:法理 ——宪法 ——刑法——民法——法制史 但由于考虑到目前民法典尚未公布且我们已经有了基础,我们可以适当调整顺序:法理——宪法——刑法——法制史——民法 背2篇小作文/1篇大作文: 1.王江涛的考研英语高分写作根据初步目前的调查2019年2020年没有过多的区别,所以我们可以就积累素材的方面来每篇文章进行初步背诵,积累我们的素材。 经济学人2篇 汉语练字一页 英语练字一页 听力口语 知识点随机抽查 总结 主线任务 来源: https://www.cnblogs.com/yyyyfly1/p/12289702.html

程序员思维学英语语法---限定词详解

橙三吉。 提交于 2020-02-09 23:06:56
程序员思维学英语语法 第三章 限定词详解 1. 限定词的定义 2. 限定词的分类 2.1 冠词(Article) 2.2. 形容词性的物主代词(Possessive Pronoun) 2.3 数词(Numeral) 2.4 名词所有格(Possessive Nouns) 第三章 限定词详解 本章主要目的:了解限定词定义和分类 1. 限定词的定义 限定词:在名词词组中对中心名词起限定作用的词类 2. 限定词的分类 2.1 冠词(Article) 不定冠词(a,an) 定冠词(the) 具体详解请看冠词详解 2.2. 形容词性的物主代词(Possessive Pronoun) 指示限定词(this,that,these,those,such) 关系限定词(whose,which) 疑问限定词(what,whose,which) 不定限定词(no,some,any,each,every,enough,either,neither,all,both,half,several,many,much,(a) few,(a) little,other,another) 具体详解请看代词详解-物主代词 2.3 数词(Numeral) 序数词(one,two,three) 基数词(first,second,third) 倍数词(double,half,one third) 量词(a cup of