自然语言

自然语言5——初学者书籍

亡梦爱人 提交于 2019-12-20 10:17:37
sklearn实战-乳腺癌细胞数据挖掘 (博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share http://www.allitebooks.com/natural-language-processing-with-python/ Natural Language Processing with Python Analyzing Text with the Natural Language Toolkit Author: Edward Loper , Ewan Klein , Steven Bird Isbn: 978-0-596-51649-9 Year: 2009 Pages: 512 Language: English File size: 5.8 MB File format: PDF Category: Python Book Description: This book offers a highly accessible introduction to Natural Language Processing, the

知识问答

纵饮孤独 提交于 2019-12-06 12:45:32
知识问答系统(Question Answering QA): 接收自然语言表达的问题--理解用户意图--获取相关知识--推理计算--自然语言形成答案 8.1.1 问答系统的基本要素 四大要素: 问题:问答系统的输入 答案:问答系统的输出 智能体:问答系统的执行者,理解问题语义,掌握并使用知识库解答问题,形成可供人读的答案 知识库:存储问答系统的知识,形态可以是文本,数据库或知识图谱 8.1.2 知识问答的相关工作 来源: https://www.cnblogs.com/hapyygril/p/11984683.html

自然语言学习01

梦想与她 提交于 2019-12-04 21:05:46
按照中文语料处理的过程,在获取到语料之后开始分词,分词之后可以进行一些统计和关键字提取,并通过数据可视化手段熟悉和了解你的数据。紧接着通过词袋或者词向量,把文本数据转换成计算机可以计算的矩阵向量。后续从机器学习简单的有监督分类和无监督聚类入手,到深度学习中神经网络的应用,以及简易聊天机器人和知识图谱的构建。 结构化数据、半结构化和非结构化数据 对于结构化数据而言:关系型数据库以及基于 Hadoop 的 HDFS 分布式文件系统、Hive 数据仓库和非关系型数据库 Hbase,以及 Elasticsearch 集群等数据存储的关系数据库或者 NoSQL,可以用来管理和存储数据。基于 MapReduce、Spark 和 Storm、Flink 等大数据处理框架可以分别处理离线和实时数据等。 半结构化、非结构化的数据:除了以 ELK 为代表的日志处理流程,过去在其它限定领域基于规则和知识库也取得了一定的成果 图灵测试 自然语言处理(NLP)的研究对象是计算机和人类语言的交互,其任务是理解人类语言并将其转换为机器语言。在目前的商业场中,NLP 技术用于分析源自邮件、音频、文件、网页、论坛、社交媒体中的大量半结构化和非结构化数据、 获取语料 语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以,人们简单地用文本作为替代

第38月第4天 自然语言AI

南楼画角 提交于 2019-12-03 10:18:30
1.有道 自然语言翻译 http://ai.youdao.com/anli.s#education 2. 码农场博主,HanLP作者何晗新书《 自然语言处理入门 》,跟着这本书,实现NLP的基础模块,这大概是最好的入门方式之一,具体可参考:《 人人都可以看懂的NLP入门书 》。 《 自然语言处理综论 》,目前第二版翻译版本已经出版,我当年的入门书,不过看得是第一版翻译版本,英文名《 Speech and Language Processing 》, 第三版据说很快就要出版,有条件的同学建议直接看英文版。 《 统计自然语言处理基础 》,另一本入门书籍,这本书的英文版貌似没有更新,但是中文版貌似也不再发售了,当然,优先推荐读英文版。 《 Python自然语言处理 》,NLTK配套丛书,有了上面两本书的介绍,再加上一些Python基础,通过这本书进行相关的文本挖掘实战,很不错的一个路径。 《Python深度学习》 ,近期读过的一本深度学习好书,隆重推荐。本书由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱(François Chollet)执笔,详尽介绍了用Python和Keras进行深度学习的探索实践,涉及计算机视觉、自然语言处理、生成式模型等应用。书中包含30多个代码示例,步骤讲解详细透彻。由于本书立足于人工智能的可达性和大众化

NLP自然语言基础(一)

匿名 (未验证) 提交于 2019-12-03 00:33:02
本文是基于寒小阳博主中的NLP系列所记录下的笔记,非常感谢有那么优质的博客,很受用! 1.NLP的 常见领域:分词,词性标注,命名实体识别,句法分析,语义识别,垃圾邮件识别,拼写纠错,词义消歧,语音识别,音字转换,机器翻译,自动问答…… 如果对自然语言处理的应用场景不太了解,可以去腾讯的 中文语义平台 简单玩几个例子就熟悉了。 2.NLP的发展现状 根据stafford教授Dan Jurafsky的介绍: 有些问题得到了基本解决 ,如:词性标注、命名实体识别、垃圾邮件识别。 有些问题取得长足进展 ,如:情感分析、共指消解、词义消歧、句法分析、机器翻译、信息抽取。 有些问题依然充满挑战 ,如:自动问答、复述、文摘提取、会话机器人等。 3.NLP与算法类型问题 比如, 词性标注,垃圾邮件识别,褒贬分析,拼写纠错等问题都可以归结成简单的分类问题 。这就好用我们之前掌握的机器学习分类方法去很好地处理。 又比如,对于 机器翻译,语音识别,音字转换等等领域,都可以抽象成运用隐马尔科夫模型去处理,而这本身是一个更加复杂的分类问题。 4.NLP分词,编辑距离 中文分词比英文分词难的多, 对于英文,分词比较直观。 一般被空格区分开来的就是不同的词。 编辑距离(Minimum Edit Distance,MED),又称Levenshtein距离,是 指两个字符串之间

自然语言踩过的坑:doc2bow expects an array of unicode tokens on input, not a single string

匿名 (未验证) 提交于 2019-12-03 00:19:01
原代码: title = response.meta['title'] #print title content = response.meta['content'] #print content raw_documents = [] raw_documents.append(title) raw_documents.append(content) #print raw_documents print raw_documents[0] print raw_documents[1] corpora_documents = [] # 分词处理 for item_text in raw_documents: item_seg = list(jieba.cut(item_text)) #print item_seg '''建立停用词''' #stopwords = {}.fromkeys(['。', ':', ',',' ','《','》','、',' ','(',')','“','”',';','\n']) buff = [] with codecs.open('stop.txt') as fp: for ln in fp: el = ln[:-2] buff.append(el) stopwords = buff for word in item_seg: if word not in