自然语言处理

自然语言处理基础系列:自然语言处理概念与名词解释(1)

一世执手 提交于 2021-01-10 07:22:55
(一)语言分析的必要性: 假如你的公司发布了一款全新的手机产品。 新产品的发布带来了来自不同媒体的相关报道、用户反馈。 面对这些数据,你可能希望了解 大家关注的是这款手机的哪些特性 大家对这款手机的评价如何 有哪些用户表达了购买的意愿 在面对海量数据的情况下,使用人力分析这些数据显然是不切实际的。 这种场景下,语言分析就派上了用场。 让机器代替人来完成这些分析工作正是语言分析要做的工作。 (二)语言分析常用操作: (1)分词 中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。 例如,句子 国务院总理李克强调研上海外高桥时提出,支持上海积极探索新机制。 正确分词的结果是 国务院/ 总理/ 李克强/ 调研/ 上海/ 外高桥/ 时/ 提出/ ,/ 支持/ 上海/ 积极/ 探索/ 新/ 机制/ 。 如果分词系统给出的切分结果是 国务院/ 总理/ 李克/ 强调/ 研/ 上海 … 因为强调也是一个常见的词,所以很可能出现这种分词结果。 那么,如果想要搜索和李克强相关的信息时,搜索引擎就很难检索到该文档了。 切分歧义是分词任务中的主要难题。 (2)词性标注 词性标注(Part-of-speech Tagging, POS

PYTHON自然语言处理中文版pdf

寵の児 提交于 2021-01-10 06:46:21
下载地址: 网盘下载 《Python自然语言处理(影印版)》提供了非常易学的自然语言处理入门介绍,该领域涵盖从文本和电子邮件预测过滤,到自动总结和翻译等多种语言处理技术。在《Python自然语言处理(影印版)》中,你将学会编写Python程序处理大量非结构化文本。你还将通过使用综合语言数据结构访问含有丰富注释的数据集,理解用于分析书面通信内容和结构的主要算法。 《Python自然语言处理》准备了充足的示例和练习,可以帮助你: 从非结构化文本中抽取信息,甚至猜测主题或识别“命名实体”; 分析文本语言结构,包括解析和语义分析; 访问流行的语言学数据库,包括WordNet和树库(treebank); 从多种语言学和人工智能领域中提取的整合技巧。 《Python自然语言处理(影印版)》将帮助你学习运用Python编程语言和自然语言工具包(NLTK)获得实用的自然语言处理技能。如果对于开发Web应用、分析多语言新闻源或记录濒危语言感兴趣——即便只是想从程序员视角观察人类语言如何运作,你将发现《Python自然语言处理》是一本令人着迷且极为有用的好书。 Steven Bird是墨尔本大学计算机科学和软件工程系副教授,以及宾夕法尼亚大学语言数据联合会高级研究助理。 克莱因是爱丁堡大学信息学院语言技术教授。 洛普最近从宾夕法尼亚大学获得机器学习自然语言处理博士学位,目前是波士顿BBN

知识图谱的综述、构建、存储与应用

我的未来我决定 提交于 2021-01-09 18:04:59
本文介绍知识图谱,首先会讲一段知识图谱的综述作为开场,然后就知识图谱的构建,存储,还有应用进行具体说明。 知识图谱和我们的资源页比较类似,都是需要先构建,然后存储,之后应用。 知识图谱应用广泛,我会以推荐系统为例子,说明知识图谱在推荐系统中的应用。 知识图谱综述 我们首先对知识图谱做一个简短的综述。 计算机为什么需要知识? 比如数字110,对机器来说,110就是一个字符串,与其他数字没有太大的差别。 当然可以借助关联分析,分析出110跟警察,抢劫等相关。但是关联分析比较复杂,需要借助数据挖掘等相关技术。 如果采用知识库,只需要构建一条知识,即110是报警电话。 人工智能分为三个层次,分别是运算智能,感知智能和认知智能。 运算智能是让机器能存会算;感知智能是让机器能听会说、能看会认;认知智能是解决机器能理解会思考的问题。 认知智能需要知识图谱。 知识图谱是一个大规模语义网,包含实体和关系,比如章子怡的丈夫是汪峰; 也包含实体和属性,比如章子怡的出生日期是1979年2月9日。 还包含实体和概念,比如章子怡是一个女演员; 还包含概念之间的关系,比如女演员是演员的子类。演员是人物的子类。 百科图谱一般由 标题,摘要,信息框,标签,图片 等部分组成。 可抽取信息框的内容构建知识图谱,并进行可视化展示。 其中,对于题目理解来讲,函数的提出者,提出时间这些属性不是我们所关心的。 表达式,表示法

史上最强NLP合辑(一):一文读懂自然语言处理(NLP)技术,

走远了吗. 提交于 2021-01-09 08:32:42
1、什么是自然语言处理 自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科。由于自然语言是人类区别于其他动物的根本标志,没有语言,人类的思维也就无从谈起,所以NLP体现了人工智能的最高任务与境界。也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。 从技术角度看,NLP包括序列标注、分类任务、句子关系判断和生成式任务等。从应用角度看,NLP具有广泛的应用场景,例如:机器翻译、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等等。它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。 NLP的兴起与机器翻译这一具体任务有着密切联系。“人工智能”被作为一个研究问题正式提出来的时候,创始人把计算机国际象棋和机器翻译作为两个标志性的任务,认为只要国际象棋系统能够打败人类世界冠军,机器翻译系统达到人类翻译水平,就可以宣告人工智能的胜利。四十年后的1997年,IBM公司的深蓝超级计算机已经能够打败国际象棋世界冠军卡斯帕罗夫。而机器翻译到现在仍无法与人类翻译水平相比,由此可见NLP有多么的复杂和困难! 2、自然语言处理的发展趋势 目前

上交张拳石+北大朱占星老师!IJCAI2020Tutorial!74页ppt可解释人工智能最新进展!

半腔热情 提交于 2021-01-09 08:22:51
注:文末附【深度学习与自然语言处理】交流群,最近赶ACL,比较忙,很多同学加了没有回过期了,可以重新加一下,备注好的一定会回复,敬请谅解。 1月11日-13日,IJCAI2020在线上将正式举办。深度神经网络(DNNs)在计算机视觉、计算语言学和人工智能等领域已经巨大的成功。然而,DNNs成功的基本原理、DNNs的可信性等方向仍然很大程度上缺乏。 于是张拳石和朱占星老师一起带来了这个可解释性的talk,旨在将关注人工智能可解释性、安全性和可靠性的研究人员、工程师以及行业从业人员聚集在一起。也对对当前可解释人工智能算法的优点和局限性的批判性讨论提供了新的前瞻性研究方向。 大纲如下: 完整ppt和资料地址如下: IJCAI Tutorial on Trustworthiness of Interpretable Machine Learning ​ ijcai20interpretability.github.io 机器学习/深度学习算法/自然语言处理交流群 已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号: HIT_NLP 。加的时候备注一下: 知乎+学校+昵称 (不加备注不会接受同意,望谅解) ,即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。 强烈推荐大家关注 机器学习算法与自然语言处理 账号和

[NLP自然语言处理]谷歌BERT模型深度解析

故事扮演 提交于 2021-01-08 07:25:22
我的机器学习教程 「美团」算法工程师带你入门机器学习 已经开始更新了,欢迎大家订阅~ 任何关于 算法、编程、AI行业知识 或博客内容的问题,可以随时扫码关注 公众号「图灵的猫」 ,加入”学习小组“,沙雕博主在线答疑~此外,公众号内还有更多AI、算法、编程和大数据知识分享,以及免费的SSR节点和学习资料。其他平台(知乎/B站)也是同名「图灵的猫」,不要迷路哦 ​ ​ ​ ​ BERT模型代码已经发布,可以在我的github: NLP-BERT--Python3.6-pytorch 中下载,请记得start哦 目录 一、前言 二、如何理解BERT模型 三、BERT模型解析 论文的核心:详解BERT模型架构 关键创新:预训练任务 实验结果 四、BERT模型的影响 对BERT模型的观点 参考文献 一、前言 最近谷歌搞了个大新闻,公司AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩 ,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。可以预见的是,BERT将为NLP带来里程碑式的改变,也是NLP领域近期最重要的进展。 ​ 谷歌团队的Thang Luong直接定义: BERT模型开启了NLP的新时代! ​

[NLP]Transformer模型解析

一笑奈何 提交于 2021-01-08 06:31:44
简介 [2] Attention Is All You Need 是 2017 年 google 提出来的一篇论文,论文里提出了一个新的模型,叫 Transformer ,这个结构广泛应用于 NLP 各大领域,是目前比较流行的模型。该模型没有选择大热的 RNN/LSTM/GRU 的结构,而是只使用 attention layer 和全连接层就达到了较好的效果,同时解决了 RNN/LSTM/GRU 中的 long dependency problem, 以及传统 RNN 训练并行度以及计算复杂度高的问题。缺点是输入固定长度的序列,需要对原始文本进行裁剪和填充,导致不能学习到序列中更长距离的依赖关系。 Transformer 总体结构 [1] Transformer 采用 Encoder-Decoder 架构。 上图就是论文中提出的 Transformer 结构。其中左半部分是 encoder 右半部分是 decoder. Encoder 层中有 6 个一模一样的层结构,每个层结构包含了两个子层,第一个子层是 多头注意力层 ( Multi-Head Attention, 橙色部分),第二个子层是 前馈连接层 ( Feed Forward ,浅蓝色部分)。除此之外,还有一个残差连接,直接将 input embedding 传给第一个 Add & Norm 层(黄色部分)以及 第一个

3天,让你的C++从入门到精通

亡梦爱人 提交于 2021-01-08 01:46:00
经常有人问我,C++初学阶段有哪些项目可以拿来练手? 我一般都会建议他们尝试去写一个单元测试框架。因为这个项目十分考验我们对C++基础语法的掌握度。 但是自己摸索 容易出错和遗漏 ,所以给大家推荐下面这个训练营: 这个训练营会通过1个单元测试框架项目,帮助大家熟悉宏、函数、指针与地址、链表等知识点,加强对其认知和理解,并 综合 运用到程序设计当中 。 原价 599 元,本号粉丝 0 元即可报名 不过,我只争取来 100 个免费名额 先到先得,赶紧扫码占位 长按3秒 即可扫码 训练营由 ACM金牌得主 、 百度NLP引擎的开发者 ——胡光老师全程直播授课。 计软专业的同学基本都知道ACM竞赛,它是公认最顶级的算法竞赛,被称为『 算法竞赛的奥林匹克 』。 胡光老师早在10年前就拿过ACM亚洲区的金牌,并2次晋级全球总决赛。从硅谷回来后创立了海贼科技,帮助多位学员成功斩获 字节、腾讯、华为 等大厂高薪offer。 为了帮大家省去筛选学习资料的时间,开课吧C++教研团队还为你精心准备了一份学习资料大礼包。 这份学习资料包含了4本经典C++书籍,覆盖C++ 从入门到进阶 的学习需求,都是由多年一线教研经验的老师精挑细选来的。 这些资料总价 399 元,内容涵盖了Linux C程序设计、C++、算法设计等,现在,只要你报名就 免费 送给你。 免费礼包名额有限,仅限 每日的前50名

3天,让你的C++从入门到精通

房东的猫 提交于 2021-01-07 18:48:03
经常有人问我,C++初学阶段有哪些项目可以拿来练手? 我一般都会建议他们尝试去写一个单元测试框架。因为这个项目十分考验我们对C++基础语法的掌握度。 但是自己摸索 容易出错和遗漏 ,所以给大家推荐下面这个训练营: 这个训练营会通过1个单元测试框架项目,帮助大家熟悉宏、函数、指针与地址、链表等知识点,加强对其认知和理解,并 综合运用到程序设计当中 。 原价 599 元,本号粉丝 0 元即可报名 不过,我只争取来 100 个免费名额 先到先得,赶紧扫码占位 长按3秒 即可扫码 训练营由 ACM金牌得主 、 百度NLP引擎的开发者 ——胡光老师全程直播授课。 计软专业的同学基本都知道ACM竞赛,它是公认最顶级的算法竞赛,被称为『 算法竞赛的奥林匹克 』。 胡光老师早在10年前就拿过ACM亚洲区的金牌,并2次晋级全球总决赛。从硅谷回来后创立了海贼科技,帮助多位学员成功斩获 字节、腾讯、华为 等大厂高薪offer。 为了帮大家省去筛选学习资料的时间,开课吧C++教研团队还为你精心准备了一份学习资料大礼包。 这份学习资料包含了4本经典C++书籍,覆盖C++ 从入门到进阶 的学习需求,都是由多年一线教研经验的老师精挑细选来的。 这些资料总价 399 元,内容涵盖了Linux C程序设计、C++、算法设计等,现在,只要你报名就 免费 送给你。 免费礼包名额有限,仅限 每日的前50名

2020年计算机视觉技术最新学习路线总结 (含时间分配建议)

微笑、不失礼 提交于 2021-01-07 08:36:13
点击上方 “ AI算法与图像处理 ”,选择加"星标"或“置顶” 重磅干货,第一时间送达 本文转载自:深度学习与计算机视觉 介绍 如今有大量的资源可以用来学习计算机视觉技术,那我们如何从众多教程中进行选择呢?哪个值得我们去投入时间呢? 如果你也遇到这些问题,那么恭喜你来对地方了。我们通过理解数百种资源来选择值得你花费时间的资源-这就是我们首先推出本文的主要原因之一。 去年,我们广泛地专注于两个技术的学习方法——机器学习和深度学习,但是我们的社区需要更细化的学习路径—— 一个结构化的计算机视觉学习路径 。 这是可以理解的,因为计算机视觉专家的需求和价值在业界遥遥领先。专门研究计算机视觉及其不同方面,你会看到大量招聘人员试图接近你。 我记得当我开始自己的计算机视觉之旅时,我同时参考了多种资源——书籍、文章(当时并不多)、YouTube视频等等。 因此,我很高兴有机会 为你整理这种结构化的计算机视觉学习路径 。在开始学习之前,让我们了解一下为简化你的学习过程而构建的框架。 我们的计算机视觉学习路径框架 每个月都要有其对应的学习结构,这是我们对每个月需要了解的不同方面进行分类的方式: 目标 :这个月你会学到什么?关键要点是什么?你的计算机视觉之旅将如何进行?我们会在每个月初提及此问题,以确保你知道该月底的立场以及所处的位置 建议时间 :你每周平均应在该部分上花费多少时间 学习资源