自然语言处理

我在干什么?

送分小仙女□ 提交于 2021-01-01 06:46:23
  【本文内容技术含量极低】。但我的哲学是,与其在非技术区写有点技术的博客,何不在技术区写没什么技术的博客呢?   回顾我记录下来的目标,可谓是天花乱坠,这就是我作为空想家(而不仅是自谦为“空想者”)的基本素质。我来整理一下(无序):1.写一部小说(原因1是对人性论点的不满,原因2是希望情感可以被机械模拟,原因3是觉得因此自动生成情节是有可能的,原因4是想整合多年的碎片构思);2.做一部动画(原因1同上几点,原因2是觉得与其建模,不如让机器脑补作画,理论上可以大幅减少运算步骤,并且不止是智能PS那么“简单”);3.写一套编程教材(原因1:学的时候看不懂;原因2:希望找到快速学习方法;原因3:前一条原因引出了“知识是什么”,包括知识表示和分析,和专家系统沾边了;原因4:因此生成教程是可能的,直接由知识的结构生成书,虽然牵扯到接受知识的过程);4.写一本哲学书(1:对常见哲学问题回答的不满;2.希望对零碎之物能有系统分析);5.翻译文档(1.知识表示的范本;2.自然语言之特定领域的分析范本);6.做一个pdf阅读器,加上弹幕和互动功能(1:注释立体化,2:分布式教育和学习,3:时间作品,能看到思维痕迹);7.3d网络课堂(和游戏区别不大,但是我觉得有意义,至少和一般的网课相比);8.ACG自动翻译软件(1:主流翻译器那个复杂啊,我又不怎么玩;2.可以改造成学外语软件);9.开发一个游戏

为什么算法专家都建议学习C++?

早过忘川 提交于 2020-12-31 01:18:57
在TIOBE指数发布的编程语言排行榜中,C++一直都是名列前茅。并且自2002年至今,不管时代如何发展,C++的排名连续18年稳定在前五。 各大编程语言的历史排名(1988-2020) 这也意味着,尽管不断受到Java、Python等后来者的冲击,至今已经30多岁的C++仍具有不可替代的地位。作为软件工业的底层基础,它的应用无处不在: 服务器、嵌入式、物联网、移动互联网、信息安全、游戏引擎、人工智能…… 还有人说,C++是一门“ 万能 ”的编程语言。因为,但凡能用其他语言写的程序,都可以用C++来写。由于它的知识体系更接近系统底层,C++基础好的人学习新的语言时上手更快、学得更深入。 不过,尽管C++的优势和魅力都摆在那了,真正学习深耕这一门语言的人却并不多,每年市场上的C++ 人才缺口高达10万 ,并且这一数字还在逐年上升。 这主要是因为C++的学习难度在各大编程语言里面算中等偏上的,很多人一听到C++难就望而退步,学过一些基础的人也是浅尝辄止。 殊不知,C++的学习是很看重方法的。难点不在于各种各样的语法知识,而在于如何掌握语言实现背后的原理,例如 运行环境、操作系统、网络知识、算法数据思维 等。 针对不少人认为C++难学、学不会、学不懂的问题,开课吧的教研团队联合ACM金牌得主胡船长打造了一个 《C++难点突破训练营》 。 旨在帮助对C+

为什么算法专家都建议学好C++?

点点圈 提交于 2020-12-30 16:52:53
C++一直被称作永不过时的开发语言,比如游戏、服务器、人工智能等领域都必须用到C++! 虽然网上有很多教程和资料,但仍有很多人说C++难学,究其原因是没有找到正确的学习方法! GoogleTest框架一直广泛应用于C/C++项目测试 ,是一个非常重要的测试软件。 它的开发过程几乎覆盖C++核心知识和C++项目开发经常遇到的问题,是新手锻炼C++开发能力最好的项目之一! 因此,今天就给大家分享1个《C++难点突破训练营》! 这个训练营,老师会带你使用C++实现快速排序算法,深刻理解C++编程思想。 而且会重点带你经历,从GoogleTest实现原理到构建项目的全流程,让你能够从0到1独立开发一个C++项目,快速提升项目能力! 特训营老师胡船长是我一直非常敬重的大神,他早在10年前就获得了ACM亚洲区金牌,并2次晋级全球总决赛。 此后任职百度知识图谱部,推动开发百度NLP推理引擎开发。 他也会从自己在百度多年的面试角度出发,讲解大厂面试的核心关键点,教你如何准备大厂面试,拿下高薪offer! 特训营原价 599 元,靠着关系搞到 100 个免费名额, 0 元即可入学!只要你是统招本科及以上学历,就可以抢占! 长按3秒 即可扫码 你现在长按识别上方二维码或点击阅读原文,即可直接抢占 0 元免费名额。 来源: oschina 链接: https://my.oschina.net/u

Python图像处理之小波去噪

流过昼夜 提交于 2020-12-29 14:04:42
在此前的文章【1】中,我们讨论了在Python中利用pywt包提供的API对图像做小波分解的基本方法。小波变换在图像处理中的一个具体应用就是平滑去噪。后续我们还会从原理上讨论如何利用小波变换来设计图像去噪算法。但在此之前,作为铺垫,本文将主要演示,利用Python中已有的API进行图像小波去噪的方法及效果。如果你对小波变换的基本原理还不是很清楚,请参考我已经出版的《图像处理中的数学修炼》(清华大学出版社)或《数字图像处理:原理与实践》(电子工业出版社)等书籍。在后续解释如何利用小波变换设计图像去噪算法时,这些基础知识将是必须的。 欢迎关注白马负金羁的博客 http://blog.csdn.net/baimafujinji ,鉴于目前网上盗贴、洗稿等现象严重,为保证公式、图表得以正确显示,强烈建议你从该地址上查看原版博文。本博客主要关注方向包括:数字图像处理、算法设计与分析、数据结构、机器学习、数据挖掘、统计分析方法、自然语言处理。 此前,在【2】中我们曾介绍过,Python图像处理常用的包有三个,(截止本文写作之时)其中已经内置了小波去噪函数的是scikit-image(或缩写成skimage)。小波去噪与傅里叶变换去噪、离散余弦变换等都是基于频域的去噪方法。JPEG图像编码中使用的就是基于离散余弦变换的有损压缩方式。参考《图像处理中的数学修炼(第2版)》中的第7章,在通常情况下

3种Python数据结构,13种创建方法,这个总结,超赞!

爱⌒轻易说出口 提交于 2020-12-28 03:14:26
点击上方 蓝字 关注我们 点击上方“ 印象python ”,选择“ 星标 ”公众号 重磅干货,第一时间送达! Python常用的 数据结构,有如下几种。 但是我们用的最多的,还是字符串、列表、字典这3种。 其实学习任何一门编程语言,最基础的就是学习它的数据结构。 拿Python来说,数据结构的概念也是超级重要,不同的数据结构,有着不同的函数,供我们调用。 接下来,我们分别来介绍字符串、列表、字典的创建方法。 01 字符串的3种创建方式 ① 单引号(‘ ’),创建字符串 a = 'I am a student' print(a) 结果如下: 👇 👇 👇 ② 双引号(“ ”),创建字符串 b = "I am a teacher" print(b) 结 果如下: 👇 👇 👇 ③ 续3个单引号或者3个单引号,创建多行字符串 c = ''' I am a student My name is黄伟 I am a teacher My name is陈丽 ''' print(c) 结果如下: 👇 👇 👇 02 列表的5种创建方式 ① 用[]创建列表 a = [1,2,3] print(a) 结果如下: 👇 👇 👇 ② 用list创建列表 b = list('abc') print(b) c = list((1,2,3)) print(c) d = list({"aa":1,"bb":3})

Python学习路线规划,入门自学到精通书籍

*爱你&永不变心* 提交于 2020-12-27 01:01:28
许多人想要零编程基础自学Python,虽然过程很艰难,但需要掌握正确的方向和方法,才能一步步走得更好,学得更快。高效学习是每个人的必须掌握的技巧,建立属于自己的知识体系才能事半功倍,那么该如何规划学习。 Python是当前全球的主流编程语言之一,基于其简洁的语法结构,可以让开发者用更少的代码完成很多复杂的效果开发。诞生近30年来,很多我们耳熟能详的产品都是基于Python开发出来的,国内的豆瓣、知乎和果壳网都是基于Python开发的,而Youtube、Dropbox和Reddit也是诞生于Python的框架之下。 1、先学习一些编程的概念,弄懂编程是怎么回事,然后再了解主流编程语言的应用场景; 2、选择一个方向,如前端、后端、数据等,如果比较迷茫,可以先凭兴趣任选,后续再决定发展方向; 3、选择一门语言,注意并不一定要按照方向来选择,具体可参见下一个问题的解答; 4、寻找合适的教材,这里建议是书籍,看视频的转化率太低,而且很容易进入眼高手低的误区中; 5、学习过程中用笔记或思维导图将知识点全部记录下来,这样你有了自己的转化输入,会加深理解; 6、每学完一小节,立即打开 IDE 把课程代码敲出来,可以仿写或抄写都没关系,但不要逐字抄,不然就是练打字了,先凭印象写,不会的再瞄一眼; 7、每学完一章节,比如函数部分学完了,去网上找例题,比如中国 Mooc 里的编程课程,每节最后都有例题

浅谈分词算法(1)分词中的基本问题

耗尽温柔 提交于 2020-12-27 00:24:44
[TOC] #前言 分词或说切词是自然语言处理中一个经典且基础的问题,在平时的工作中也反复的接触到分词问题,用到了不同的模型,不同的方法应用在各个领域中,所以想对分词问题做一个系统的梳理。大多数分词问题主要是针对类似汉语、韩语、日语等,词语之间并没有天然的分割,而像英语等,句子中是带有天然的分割的。但是英语也会涉及到分词问题,比如实体识别、词性标注等内容。而本系列文章更多的是讨论汉语中的分词问题,首先我们从分词问题的基本出发,之后从传统的词典分词到将分词转为序列标注问题的分词,以及最新的结合深度学习的分词,基本按照时间顺序对分词模型可能用到的算法模型进行一步步尝试与介绍,所有代码我会放在自己的github上: xlturing 。 #目录 浅谈分词算法(1)分词中的基本问题 浅谈分词算法(2)基于词典的分词方法 浅谈分词算法(3)基于字的分词方法(HMM) 浅谈分词算法(4)基于字的分词方法(CRF) 浅谈分词算法(5)基于字的分词方法(LSTM) #分词中的基本问题 简单的讲,汉语自动分词就是让计算机在汉语文本中的词与词之间自动加上空格或其他边界标记。分词中涉及到三个基本问题:分词规范、歧义切分和未登录词的识别。 ##分词规范 我们从小学习汉语开始,基本顺序就是汉字->词语->句子->段落->篇章,而其中词是什么,什么是词语,这个问题看似有些莫名其妙

AI工程师计划明年跳槽,我劝你先来学习这些,不然……

淺唱寂寞╮ 提交于 2020-12-26 00:55:06
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。 搞AI,不少人都进入一个误区,那就是只钻研自己的代码是否精进,而没有注意提升自己的阅读能力。实际上,一个专业的学术研究员或者AI研究员可能需要花费几百个小时来阅读论文, 阅读论文可以帮助你深入原理,理解AI更前沿的发展状态,掌握更前沿的技术热点 。 高效的阅读论文,是一种必不可少的经验和技能。 可很多人在阅读的过程中 只是从头读到尾,有的时候浪费了大量的时间还不知道作者到底说了什么 。或许你可以尝试从这几个方向入手: 1、对论文的主题以及核心内容进行了解和分析; 2、了解论文的核心思想; 3、深入理解论文、尝试复现。 还有一些朋友自己找文章、论文的时候, 往往可能不会找、找不全,有些论文需要付费下载 ,并且这样很影响自己的学习效率。 不要担心,我们为你整理了【人工智能全阶段论文资料大礼包】, 涵盖了人工智能、机器学习、自然语言处理(NLP)、计算机视觉(CV)、商业智能(BI)、Python全栈等,全AI论文体系 。 无论你是机器学习工程师,还是CV工程师、NLP工程师、数据分析师、Python全栈工程师,本资料都可以满足你的论文需求。 《史上最全论文体系》 长按下方二维码 获取完整版本免费资料 👇👇👇 论文涵盖体系全面 大型AI界论文资源集合现场不要错过 人工智能全阶段论文 包含人工智能与机器学习

无情!「自然语言处理(NLP)」统一预训练UniLM模型(NLU+NLG)

五迷三道 提交于 2020-12-25 18:12:50
喜欢我们,点击上方 AINLPer ,关注一下,极品干货即刻送达! 本文主要参考: https://zhuanlan.zhihu.com/p/96020318 引言 本文提出了一种新的统一的预训练语言模型(UNILM),该模型不仅可用于自然语言理解(NLU),还可以用于生成任务( (NLG ) )。 该模型使用三种类型的语言建模(单向模型、双向模型、序列到序列预测模型)进行预训练。 通过使用一个共享的Transform网络,利用特定的自注意掩模来控制预测条件的上下文,从而实现了统一的建模。 本文概要 1 First Blood 2 Aced 3 Attention 正文开始 1 First Blood TILE: ( NeurIPS-19 )Unified Language Model Pre-training for Natural Language Understanding and Generation. Contributor : 微软研究院 Paper: https://arxiv.org/pdf/1905.03197.pdf Code: https://github.com/microsoft/unilm 文章摘要 本文提出了一种新的统一的预训练语言模型(UNILM),该模型不仅可用于自然语言理解,还可以用于生成任务。该模型使用三种类型的语言建模(单向模型、双向模型

三度蝉联AI Cloud市场第一,百度智能云的奇兵和阳谋

独自空忆成欢 提交于 2020-12-25 14:19:53
云智一体的融合能力 是 让AI作为一种通用能力走进千行百业的基石,也是百度智能云战略能 力的来源。 撰文 / Alter 编辑 / 胖爷 全球知名咨询机构IDC在刚刚发布的《中国人工智能云服务市场研究报告》中,向外界披露了三个核心信息: 1、百度智能云以27.5%的市场份额排名第一,也是百度智能云连续三次在AI Cloud市场中排名第一; 2、百度智能云、阿里云、腾讯云和华为云组成的头部梯队,拿走了AI Cloud市场超过90%的市场份额; 3、2020年上半年AI Cloud的市场规模为10.94亿元,较于2019年11.6亿元,正在以近100%的速度增长。 按照一般的市场规律,每当行业中的巨头们“统一行动”的时候,往往预示着新的拐点已经出现。透过AI Cloud市场的主要参与者,以及凶猛的市场增速来看,在云计算的赛场上,AI能力已经是下一赛段的胜负手。 01 告别割裂,云智一体 人工智能和云计算的融合,早已是不可逆的趋势。 早在2016年的时候,市场调研机构埃森哲就曾在一份人工智能报告中,将AI技术理解为一种新的生产力要素,指出AI技术可以通过智能自动化提升生产者能力和效率,并促进各行各业生产力水平的提升。 另一家市场调研机构Tratica也在同一时间预测,2016年到2025年的十年中,关于AI的直接和间接应用将迎来大爆发