自然语言处理

Amazon Comprehend now supports multi-label custom classification

匆匆过客 提交于 2020-12-25 11:52:24
https://amazonaws-china.com/blogs/machine-learning/amazon-comprehend-now-supports-multi-label-custom-classification/ Amazon Comprehend is a fully managed natural language processing (NLP) service that enables text analytics to extract insights from the content of documents. Amazon Comprehend supports custom classification and enables you to build custom classifiers that are specific to your requirements, without the need for any ML expertise. Previously, custom classification supported multi-class classification, which is used to assign a single label to your documents from a list of mutually

词袋模型和TF-IDF

空扰寡人 提交于 2020-12-19 15:33:09
作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 机器理解文本的挑战 “语言是一种极好的交流媒介” 你和我很快就会明白那句话。但机器根本无法处理原始形式的文本数据。他们需要我们将文本分解成一种易于机器阅读的数字格式(自然语言处理背后的理念!)。 这就引入“词袋”(BoW)和TF-IDF。BoW和TF-IDF都是帮助我们将文本句子转换为向量的技术。 在这篇文章中,我将讨论“词袋”和TF-IDF。我们将使用一个直观和一般的例子来详细理解每个概念。 示例 我将用一个流行的例子来解释本文中的Bag of Words(BoW)和TF-IDF。 我们都喜欢看电影(不同程度)。在我决定看一部电影之前,我总是先看它的影评。我知道你们很多人也这么做!所以,我在这里用这个例子。 以下是关于某部恐怖电影的评论示例: 点评一:This movie is very scary and long 点评二:This movie is not scary and is slow 点评三:This movie is spooky and good 你可以看到关于这部电影的一些对比评论,以及电影的长度和节奏。想象一下看一千篇这样的评论是多么枯燥。显然,我们可以从中汲取很多有趣的东西,并以此为基础来衡量电影的表现。 然而,正如我们在上面看到的,我们不能简单地把这些句子交给机器学习模型

词袋模型和TF-IDF模型

£可爱£侵袭症+ 提交于 2020-12-19 15:32:55
词袋模型 文本特征提取的两个非常重要的模型: 词集模型:单词构成的集合,即词集中的每个单词都只有一个。 词袋模型:在词集模型的基础上如果一个单词在文档中出现不止一次,统计其出现的次数(频数)。 两者本质上的区别就是词袋模型在词集模型的基础上增加了频率的维度, 词集只关注有和没有,词袋还要关注有几个 。 将单词转化为特征向量 如果需要根据每个文档中的单词数量构建词袋模型,可以使用sklearn中的 CountVectorizer 类。 CountVectorizer以文本数据数组作为输入,其中文本数据可以是个文档仅仅是个句子,返回的就是所要构建的词袋模型。 from sklearn.feature_extraction.text import CountVectorizer count = CountVectorizer() doc = np.array([ 'This is the first document.' , 'This document is the second document.' , 'And this is the third one.' , 'Is this the first document?' ]) bag = count.fit_transform(doc) #{ 'this' : 8 , 'is' : 3 , 'the' : 6 , 'first'

阿里巴巴文娱NLP团队招聘

只谈情不闲聊 提交于 2020-12-19 15:06:41
团队简介 阿里巴巴文娱NLP团队大量招人(P6-P8),我们承接着文娱全部技术线的各类NLP需求,专注研发自然语言分析技术(分类、聚类、情感、问答、关系抽取、知识图谱),为各项顶层业务提供NLP技术支持(知识推断、意图识别、query改写、搜索相关性、全网搜索等)。 我们不断夯实技术进而驱动商业,目标是成为最有价值的商业自然语言处理团队,采用平台化策略服务好阿里内外的各种需求。 阿里巴巴文娱部门NLP算法团队支撑文娱集团整体业务线的NLP需求,专注研发自然语言分析技术(分类、聚类、情感、问答、关系抽取、知识图谱),为各项顶层业务提供NLP技术支撑(知识推断、意图识别、query改写、搜索相关性、全网搜索等)。在不断夯实技术进而驱动商业,成为最有价值的商业自然语言处理团队,采用平台化策略服务阿里内外的各种需求。 坐标 - 杭州 岗位职责 - 运用机器学习、深度学习技术,研发文本分析、知识图谱相关算法,并应用于个性化推荐&搜索; - 改进和研发文本理解、文本生成、主题发现、知识抽取等技术; - 跟踪业界与学界最新进展,并能够快速应用到实际业务中。 岗位要求 - 编程基础扎实,熟练使用至少一种常用编程语言,如 Python / C++ / Java,熟悉 Tensorflow、Keras、Caffe等深度学习工具。 - 熟悉机器学习的基础方法(分类、回归、排序、降维等

2020年,5大顶级数据分析预测

痞子三分冷 提交于 2020-12-18 08:48:58
来源:Pexels “科技进步的速度如此之快,以至于我们无法在新变化出现的同时完全理解它们,”这样的说法并非言过其实。 这既是惊喜,也是惊吓。 如果说2019年,市场营销的某一个领域因为科技发生了翻天覆地的变化,毫无疑问这个领域就是数据分析领域。 商业可以说是一个被数据淹没的领域。 我们挣扎在浩如烟海的数据中,辨别什么信息是重要的、什么信息是不重要的。然而,这一问题还停留在“有就是好”的阶段。但是,对隐私和安全的关注带来了更大的挑战。数据丑闻的发生就像打开了商业领域的潘多拉魔盒,现在每个人都必须面对数据问题。 我们看到的很多关于2020年的趋势预测都围绕着如何应对这些挑战。有些问题与技术相关,有些问题本质上与技术无关。让我们来详细讨论这些问题: 来源:Pexels 1. 增强分析使得数据理解更加容易 2017年,高德纳第一次将增强分析列入其年度新兴技术成熟度曲线报告。在报告中,高德纳将增强分析描述为“数据分析领域的下一波浪潮”。无疑,高德纳一语成真,2019年,增强分析已在数据分析领域成为主流。 对于时间紧张的数据分析及阐释过程,增强分析已被证明可以缓解这一问题。这一技术实质上是专为非技术出身或没有数据科学知识的用户开发的,让他们能够独立开展数据分析。这也免除了数据科学家选择算法的麻烦,他们无需写代码就可以获得数据。 增强分析结合了机器学习和自然语言处理技术

AI助力短视频创作

为君一笑 提交于 2020-12-18 07:37:58
hi,大家好~我是shadow,一枚设计师/全栈工程师/算法研究员,目前主要研究方向是人工智能写作和人工智能设计,当然偶尔也会跨界到人工智能艺术及其他各种AI产品。 文末了解《人工智能Mix》 AI不仅可以帮我们创作文章,做设计,还可以完成短视频创作。本文主要从大数据分析、视频理解、视频创作三个方面介绍AI应用在视频的前沿进展。 - 大数据分析电影 这是来自于Moviescope数据集所介绍的方法,作者探索了多模态电影的特征表示,使用CNN(VGG16)从单个电影的图片帧中提取特征表示(Video Representation - fastVideo),使用词嵌入从文本中提取特征表示( Text Representation - fastText),使用基于谱的特征进行音频表示,然后使用池操作聚合这些特征。对于元数据,使用随机林分类器。 实验结果: - 视频理解 主要是场景检测、自动切割、景深等任务。 - pyscenedetect 开源库 可以用来做视频摘要,自动剪辑之类的。 项目地址: https://pyscenedetect.readthedocs.io/en/latest/examples/usage-example/pyscenedetect.readthedocs.io - AutoFlip 开源库 谷歌开源的 AutoFlip 可以实现自动剪辑,包括视频尺寸裁切

OSChina 周四乱弹 —— 老板砸碎了你的狗粮碗

纵饮孤独 提交于 2020-12-17 01:29:36
Osc乱弹歌单(2020)请戳( 这里 ) 【今日歌曲】 小小编辑:《你叫阿柴对嘛》- CartonVox 《你叫阿柴对嘛》- CartonVox 手机党少年们想听歌,请使劲儿戳( 这里 ) @ 开源中国123456789 :每天5点醒来等着天亮是什么体验? 就是躺着啊, 多幸福呀, 还是天不冷, 要是天冷的话就能一直睡着了。 @ FalconChen :不知道是冬天太冷的缘故,还是昨晚吃的褪黑素还有药效,或者是感冒服用有复方银翘片的副作用,今天一天都昏昏欲睡,晚上看了一会视频就困得不了,澡也不想洗了,只想一头栽进被窝 那就钻进被窝吧, “只要胆子大,沙耶子放产假。” …… 算了胆子小, 还是不睡了。 @ 鱼鱼呀 :失眠就会头痛啊,今天一天好慢啊 我已经决定了, 上班把睡眠补回来。 老板问的话怎么办? 直接告诉她, 睡觉是来解决单位问题的。 @ 一拳超人 :昨天晚上睡觉做梦,想到了昨天写的代码里的2个BUG的问题出在哪里,今天一看果然是,是不是快疯掉了 睡醒了以后, 发现, “老板砸碎了你的狗粮碗。” 碎觉能找个对象不? @ TuringSnowy : #我要征婚交友# 我就试试(⁎⁍̴̛ᴗ⁍̴̛⁎) 要求对象理科成绩好,理论好,数学好。 这是征婚交友么? 还要理科好的。 @ 开源摸鱼人 :我严重怀疑,你是来找人给你做题的 哈哈哈啊哈哈, 你把我想吐槽的都说了。

机器学习和计算机视觉的前20个图像数据集

拈花ヽ惹草 提交于 2020-12-16 12:12:56
计算机视觉使计算机能够理解图像和视频的内容。计算机视觉的目标是使人类视觉系统可以完成的任务自动化。 计算机视觉任务包括图像采集,图像处理和图像分析。图像数据可以采用不同的形式,例如视频序列,从多个角度不同的摄像机查看的图像或来自医疗扫描仪的多维数据。 用于计算机视觉训练的图像数据集 Labelme: 由 MIT 计算机科学和人工智能实验室( CSAIL )创建的大型数据集,包含 187,240 张图像, 62,197 条带注释的图像和 658,992 张带标签的对象。 http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php 乐高积木: 通过文件夹和使用 Blender 渲染的计算机对 16 种不同乐高积木进行分类的大约 12,700 张图像。 https://www.kaggle.com/joosthazelzet/lego-brick-images ImageNet: 用于新算法的实际图像数据集。根据 WordNet 层次结构进行组织,其中层次结构的每个节点都以成千上万的图像进行描绘。 http://image-net.org/ LSUN : 场景理解和许多辅助任务(房间布局估计,显着性预测等) http://lsun.cs.princeton.edu/2016/ MS COCO : COCO

最新综述:多标签学习的新趋势

别说谁变了你拦得住时间么 提交于 2020-12-16 03:26:43
这里给大家带来一篇武大刘威威老师、南理工沈肖波老师和 UTS Ivor W. Tsang 老师合作的 2020 年多标签最新的 Survey,我也有幸参与其中,负责了一部分工作。 论文链接: https://arxiv.org/abs/2011.11197 上半年在知乎上看到有朋友咨询多标签学习是否有新的 Survey,我搜索了一下,发现现有的多标签 Survey 基本在 2014 年之前,主要有以下几篇: 1. Tsoumakas 的《Multi-label classification: An overview》(2007) 2. 周志华老师的《A review on multi-label learning algorithms》(2013) 3. 一篇比较小众的,Gibaja 《Multi‐label learning: a review of the state of the art and ongoing research》2014 时过境迁,从 2012 年起,AI 领域已经发生了翻天覆地的变化,Deep Learning 已经占据绝对的主导地位,我们面对的问题越来越复杂,CV 和 NLP 朝着各自的方向前行。模型越来越强,我们面对的任务的也越来越复杂,其中,我们越来越多地需要考虑高度结构化的输出空间。多标签学习,作为一个传统的机器学习任务,近年来也拥抱变化

机器翻译都发展60年了,谷歌为什么还把「卡顿」翻译成 Fast (上)

一个人想着一个人 提交于 2020-12-15 05:37:04
https://mp.weixin.qq.com/s/WDC4ID_8jurGvY_rlcxrLw 虽然 Google Translate 已经发布了近 15 年了,但直到现在 Google Translate 仍然倔强地认为 Android phone is very fast. 最近 GT 的重大更新是 2016年开始采用神经机器翻译(GNMT)的系统,它包括8个编码器和8个解码器,用于9种语言的翻译。 他们不仅把句子分开,而且还把单词分开,这也是他们如何处理一个罕见单词的做法。当单词不在字典里时,NMT是没有参考的。比如翻译一个字母组 “Vas3k”,在这种情况下,GMNT试图将单词拆分为单词块并恢复它们的翻译。 但依旧无法解释为什么把「卡顿」翻译成「very fast」,而且当这个翻译成为国内工程师们这几天广为传颂的笑料后,Google 引以为傲的众包纠错仍没有成功干预这个错误翻译。 正因为这个小笑话,让我们想要开始研究机器翻译。本篇文章将对机器翻译这六十多年来的发展进行梳理,包括基于规则的机器翻译(RBMT)、基于实例的机器翻译(EBMT)、统计机器翻译(SMT)、神经机器翻译(NMT)等主流方法,以及 Google、Yandex 等厂商的领先算法进行分析。 您正在阅读的正是这篇系列文章的上半部分,《机器翻译的 1933-1984》。 进展缓慢的前四十年