word2vec

词袋模型和TF-IDF

空扰寡人 提交于 2020-12-19 15:33:09
作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 机器理解文本的挑战 “语言是一种极好的交流媒介” 你和我很快就会明白那句话。但机器根本无法处理原始形式的文本数据。他们需要我们将文本分解成一种易于机器阅读的数字格式(自然语言处理背后的理念!)。 这就引入“词袋”(BoW)和TF-IDF。BoW和TF-IDF都是帮助我们将文本句子转换为向量的技术。 在这篇文章中,我将讨论“词袋”和TF-IDF。我们将使用一个直观和一般的例子来详细理解每个概念。 示例 我将用一个流行的例子来解释本文中的Bag of Words(BoW)和TF-IDF。 我们都喜欢看电影(不同程度)。在我决定看一部电影之前,我总是先看它的影评。我知道你们很多人也这么做!所以,我在这里用这个例子。 以下是关于某部恐怖电影的评论示例: 点评一:This movie is very scary and long 点评二:This movie is not scary and is slow 点评三:This movie is spooky and good 你可以看到关于这部电影的一些对比评论,以及电影的长度和节奏。想象一下看一千篇这样的评论是多么枯燥。显然,我们可以从中汲取很多有趣的东西,并以此为基础来衡量电影的表现。 然而,正如我们在上面看到的,我们不能简单地把这些句子交给机器学习模型

【AI in 美团】深度学习在文本领域的应用

大憨熊 提交于 2020-12-18 03:44:34
背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点。而深度学习技术突飞猛进的发展离不开海量数据的积累、计算能力的提升和算法模型的改进。本文主要介绍深度学习技术在文本领域的应用,文本领域大致可分为4个维度:词、句子、篇章、系统级应用。 词。分词方面,从最经典的前后向匹配到条件随机场(Conditional Random Field,CRF)序列标注,到现在Bi-LSTM+CRF模型,已经不需要设计特征,从字粒度就能做到最好的序列标注效果,并且可以推广到文本中序列标注问题上,比如词性标注和专门识别等。 句子。Parser方面,除词粒度介绍的深度学习序列标注外,还可以使用深度学习模型改善Shift-Reduce中间分类判断效果;句子生成方面,可以通过序列到序列(Seq2Seq)模型训练自动的句子生成器,可用于闲聊或者句子改写等场景。 篇章。情感分析方面,可以使用卷积神经网络对输入文本直接建模预测情感标签;阅读理解方面,可以设计具有记忆功能的循环神经网络来做阅读理解,这个也是近年非常热的研究问题。 系统级应用。信息检索方面,把深度学习技术用在文本匹配做相似度计算,可以通过BOW、卷积神经网络或循环神经网络表示再学习匹配关系(如DSSM系列),还有使用DNN做排序模型(如Google的Wide & Deep等,后面会重点介绍)

gensim most_similar with positive and negative, how does it work?

自作多情 提交于 2020-12-15 06:49:10
问题 I was reading this answer That says about Gensim most_similar : it performs vector arithmetic: adding the positive vectors, subtracting the negative, then from that resulting position, listing the known-vectors closest to that angle. But when I tested it, that is not the case. I trained a Word2Vec with Gensim "text8" dataset and tested these two: model.most_similar(positive=['woman', 'king'], negative=['man']) >>> [('queen', 0.7131118178367615), ('prince', 0.6359186768531799),...] model.wv

gensim most_similar with positive and negative, how does it work?

限于喜欢 提交于 2020-12-15 06:47:01
问题 I was reading this answer That says about Gensim most_similar : it performs vector arithmetic: adding the positive vectors, subtracting the negative, then from that resulting position, listing the known-vectors closest to that angle. But when I tested it, that is not the case. I trained a Word2Vec with Gensim "text8" dataset and tested these two: model.most_similar(positive=['woman', 'king'], negative=['man']) >>> [('queen', 0.7131118178367615), ('prince', 0.6359186768531799),...] model.wv

综述 | 知识图谱技术综述(上)

百般思念 提交于 2020-12-06 18:32:47
题目:知识图谱技术综述 作者:徐增林,盛泳潘,贺丽荣,王雅芳 摘 要 知识图谱技术 是人工智能技术的重要组成部分,其建立的具有 语义处理 能力与 开放互联 能力的 知识库 ,可在 智能搜索、智能问答、个性化推荐 等智能信息服务中产生应用价值。 该文在全面阐述知识图谱定义、架构的基础上,综述知识图谱中的 知识抽取、知识表示、知识融合、知识推理 四大核心技术 的研究进展以及一些典型应用。该文还将评论当前研究存在的挑战。 关 键 词: 知识融合; 知识图谱技术; 知识表示; 开放互联; 语义处理 目录 0 导 读 1 知识图谱的定义与架构 1.1 知识图谱的定义 1.2 知识图谱的架构 2 大规模知识库 2.1 开放链接知识库 2.2 垂直行业知识库 3 知识图谱的关键技术 3.1 知识抽取 3.2 知识 表示 3.3 知识融合 3.4 知识推理 4 知识图谱的典型应用 4.1 智能搜索 4.2 深度问答 4.3 社交网络 4.4 垂直行业应用 5 知识图谱的挑战 5.1 知识获取 5.2 知识表示 5.3 知识融合 5.4 知识应用 6 结束语 7 参考文献 0.导读 人类先后经历了以文档互联为主要特征的“ Web 1.0 ”时代与数据互联为特征的“ Web 2.0 ”时代,正在迈向基于知识互联的崭新“ Web 3.0 ”时代 [1] 。 知识图谱 (knowledge graph)

2020腾讯广告算法大赛:高分进阶

巧了我就是萌 提交于 2020-12-05 04:23:10
写在前面 最近腾讯赛分享成为“Coggle数据科学”的主推文章,从筹备竞赛到逐步上分之路的分享,助力大家取得优异成绩。当然,这也将延续到大赛结束。持续关注Coggle, 大家一起学起来~ 上回说到如何晋升到尊贵白金,发现很多同学在这个阶段遇到很多问题,在开启新的征程前,我们一起先来看看可能遇到的问题。 1. TF-IDF细节 第一个是内存问题,这里可以对参数做些调整,比如max_features=100000,最后仅选出100000列。 第二个是tfidf的id类特征选择,凡是id类的都可以进行tfidf,我连time都加进去了。 2. 五折交叉统计 这里可以考虑将年龄和性别进行one-hot,然后统计每一个类别的概率,主键可以是任意id类特征,当然也可以进行交叉组合后的id特征。 在本文中,Coggle的目标是带领大家突破1.42分,同时对于1.42之后的提升,比如1.43,或者1.43+,也会给出更多建议和思考方向。 每个分数阶段都有不同的知识点需要去学习,在这次历程中,我们一起探寻永恒钻石和至尊星耀的上分之路。 永恒钻石 分数达到1.41,更多特征工程技巧,后处理方法 梳理下我们还有哪些特征可以加的,我想到的其实并不多,对于有效的特征会进行一系列的扩展,比如提取用户行为序列中 creative_id 的向量表示,可以使用不同的embedding方式,基本的word2vec

算法岗面试整理 | 腾讯、字节、美团、阿里

旧街凉风 提交于 2020-11-26 15:05:08
作者 | 阿毛冲冲冲 来源 | 牛客网,见『阅读原文』处 整理 | NewBeeNLP,本文仅供学术交流,如有侵权,请留言联系小编处理。 面试锦囊之面经分享系列,持续更新中 欢迎后台回复" 面试 "加入讨论组交流噢 文 末 也有内推,需要的同学自取哈 写在前面 三月面试了好几轮,写个帖子记录一下问过的问题,为接下来的其他公司的面试查漏补缺一下,也给大家一些准备的方向。 腾讯 一面(凉) 自我介绍 问做过的项目,同时在过程中穿插用过的模型的问题,比如 word2vec两个模型的损失函数是什么 cbow和skipgram的比较,为什么skipgram会更好,哪个的计算复杂度高 为什么使用随机森林 决策树的分裂方式是什么,根据什么变量来决定分裂变量 手撕代码 给一个数N,k,每一轮可以进行两种操作的其中一种:①所有的数拆分成两个更小的数;②所有的数-1。已知拆分操作只能进行k次,问 最少需要多少次把所有数都消去 给一串数列,这串数列有正有负,但是总和为0。每个数xi代表一个村庄,正的表示村庄想卖出xi份水果,负的表示想买入xi份水果。两相邻村庄间的距离是相同的,单位距离运送一份水果的运费均相同,每份都是k。问,把每个村庄的需求和供给都解决掉需要的最少运送费是多少? 这是第一次面试,凉得很彻底,因为很多算法细节都没有好好复习,而且代码写的也不够整洁快速 字节tiktok海外版(南亚组?)

算法岗面试整理 | 腾讯、字节、美团、阿里

南楼画角 提交于 2020-11-26 14:46:54
(给 机器学习算法与Python实战 加星标,提升AI技能) 文末赠书福利 作者 | 阿毛冲冲冲 来源 | 牛客网,见『阅读原文』处 整理 | NewBeeNLP,本文仅供学术交流,如有侵权,请留言联系 写在前面 三月面试了好几轮,写个帖子记录一下问过的问题,为接下来的其他公司的面试查漏补缺一下,也给大家一些准备的方向。 腾讯 一面(凉) 自我介绍 问做过的项目,同时在过程中穿插用过的模型的问题,比如 word2vec两个模型的损失函数是什么 cbow和skipgram的比较,为什么skipgram会更好,哪个的计算复杂度高 为什么使用随机森林 决策树的分裂方式是什么,根据什么变量来决定分裂变量 手撕代码 给一个数N,k,每一轮可以进行两种操作的其中一种:①所有的数拆分成两个更小的数;②所有的数-1。已知拆分操作只能进行k次,问 最少需要多少次把所有数都消去 给一串数列,这串数列有正有负,但是总和为0。每个数xi代表一个村庄,正的表示村庄想卖出xi份水果,负的表示想买入xi份水果。两相邻村庄间的距离是相同的,单位距离运送一份水果的运费均相同,每份都是k。问,把每个村庄的需求和供给都解决掉需要的最少运送费是多少? 这是第一次面试,凉得很彻底,因为很多算法细节都没有好好复习,而且代码写的也不够整洁快速 字节tiktok海外版(南亚组?) 一面 一个很年轻的小哥哥,人也很好

面试了8家公司,他们问了我这些机器学习题目......

淺唱寂寞╮ 提交于 2020-11-26 13:57:02
翻译 | 王柯凝 出品|人工智能头条(公众号ID: AI_Thinker ) 【 导读 】 今年年初以来,作者一直在印度找数据科学、机器学习以及深度学习领域的工作。在找工作的这三十四天里,他面试了8到10家公司,其中也包括初创公司、基于服务的公司以及基于产品的公司。作者希望他的面试经验能够为求职者提供一些有用的信息,因而撰写了此文。希望你读后能够有所收获! 首先自我介绍一下: 我在机器学习(语音分析、文本分析和图像分析领域应用)领域有4年以上的从业经验。总的来说,我认为这个领域的大多数工作职位主要包括文本分析(自然语言处理)和图像分析(计算机视觉)。很少有公司招聘语音或音频分析的人才。我现在的目标是应聘一个中高级职位,可以带领一个深度学习或机器学习团队做一些有趣的项目。 下面是我在应聘过程中被问到的问题,希望能够对你有所帮助。 ▌ 公司一:基于全球性服务的某公司(面试时长:20-25min) 你在简历中提到曾经构建过一个文档挖掘系统,你都做了哪些工作?能否在主题建模(topic modeling)中使用LDA技术实现文档聚类? 假设你有数百兆字节的数据文件,这其中包括PDF文件、文本文件、图像、扫描的PDF文件等等,请你给出一个分类方案。 你如何阅读扫描版pdf文件或图像格式的书面文件的内容? 朴素贝叶斯为什么被称为“朴素”? 请详细介绍一下朴素贝叶斯分类器。 什么是深度学习

推荐算法注意点和DeepFM工程化实现

*爱你&永不变心* 提交于 2020-11-15 11:31:18
©PaperWeekly 原创 · 作者|贲忠奇 学校|混沌大学推荐算法工程师 研究方向|推荐算法、反作弊 缘起 今年疫情期间开始优化公司的推荐系统,因为 DeepFM 具有使用线性特征、低阶交叉特征和高阶特征的优点,决定采用此算法试试能否提高线下的 auc 和线上的 CTR 预估。 DeepFM 算法介绍详见 [1],在 DeepFM 工程化的时候,遇到了特征稀疏、一列多值和共享权重的情况,主要参考石塔西的实现。那我为什么要继续炒冷饭呢?因为石塔西实现的 TensorFlow 框架用的是高阶 api,显得灵活性低一些。 主要存在两个问题,在实际过程中,无法保存 auc 最优的模型,early stopping 也不能保证停在效果最好的阶段;在线上预测阶段是不能按照文件的方式去读取。主要是针对以上两个问题,进行改造,实现了工程化上线。 效果方面:点击率 PV 提升了 2.67%;点击率 UV 提升了 3.64%;平均点击数提升了 4.53%。推荐系统实际工程中需要注意样本、特征、算法等方方面面的问题,下面开始介绍整个项目。 项目背景 混沌大学 APP(以下简称 APP)是一个提供哲科思维和创新商业的课程在线学习软件,在线视频学习是 APP 提供的最重要的业务功能。APP 内提供上百门十几分钟至几小时不等的长视频课程,为了用户更快的发现合适自己的课程,以及拥有更好的学习体验,APP