fasttext

FastText using pre-trained word vector for text classification

只谈情不闲聊 提交于 2019-12-05 03:08:51
I am working on a text classification problem, that is, given some text, I need to assign to it certain given labels. I have tried using fast-text library by Facebook, which has two utilities of interest to me: A) Word Vectors with pre-trained models B) Text Classification utilities However, it seems that these are completely independent tools as I have been unable to find any tutorials that merge these two utilities. What I want is to be able to classify some text, by taking advantage of the pre-trained models of the Word-Vectors. Is there any way to do this? FastText's native classification

How does the Gensim Fasttext pre-trained model get vectors for out-of-vocabulary words?

一个人想着一个人 提交于 2019-12-04 23:57:05
问题 I am using gensim to load pre-trained fasttext model. I downloaded the English wikipedia trained model from fasttext website. here is the code I wrote to load the pre-trained model: from gensim.models import FastText as ft model=ft.load_fasttext_format("wiki.en.bin") I try to check if the following phrase exists in the vocal(which rare chance it would as these are pre-trained model). print("internal executive" in model.wv.vocab) print("internal executive" in model.wv) False True So the phrase

fasttext简介

风流意气都作罢 提交于 2019-12-04 21:01:23
fasttext的基础理论 前言简介 fasttext是NLP里,一个非常高效的,基于词向量化的,用于文本分类的模型。虽然其原理比较简单,但是其中涉及到了不少的用于提速和准确率的小技巧。 这篇文章主要从理论的层面(一直想有时间去扒源码来看看来着)介绍这些小技巧,而对于和word2vec部分中类似的地方会简单提到,但是不会展开说明(这个作者先提出的word2vec,后来提出的fasttext,二者有不少相似之处)Word2vec的相关内容参考peghoty所写的 word2vector中的数学原理详解.pdf [1]。 当然本文做的介绍不可能面面俱到,而且很多地方也可能理解不准确,希望大家不吝赐教。 正文 fasttext和word2vec中的CBOW非常类似,对于每一个文本而言,第一步是将所有单词向量化后作为输入;第二步是将输入的所有向量在隐藏层进行平均化处理得到新的向量;第三步输出预测值。接下来我们分别对这三部进行具体的解释。 第一步:输入 在word2vec中,它的输入就是单纯的把词袋向量化。但是在fasttext还加入了n-grams的思想。举个例子“我 喜欢 她“,如果只用这几个词的组合来反映这个句子,就是(”我”,”喜欢”,”她”),问题来了,句子“她 喜欢 我”的词的组合也是(”我”,”喜欢”,”她”),但这两个句子的意思完全不同

precision and recall in fastText?

我的梦境 提交于 2019-12-04 13:00:04
I implement the fastText for text classification, link https://github.com/facebookresearch/fastText/blob/master/tutorials/supervised-learning.md I was wondering what's the precision@1, or P@5 means? I did a binary classification, but I tested different number, I don't understand results: haos-mbp:fastText hao$ ./fasttext test trainmodel.bin train.valid 2 N 312 P@2 0.5 R@2 1 Number of examples: 312 haos-mbp:fastText hao$ ./fasttext test trainmodel.bin train.valid 1 N 312 P@1 0.712 R@1 0.712 Number of examples: 312 haos-mbp:fastText hao$ ./fasttext test trainmodel.bin train.valid 3 N 312 P@3 0

适用于NLP自然语言处理的Python:使用Facebook FastText库

这一生的挚爱 提交于 2019-12-04 07:16:22
原文链接: http://tecdat.cn/?p=8572 在本文中,我们将研究 FastText ,它是用于单词嵌入和文本分类的另一个极其有用的模块。 在本文中,我们将简要探讨FastText库。本文分为两个部分。在第一部分中,我们将看到FastText库如何创建向量表示形式,该向量表示形式可用于查找单词之间的语义相似性。在第二部分中,我们将看到FastText库在文本分类中的应用。 语义相似性的FastText FastText支持 词袋和Skip-Gram模型 。在本文中,我们将实现skip-gram模型,由于这些主题非常相似,因此我们选择这些主题以拥有大量数据来创建语料库。您可以根据需要添加更多类似性质的主题。 第一步,我们需要导入所需的库。 $ pip install wikipedia 导入库 以下脚本将所需的库导入我们的应用程序: from keras.preprocessing.text import Tokenizer from gensim.models.fasttext import FastText import numpy as np import matplotlib.pyplot as plt import nltk from string import punctuation from nltk.corpus import stopwords

分类算法(二)―― FastText

匿名 (未验证) 提交于 2019-12-03 00:22:01
原理介绍 fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。 fastText的架构和word2vec中的CBOW的架构类似,因为它们的作者都是Facebook的科学家Tomas Mikolov,而且确实fastText也算是words2vec所衍生出来的。 安装 重点说问题,上代码。 解决方法 代码示例 训练数据和测试数据来自网盘: https://pan.baidu.com/s/1jH7wyOY https://pan.baidu.com/s/1slGlPgx 参考链接: https://blog.csdn.net/john_bh/article/details/79268850 https://blog.csdn.net/grafx/article/details/78697881 https://blog.csdn.net/yick_liao/article/details/62222153 https://blog.csdn.net/sinat_26917383/article/details/54850933 https://blog.csdn.net/lxg0807/article/details/52960072 文章来源

fasttext 在 windows 7上的使用

匿名 (未验证) 提交于 2019-12-03 00:22:01
最近要用到 fasttext , 但是翻遍了国内外的blog也没有说清楚要怎么在windows上面使用【哭】,只好自己动手了。 因为 fasttext 是不支持 Windows 系统的,但是有 release 可以使用,网站如下: fasttext在Windows上使用 fasttext 如果直接在 windows 上用 pip install fasttext 是可以下载成功的,也可以生成 model.bin文件,不过在调用 result.recall 等命令时会是 nan,所以是没有什么用的【哭】 好了,步骤如下: 一、 点击下载 因为我不会用他的 .exe 文件,所以只能用 source code 文件了(会用的朋友麻烦告诉我一声,万分感谢) 注意:要求 visual studio 2017 二、解压后在该文件下打开 cmd, 输入 pip setup.py install 没什么意外的话可以看到关于编译成功等的字眼,其实是安装了一个名为 fastText 的包在python包的路径下,与 fasttext 的调用和功能稍有不同。 三、调用例子如下 import fastText.FastText as ff classifier = ff.train_supervised("data/try_fasttext_train.txt") 就可以看到 想要存下 model 或

fastText的使用

匿名 (未验证) 提交于 2019-12-03 00:18:01
Learning a text classifier using fastText Text classification is a core problem to many applications, like spam detection, sentiment analysis or smart replies. In this tutorial, we describe how to build a text classifier with the fastText tool. What is text classification? The goal of text classification is to assign documents (such as emails, posts, text messages, product reviews, etc…) to one or multiple categories. Such categories can be review scores, spam v.s. non-spam, or the language in which the document was typed. Nowadays, the dominant approach to build such classifiers is machine

win7 python3.6安装fasttext

匿名 (未验证) 提交于 2019-12-02 22:51:30
对应的链接是: https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext 里面有Python的各种第三方安装包。 因为当前笔记本配置为win7(64bit) + py3.6.2,所以选择了fasttext-0.8.3-cp36-cp36m-win_amd64.whl Python如何安装.whl 文件? cmd进入当whl文件所在的文件夹下,然后 Pip install fasttext-0.8.3-cp36-cp36m-win_amd64.whl 一定要用pip安装,不要使用anaconda自带的conda 关于anaconda下使用pip,直接把Anaconda3\Scripts下的pip.exe拖到cmd里就是pip执行了 另外安装过程中遇到vc is required,最好直接安装高版本的vs包含C++的,我装的是vs2015 遇到link.exe failed with exit statues....,需要安装lxml包 文章来源: win7 python3.6安装fasttext

fine tuning pre-trained word2vec Google News

安稳与你 提交于 2019-12-01 09:23:03
问题 I am currently using the Word2Vec model trained on Google News Corpus (from here) Since this is trained on news only until 2013, I need to updated the vectors and also add new words in the vocabulary based on the news coming after 2013. Suppose I have a new corpus of news after 2013. Can I re-train or fine tune or update the Google News Word2Vec model? Can it be done using Gensim? Can it be done using FastText? 回答1: You can have a look at this: https://github.com/facebookresearch/fastText