


fastText Python官方GitHub文件夹网址:fastText/python at main facebookresearch/fastText 本文介绍fastText Python包的基本教程,包含装置方法和简单的运用方法。

本文所运用的示例中文文本分类数据来自raw.githubusercontent.com/SophonPlus/…。除文中所做的作业外,还能够做停用词处理等其他作业。 其他fasttext Python示例代码可参阅:fastText/python/doc/examples at master facebookresearch/fastText


1. 装置fastText


numpy我是在装置PyTorch的时分,顺带着装置的。我运用的命令行是conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch。独自装置numpy能够参阅运用conda install numpy。 装置SciPy:conda install scipypip install scipy 装置pybind11,参阅官方文档:Installing the library — pybind11 documentation:conda install -c conda-forge pybind11pip install pybind11

装置完前置包之后,装置fastText:pip install fasttext

2. 练习和调用词向量模型

曾经我用gensim做过。以后能够比较一下两个包的不同之处。 此外fasttext词向量论文中用的baseline是谷歌官方的word2vec包:Google Code Archive – Long-term storage for Google Code Project Hosting.

2.1 代码完成

官方具体教程:Word representations fastText(运用的是英文维基百科的语料,本文的试验用的是中文语料)


import csv,jieba
with open('data/cls/ChnSentiCorp_htl_all.csv') as f:
    header = next(reader)  #表头
    data = [[int(row[0]),row[1]] for row in reader]  #每个元素是一个由字符串组成的列表,榜首个元素是标签(01),第二个元素是谈论文本。
with open(tofiledir+'/corpus.txt','w') as f:
    f.writelines([' '.join(jieba.cut(row[1]))+'\n' for row in data])


fastText Python 教程


import fasttext
model=fasttext.train_unsupervised('data/cls/corpus.txt',model='skipgram')  #model入参能够更换为`cbow`
print(model.words[:10])  #打印前10个单词
print(model[model.words[9]])  #打印第10个单词的词向量



查看词向量的作用:搜索其最近邻居(nearest neighbor (nn)),给出向量捕获语义信息的直觉观感(在教程中英文拼错了也能用,可是中文这咋试,算了) (向量间隔用余弦相似度核算得到)


输出:[(0.804237425327301, '小房间'), (0.7725597023963928, '房屋'), (0.7687026858329773, '尽头'), (0.7665393352508545, '榜首间'), (0.7633816599845886, '但床'), (0.7551409006118774, '成旧'), (0.7520463466644287, '屋子里'), (0.750516414642334, '压抑'), (0.7492958903312683, '油漆味'), (0.7476236820220947, '知')]

word analogies(猜测跟第三个词组成与前两个词之间联系的词):


输出:[(0.7665581703186035, '优越'), (0.7352521419525146, '地舆位置'), (0.7330452799797058, '安静'), (0.7157530784606934, '周边环境'), (0.7050396800041199, '自然环境'), (0.6963807344436646, '服务到位'), (0.6960451602935791, '也好'), (0.6948464512825012, '优雅'), (0.6906660795211792, '地点'), (0.6869651079177856, '地舆')]


  • model.save_model(path)
  • fasttext.load_model(path) 回来model


  • dim 向量维度(默认值是100,100-300都是常用值)
  • minn maxn 最大和最小的subword子字符串(默认值是3-6)
  • epoch(默认值是5)
  • lr 学习率高会更快收敛,可是可能过拟合(默认值是0.05,常见挑选范围是 [0.01, 1] )
  • thread(默认值是12)
fastText官方供给已练习好的300维多语言词向量:Wiki word vectors fastText 新版:Word vectors for 157 languages fastText

2.2 原理介绍

在论文中如运用词向量,需求引用这篇文献:Enriching Word Vectors with Subword Information

skipgram和cbow应该不太需求介绍,这是NLP的常识知识。skipgram用一个随机挑选的附近词猜测方针单词,cbow用上下文(在一个window内,比方加总向量)猜测方针单词。 fasttext所运用的词向量统筹了subword信息(用子字符串表征加总,作为全体的表征),比单运用word信息能获得更丰富的语义,运算速度更快,并且能够得到原语料中不存在的词语。

3. 文本分类

3.1 代码完成

官方具体教程:Text classification fastText(官方教程运用的数据集是英文烹饪领域stackexchange数据集)



import csv,jieba,random
with open('data/cls/ChnSentiCorp_htl_all.csv') as f:
    header = next(reader)  #表头
    data = [[row[0],row[1]] for row in reader]  #每个元素是一个由字符串组成的列表,榜首个元素是标签(01),第二个元素是谈论文本。
with open(tofiledir+'/train.txt','w') as f:
    f.writelines([' '.join(jieba.cut(row[1]))+' __label__'+row[0]+'\n' for row in train_data])
with open(tofiledir+'/test.txt','w') as f:
    f.writelines([' '.join(jieba.cut(row[1]))+' __label__'+row[0]+'\n' for row in test_data])


fastText Python 教程

import fasttext
print(model.predict('酒店 环境 还 能够 , 服务 也 很 好 , 便是 房间 的 卫生 稍稍 大意 了 一些 , 坐便器 擦 得 不是 非常 干净 , 其它 方面 都 还好 。 尤其 是 早餐 , 在 我 住 过 的 四星 酒店 里 算是 花样 比较 多 的 了 。 由于 游泳池 是 在 室外 , 所以 这个 时节 去 了 怕冷 的 人 就 没有 办法 游泳 。 弥补 点评 2007 年 11 月 16 日 : 服务 方面 忘 了 说 一点 , 由于 我落 了 相同 小东西 在 酒店 , 还 以为 就算 了 , 没想到 昨天 离开 , 今日 就 收到 邮件 提醒 我 说 我 落 了 东西 , 问 我 需求 不 需求 他们 给 寄 回来 , 这 一点 比 有些 酒店 要 好 很多 。'))


test()函数的输出依次是:样本数,precision@1,recall@1 (这个P@1大约意思是得分最高的标签属于正确标签的比例,能够参阅:IR-ratio: Precision-at-1 and Reciprocal Rank。R@1是正确标签被猜测到的概率)





  • epoch(默认值为5)
  • lr(作用好的范围为0.1-1)
  • wordNgrams 用n-gram而不是unigram(当运用语序很重要的分类使命(如情感剖析)时很重要)
  • bucket
  • dim
  • loss
    • 运用hs (hierarchical softmax) 代替标准softmax,能够加快运转 hierarchical softmax:看了一下没太看懂,总之大约来说是用二叉树来表示标签,这样复杂度就不呈线性增加而是呈对数增加了。fasttext中用的是哈夫曼树,均匀查询时刻最优。fasttext官方介绍:fasttext.cc/docs/en/sup… 此外还给出了一个YouTube讲解视频:Neural networks [10.7] : Natural language processing – hierarchical output layer – YouTube
    • one-vs-allova:multi-label范式,将每个标签都独自建模成一个one-label分类使命(相比其他损失函数,建议调低学习率。predict()时指定k=-1输出尽量多的猜测成果,threshold规定输出大于阈值的标签。test()时直接指定k=-1
3.2 原理介绍

在论文中如运用文本分类功用需引用该文献:Bag of Tricks for Efficient Text Classification


4. 量化完成模型紧缩

# with the previously trained `model` object, call :
model.quantize(input='data.train.txt', retrain=True)
# then display results and save the new model :

5. 模型的特点和方法

fastText Python 教程


4. 其他在正文及脚注中未提及的参阅资料

  1. NLP实战之Fasttext中文文本分类_vivian_ll的博客-CSDN博客_fasttext 中文:这一篇去除了停用词,此外还介绍了gensim包中核算词向量的方法。
  2. [原创]《运用 fastText 做中文文本分类》文章合集 – 编码无悔 / Intent & Focused:这一篇是运用Java做的,由于数据量很大,所以想用map-reduce完成。数据标签是经过腾讯云文本分类免费API来调取得到的……
  3. 关于文本分类(情感剖析)的中文数据集汇总_樱与刀的博客-CSDN博客_情感剖析数据集
  4. Python3读取CSV数据_柿子镭的博客-CSDN博客_python3读取csv文件
  5. python读取csv时skipinitialspace参数的运用_vanlywang的博客-CSDN博客