词向量
来源:https://www.numpy.org.cn/deep/basics/word2vec.html 词向量 本教程源代码目录在 book/word2vec ,初次使用请您参考 Book文档使用说明 。 # 说明 本教程可支持在 CPU/GPU 环境下运行 Docker镜像支持的CUDA/cuDNN版本 如果使用了Docker运行Book,请注意:这里所提供的默认镜像的GPU环境为 CUDA 8/cuDNN 5,对于NVIDIA Tesla V100等要求CUDA 9的 GPU,使用该镜像可能会运行失败; 文档和脚本中代码的一致性问题 请注意:为使本文更加易读易用,我们拆分、调整了 train.py 的代码并放入本文。本文中代码与train.py的运行结果一致,可直接运行train.py进行验证。 # 背景介绍 本章我们介绍词的向量表征,也称为word embedding。词向量是自然语言处理中常见的一个操作,是搜索引擎、广告系统、推荐系统等互联网服务背后常见的基础技术。 在这些互联网服务里,我们经常要比较两个词或者两段文本之间的相关性。为了做这样的比较,我们往往先要把词表示成计算机适合处理的方式。最自然的方式恐怕莫过于向量空间模型(vector space model)。 在这种方式里,每个词被表示成一个实数向量(one-hot vector),其长度为字典大小