# 词向量Why and How
从今天起,我们一起来学习词向量word2vector(简称w2v)相关的知识。虽然,对于NLP来说,w2v技术和操作已经烂大街了,随便一个NLP任务,底层基本都要搞一个w2v,但是到底为什么需要w2v,它背后的思想是什么,是怎么训练得到的,也许很多经常使用w2v的人都不一定很清楚。不清楚,就会导致我们知道w2v很好用很神奇,但是出了问题却不知道从哪里去改善。 所以,我会边学习斯坦福cs224n的NLP课程的词向量内容,边查阅其他的资料,并结合自己的实践经验来写下关于w2v的一系列笔记。
本文介绍两个方面:
- 为什么我们需要w2v——WHY
- 得到w2v的大致思路是怎样的——HOW
# 一、WHY
词,是NLP要对付的一个基本语言单位,我们在用计算机处理海量文本的时候,希望尽可能地让机器明白词蕴含的信息,这样可以大大地提高文本分类、文本聚类、文本生成、对话、翻译等等任务的准确性。所以,我们需要解决一个基本问题:
####如何表示一个词?
# 1.WordNet
在英文中,我们可以借助WordNet,来导出一个词的同义词、近义词等等各种信息。 WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。 网址:https://wordnet.princeton.edu/
我们可以下载wordnet,也可以通过NLTK等等包来获取,便可以在计算机程序里查询我们想要的词。
对于中文的话,也有类似的对应的wordnet。下面展示的这个Chinese wordnet由台湾国立大学的学者们设计搭建。而且,他们还做了相应的知识图谱,更加直观地表达词之间的关系。不过都是繁体中文。 网址:http://lope.linguistics.ntu.edu.tw/cwn/
这些资源都十分地优秀,而且都是花费研究机构多年的心血才搭建手工而成,所以质量也很高,在很多情况下可以满足我们的需求。
但是通过wordnet来进行词义表示有什么问题呢?
- 难以更新,毕竟这个靠人力搭建,无法应对新词或者词的新含义
- 难以定量地计算不同词之间的相似度
所以,wordnet更多地是作为一个“词典”,提供一个词意思的参考或者补充,而往往无法应对现在NLP的许多任务。
所以我们需要其他的表示方法。
# 2.One-hot表示
假设我们要研究的一个问题,涉及到的语料共有10000个不同的词。比如把它们按照首字母排序: [阿,爱,······,明天,······,你,······,智能,职业] 那么每个词可以表示成一个10000维的向量。比如: “阿”可以表示为这样的向量: [1,0,0,0,......,0] “爱”可以表示为: [0,1,0,0,......,0] 最后一个词“职业”可以表示为: [0,0,0,0,......,1] 因为每个词对应的向量只有一个位置为1,故称为“独热编码(one-hot)”。 说白了,这种向量表示的就是这个词在我们语料库中的一个index。
这种方法是很流行的,在很多机器学习应用中,都是对词语进行这样的处理的。
但是这样做一个最大的问题就在于:任何两个不同的词的向量,都是**“正交”的,内积为0. 这样的话,即使是意思十分相似的词,也无法从one-hot词向量中看出它们的联系。因此,这种表示方法,我们无法衡量两个词的相似度**。而相似度无法计算,很多NLP任务就无法进行。
# 3.Word2Vector词向量模型
上面的one-hot表示,其实也是一种“词向量”,只不过这个词向量,就是由该词的index决定的,而仅由index决定,就导致了无法表示词义的问题。
因此,我们想,为何不让词向量表示的信息更加丰富一点呢? 比如,我们可以定义一些维度,然后对一个词在每个维度上打分,这样一个词的意思不就丰富啦? 比如,我们定义“男”,“女”,“水果”,“产品”,“地址”,这几个维度,对项目几个词来定义词向量:
Dimension | 国王 | 皇后 | 苹果 | 酒店 |
---|---|---|---|---|
男 | 0.98 | 0.02 | 0.15 | 0.3 |
女 | 0 | 0.99 | 0.27 | 0.2 |
水果 | 0.03 | 0.07 | 0.97 | 0 |
产品 | 0.11 | 0.12 | 0.89 | 0.23 |
地址 | 0.07 | 0.28 | 0.04 | 0.99 |
... | ... | ... | ... | ... |
上面只是我随便编的几个维度,只是举个例子,我们可以让一个词在多个维度上表示,这个维度上的数越大,就代表越具有某种属性。这样的方法,就可以让意思相近的词,拥有相近的属性值,它们之间的相似度就可以很容易的表示了,比如用余弦相似度来计算向量之间的距离。
这是个很好的思路,这样就可以很好地表示一个词在各个维度的含义,可以尽可能地表达一个词的含义。
但是,如何定义维度呢?
实际上,我们几乎不可能定义一个完善的维度。这么多的词汇,维度根本无法定义。而且,这种定义是仁者见仁智者见智,每个人对词的属性的定义都是不一样的。
这个时候,我们就会自然而然地想到**“深度学习”**了。
因为词的属性(即我说的维度),相当于一个词的一个**“特征”,定义词的属性的过程,其实就是“特征工程”**,当特征工程难以实施的时候,就是深度学习大展拳脚的时候了。我们用大量的文本喂给深度学习模型,然后自动训练,学得词向量。
下面我们来讲解,怎么利用深度学习的方法,来学习词向量。
# 二、HOW
我们怎么构造一个模型,来“学习”词向量呢? 如果你有机器学习或者深度学习经验的话,应该,知道,最重要的是要明确目标函数,也就是我们要调整模型的参数,让什么目标最大/最小。
针对词的表示,有语言学家提出,“一个词的意思,应该由和它一起出现的周围的词来表现”。故,一个词的含义,应该由这个词的各种各样的上下文来构建。 所以我们有两个思路来构造一个模型:
- 输入上下文的词,预测中心词是什么
- 输入中心词,预测上下文长什么样
实际上,后面我们会讲到,这就是词向量训练的两种基本模型,前者为CBOW,后者为Skip-Gram(SG)。我们这里暂时用后者,也就是SG的方式来构建。
于是我们构建一个神经网络模型,可以输入一个句子中的某个词,输出其他所有词出现在这个词周围的概率。也就是说,既输出这个词附近的上下文的词,也输出跟这个词完全不相干八竿子打不着的词。 我们希望,这个原本来语料库中这个中心词周围的词的概率的乘积越大越好,因为这个乘积就是这几个词同时出现的概率,用极大似然的思想,我们希望这个概率尽可能大。 而这个网络的参数矩阵,实际上就是输入文本的特征,也就是我们想要得到的词向量。 所以,我们通过梯度下降法不断更新词向量,就可以使得概率越来越大,最终就得到一组很好的词向量。
下面,画个图来示意、讲解:
假设我们从我们的语料库里面随便挑出一句话。我们想预测如果中心词是natural的话,那么什么词应该出现在它的周围呢?或者说,其他词出现在natural周围的概率为大多呢?概率越大,说明越可能出现在附近。 另外,什么叫**“周围、附近”呢?我们就用window来定义**。
所以,我们的神经网络模型是这样的:
注意:我们的输出,是输出所有的词的概率,比如我们的语料库中有10000个不同的词,那么这里的输出就有10000个。但是我们更关心我们附近的词的概率,也就是图中所示的**“窗口内的词”**。
窗口内的词,本来就是一个自然的语言组合,所以他们这些词在一起出现的概率应该高,所以他们的概率乘积就应该高。
这就是词向量怎么得来的基本思路。总结一下就是这张图:
当然,这个示意图,只是示意了一个词。实际上,我们要把我们的语料库中的所有的词,全部遍历一次,分别计算“窗口内概率的乘积”,然后求和,最后是要使得这个所有概率之和尽可能大。
用cs224n课堂上的例子: 语料库中的句子:
我们设当前中心词的位置为t,而语料库总长度为T。设窗口大小为m,那么对于中心词 ,我们希望窗口内的词的概率之积:$$\prod_{-m\leq j\leq m}P(w_{t+j}|w_{t};\theta )$$尽可能大。 但是,我们需要遍历整个语料库,也就是计算位置t从0到T的所有的词,所以最终的目标函数应该是:$$L(\theta) = \prod {t=1}^{T}\prod{-m\leq j\leq m}P(w_{t+j}|w_{t};\theta )$$ 其中,就是代表我们的词向量参数,我们这个模型就是要优化这个词向量参数去让最大化。 但是上面是乘积,不打好求,一般我们取个负对数,转化成最小化某个和函数,然后再取个平均,就方便求解了,所以我们转化成如下的Cost function:
注意,上面的函数中,都要求,也就是不计算自己跟自己的概率。
# 总之,一句话总结一下求词向量的基本思路:
找一个巨大的文本形成语料库,选择一个窗口大小,遍历每一个词,依次把每个词输入进神经网络,词向量作为网络的参数,网络输出其他词的概率。求得所有的词的对应窗口词的条件概率的乘积,不断地调整词向量参数,使得这个概率的乘积最大化,从而得到最终的词向量。
此时,脑海里突然蹦出一句话:“够了吧!” 所以本文就这么戛然而止了。 下一篇文章,会详细讲解有关词向量的一些很重要的细节,和一些训练的高级方法。
# 后记:
其实虽然本文不长,但是来来回回修改了N次,酝酿了好久才写成。而且,实际上相关的内容我在暑假的时候,就已经学习过了,最近才下笔,主要是我在思考“为什么这个词向量要这么设计,为什么模型要这样设计,为什么目标函数是这个”。因为,cs224n课程上面的说法,一直不能说服我,虽然他们讲课的时候给人一种“这就是自然而然的啊”的感觉。而之前吴恩达在深度学习课程中讲的word2vector的方式跟cs224n又很不一样,这让我就更矛盾了。所以,我花了大量时间,去协调二者的方法,总结成本文的思路,这才“自我说服”了。
# 伏笔:
这里想提前埋下一个伏笔,也是我想写下有关词向量系列文章的主要原因之一: w2v的一个最基本用途就是寻找similar words(相似词),但是w2v的一个最明显的局限就是,这个相似,是“分布相似”,而不是语义相似。虽然,语义相似的词,通常分布也是相似的,但是分布相似的词,语义可能很不相似! 这个问题到底怎么解释?为什么训练出来的词向量就是反映的分布相似度?是什么原因导致的?这些问题,我们后面再详细探讨!