outline
- 什么是文本分类
- 特征工程+分类器
- TextCNN
什么是文本分类
文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合,其应用非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。
评价指标
文本分类的性能评价指标主要是召回率(recall)、准确率(precision)、F1-measure,以及用于评价全局性能的宏平均(macro-average)和微平均(micro-average)。
二分类:accuracy,precision,recall,f1-score,...
多分类: Micro-Averaged-F1, Macro-Averaged-F1, ...
多标签分类:Jaccard相似系数, ...
特征工程+分类器
传统的机器学习方法主要利用自然语言处理中的n-gram概念对文本进行特征提取,并且使用TFIDF对n-gram特征权重进行调整,然后将提取到的文本特征输入到Logistics回归、SVM等分类器中进行训练。这也是一个通用的分类任务解决框架。
文本预处理
中文文本分类中,分词是必不可少的环节
文本特征提取/文本表示
- 向量空间模型(VSM)
- 语义的文本表示方法
比如LDA主题模型、LSI/PLSI概率潜在语义索引等方法,一般认为这些方法得到的文本表示可以认为文档的深层表示, - word embedding文本分布式表示方法
词向量
特征选择
文本分类中最常用的选择特征的方法就是:对每个词根据TF/IDF,互信息量,信息增益,χ2统计量之一计算一个值,并且从大到小排序,然后设定一个阈值,取出所有大于阈值的词作为特征值组成特征向量。
- TF/IDF
- 互信息量
- 信息增益
- χ2统计量
其它特征选择方法可参考机器学习-特征工程
fastText
fastText的核心思想:将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类
fastText 方法包含三部分:模型架构、层次 Softmax 和 N-gram 特征。
Facebook开源的fastText工具也实现了词向量的训练,使用其可挖掘同近义词
模型架构:fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。fastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。
层次softmax:在某些文本分类任务中类别很多,计算线性分类器的复杂度高。为了改善运行时间,fastText 模型使用了层次 Softmax 技巧。层次 Softmax 技巧建立在哈夫曼编码的基础上,对标签进行编码,能够极大地缩小模型预测目标的数量。
N-gram 特征:fastText 可以用于文本分类和句子分类。不管是文本分类还是句子分类,我们常用的特征是词袋模型。但词袋模型不能考虑词之间的顺序,因此 fastText 还加入了 N-gram 特征。
模型架构
fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于,fastText 预测标签,而 CBOW 模型预测中间词。
层次SoftMax
N-gram特征
在文本特征提取中,常常能看到n-gram的身影。它是一种基于语言模型的算法,基本思想是将文本内容按照字节顺序进行大小为N的滑动窗口操作,最终形成长度为N的字节片段序列。
FastText:快速的文本分类器
TextCNN
下图为TextCNN的流程图
下图为CNN的网络结构
具体细节参考Implementing a CNN for Text Classification in TensorFlow
在TextCNN中,第一层的作用是将词嵌入低维度向量,第二层使用多尺度卷积核进行卷积,然后使用max-pooling后将最后一层reshape为一个长向量,增加dropout正则,然后使用softmax进行分类
在这个实现中,作者将每个文本都pad到最大max_document_length,然后用词向量排列成一个矩阵