[Deep-Learning-with-Python]基于Kears的Reuters新闻分类

Reuters数据集下载速度慢，可以在我的repo库中找到下载，下载后放到~/.keras/datasets/目录下，即可正常运行。

完整代码欢迎Fork、Star

构建神经网络将路透社新闻分类，一共有46个类别。因为有多个类别，属于多分类问题，而每条数据只属于一个类别，所以是单标签多分类问题；如果每条数据可以被分到多个类别中，那问题则属于多标签多分类问题。

路透社数据集

Reuters数据集发布在1986年，一系列短新闻及对应话题的数据集；是文本分类问题最常用的小数据集。和IMDB、MNIST数据集类似，Reuters数据集也可以通过Keras直接下载。

加载数据集

from keras.datasets import reuters

(train_data,train_labels), (test_data, test_labels) = reuters.load_data(num_words=10000)

有8982条训练集，2246条测试集。
每个样本表示成整数列表。

>>> train_data[10]
[1, 245, 273, 207, 156, 53, 74, 160, 26, 14, 46, 296, 26, 39, 74, 2979,
3554, 14, 46, 4689, 4329, 86, 61, 3499, 4795, 14, 61, 451, 4329, 17, 12]

也可以将整数列表转换成原始数据[英文句子]

word_index = reuters.get_word_index()# 单词--下标 对应字典
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])# 下标-单词对应字典

decoded_newswire = ' '.join([reverse_word_index.get(i - 3, '?') for i in
train_data[0]]) #偏移3个：0,1,2保留下标，分别表示：“padding,” “start of sequence,” and “unknown.”

准备数据

整数数据向量化，与IMDB数据集处理方法相同。

import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

标签的向量化有两种方法：将标签列表转换成整数张量；使用one-hot编码。One-hot编码方式是类别数据常用的一种数据格式，也称为categorical encoding。

def to_one_hot(labels, dimension=46):# 46个类别
    results = np.zeros((len(labels), dimension))
    for i, label in enumerate(labels):
        results[i, label] = 1.
    return results

one_hot_train_labels = to_one_hot(train_labels)
one_hot_test_labels = to_one_hot(test_labels)

Keras中有一个内置的One-hot编码转换函数：

from keras.utils.np_utils import to_categorical

one_hot_train_labels = to_categorical(train_labels)
one_hot_test_labels = to_categorical(test_labels)

模型搭建

使用Dense线性连接堆栈结构，每层网络只能处理上层网络的输出结果。如果网络层丢失了一些关于分类问题的信息，那么下一层网络并不能恢复这些信息：每个网络层潜在地成为一个信息处理瓶颈。

网络定义

from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))

关于这个网络架构有两点需要注意：

最后一层网络神经元数目为46.意味着每个输入样本最终变成46维的向量。输出向量的每个数表示不同的类别；
最后一层网络使用softmax激活函数--网络会输出一个46类的概率分布。每个输入最终都会产生一个46维的向量，每个数表示属于该类别的概率，46个数加起来等于1.

最好的损失函数为categorical_crossentropy---衡量两个概率分布之间的距离：网络的输出向量和标签的真实分布向量。通过最小化两个分布之间的距离，训练网络模型，使得输出向量尽可能与真实分布相似。

model.compile(optimizer='rmsprop',loss='categorical_crossentropy', metrics=['accuracy'])

模型验证

在训练数据中分出1000条样本做为验证集。

x_val = x_train[:1000]
partial_x_train = x_train[1000:]

y_val = one_hot_train_labels[:1000]
partial_y_train = one_hot_train_labels[1000:]

训练20个epochs

history = model.fit(partial_x_train,partial_y_train,epochs=20,batch_size=512,validation_data=(x_val, y_val))

训练集和验证集的损失值变化

image

训练集和验证集的准确率变化

image

模型在第9次epochs之后开始过拟合。我们将epochs设置为5重新训练，同时在测试集上测试。

model = models.Sequential()

model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))

model.compile(optimizer='rmsprop',loss='categorical_crossentropy',
metrics=['accuracy'])

model.fit(partial_x_train,partial_y_train,epochs=9,batch_size=512,
validation_data=(x_val, y_val))

results = model.evaluate(x_test, one_hot_test_labels)
# [0.9565213431445807, 0.79697239536954589] 损失值，准确率

准确率达到80%.比随机猜测好。

预测新数据

使用predict函数，产生一个46维的概率分布。在测试数据上进行预测：

predictions = model.predict(x_test)

在预测结果中概率最大的类别就是预测类：

np.argmax(predictions[0])#第一条新闻的预测类 4

另一种标签、损失函数处理方式

直接将列表转换成numpy数组

y_train = np.array(train_labels)
y_test = np.array(test_labels)

需要改变的是损失函数的选择。categorical_crossentropy损失函数期望标签数据使用categorical encoding编码方式。整数标签，应该使用sparse_categorical_crossentropy损失函数：

model.compile(optimizer='rmsprop',loss='sparse_categorical_crossentropy',metrics=['acc'])

新的损失函数在数学表示上与categorical_crossentropy损失函数相同，只是接口不同。

有充分大规模中间层的重要性

因为最终分为46类，中间层的神经元数目不应该小于46个。如果中间层数目小于46，有4个，将会产生信息瓶颈。

model = models.Sequential()

model.add(layers.Dense(64, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(4, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))
model.compile(optimizer='rmsprop',loss='categorical_crossentropy',metrics=['accuracy'])
model.fit(partial_x_train,partial_y_train,epochs=20,batch_size=128,validation_data=(x_val, y_val))

最终训练结果最高为71%，降低了8个百分点。主要原始是模型试图将大量的信息压缩到低纬度空间中表示，丢失了大量重要的信息。

小结

N分类问题，网络最后Dense层神经元数目为N；
单标签多分类问题中，最后一层的激活函数为softmax，产生一个包含N类的概率分布；
categorical crossentropy是处理单标签多分类问题最常用的损失函数；
在多分类问题中有两种标签处理方式：
1. 使用categorical encoding(one-hot)编码，将标签one-hot化，同时使用categorical_crossentropy作为损失函数；
2. 编码成整数向量，使用sparse_categorical_crossentropy作为损失函数；
如果分类数目过大，应该避免网络中间层数目过小(比分类数目小--信息压缩)，产生信息瓶颈。

最后编辑于：2018.07.15 11:08:54

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342