An End-to-End Trainable Neural Network for Image-based Sequence 论文阅读

1.论文主要思想:

用卷积网络做图片分类问题的时候,无法对sequence类型的图片做处理,比如一串电话号码这样的图片集。对于这种sequence数据,我们有一个很好的工具,recurrent neural network,所以我们能不能将cnn处理图片的能力和rnn处理序列的能力结合在一起处理一些日常生活中的手写体,或者是说标示牌这些图片,然后提取出里面的字符呢?
这就是这篇论文所叙述的东西。

2.pipeline:

2.1 main advantages:
  1. It has unconstrained length of sequence,也就是说不限制输入的长度,任何长度都可以
  2. It can be jointly trained with a loss function,cnn和rnn可以一起处理,训练,不用分开
2.2 Network Architecture:
Paste_Image.png
2.2.1 feature sequence extraction
Paste_Image.png

传统方法是将图片整个提取特征,但是这种办法就使得需要固定维度的输入,所以这里采取滑动卷积核的方式,可以自适应到任何长度的输入

2.2.2 sequence labeling
rnn.png

传统的LSTM如左图所示,改进只有LSTM输入图像特征向量,然后采用双向的顺序来训练rnn,这是因为图片周围的信息都是有用的,所以不能只考虑一边,而要考虑双侧
LSTM is directional, however, in the image-based sequence, contexts from both sides are very useful and comlementary for each other.

2.2.3 transcription

transcription is to find the label sequence with the highest probability conditioned on the per-frame predictions.
这一步的最终目的是想通过训练后的网络,输出正确的label的概率最大

2.2.3.1 probability of label sequence

关键的一步是如何将rnn的输出转换成在label序列上的条件概率分布

Temporal Classification

首先给出一种sequence到sequence的模型的输入和输出类型:
input: $X=R^m$ 是m维的实值向量,目标空间 Z=L 就是所有的目标序列,S为样本空间,包含着很多个(x, z)这种序列对,每个$x = (x_1, x_2, \dots, x_T)$,每个$z = (z_1, z_2, \dots, z_U)$,一般U<T,输入的序列每个点代表着一个信息,所以得到的输出最多只能和输入的信息一样多,不能超过输入的信息
TC的目的是训练一个分类器h,$h: X \rightarrow Z$,使得每给一个sequence输入,可以得到一个sequence输出

下面如何定义loss函数就很重要了:
Label error rate:

Paste_Image.png

S' 表示的一个测试集,h(x)就是输入x,得到的输出结果,z表示目标序列,ED表示h(x)要经过调整得到z的步数
这是一种很自然的度量方式

Connectionist Temporal Classification

CTC网络多了一层输出,softmax layer。如果真实的label用L表示,输出结果是是一个比|L|长的序列,前|L|个元素表示相应位置是L中的元素的概率,多的元素表示是空白或者说没有Label的概率,总的概率就是这些概率求和

输入x是一个长为T的序列,rnn定义 $N_w: R^m \rightarrow R^n$,
$y = N_w(x)$,$y_k^t$ 表示在t的位置是label k的概率,这个概率定义在所有的可能label加上一个blank上面,也就是0到9这10个数字加一个空格,一共是11种可能,这个概率空间用$L'^T$表示

Paste_Image.png

然后在序列$\pi$上面定义一个函数B,将序列B映射为label,比如将“--hh-e-l-ll-oo--”通过去重,去空格,映射到“hello”

Paste_Image.png
2.3 Network Training

$X = { I_i, L_i}_i$,其中$I_i$表示输入图片,$L_i$表示真实的label

Paste_Image.png

就是最小化这个函数,可以用backpropogation的方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容