程明明南开 发表于 2015-8-10 14:11:20

CRNN:端到端的图像序列识别网络

Baoguang Shi, Xiang Bai, Cong Yao, “AnEnd-to-End Trainable Neural Network for Image-based Sequence Recognition andIts Application to Scene Text Recognition”, CoRR (http://arxiv.org/abs/1507.05717),2015. 近年来,深度学习方法,特别是卷积神经网络(CNN)和循环神经网络(RNN),已在场景文字识别(Scene Text Recognition)领域获得深入的研究和广泛的应用。然而,已有的基于深度学习的场景文字识别方法存在三个明显的局限性:(1) 各模块单独设计和优化;(2) 要求输入图像具有相同的尺寸;(3) 形成的识别模型体积巨大。为解决这些问题,华中科技大学电信学院媒体与通信实验室开发出一种新颖的神经网络结构,该结构结合卷积神经网络和循环神经网络的优点,且具有允许端到端训练、支持不同尺寸的输入图像以及识别模型紧凑等优点。实验表明,基于该结构的识别系统在自然场景文字识别、乐谱识别等任务上取得了目前最好的识别结果。撰写人:白翔

XiangBai 发表于 2015-12-19 16:18:13

Code and music score recognition dataset has been released at:
code: http://mclab.eic.hust.edu.cn/~xbai/CRNN/crnn_code.zip
dataset: http://mclab.eic.hust.edu.cn/UpLoadFiles/dataset/PitchRec_dataset.zip
页: [1]
查看完整版本: CRNN:端到端的图像序列识别网络