20201028-27 看图识字：文字检测与识别新进展

2020-10-23 19:36| 发布者: 程一-计算所| 查看: 5146| 评论: 0

摘要: 报告时间2020年10月28日 (星期三)晚上20:00 (北京时间)主题看图识字：文字检测与识别新进展主持人许永超 (武汉大学)连宙辉 (北京大学)报告嘉宾：殷绪成 (北京科技大学)报告题目：以文字为中心的自然场景理解：从文 ...

报告时间	2020年10月28日 (星期三) 晚上20:00 (北京时间)
主题	看图识字：文字检测与识别新进展
主持人	许永超 (武汉大学) 连宙辉 (北京大学)

报告嘉宾：殷绪成 (北京科技大学)

报告题目：以文字为中心的自然场景理解：从文字识别到视觉问答

报告嘉宾：章成全 (百度)

报告题目：复杂场景下OCR技术研究和产业规模化落地实践

Panel嘉宾：

杜俊 (中国科学技术大学)、金连文 (华南理工大学)、殷飞 (中国科学院自动化研究所)、殷绪成 (北京科技大学)、章成全 (百度)

Panel议题：

1. 在现有公开的数据集上，根据现有的评测方法，很多方法都取得了很好的结果，在具体应用中的表现是否和公开数据集上的效果一致，现有的评测方法是不是合理，已有的公开数据集是否饱和？

2. 目前场景文字检测识别都取得了很大的进展，在具体场景的落地应用中，还存在哪些检测识别方面的瓶颈？

3. 在具体的落地应用中，有没有哪一种方法比较通用，可以适用所有场景，怎么看待通用的OCR技术?

4. 关于生僻字，OCR模型的泛化（比如不同场景，不同字体等）性能方面的研究有什么进展？

5. 手写文字识别的最新研究进展如何，与一般的场景文字检测识别有什么区别？

6. OCR领域还有哪些重要的学术及研究问题还没有得到很好的解决？

7. NLP技术目前有了很大进展，怎么看待OCR与NLP技术的相结合，会是未来OCR的一个发展趋势吗？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：殷绪成 (北京科技大学)

报告时间：2020年10月28日(星期三)晚上20:00(北京时间)

报告题目：以文字为中心的自然场景理解：从文字识别到视觉问答

报告人简介：

殷绪成，男，北京科技大学教授、博导，计算机与通信工程学院副院长，模式识别与人工智能技术创新实验室主任，中国图象图形学学会文档图像分析与识别专委会副主任/秘书长。主要研究领域包括模式识别、文字识别、计算机视觉及人工智能芯片技术，近五年来在中国计算机学会推荐的国际期刊和会议上发表论文四十多篇，连续四届 (2013、2015、2017和2019年)荣获国际文档分析与识别大会技术竞赛文本检测和文本识别等15项冠军，获2019年度北京市科技进步一等奖 (第一完成人)、2018年度教育部科技进步二等奖 (第一完成人)。

个人主页：

http://prir.ustb.edu.cn/yin/

报告摘要：

文字是自然场景中最直接最重要的信息，如何提取和理解这些文字成为自然场景理解中一个重要的中心任务。同时，复杂环境下的文本检测与识别、视觉问答也是模式识别、计算机视觉领域中的研究热点和应用难点。本报告首先简要回顾自然场景中的文本检测、文本识别及基于场景文本的视觉问答技术；然后重点介绍团队最近提出的基于深度学习的文本检测和视觉问答技术：基于深度关系推理图网络的场景文本检测方法、基于多模态信息融合网络的文本视觉问答系统。

参考文献：

[1] S. Long, X. He, and C. Yao, “Scene text detection and recognition: The deep learning era,” IJCV, online, August 2020.

[2] S.-X. Zhang, X. Zhu, J.-B. Hou, C. Liu, C. Yang, H. Wang, and X.-C. Yin, “Deep relational reasoning graph network for arbitrary shape text detection,” CVPR 2020: 9696-0705.

[3] R. Hu, A. Singh, T. Darrell, and M. Rohrbach, “Iterative answer prediction with pointer-augmented multimodal transformers for TextVQA,” CVPR 2020: 9989-9999.

报告嘉宾：章成全 (百度)

报告时间：2020年10月28日(星期三)晚上20:30(北京时间)

报告题目：复杂场景下OCR技术研究和产业规模化落地实践

报告人简介：

章成全，现任百度视觉技术部资深研发工程师，是百度文字识别技术负责人，为百度开放平台OCR系列产品提供算法支持。于2014年和2016年在华中科技大学电子信息与通信学院分别获得本科和硕士学位。于2016年加入百度视觉团队，专注于OCR检测和识别、文本图像编辑、以及视频场景文字跟踪等相关技术方向。在文档领域相关国际会议和期刊发表过相关论文近10篇，获得ICDAR 2019 Best Paper Runner-Up Award，以及多次取得ICDAR系列相关赛事和榜单任务第一。

个人主页：

https://scholar.google.com/citations?user=koZQ_NgAAAAJ&hl=zh-CN

报告摘要：

文字是人类社会生产和生活中重要的信息交流工具，如何将信息时代中传播的海量图片或视频数据中的文字线索进行有效提取是目前产业界和学术界的关注热点。本报告尝试从企业应用关注视角，介绍近一两年来百度OCR团队关于文字检测和识别任务的思考和一些尝试性突破工作，尤其是任意形态文字检测技术和语义化增强OCR识别模型。同时，也将与大家分享和交流一些关于OCR能力产业规模化落地的解决思路。

参考文献：

[1] Zhang, C., Liang, B., Huang, Z., En, M., Han, J., Ding, E., & Ding, X. “Look more than once: An accurate detector for text of arbitrary shapes”, CVPR 2019: 10552-10561.

[2] Wang, P., Zhang, C., Qi, F., Huang, Z., En, M., Han, J., ... & Shi, G. “A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning”, ACM Multimedia 2019: 1277-1285.

[3] Yu, D., Li, X., Zhang, C., Liu, T., Han, J., Liu, J., & Ding, E. “Towards accurate scene text recognition with semantic reasoning networks”, CVPR 2020: 12113-12122.

Panel嘉宾：金连文 (华南理工大学)

嘉宾简介：

金连文，于中国科技大学获学士学位、华南理工大学获博士学位，目前为华南理工大学二级教授，兼任中国图像图形学学会（CSIG）常务理事、CSIG文档图像分析与识别专委会主任等学术服务职务。主要研究领域为文字识别、深度学习、计算机视觉及应用等，在IEEE Transactions及其它重要国际学术期刊、CVPR/AAAI/IJCAI/NeurIPS/ECCV/ICDAR等重要国际会议上发表论文百余篇，获省部级科技奖5次，获国际学术竞赛冠军14次。

个人主页：

https://scholar.google.com/citations?user=WMUStEUAAAAJ&hl=en&oi=ao

Panel嘉宾：殷飞 (中国科学院自动化研究所)

嘉宾简介：

殷飞，中国科学院自动化研究所副研究员。2010 年博士毕业于中国科学院自动化研究所模式识别国家重点实验室。一直从事文档分析与手写文字识别方向的研究。在文档分析的主流期刊（IEEE T-PAMI，IJCV,IEEE T-IP,PR）和主流学术会议（ICCV， ICPR, ICDAR，ICFHR 等）发表论文 80 余篇。主持或参与国家自然科学基金重点项目、面上项目和国家科技部重点专项 5 项。从 2006 年以来，带领研究团队多次获得文档分析领域国际学术竞赛优胜。

个人主页：

http://www.nlpr.ia.ac.cn/pal/People/YinFei.html

Panel嘉宾：杜俊 (中国科学技术大学)

嘉宾简介：

杜俊，目前是中国科学技术大学语音及语言信息处理国家工程实验室副教授，2009年-2013年就职于科大讯飞研究院和微软亚洲研究院，期间主导开发了语音识别、手写识别和OCR多个产品。研究方向是语音信号处理和模式识别应用，已发表论文150余篇，谷歌学术引用超过3500次，ESI高被引论文2篇，以唯一通讯作者发表的IEEE-ACM TASLP期刊论文获得2018年IEEE信号处理学会最佳论文奖，2019年获安徽省科技进步一等奖。目前担任语音领域顶级期刊IEEE-ACM TASLP的编委、IEEE信号处理学会语音及语言处理技术委员会（SLTC）委员、亚太信号与信息处理协会（APSIPA）语音语言音频分会（SLA）技术委员会的秘书长以及APSIPA Distinguished Lecturer。承担2项国家自然科学基金项目和1项安徽省科技重大专项。带领团队获得2016年、2018年和2020年连续三届CHiME国际语音识别评测9个任务冠军、2018年ICPR多样式网络图像文字识别与检测比赛全部3项冠军、2018年ICPR遥感图像目标检测比赛全部2项冠军、2018年ICFHR东南亚棕榈叶手稿分析比赛2项冠军、2019年CROHME手写公式识别比赛2项冠军、2019年CVPR遥感图像目标检测1项冠军、2020年OffRaSHME离线手写数学公式识别比赛1项冠军、2020年DCASE评测的声音事件定位与检测任务冠军。

个人主页：

http://staff.ustc.edu.cn/~jundu/

主持人：许永超 (武汉大学)

主持人简介：

许永超，武汉大学计算机学院，教授，博导，楚天学子，2018年依托中国图象图形学学会入选中国科协青年托举人才计划，2008年本科毕业于华中科技大学，2010年硕士毕业于法国巴黎11大，2013年获得东巴黎大学博士学位，回国前任职于巴黎高等信息工程师学院Tenured Assistant Professor，研究领域涉及数学形态学、医学图像分析、多方向目标检测识别、计算机视觉。在包括IEEE TPAMI、IEEE TIP、CVPR、ICCV等重要国际期刊和会议发表学术论文 40多篇，目前担任Frontiers of Computer Science期刊的青年编委，IEEE TPAMI、IJCV、CVPR等多个期刊会议的审稿人。现任中国图象图形学学会CSIG青年工作委员会通讯委员，CSIG图象视频通信专委会通讯委员。

个人主页：

https://sites.google.com/view/yongchaoxu

主持人：连宙辉 (北京大学)

主持人简介：

连宙辉，北京大学王选计算机研究所副教授，中国文字字体设计与研究中心副主任，研究方向为计算机图形学、计算机视觉、人工智能，近十年来尤其关注文字图像图形生成及其应用方面的研究，在国际重要杂志（TOG, IJCV等）与会议（SIGGRAPH/ SIGGRAPH Asia, CVPR, IJCAI, AAAI, MM, PG等）上发表论文60多篇，主持/曾主持多项国家和省部级项目，担任CVPR, ICCV, IJCAI, MM, ECCV等多个国际学术会议的高级程序委员会委员（SPC ）或程序委员会委员（PC）,曾获得中国人工智能学会吴文俊人工智能优秀青年奖、北京市科技新星、CVPR杰出审稿人、北京大学产学研合作奖优秀项目奖一等奖等奖励。

个人主页：

http://www.wict.pku.edu.cn/zlian/

20-27期VALSE在线学术报告参与方式：

长按或扫描下方二维码，关注“VALSE”微信公众号 (valse_wechat)，后台回复“27期”，获取直播地址。

特别鸣谢本次Webinar主要组织者：

主办AC：许永超 (武汉大学)、连宙辉 (北京大学)

责任AC：欧阳万里 (悉尼大学)

活动参与方式

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G、H、I、J、K、L、M、N群已满，除讲者等嘉宾外，只能申请加入VALSE P群，群号：1085466722）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周四发布下一周Webinar报告的通知及直播链接。

8、Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新[slides]。

9、Webinar报告的视频（经讲者允许后），会更新在VALSEB站、西瓜视频，请在搜索Valse Webinar进行观看。

殷绪成 [slides]

收藏邀请

上一篇：20201021-26 图神经网络：深图远算，理胜其辞下一篇：VALSE Webinar CVPR DDL期间活动暂停通知

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2026-3-19 12:19 , Processed in 0.020135 second(s), 14 queries .

返回顶部

20201028-27 看图识字：文字检测与识别新进展

相关分类

下级分类