特邀讲者 按姓氏拼音排列

Speaker

白翔

华中科技大学

Speaker

毕彦超

北京师范大学

Speaker

柴金祥

Texas A&M University

Speaker

曹汛

南京大学

Speaker

程洪

电子科技大学

Speaker

卢孝强

中国科学院西安光学精密机械研究所

Speaker

梅涛

微软亚洲研究院

Speaker

沈春华

Univ. of Adelaide

Speaker

孙剑

旷视科技

Speaker

王亮

中科院自动化所

Speaker

薛建儒

西安交通大学

Speaker

颜水成

360研究院

Speaker

章国锋

浙江大学

APR讲者 按姓氏拼音排列

Speaker

程明明

南开大学

Speaker

梅涛

微软亚洲研究院

Speaker

欧阳万里

香港中文大学

Speaker

山世光

中科院计算所

Speaker

乔宇

中科院深圳先进技术研究院

Speaker

谭平

360

Speaker

吴建鑫

南京大学

Speaker

吴毅

南京审计大学

Speaker

杨铭

Horizon Robotics Inc.

Speaker

袁晓彤

南京信息工程大学

Speaker

张姗姗

南京理工大学

Speaker

左旺孟

哈尔滨工业大学

Tutorial讲者 按姓氏拼音排列

Speaker

程健

中科院自动化所

Speaker

俞扬

南京大学

VOOC 专场讲者 按姓氏拼音排列

Speaker

付彦伟

复旦大学

Speaker

何晖光

中科院自动化所

Speaker

贾伟

合肥工业大学

Speaker

卢策吾

上海交通大学

Speaker

郑海永

中国海洋大学

年度优秀Webinar讲者

Speaker

初晓

香港中文大学

Speaker

顾舒航

香港理工大学

Speaker

乔宇

中科院先进院

Speaker

施行健

香港科技大学

Speaker

王刚

南洋理工大学



FCS专场讲者 按姓氏拼音排列

Speaker

范浩强

旷视科技

Speaker

耿新

东南大学

Speaker

孟德宇

西安交通大学

Speaker

吴飞

浙江大学

Speaker

张敏灵

东南大学

报告

  白翔 个人主页 华中科技大学

报告题目:Oriented Scene Text Detection Revisited

报告摘要:In this talk, we revisit the works on multi-oriented text detection in the wild for localizing the texts in scene images. Such detection approaches have become the mainstream of text understanding, and received much attention from both computer vision and document analysis communities in recent years. We provide a thorough overview of the state-of-the-art methods in this field, and evaluate their performance in both detection accuracy and efficiency. In addition, we provide the comprehensive links to publicly available resources, including benchmark datasets, source codes, and online demos. Last, several successful applications of oriented text detection are given as well as the prediction of potential research directions.

讲者信息:白翔,华中科技大学电子信息与通信学院教授,博导,国家防伪工程中心副主任。先后于华中科技大学获得学士、硕士、博士学位。他的主要研究领域为计算机视觉与模式识别、深度学习。尤其在形状的匹配与检索、相似性度量与融合、场景OCR取得了一系列重要研究成果,入选2014、2015年Elsevier中国高被引学者。他的研究工作曾获微软学者,国家自然科学基金优秀青年基金的资助。他已在相关领域一流国际期刊和会议如PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML、ICDAR上发表论文30余篇。任国际期刊Pattern Recognition, Pattern Recognition Letters, Neurocomputing, Frontier of Computer Science编委,VALSE指导委员,VALSE在线委员会(VOOC)主席, VALSE 2016大会主席, IEEE信号处理协会(SPS)武汉Chapter主席。



   毕彦超 个人主页 北京师范大学

报告题目:The cognitive neural basis of object perception and knowledge

报告摘要:Our knowledge about the world serves as a foundation for various cognitive processes including object recognition and use, language, reasoning, and problem solving. How is object conceptual knowledge represented in the brain and how does it interact with object visual perception? I will present a series of brain imaging studies with various types of populations (healthy, patients, congenitally blind) in my lab that explored the nature of object representation in the visual ventral pathway. The overall results highlight the effects of object domains and the roles of brain connections in object visual processing.

讲者信息:Yanchao Bi is a professor and Principal Investigator in IDG/McGovern Institute for Brain Research and the State Key Laboratory of Cognitive Neuroscience and Learning, at Beijing Normal University. She received her PhD from the Department of Psychology, Harvard University in 2006. Her current work focuses on the study of functional and neural architecture associated with semantic memory and language, using cognitive, neuropsychological and neuroimaging methods. Her work is funded by ministry of science and technology (973project) and national science fundation of China. She serves on the editorial board of Journals Scientific Reports and Cognitive Neuropsychology, was a Sackler scholar of psychophysiology and a Fulbright scholar, and was listed as a rising star in the Observer by the American psychological association.



柴金祥 Texas A&M University

报告题目:Video-based Human Motion Capture: Challenges and Progress

报告摘要:Motion capture technologies have made revolutionary progress in computer animation in the past decade. With the detailed motion data and editing algorithms, we can directly transfer expressive performance of a real person to a virtual character, interpolate existing data to produce new sequences, or compose simple motion clips to create a rich repertoire of motor skills. In addition to computer graphics and animation applications, motion capture technologies have enabled natural user interactions for VR/AR, smart TV, and service robots and human motion tracking and recognition for computer vision.
Current motion capture technologies are often restrictive, cumbersome, and expensive. Video-based motion capture offers an appealing solution because they require no markers, no sensors, or no special suits and thereby do not impede the subject’s ability to perform the motion. Graphics and vision researchers have been actively exploring the problem of video-based motion capture for many years, and have made great advances. However, these results are often vulnerable to ambiguities in video data (e.g., occlusions), degeneracies in camera motion, and a lack of discernible features on a human body/hand.
In this talk, I will describe our recent efforts on acquiring human motion using video/depth cameras. Notable examples include full-body motion capture using a single depth camera, realtime and automatic 3D facial performance capture with eye gaze using a single RGB camera, and acquiring physically realistic hand grasping and manipulation data and physically accurate human motion using multiple cameras.

讲者信息:Jinxiang Chai is currently a tenured professor in the Department of Computer Science and Engineering at Texas A&M University. He received his Ph.D in robotics from the School of Computer Science, Carnegie Mellon University in 2006. His primary research is in the area of computer graphics and vision with broad applications in other disciplines such as VR/AR, robotics, human computer interaction, and biomechanics. He is particularly interested in developing representations and efficient computational models that allow acquisition, analysis, understanding, simulation, and control of natural human movements, including full-body movements, facial performance with eye gaze, and hand gestures. He draws on ideas from graphics, vision, machine learning, robotics, biomechanics, psychology, and applied math. He received an NSF CAREER award for his work on theory and practice of Bayesian human motion synthesis.



曹汛 南京大学

报告题目:光谱视频的计算摄像研究

报告摘要:光谱成像能够获得比传统彩色成像(RGB)更多的信息,因而可广泛应用于遥感、材质鉴别、生物分析、环境监测等诸多领域。光谱视频成像需要记录光谱、空间、时间上的高维数据,因此传统光谱仪无法在短曝光时间内获得光谱的动态信息。在本报告中,我们介绍一种棱镜-掩膜式(Prism-Masking Imaging Spectrometer, PMIS)新型视频光谱成像方法和光谱相机系统,通过计算摄像的思想,能够实现在光谱(1nm)、空间(百万像素)、时间(15fps)三个维度上的高分辨率信息获取。报告同时还将介绍如何构建实际的PMIS相机系统,并展示PMIS光谱相机在物体跟踪、皮肤检测、自动白平衡等经典机器视觉和图形学领域的应用。

讲者信息:南京大学电子学院教授,博士生导师,研究方向为计算摄像学(Computational Photography),提出了PMIS光谱视频成像方法并搭建了原型相机系统,使光谱成像技术由“静止”的图像发展至“动态”的视频,得到了美国S.Nayar院士、德国M.Gross院士、哈佛大学、耶鲁大学、加州大学伯克利分校、M.I.T. Media Lab、德国MPI、法国INRIA、东京大学等国际知名学者和研究机构的引用和正面评价,入选2011年度欧洲 EuroGraphics 年度研究进展报告,2016年被美国空军实验室报道为三大新型光谱视频相机。 近年来,PMIS光谱视频成像的理论成果发表在IEEE Signal Processing Magazine、IEEE T-PAMI、IEEE T-CSVT、IJCV、CVPR、ICCV等期刊和会议上,关键技术共申请23项国际和中国发明专利,17项已获授权(含3项美国专利)。曹汛于清华大学自动化系获工学博士学位,曾获得2012年国家技术发明奖一等奖、国家优秀青年基金、微软学者、清华大学学术新秀、南京大学“五四青年奖章”等荣誉。



程洪 电子科技大学

报告题目:机器人视觉和学习

报告摘要:

讲者信息:程洪,博士/教授/博导,四川荣县人。2010年1月起任电子科技大学自动化学院教授,创建模式识别与机器智能实验室并任实验室主任,2014年7月起任电子科技大学机器人研究中心常务副主任、执行主任,2010年教育部新世纪优秀人才计划入选者,2012年电子科技大学百人计划入选者,2013年入选四川省千人计划,领衔的团队2015年获四川省外骨骼机器人科技创新研究团队。

2000年7月起历任西安交通大学电子与信息工程学院助教、讲师、副教授。2003年获西安交通大学控制理论与控制工程博士学位。2006年11月至2009年12月,美国卡内基-梅隆大学机器人博士后。目前,本人是IEEE高级会员,中国自动化学会认知系统与信号处理专委会副主任。

程洪教授致力于社会机器人理论、应用及其产业化的系统创新性研究,主要研究方向包括机器学习与模式识别、计算机视觉、机器人系统等。主持和完成包括国家自然科学基金面上和重点项目共5项,以及重要企业横向项目。取得包括外骨骼和智能车在内的多项创造性成果,产生了较大的社会和经济效益。2004年主持完成西安交通大学无人驾驶汽车SpringRobot;2015年主持完成电子科技大学个人助行外骨骼AIDER系统,并在第九届残运会上帮助截瘫患者站立行走完成火炬传递,目前已经实现产业化。编写教材与学术专著3部,与郑南宁院士合著有自动化专业十一五规划教材《数字信号处理》(清华大学出版社,2007年9月),独著《自主智能车辆:理论、算法与应用》(Springer出版社,2011年12月),以及《稀疏描述、建模与学习及其在可视识别中的应用:理论、算法与实现》(Springer出版社,2015年6月);并和指导的研究生在包括IEEE汇刊和计算机视觉顶级会议在内的国内外重要杂志和会议发表了论文100篇,谷歌学术引用超过1100次,H因子为16;申请国家发明专利超过80项。2008年-2010年任IEEE计算智能杂志编委。此外,本人组织和参与过超过10次国际学术会议与暑期学校。第三届中-美视觉、学习与模式识别暑期学校本地执行主席(VLPR2011),2014年世界多媒体大会与展示(ICME2014)财经主席,2015年中国视觉与学习青年论坛大会主席(VALSE),2015年中国信号处理峰会财金主席(ChinaSIP),2016年中国模式识别大会(CCPR)程序主席,2016年中国社会机器人大会主席(CCSR2016)。

目前,程洪博士主讲电子科技大学自动化专业本科生课程《数字图象处理》、《人工智能导论》、《机器人》,全校研究生公共课程《计算机视觉》、《模式识别与机器学习》。



卢孝强 中国科学院西安光学精密机械研究所

报告题目:视频摘要和浓缩技术

报告摘要:近年来,随着视频采集设备的普及,视频数据呈现出爆炸式的增长趋势。这对视频数据的存储、检索及浏览分析都会造成极大的困难。视频摘要和视频浓缩技术的出现有效地缓解了上述问题。这两种技术手段均通过剔除原视频中的冗余内容、保留重要信息,从而达到视频数据压缩的目的,但它们又各自有所侧重。视频摘要技术主要研究关键帧或关键镜头的提取策略,而视频浓缩技术首先提取原视频中的运动目标,然后主要研究运动目标的排列组合方式。在本次报告中,我将分别介绍视频摘要和视频浓缩技术的发展历史、研究现状、研究难点以及我们在这两个领域所做的相关工作。
Recently, the popularity of camera devices results in the explosive growth of video data, which increases the difficulty of video storage, retrieval and browsing. Fortunately, the development of video summarization and video synopsis has reduced this problem efficiently. Practically, these two techniques can condense the video by removing redundancy while retaining the most important information in the video. Moreover, they have individual characteristics, where video summarization generates a compact version of the video by extracting key-frames or key-shots, while video synopsis follows the pipeline that first detects objects and then rearrange them to condense the original video. In this report, I will give a brief review of video summarization and video synopsis, and introduce the challenges in corresponding fields. Besides, I will introduce our recent works on these two techniques.

讲者信息:卢孝强,研究员、博导,首批中科院青拔。IEEE高级会员和CCF视觉专业组委员,****星主任设计师和***星地面应用系统主管设计师。主要从事遥感成像和数据处理。近五年内发表70余篇论文(含50余篇SCI,20余篇IEEE汇刊,IEEE和ACM会议最佳论文等奖),主持973课题和其他多项国家级项目。任973、863、和国基金评审专家。期刊ISPRS (Springer, SCI二区)专刊的Lead Guest Editor, 领域顶级期刊IEEE T-GRS 副编辑,Neurocomputing (Elsevier, SCI)编委,Cognitive Computation (Springer, SCI)的编委。国际会议程序委员会委员100多次。



   梅涛 个人主页 微软亚洲研究院

报告题目:Vision and Language: Bridging Vision and Language with Deep Learning

报告摘要:Visual recognition has been a fundamental challenge in computer vision for decades. Thanks to the recent development of deep learning techniques, researchers are striving to bridge vision (image and video) and natural language, which has become an emerging research area.We will present a few recent advances bridging vision and language with deep learning techniques, including image and video captioning, image and video chatting, storytelling, vision and language grounding, datasets, grand challenges, and open issues.

讲者信息:Tao Mei is a Senior Researcher with Microsoft Research Asia. His current research interests include multimedia analysisand computer vision. He has authored or co-authored over 150 paperswith 10 best paper awards. He holds 18granted U.S. patents and has shipped a dozen inventions and technologies to Microsoft products and services. He is an Editorial Board Member of IEEE Trans. on Multimedia, IEEE MultiMedia Magazine, and ACM Trans. on Multimedia Computing, Communications, and Applications. He is the Program Co-chair of ACM Multimedia 2018, IEEE ICME 2015, and IEEE MMSP 2015.Tao was elected as a Fellow of IAPR and a Distinguished Scientist of ACM in 2016 for his contributions to large-scale video analysis and applications.



   沈春华 个人主页 Univ. of Adelaide

报告题目:Deep Learning for Dense Per-Pixel Prediction

报告摘要:Dense per-pixel prediction provides an estimate for each pixel given an image, offering much richer information than conventional sparse prediction models. Thus the Computer Vision community have been increasingly shifting the research focus to per-pixel prediction.
In this talk, I will introduce my recent work on deep structured methods for per-pixel prediction that combine deep learning and graphical models such as conditional random fields. I show how to improve depth estimation from monocular images and semantic segmentation with the use of contextual information in the context of deep structured learning. Third, in CNNs, repeated subsampling operations like pooling or convolution (with stride larger than 1) lead to a significant decrease in feature map resolution. We present RefineNet, a generic multi-path refinement network that explicitly exploits all the information available along the down-sampling process to enable high-resolution prediction using long-range residual connections.Thus, the deeper layers that capture high-level semantic features can be directly refined using features from earlier convolution layers.

讲者信息:Chunhua Shen is a Professor at School of Computer Science, University of Adelaide, leading the Adelaide Machine Learning Group.
He is a Project Leader and Chief Investigator at the Australian Research Council Centre of Excellence for Robotic Vision (ACRV), for which he leads the project on machine learning for robotic vision. He is a member of Australian Centre for Visual Technologies (ACVT).
Before he moved to Adelaide, he was with the computer vision program at NICTA (National ICT Australia), Canberra Research Laboratory for about six years. His research interests are in the intersection of computer vision and statistical machine learning. Recent work has been on large-scale image retrieval and classification, object detection and pixel labelling using deep learning.
He studied at Nanjing University, at Australian National University, and received his PhD degree from the University of Adelaide. From 2012 to 2016, he holds an Australian Research Council Future Fellowship. He is serving as Associate Editor of IEEE Transactions on Neural Networks and Learning Systems.
He is leading a team of ~20 PhD students and postdoc researchers at the University of Adelaide.
His team attended ImageNet 2015 (4th place for Object Detection) and ImageNet 2016 (2nd place for Scene Parsing)



孙剑 旷视科技

报告题目:如何在创业公司做(计算机视觉)研究

报告摘要:大公司的研发部门(例如微软亚洲研究院)是很好的做研究平台,有很多的资源、大牛、和高自由度。于是就有不少人问我一个问题:在创业公司(例如我正在任职的旷视科技Face++)是否还能做研究?能否做好研究?是不是会完全被产品导向了?在今天这个讲座,我会基于我自己的在两类公司做研究的亲身经历和感受,分享一下对这个问题的个人看法。同时也会分享一些干货,包括我和同事们在大公司和创业公司的代表性成果(例如,深度残差网络)和最近研究进展(旷视科技小伙伴们今年CVPR 2017的五篇论文)。

讲者信息:孙剑博士目前在旷视科技(Face++)担任首席科学家、旷世研究院院长。孙剑博士2003年毕业于西安交通大学人工智能与机器人研究所,毕业后加入微软亚洲研究院(Microsoft Research Asia),任至首席研究员。其主要研究方向是计算摄影学(computational photography), 人脸识别(face recognition), 和基于深度学习的图像理解(deep learning based image understanding)。自2002年以来在CVPR, ICCV, ECCV, SIGGRAPH, PAMI五个顶级学术会议和期刊上发表学术论文100+篇,Google Scholar 引用 20,000+次,H-index 58,两次获得CVPR Best Paper Award (2009, 2016)。孙剑博士于2010被美国权威技术期刊MIT Technology Review评选为“全球35岁以下杰出青年创新者”。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军(ImageNet分类,检测和定位,MS COCO检测和分割),其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。同时孙剑带领的团队的研究成果也广泛被应用在微软Windows, Office, Bing, Azure, Surface, Xbox等多条产品线上。目前孙剑博士正在带领旷视科技的研究团队推进计算机视觉技术的进步,和探索其在工业和商业上的实践。



王亮 中科院自动化所

报告题目:面向远距离人群感知的视频分析

报告摘要:视频智能分析不仅是计算机视觉的关键科学问题,也是人机交互、视频监控等重要应用中亟需突破的关键技术问题,它主要包括时空序列中“人-物-事”的分析与理解,特别是对远距离多目标等实际应用场景中的人物身份、属性、行为等全方面感知。此报告将介绍本团队利用深度学习在面向远距离人群感知的视频智能分析方面的最新研究工作。

讲者信息:王亮,博士,研究员,博导,IEEE高级会员、国际模式识别协会会士(IAPR Fellow),模式 识别国家重点实验室副主任、中国计算机学会计算机视觉专委会秘书长、图像视频大数 据产业技术创新战略联盟秘书长、中国电子学会青年科学家俱乐部副主席。中科院百人 计划入选者(终期优秀),国家杰出青年科学基金获得者,第十四届中国青年科技奖获 得者。2004年获中科院自动化所工学博士学位,先后在英国帝国理工学院、澳大利亚莫 纳什大学、墨尔本大学及英国巴斯大学工作。主要研究领域是模式识别、计算机视觉、 大数据分析等。



   薛建儒 个人主页 西安交通大学

报告题目:智能车的视觉场景计算与运动控制

报告摘要:场景计算与运动控制是智能车领域的基础性问题,需要克服多传感器信息时空对应、场景交通要素检测、障碍物跟踪及识别、自主运动控制等难点问题。本报告首先综述智能车领域中视觉场景计算与运动控制的研究进展,然后介绍课题组近年来面向无人车所提出的以视觉为主导、融合立体对应与显著性交通要素及其他传感信息的跨模态跨尺度时空对齐与配准计算框架、动态场景理解及运动规划的模型及算法。

讲者信息:薛建儒,博士,教授。2003年获西安交通大学模式识别与智能系统博士学位,2002-2003年在日本富士施乐公司研究本部工作,2008-2009年在美国加州大学洛杉矶分校访问,1999年至今在西安交通大学人工智能与机器人研究所从事教学科研工作。主要研究方向包括计算机视觉与模式识别、智能车环境感知及运动控制,在IEEE汇刊TPAMI、TIP、TMM及学术会议ICCV、ECCV、IROS、ACM MM等发表论文70余篇。研究成果获国家自然科学二等奖、国家技术发明二等奖、IEEE ITSS Institute Lead Award及ACCV2012最佳应用论文奖。入选长江学者特聘教授,获中国自动化学会青年科学家奖、陕西省青年科技奖等荣誉。



颜水成 360研究院

报告题目:深度学习的三个维度:Compactness, Speed, and Accuracy

报告摘要:主要介绍新加坡国立大学LV研究组以及奇虎360人工智能研究院在深度学习的Compactness, Speed, and Accuracy三个维度的一些列进展,同时以360公司具体产品为例介绍这三个维度的研究成果如何提升产品的性能。

讲者信息:颜水成,360副总裁、首席科学家、人工智能研究院院长,新加坡国立大学终身教职,IEEE Fellow, IAPR Fellow 及 ACM 杰出科学家。他的主要研究领域是计算机视觉、机器学习与多媒体分析,发表近500篇高质量学术论文,论文引用过2.5万次,H-index 70。2014、2015、 2016 三次入选全球高引用学者 ( TR Highly-cited researchers )。此外,他领导的团队在五年内曾7次获得计算机视觉领域核心竞赛 PASCAL VOC 和 ILSVRC的 winner 和 honorable-mention 奖项,10余次最佳(学生)论文奖项,曾取得多媒体领域核心会议 ACM MM 最佳论文奖,最佳学生论文奖,最佳技术演示奖的大满贯。



 章国锋 个人主页 浙江大学

报告题目:Robust SfM & SLAM in Challenging Environments

复杂环境下的鲁棒同时定位与地图构建

报告摘要:Although SFM and visual SLAM have achieved great success in the past decade, some critical issues are not adequately addressed, which greatly restrict their applications in practice. For example, how to efficiently obtain long and accurate feature tracks and close complex loops for multiple sequences? How to efficiently perform global bundle adjustment for large datasets with limited memory space? How to perform robust SLAM in dynamic environments? How to handle fast motion and strong rotation? In this talk, I will introduce our recent works for addressing these key issues. A live AR demo on a mobile device will be presented.

讲者信息:章国锋,男,1981年生,博士,浙江大学计算机学院副教授,博士生导师,中国计算机学会计算机视觉专委会委员。主要从事同时定位与地图构建、三维重建、增强现实、视频分割与编缉等方面的研究工作,已在CCF推荐A/B类期刊和会议上发表论文20余篇。尤其在同时定位与地图构建和三维重建方面的研究取得了一系列重要成果,研制了一系列相关软件(ACTS, LS-ACTS, RDSLAM, RKSLAM等)并在网上发布供大家下载使用(http://www.zjucvg.net)。获2010年度计算机学会优秀博士学位论文奖,2011年度全国百篇优秀博士学位论文奖,以及2011年度教育部高等学校科学研究优秀成果奖科学技术进步奖一等奖(排名第4)。



   程明明 个人主页 南开大学教授

报告题目:边缘检测年度进展概述

讲者信息:Ming-Ming Cheng is an associate professor with CCCE, Nankai University. He received his PhD degree from Tsinghua University in 2012 under guidance of Prof. Shi-Min Hu, and working closely with Prof. Niloy Mitra. Then he worked as a research fellow for 2 years, working with Prof. Philip Torr in Oxford. Dr. Cheng’s research primarily centers on algorithmic issues in image understanding and processing, including image segmentation, editing, retrieval, etc.



   梅涛 个人主页 微软亚洲研究院

报告题目:Vision and Language年度进展概述

讲者信息:Tao Mei is a Senior Researcher with Microsoft Research Asia. His current research interests include multimedia analysisand computer vision. He has authored or co-authored over 150 paperswith 10 best paper awards. He holds 18granted U.S. patents and has shipped a dozen inventions and technologies to Microsoft products and services. He is an Editorial Board Member of IEEE Trans. on Multimedia, IEEE MultiMedia Magazine, and ACM Trans. on Multimedia Computing, Communications, and Applications. He is the Program Co-chair of ACM Multimedia 2018, IEEE ICME 2015, and IEEE MMSP 2015.Tao was elected as a Fellow of IAPR and a Distinguished Scientist of ACM in 2016 for his contributions to large-scale video analysis and applications.



    乔宇  中科院深圳先进技术研究院

报告题目:复杂条件下的人类动作理解年度进展概述

讲者信息:中科院深圳先进技术研究院研究员,集成所所长副所长,博士生导师。入选中国科学院“百人计划”,深圳市“孔雀计划”海外高层次人才,他还是广东省引进创新团队的核心成员。研究兴趣包括计算机视觉、深度学习、机器人等。已在包括IEEE T-PAMI,IJCV, IEEE Trans. on Image Processing, IEEE Trans. on Signal Processing, CVPR,ICCV, ECCV,AAAI等会议和期刊上发表学术论文110余篇。获卢嘉锡人才奖。带领团队多次在ChaLearn, LSun,THUMOUS,ACTIVITYNet等国际评测中取得第一,获ImageNet 2016场景分类任务第二名。主持国家重大研究计划子课题,国家自然科学基金重点、中国科学院国际合作重点,粤港合作,深圳市基金研究“杰青”、日本学术振兴会等资助的多个项目。



欧阳万里 香港中文大学

报告题目:人体姿态识别年度总结

讲者信息:讲者简介: Wanli Ouyang received the PhD degree in the Department of Electronic Engineering, The Chinese University of Hong Kong, where he is now a research assistant professor. His research interests include image processing, computer vision and pattern recognition. ImageNet Large Scale Visual Recognition Challenge (ILSVRC) is one of the most important grand challenges in computer vision. The team led by him ranks No. 1 in the ILSVRC 2015 and ILSVRC 2016. He receives the best reviewer award of ICCV. He has been the reviewer of many top journals and conferences such as IEEE TPAMI, TIP, IJCV, TSP, TITS, TNN, CVPR, and ICCV. He is a senior member of the IEEE.


   山世光 个人主页 中科院计算所

报告题目:人脸识别年度进展

讲者信息:山世光,中科院计算所研究员、博导,基金委优青,CCF青年科学奖获得者,现任中科院智能信息处理重点实验室常务副主任,中科视拓创始人、董事长兼CTO。他的研究领域为计算机视觉和机器学习。已发表论文300余篇,其中CCF A类论文60余篇,论文被谷歌学术引用10000余次。曾应邀担任过ICCV,ACCV,ICPR,FG,ICASSP等国际会议领域主席,现任IEEE TIP, CVIU, PRL, Neurocomputing, FCS等国际学术刊物的AE。曾获2005年度国家科技进步二等奖(第三完成人)和2015年度国家自然科学奖二等奖(第二完成人)。



谭平 360研究院

报告题目:SLAM年度进展概述

讲者信息:Dr. Ping Tan is an associate professor at the Simon Fraser University, before that he was an associate professor at the National University of Singapore. He obtained his PhD degree from the Hong Kong University of Science and Technology in 2007. Dr. Tan’s research interests include computer vision, graphics, and robotics. Dr. Tan serves in the editorial board of the International Journal of Computer Vision (IJCV), Computer Graphics Forum (CGF), Machine Vision and Applications (MVA), and Unmanned Systems. He has also served on the program committee of Siggraph and Siggraph Asia.



   吴建鑫 个人主页 南京大学

报告题目:细粒度图像分析年度进展

讲者信息:吴建鑫,南京大学教授,入选中组部青年海外高层次人才引进计划(青年千人计划),2014年获得国家自然科学基金委优秀青年科学基金项目支持。主要从事计算机视觉和机器学习等领域的研究。在重要国际期刊和国际会议如TPAMI、 JMLR、 ICCV、CVPR等发表论文六十余篇。曾担任国际会议ICCV、CVPR、AAAI等的领域主席。



吴毅 南京审计大学

报告题目:视觉跟踪研究年度进展概述

讲者信息:吴 毅 博士,南京审计大学“润泽学者”特聘教授。2004年至2009年在中国科学院自动化研究所模式识别国家重点实验室学习,获模式识别与智能系统专业博士学位。2006年11月至2008年1月曾在Intel中国研究中心进行访问研究。2009年7月到南京信息工程大学参加工作。2010年5月至2012年6月曾在美国天普大学(Temple University)进行博士后研究。2012年7月至2014年4月曾在美国加州大学默塞德分校(University of California, Merced)进行博士后研究。目前主要从事计算机视觉、机器学习等方面的研究,是IEEE TPAMI,IJCV,IEEE TIP等国际期刊以及CVPR,ICCV,ECCV,IJCAI等国际会议的审稿人。目前已在IEEE TPAMI, IEEE TIP等期刊以及ICCV,CVPR等国际会议上发表学术论文三十余篇。据Google Scholar的不完全统计,所发表论文的引用率已近3000次,其中发表在CVPR 2013的Tracking Benchmark工作引用已达1000余次。



杨铭 Co-founder & VP of Software, Horizon Robotics Inc.

报告题目:Beyond Perception: 自动驾驶中的视觉技术年度进展概述

讲者信息:Dr. Ming Yang is one of the founding member of the Facebook Artificial Intelligence Research (FAIR) and a former senior researcher at NEC Labs America. Dr. Yang is a well-recognized researcher in computer vision. His research interests include object tracking, face recognition, massive image retrieval and multimedia content analysis. Dr. Yang owns 14 US patents, and has over 20 publications in top conferences like CVPR and ICCV and 8 publications in the top international journal T-PAMI with more than 4,300 citations. During his tenure at Facebook, Dr. Yang led the deep learning research project “DeepFace”, which had a significant impact in the deep learning research community and got widely reported by various media including Science Magazine, MIT Tech Review and Forbes. Dr. Yang has served as a member of the program committee for multiple top international conferences including CVPR, ICCV, NIPS and ACMMM.  Dr. Ming Yang received his B.Eng. and M.Eng. from Tsinghua University and Ph.D. degree from the Department of Electrical Engineering and Computer Science at Northwestern University.



袁晓彤 南京信息工程大学

报告题目:用于机器学习的优化方法年度进展概述

讲者信息:袁晓彤,博士,南京信息工程大学教授,江苏省大数据分析技术重点实验室副主任。分别于2002年获得南京邮电大学学士学位,2005年获得上海交通大学硕士学位,2009年获得中科院研究生院博士学位。毕业后分别在新加坡国立大学、美国罗格斯大学和康奈尔大学从事博士后研究。2013年9月加入南京信息工程大学信息与控制学院。主要研究领域包括稀疏学习、概率图模型、大规模优化、图像与多媒体分析等。在国内外学术期刊(包括IEEE-TPAMI,IEEE-TIT,JMLR等)和会议(包括NIPS、 ICML、ICCV、CVPR,ECCV等)上发表论文70余篇。2015年获得国家自然科学基金优秀青年基金资助。2014 年入选江苏省“双创计划”;2015年获得IEEE-TMM最佳论文提名。



张姗姗 南京理工大学

报告题目:Recent Developments on People Dectetion, Tracking and Person Re-identification

讲者信息:张姗姗,南京理工大学计算机学院教授,研究方向为计算机视觉和模式识别,特别关注无人驾驶中的视觉感知技术。曾分别于2008年,2011年在同济大学电信学院获得工学学士和硕士学位;2015年2月在德国波恩大学获得计算机博士学位。2010年6月至9月、2014年9月至12月期间曾分别访问日本国立情报学研究所、德国马普所。2015年1月至2016年12月在德国马普计算机科学研究所(MPII)担任博士后研究员。目前以第一作者身份在CVPR,IEEE Transactions on Circuits and Systems for Video Technology,IEEE Transactions on Intelligent Transportation Systems等顶级国际会议和国际期刊上发表论文10余篇,并担任TPAMI, TIP, CVPR, ECCV, IJCAI等顶级国际期刊和国际会议的审稿人。



左旺孟 哈尔滨工业大学

报告题目:GAN研究年度进展评述

讲者信息:博士,哈尔滨工业大学计算机学院教授、博士生导师。主要从事图像增强与复原、距离度量学习、目标跟踪、图像与视频分类等方面的研究。在CVPR/ICCV/ECCV等顶级会议和T-PAMI、IJCV及IEEE Trans.等期刊上发表论文50余篇。



  程健 个人主页 中科院自动化所

报告题目:深度神经网络快速计算方法初探

报告摘要:近年来,深度神经网络在计算机视觉、语音识别等领域取得了巨大成功。为了完成更加复杂的信息处理任务,深度神经网络变得越来越深,也使得其计算量越来越大,从而阻碍了其更广泛的应用。通过网络的优化加快计算速度或压缩网络是有效解决途径之一。本报告将介绍近年来在深度神经网络模型加速和压缩方面的最新进展,对不同方法进行分析和比较。同时,也将分享一些课题组在这方面做的最新工作。

讲者信息:程健,男,现为中国科学院自动化研究所模式识别国家重点实验室研究员,人工智能与先进计算联合实验室主任。分别于1998年和2001年在武汉大学获学士和硕士学位,2004年在中国科学院自动化研究所获博士学位。2004年至2006年在诺基亚研究中心做博士后研究。2006年9月至今在中科院自动化研究所工作。目前主要研究深度学习、图像与视频内容分析、搜索与推荐等方向,在相关领域发表学术论文100余篇,英文编著二本。曾获得2010年度中科院卢嘉锡青年人才奖,2011年入选中科院青年促进会首批会员(优秀会员),2013年获得中国电子学会自然科学一等奖(排名第二)。目前担任国际期刊《Pattern Recognition》的编委,曾担任2010年ICIMCS国际会议主席、HHME 2010组织主席、CCPR 2012出版主席;组织了亚太多媒体会议(PCM 2012-2014)、国际多媒体与展览会议(ICME 2009)等国际会议的特别会议(special session)。



  俞扬 个人主页 南京大学

报告题目:强化学习

报告摘要:强化学习是人工智能的重要研究方向之一,其自主探索环境并从环境的反馈中学习最佳策略,近来受到高度关注。本次tutorial将介绍经典强化学习方法及其发展路线,并对深度强化学习做简要介绍。

讲者信息:俞扬,博士,南京大学副教授。主要研究领域为人工智能、机器学习、演化计算。分别于2004年和2011年获得南京大学计算机科学与技术系学士学位和博士学位,2011年8月加入南京大学计算机科学与技术系、机器学习与数据挖掘研究所(LAMDA)从事教学与科研工作。获2013年全国优秀博士学位论文奖、2011年中国计算机学会优秀博士学位论文奖。在Artificial Intelligence、IJCAI、AAAI、NIPS、KDD等期刊和会议发表多篇论文,研究成果获得IDEAL '16 Best Paper、GECCO'11 Best Theory Paper、PAKDD'08 Best Paper等。任《Frontiers of Computer Science》青年副编辑,IJCAI’15、17高级程序委员,IJCAI’16、17宣传共同主席、ICDM'17宣传共同主席,ACML’16 Workshop共同主席。



付彦伟

报告题目:零样本、小样本以及开集条件下的图像目标分类识别

报告摘要:随着数字采集设备的大量发展,每天大规模的声音、图像、视频等媒体数据被捕捉,并上传到社交媒体和网络上。收集到的图像数据的类别数目也在急剧的增长。例如,最近发布的Yahoo Flickr Creative Commons 100 Million(YFCC100m)公共数据集共收集了上百万个不同类型的标签。因此,如何快捷且有效地对这些海量类别的图像目标分类,成为计算机视觉和模式识别领域的研究热点,且具有重大科学意义和实际应用价值。从理论角度看,图像目标分类问题是计算机视觉和模式识别领域的研究难题,经过几十年的努力,目前虽然取得了显著进展,但是仍然存在很多难点问题有待突破。从应用角度,目前众多的实际应用都需要图像目标分类技术,如图像自动标注、海量图像搜索、自动图片过滤等。本报告将对小样本、零样本及开集条件下图像目标分类这一挑战性问题进行讨论,并简单介绍我们在这个方面的研究进展。

讲者信息:付彦伟博士现任复旦大学大数据学院青年副研究员。他于2016年7月加入复旦大学大数据学院,主要研究领域包括计算机视觉与模式识别、机器学习与统计学习、情感计算、多媒体视频分析与处理等。他已在IEEE TPAMI, ECCV, CVPR, AAAI等计算机视觉与模式识别、机器学习、多媒体领域顶级国际期刊及会议发表论文共16篇;其中包括3篇以第一作者身份发表的IEEE TPAMI长篇论文。 他已获得/正在申请的中国专利13项,美国专利3项。



何晖光 中科院自动化所

报告题目:基于视觉信息编解码的深度学习类脑机制研究

报告摘要:深度学习是否类脑,目前并没有统一的认识。我们将从视觉信息编解码的角度来介绍我们关于深度学习和类脑的思考,我们通过fMRI信号,建立从人类视觉系统与外界视觉刺激信息之间的映射模型,探索大脑视觉信息处理的过程和机理。与此同时,我们还将研究深度学习所得到的视觉特征与大脑视觉信息处理的关系,理解各层特征在大脑皮层的神经表达,并利用深度学习建立视觉信息的神经编解码模型。最后介绍我们利用多视图贝叶斯深度学习从fMRI信号重构图像的工作。

讲者信息:中科院自动化所研究员,博士生导师,中国科学院大学岗位教授,中科院脑科学与智能技术卓越中心年轻骨干。IEEE高级会员,CCF-CV专委会委员。分别于1994年(本科),1997年(硕士)毕业于大连海事大学,1997-1999在大连海事大学科研院从事教学与科研工作;2002年在中国科学院自动化研究获博士学位,同年留所工作。曾在美国罗切斯特大学、加拿大滑铁卢大学、美国北卡大学教堂山分校做博士后、高级研究学者。何晖光博士先后主持5项国家自然科学基金(包括国家自然基金重点项目)、2项863项目等,先后获得国家科技进步二等奖两项(分别排名第二、第三),北京市科技进步奖两项,中科院首届优秀博士论文奖,北京市科技新星,中科院”卢嘉锡青年人才奖”,中科院青促会优秀会员等荣誉称号。任国家自然科学基金, 国家863计划以及科技部国际合作项目的评审专家。其研究领域为脑与认知科学,模式识别,医学影像处理,脑-机接口,计算机图形学等, 其研究结果在NeuroImage, Human Brain Mapping, Pattern Recognition, MICCAI等相关领域的国内外核心期刊以及国际主流会议上发表文章一百余篇。



乔宇 中国科学院深圳先进技术研究院

报告题目:面向复杂场景与行为理解的深度学习方法

报告摘要:近年来,深度学习在图像和视频分类中取得重要进展在ImageNet、ActivityNet等大规模图像视频分类任务上取得优异的识别率。场景和视频行为分析识别都是计算机视觉的基本问题,在监控、人机交互、检索等领域有重要的应用。与物体相比,场景的概念更加抽象,内容变化也更加丰富。与静态图像相比,行为视频包含有丰富的运动信息数据维度也更高。同时由于视频中包含行为人、视角、背景、运动、遮挡等复杂的变化,非受控条件下行为识别一直是一个极具挑战的问题。在这个报告中,我们将介绍图像场景和视频行为识别的最新进展,特别是我们课题组近年来开展的一些工作(CVPR13, ICCV13, CVPR 14, ECCV 14, CVPR15, IJCV 15, CVPR16,ECCV16)。内容包括视频中层表示、多视角特征编码、轨迹卷积特征池化、运动向量CNN、时空注意模型等。我们的方法在公开多类别数据库UCF101, HMDB51上取得了领先的识别率,在ActivityNet, ChaLearn,LSUN等国际竞赛中取得第一。

讲者信息:中科院深圳先进技术研究院研究员,集成所所长副所长,博士生导师。入选中国科学院“百人计划”,深圳市“孔雀计划”海外高层次人才,他还是广东省引进创新团队的核心成员。研究兴趣包括计算机视觉、深度学习、机器人等。已在包括IEEE T-PAMI,IJCV, IEEE Trans. on Image Processing, IEEE Trans. on Signal Processing,CVPR,ICCV, ECCV,AAAI等会议和期刊上发表学术论文110余篇。获卢嘉锡人才奖。带领团队多次在ChaLearn, LSun,THUMOUS,ACTIVITYNet等国际评测中取得第一,获ImageNet 2016场景分类任务第二名。主持国家重大研究计划子课题,国家自然科学基金重点、中国科学院国际合作重点,粤港合作,深圳市基金研究“杰青”、日本学术振兴会等资助的多个项目。



  贾伟 个人主页 合肥工业大学

报告题目:移动生物特征识别及掌纹识别

报告摘要:生物特征识别技术在信息安全、数字娱乐等领域有着重要的应用。随着移动互联网和人工智能时代的到来,生物特征识别技术正发展到移动生物特征识别技术阶段,并将在国民经济中起着越来越重要的作用。本报告将对移动生物特征识别技术进行初步的探讨。低分辨率掌纹识别是一个新兴的生物特征识别技术,具有可非接触识别、识别精度高等优点,我们对掌纹识别技术进行了较为系统的研究,本报告也将简介我们在此方面的研究进展。

讲者信息:贾伟,博士,合肥工业大学计算机与信息学院副研究员。曾在中国科学院合肥物质科学研究院工作,2016年9月加盟合肥工业大学计算机与信息学院。近年来,在IEEE会刊、PR等国际期刊上发表论文近30篇,已获得3项国家自然科学基金的资助。担任VALSE第一届在线理事会(VODB)副主席、第二届在线委员会(VOOC)副主席;担任IEEE CIS HeFei Chapter副主席;担任多个会议的程序委员会主席及委员,中科院青年创新促进会首批会员,是IEEE TIP、TCSVT、TNNLS、TIFS、TCYB、PR等多个国际期刊和会议的审稿人。主要研究兴趣为计算机视觉、模式识别和生物特征识别等。



卢策吾 上海交通大学

报告题目: Computer Vision: from pixels to visual intelligence

报告摘要:Computer vision started with the goal of building machines that can see like humans and perform perception for robots. Applications such as driverless car, intelligence community, image search, computational photography, biological imaging, GIS, biometrics and homeland security were unanticipated and other applications keep arising as computer vision technology develops. Images (videos) captured by cameras are deadly data – pixels. Therefore, the task of computer vision (from pixels to visual intelligence) is extremely challenging. In this talk, firstly, two my recent works, visual relationship prediction and multi-person pose estimation will be presented. Thus, we will revisit the road-map of computer vision in recent years and discuss some future directions, such as deep reinforcement learning on autonomous driving.

讲者信息: Cewu Lu (卢策吾) is a Professor at Shanghai Jiao Tong University (SJTU) and leader of Vision Machien and Intellengence Group. Before he joined SJTU, he was a research fellow at Stanford University AI lab working under Prof. Fei-fei Li and Prof. Leonidas J. Guibas . He was a Research Assistant Professor at Hong Kong University of Science and Technology with Prof. Chi Keung Tang . He got the his PhD degree from The Chinese Univeristy of Hong Kong, supervised by Prof. Jiaya Jia. He was selected as the 1000 Overseas Talent Plan (Young Talent) (中组部青年千人计划) by Chinese central government. He has published about 30 CCF-A papers (including CVPR/ICCV/TPAMI/IJCV). He is one of core technique member in Stanford-Toyota autonomous car project (斯坦福-丰田,无人车项目). Some of his proposed algorithms have been used as a basic tool function in OpenCV (such as decolor.cpp). He has one Best Paper Award at the Non-Photorealistic Animation and Rendering (NPAR) 2012 and one most cited paper among all papers in SIGGRAPH recent 5 years. He serves as an associate editor for Journal gtCVPR and reviewer for Journal TPAMI and IJCV. His research interests fall mainly in Computer Vision, deep learning, deep reinforcement learning and robotics vision.



  郑海永 个人主页 中国海洋大学

报告题目:Underwater Vision from Optics and Imaging to Vision and Learning

报告摘要:从某种意义而言,人类对太空的了解要远远超过海洋。人类依靠视觉获取的信息占全部信息的70%以上,图像和视频已经成为我们日常生活中“体量最大的大数据”,相较而言,视觉在水下探测和观测中的研究却刚刚起步。本报告主要结合我们在水下视觉领域的研究,介绍过去水下光学与成像相关的理论和方法,概述现在水下视觉与学习相应的问题和困难,并简要探讨未来水下视觉可能的发展趋势。

讲者信息:中国海洋大学信息科学与工程学院电子工程系副教授。分别于2004年和2009年在中国海洋大学获得“电子信息工程”学士和“海洋信息探测与处理”博士学位。主要从事水下光学与成像和图像分析与识别相关研究,近年来作为主要研究人员研制研发了“水下非均匀光场目标探测系统”、“水下集束光、激光差频扫描目标三维探测系统”、“海洋浮游生物原位显微成像系统”、“有害赤潮生物诊断系统”、“中国海常见浮游植物显微图像识别系统”等。



初晓 香港中文大学

报告题目:基于注意力机制的人体姿态分析

报告摘要:人体姿态分析是通过分析单张图片,得到人体关键点位置的算法。在这次报告中,我将介绍我们最新的工作,结合了attention和multi-context来提高人体姿态分析的准确度。我们采用了经典的多层沙漏网络的结构,在不同层的特征上产生不同分辨率的注意力图,然后把他们结合起来,逐层的乘在沙漏网络输出特征层上。不同于以往的算法,我们使用了CRF来处理特征图上不同点之间的空间关系。不同深度的沙漏网络我们使用了不同的注意力图,体现由全局到局部,由粗到细致的过程。我们的算法在多个数据库上取得了最高的精确度,是目前效果最好的2D人体姿态分析算法。

讲者信息:Chu xiao is currently a final year Ph.D. student at the Chinese University of Hong Kong working on computer vision, advised by Professor Xiaogang Wang. Her research interest is in computer vision and machine learning, especially human pose estimation and human interaction analysis. Before that, she received B.E. degree from Shandong University, in 2013.



顾舒航 香港理工大学

报告题目: Analysis and Synthesis Sparse Representation Models for Image Modeling

报告摘要:Analysis sparse representation (ASR) and synthesis sparse representation (SSR) are two representative approaches for sparsity-based image modeling. An image is described mainly by the non-zero coefficients in SSR, while it is characterized by the indices of zeros in ASR. We analyze the respective merits and drawbacks of the two models in image prior modeling, and apply them to typical image enhancement applications. To deal with image super-resolution problem, we propose a convolutional sparse coding (CSC) based SR (CSC-SR) method, which exploit two SSR-based dictionaries to characterize the relationship between low resolution and high resolution images. For the guided depth enhancement problem, we generalize the ASR model by including a guided weight function for dependency modeling. The two models have achieved state-of-the-art enhancement results with highly competitive quantitative indexes as well as pleasant visual quality.

讲者信息:Shuhang Gu received the B.E. degree from the School of Astronautics, Beijing University of Aeronautics and Astronautics, China, in 2010, and the M.E. degree from the Institute of Pattern Recognition and Artificial Intelligence, Huazhong University of Science and Technology, China, in 2013. He is currently pursuing the Ph.D. degree with the Department of Computing, The Hong Kong Polytechnic University. His current research interest is learning and optimization for low level vision. He already published several papers in top conferences/journals including CVPR, ICCV, NIPS and IJCV.



乔宇 中科院深圳先进技术研究院

报告题目:面向大规模场景识别的深度学习方法

报告摘要:场景识别和理解是计算机视觉领域的一个基本和挑战性问题。场景的类别往往由其功能、所包含的物体和布局所决定。与物体相比,场景类别往往更加抽象,类内包含的变化相对较大。该报告将综述,近年来以卷积神经网络为代表的深度学习方法在大规模场景识别取得重要进展,特别介绍深圳先进院多媒体课题组在这一领域近期的工作。我们的方法在LSUN 2016竞赛取得第一名,在ImageNet 2015竞赛场景分类任务取得第二名。

讲者信息:中科院深圳先进技术研究院研究员,集成所所长副所长,博士生导师。入选中国科学院“百人计划”,深圳市“孔雀计划”海外高层次人才,他还是广东省引进创新团队的核心成员。研究兴趣包括计算机视觉、深度学习、机器人等。已在包括IEEE T-PAMI,IJCV, IEEE Trans. on Image Processing, IEEE Trans. on Signal Processing, CVPR,ICCV, ECCV,AAAI等会议和期刊上发表学术论文110余篇。获卢嘉锡人才奖。带领团队多次在ChaLearn, LSun,THUMOUS,ACTIVITYNet等国际评测中取得第一,获ImageNet 2016场景分类任务第二名。主持国家重大研究计划子课题,国家自然科学基金重点、中国科学院国际合作重点,粤港合作,深圳市基金研究“杰青”、日本学术振兴会等资助的多个项目。



施行健 香港科技大学

报告题目:Dynamic Key-Value Memory Networks for Knowledge Tracing

报告摘要:Knowledge Tracing (KT) is a task of tracing evolving knowledge state of students with respect to one or more concepts as they engage in a sequence of learning activities. One important purpose of KT is to personalize the practice sequence to help students learn knowledge concepts efficiently. However, existing methods such as Bayesian Knowledge Tracing and Deep Knowledge Tracing either model knowledge state for each predefinedconcept separately or fail to pinpoint exactly which concepts a student is good at or unfamiliar with. To solve these problems, this work introduces a new model called Dynamic Key-Value Memory Networks (DKVMN) that can exploit the relationships between underlying concepts and directly output a student's mastery level of each concept. Unlike standard memory-augmented neural networks that facilitate a single memory matrix or two static memory matrices, our model has one static matrix called key, which stores the knowledge concepts and the other dynamic matrix called value, which stores and updates the mastery levels of corresponding concepts. Experiments show that our model consistently outperforms the state-of-the-art model in a range of KT datasets. Moreover, the DKVMN model can automatically discover underlying concepts of exercises typically performed by human annotations and depict the changing knowledge state of a student.

讲者信息:施行健现于香港科技大学攻读博士学位,导师为Dit-Yan Yeung教授。2014年本科毕业于上海交通大学,导师为李武军教授和王士林教授。研究兴趣为深度学习,时空序列分析和计算机视觉。他是MXNet的主要开发人员之一。



王刚 南洋理工大学

报告题目:Controlling and regulating Information flow in neural networks

报告摘要:Human brains are adept at dealing with the deluge of information they continuously receive, and adaptively controlling and regulating the information flow to focus on the important inputs and suppress the non-essential ones for better performance. Inspired by such a capability, we develop three types of networks which computationally regulate the information flow in CNN, siamese CNN, and LSTM respectively. Our methods have achieved state-of-the-art performance on CIFAR 100 for image classification, Market-1501 dataset for human re-identification, and NTU RGB-D dataset for action recognition.

讲者信息:Wang Gang is currently a researcher and a technique leader in Alibaba. He was an Associate Professor with the School of Electrical and Electronic Engineering at Nanyang Technological University (NTU). He had a joint appointment at the Advanced Digital Science Center (Singapore) as a research scientist from 2010 to 2014. He received his B.Eng. degree from Harbin Institute of Technology in Electrical Engineering and the PhD degree in Electrical and Computer Engineering, University of Illinois at Urbana-Champaign. He is a recipient of MIT technology review innovator under 35 award (Asia). He is an associate editor of TPAMI and an area chair of ICCV 2017. He supervised a team to achieve top 5 in the ImageNet challenge on scene classification in 2015 and 2016 respectively.



范浩强 旷视科技

报告题目:基于对抗学习的数据分布建模及应用

报告摘要:生成模型(generative models)旨在刻画数据的分布特性。在图像预测与处理问题中,不确定性与歧义性是很普遍的,在这类问题上生成模型能够发挥很关键的作用。本报告结合人脸识别、3D重建等方面的研究实践,介绍生成模型,尤其是对抗生成模型的原理与应用,并探讨对抗生成模型中的若干问题。

讲者信息:Face++ 研究员,研究领域包括深度学习在计算机视觉领域的基础研究和实际应用。自2012年起参与开发了Face++的第一代、基于深度学习的人脸比对、关键点定位、3D相关工作。曾取得LFW、FDDB、300W等多项评测与比赛的第一名,曾获23届国际信息学奥林匹克竞赛(IOI)金牌第二名。



耿新 东南大学

报告题目:标记分布学习范式

报告摘要:标记分布学习是一种新型机器学习范式。在该范式中,每个示例不是与一个或者一组标记相关联,而是与一个标记分布相关联。一个标记分布覆盖所有可能的标记,并且明确给出每个标记描述示例的程度。在这一定义下,传统的单标记学习和多标记学习都可以看作标记分布学习的特例。现实世界中存在不少本身就具有标记分布信息的数据。更多情况下,标记分布信息不完整时,可通过先验知识或者机器学习方法生成完整的标记分布。因此,标记分布学习是一种相较传统学习范式更为泛化,并且具有广泛应用前景的新型机器学习范式。

讲者信息:东南大学计算机科学与工程学院副院长,模式学习与挖掘(PALM)实验室主任,国家优青,江苏省杰青。研究领域包括机器学习、模式识别、计算机视觉等。在重要国际学术期刊和会议发表论文50余篇。现为CCF青年工作委员会执委,江苏省计算机学会理事、青年工作委员会主任,CCF人工智能与模式识别专委会、计算机视觉专委会委员,中国人工智能学会机器学习专委会、模式识别专委会委员,Frontiers of Computer Science青年AE。



孟德宇 西安交通大学

报告题目:误差建模原理

报告摘要:传统机器学习主要关注于确定性信息的建模,而在复杂场景下,机器学习方法容易出现对数据噪音的鲁棒性问题,而该鲁棒性问题与误差函数的选择紧密相关。本次报告聚焦于如何针对包含复杂噪音数据进行误差建模的鲁棒机器学习原理。这一原理已经在遥感影像、CT图像与高光谱图像的相关应用中取得良好效果,并有望引导出更多有趣的机器学习相关应用与发现。

讲者信息:研究领域包括自步学习、误差建模、张量稀疏性等机器学习相关方向的研究。共接收/发表IEEE汇刊论文16篇,CCF A类会议论文24篇。曾担任ICML、NIPS等会议程序委员会委员,AAAI2016、IJCAI2017高级程序委员会委员,现担任Frontiers of Computer Science青年AE。



吴飞 浙江大学

报告题目:数据驱动与知识引导相结合的人工智能思考

报告摘要:数据驱动的人工智能方法擅于预测识别任务(但是其过程难以理解),知识指导为核心的模型长于推理任务优势(但是其难以拓展)。如何有机协调数据驱动人工智能与知识引导人工智能各自优势,探索有机结合逻辑、先验和知识以及数据的模型与方法,形成解释性强以及数据依赖灵活人工智能当前面临的难点问题。本报告将对这一问题进行讨论,做出一些思考。

讲者信息:浙江大学计算机学院副院长,浙江大学人工智能研究所所长。研究领域包括人工智能、跨媒体计算、多媒体分析与检索。获国家杰出青年科学基金(2016年)。担任Multimedia System副编审、Frontiers of Information Technology & Electronic Engineering (中国工程院子刊)编委会成员、Frontiers of Computer Science青年AE。



张敏灵 东南大学

报告题目:非消歧偏标记学习

报告摘要:数据驱动的人工智能方法擅于预测识别任务(但是其过程难以理解),知识指导为核心的模型长于推理任务优势(但是其难以拓展)。如何有机协调数据驱动人工智能与知识引导人工智能各自优势,探索有机结合逻辑、先验和知识以及数据的模型与方法,形成解释性强以及数据依赖灵活人工智能当前面临的难点问题。本报告将对这一问题进行讨论,做出一些思考。

讲者信息:偏标记学习(partial label learning)是一类重要的弱监督学习框架,在该框架下每个对象同时具有多个候选标记且其中仅有一个为真实标记。现有偏标记学习方法通常采用消歧策略处理对象的候选标记集合,然而该策略会受到候选标记集合中伪标记带来的不利影响。为此,我们提出了一种非消歧偏标记学习方法PL-ECOC。该方法通过改造传统的纠错输出编码机制以适应偏标记学习的需求,将候选标记集合作为一个整体进行学习,从而避免采用任何消歧操作。实验结果表明,PL-ECOC的泛化性能显著优于已有偏标记学习算法。