UC Berkeley大学博士后刘子纬2018年1月17日VALSE Webinar 成功举办.
刘子纬,加州大学伯克利分校博士后,本科毕业于华中科技大学电信学院,2017年博士毕业于香港中文大学多媒体实验室,师从著名的汤晓鸥和王小刚教授,期间在Microsoft research和Google research实习。他的研究兴趣是计算机视觉、机器学习、计算摄影学等,已经在cvpr、iccv、aaai等顶级会议上发表论文14篇,Google scholar citation已经打到了740多次。
刘子纬博士的Webinar的题目为:Deep learning human centric representation in the wild.
问答部分:
问题1:求分析一下直接回归坐标和回归heat map的优缺点(landmark/joint)以及offset上有什么可以改进的吗? 回答:直接回归坐标的缺点在于难以训练,优点在于对于landmark的定位较为精确且更适合3D pose等任务;heat map的优点在于可以利用现有的fully convolutional network的套路进行训练,缺点在于对于landmark的定位较为粗糙且整个网络的计算代价较大。对于cascading中offset的改进可以基于difficulty-aware learning,比如对于每个sample所预测出的offset还取决于这个sample所属的典型错误类型,具体细节可参见我们ECCV 2016关于fashion landmark detection的论文。
问题2:能谈一下你对Deep learning 和MRF、图模型或者贝叶斯结合这个方向的看法吗? 回答:Deep learning和MRF以及图模型相结合的工作现在已经广泛运用于semantic segmentation和pose estimation等任务中。但现有的图模型仅仅局限于对于可观察变量(observable factors)的推理,比如pixel之间或者landmark/part之间的关系。我个人认为未来的方向在于将隐变量(latent factors)融入图模型中,比如从单张2D图像中推理整个场景的3D结构或者图中不同实例间的交互关系。
问题3: 关于图像中异质信息的联系和融合,其中 identity, attribute信息比较好理解, 而自监督信息具体指的什么呀?目前有没有类似的工作可以推荐?谢谢 回答:我理解的自监督信息来源于自然图像和视频中所存在的natural consistency和correspondence,比如我们的deep voxel flow证明视频的相邻帧间存在很强的对应关系且可以无监督地发现。同样的,对于属性相同的人脸和服饰,它们的局部关键点也一定会共享一些特性。我们可以利用这些相似性来无监督地定位关键点。比较典型的工作包括VGG组在ICCV 2017上发表的Unsupervised Learning of Object Landmarks这篇论文。我们最近也有一个self-supervised semantic segmentation的工作发现在某些情况下自监督信息甚至可以媲美完全监督信息。
录像视频在线观看地址: http://www.iqiyi.com/u/2289191062
特别鸣谢本次Webinar主要组织者:
VOOC责任委员:王兴刚(华中科技大学) VODB协调理事:王乃岩(北京图森未来科技有限公司)
活动参与方式: 1、VALSE Webinar活动依托在线直播平台进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过聊天功能与讲者交互; 2、为参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ群(目前A、B、C、D、E、F群已满,除讲者等嘉宾外,只能申请加入VALSE G群,群号:669280237),直播链接会在报告当天(每周三)在VALSE微信公众号和VALSE QQ群发布; *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、在活动开始前10分钟左右,讲者会开启直播,听众点击直播链接即可参加活动,支持安装Windows系统的电脑、MAC电脑、手机等设备; 4、活动过程中,请勿送花、打赏等,也不要说无关话语,以免影响活动正常进行; 5、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题; 6、建议务必在速度较快的网络上参加活动,优先采用有线网络连接; 7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频(经讲者允许后),每周四发布下一周Webinar报告的通知。
|