VALSE Webinar 2023-08期总第308期知识嵌入的跨模态学习

2023-4-13 23:51| 发布者: 程一-计算所| 查看: 1243| 评论: 0

摘要: 报告时间2023年04月19日 (星期三)晚上20:00 (北京时间)主题知识嵌入的跨模态学习主持人李冠彬 (中山大学计算机学院)直播地址https://live.bilibili.com/22300737报告嘉宾：王文冠 (浙江大学)报告题目：Knowledge-Dr ...

报告时间	2023年04月19日 (星期三) 晚上20:00 (北京时间)
主题	知识嵌入的跨模态学习
主持人	李冠彬 (中山大学计算机学院)
直播地址	https://live.bilibili.com/22300737

报告嘉宾：王文冠 (浙江大学)

报告题目：Knowledge-Driven Perception

报告嘉宾：朱磊 (山东师范大学)

报告题目：高效能跨模态检索

Panel嘉宾：

彭宇新 (北京大学)、俞俊 (杭州电子科技大学)、王瑞平 (中科院计算所)、吴琦 (阿德莱德大学)、王文冠 (浙江大学)、朱磊 (山东师范大学)

Panel议题：

1. 在不同的多模态理解研究任务中，知识通常包括什么，有怎样的表示形式？通常以怎样的方式嵌入多模态模型的学习及推理？

2. 以CLIP为代表的视觉语言预训练大模型的成功是否意味着显式知识嵌入的跨模态理解模型已经失去了其必要性？ChatGPT会对知识图谱造成什么影响，知识图谱会被大模型替代吗？

3. 知识嵌入的跨模态理解有没有较为成功的规模化落地应用案例？

4. 以ChatGPT为代表的大模型中蕴含着海量的知识，畅想一下这些知识会以怎样的方式增强视觉语言的多模态理解任务?

5. 特殊领域的知识，比如医科知识，如何嵌入更加擅长通识的大模型？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：王文冠 (浙江大学)

报告时间：2023年04月19日 (星期三)晚上20:00 (北京时间)

报告题目：Knowledge-Driven Perception

报告人简介：

王文冠，浙江大学计算机学院百人计划研究员，博士生导师，国家优秀青年基金 (海外)获得者。2022∼2023年, 任悉尼科技大学 (University of Technology Sydney)讲师。2020∼2022 年, 任苏黎世联邦理工学院 (ETH Zurich)博后研究员。2018∼2019年，先后任起源人工智能研究院 (IIAI)研究员和资深研究员。2016∼2018年在加州大学洛杉矶分校 (UCLA)访学。2018年博士毕业于北京理工大学。主要研究方向为计算机视觉和人工智能。在顶级期刊和会议 (如TPAMI、IJCV、ICLR、NeurIPS、CVPR、ICCV、ECCV、AAAI、Siggraph sia)发表学术论文80多篇。谷歌学术引用12, 300余次，H指数56。曾获澳大利亚研究理事会 (Australian Research Council，ARC)优秀青年基金 (Discovery Early Career Researcher Award，DECRA) (2022年)、Elsevier高被引中国学者 (2020∼2022年)，世界人工智能大会优秀青年论文奖 (2020年)、中国人工智能学会优博奖 (2019年)，ACM中国优博奖 (2018年)。

个人主页：

https://sites.google.com/view/wenguanwang/

报告摘要：

Studies in cognition suggest that our perception works at multiple levels of abstraction, intertwined with effective reasoning through manipulation of symbolic knowledge/concepts. In contrast, our current visual recognition models are typically blind to the structured nature of the visual world and purely data-driven parametric classifiers. Filling the gaps identified above calls for a fundamental paradigm shift: i) moving away from `flat' label classification towards class structure-aware semantic parsing; and ii) moving away from the extreme of fully parametric learning towards an ambitious hybrid of distributed representation learning and visual knowledge/concept based reasoning. In this talk, I will represent our latest research along the two dimensions of such paradigm shift. This talk will be concluded by examining the topic with an open and enquiring flavor, teasing apart open challenges in the journey of building knowledge-driven perception.

参考文献：

[1] Deep Hierarchical Semantic Segmentation, CVPR, 2022

[2] Visual Recognition with Deep Nearest Centroids, ICLR, 2023 (Spotlight)

报告嘉宾：朱磊 (山东师范大学)

报告时间：2023年04月19日 (星期三)晚上20:30 (北京时间)

报告题目：高效能跨模态检索

报告人简介：

朱磊，山东师范大学教授，博士生导师。主要研究方向是跨模态分析与检索。共发表CCF A类会议长文、ACM/ IEEE汇刊论文百余篇，ESI高被引论文8篇，Google引用5600多次，H-index 41。获得CCF A类会议等多个会议最佳论文奖/ 提名奖，1篇论文入选2019年中国百篇最具影响国际学术论文，拥有授权专利22件。担任ACM TOMM、IEEE TBD、Information Sciences等多个国际期刊的编委，任多媒体领域权威国际会议ACM MM/ IEEE ICME的领域主席 (Area Chair)，SIGIR/ CIKM/ AAAI高级程序委员会委员 (SPC)。主持/ 参与基金委青年/ 面上项目、山东省优秀青年基金项目等10余项横纵课题。获得ACM中国SIGMM新星奖，山东省留学回国人员创业奖、中国自动化学会优秀硕士生导师奖、山东省人工智能优秀青年奖等。

个人主页：

https://sites.google.com/site/homepageleizhu

报告摘要：

跨模态检索旨在以任意模态数据检索其他模态的语义相关数据，实现图像、视频、文本、音频等不同模态的交叉检索。作为一种跨越不同模态类型的信息检索方式，跨模态检索克服了传统的单一模态数据检索的局限性，能更加灵活、全面地满足用户的检索需求，也更加符合人脑的跨模态感知与认知方式。然而，跨模态检索系统在面对海量的多模态数据时存在严重的计算和存储效率问题。在本次报告中，我将介绍面向多模态数据的高效能哈希检索方法，介绍如何深度挖掘多模态潜在语义和高效学习二值哈希码的方法。

参考文献：

[1] Lei Zhu, Xize Wu, Jingjing Li, Zheng Zhang, Weili Guan, Heng Tao Shen. Work Together: Correlation-Identity Reconstruction Hashing for Unsupervised Cross-modal Retrieval. IEEE Transactions on Knowledge and Data Engineering, 2022, DOI: 10.1109/ TKDE.2022.3218656

[2] Wentao Tan, Lei Zhu, Weili Guan, Jingjing Li, Zhiyong Cheng. Bit-aware Semantic Transformer Hashing for Multi-modal Retrieval. ACM SIGIR Conference on Research and Development in Information Retrieval, 2022, 982–991

[3] Lei Zhu, Tianshi Wang, Jingjing Li, Zheng Zhang, Jialie Shen, Xinhua Wang. Query-based Black-Box Attack against Cross-modal Hashing. ACM Transactions on Information Systems, 41(3): 54:1-54:25

[4] Wentao Tan, Lei Zhu, Jingjing Li, Zheng Zhang, Huaxiang Zhang. Partial Multi-Modal Hashing via Neighbor-aware Completion Learning. IEEE Transactions on Multimedia, 2023, DOI: 10.1109/ TMM.2023.3238308

Panel嘉宾：彭宇新 (北京大学)

嘉宾简介：

彭宇新，北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、中国电子学会会士、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任、北京图象图形学学会副理事长。主要研究方向为跨媒体分析、计算机视觉、机器学习、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步一等奖，2008年获北京大学宝钢奖教金优秀奖，2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等30多个项目，发表论文180多篇，包括ACM/ IEEE Trans和CCF A类论文80多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛，均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TMM、TCSVT等期刊编委。

Panel嘉宾：俞俊 (杭州电子科技大学)

嘉宾简介：

杭州电子科技大学教授、博士生导师，国家杰出青年基金获得者。主要研究方向为跨媒体分析技术。相关工作发表于SCI源期刊论文100余篇，包括ACM汇刊与IEEE汇刊及CCF A类会议40余篇。论文的Google Scholar引用次数9000余次。10余篇论文入选ESI高被引/ 热点论文；近年来主持国家自然科学基金重点项目、国家自然科学基金面上项目等，2015、2016、2017连续获得IEEE TMM、TIP、TCYB最佳论文奖，2018年教育部自然科学二等奖，2021年浙江省自然科学一等奖。担任多个国际期刊的副编辑。

Panel嘉宾：王瑞平 (中科院计算所)

嘉宾简介：

王瑞平，中科院计算所研究员、博导，研究领域为计算机视觉与模式识别，重点关注真实开放环境下的视觉场景理解问题。发表国际期刊和会议论文100余篇，Google Scholar引用6700余次，获授权国家发明专利9项。带领研究生6次获得本领域主流国际学术竞赛冠亚军，获得CVPR 2021 CLVISION Workshop最佳论文奖。担任Pattern Recognition、Neurocomputing等国际期刊编委，十余次担任IEEE CVPR、ICCV、ECCV、WACV、ACCV等国际会议领域主席，获得IEEE CVPR 2019/ ICCV 2019/ FG 2019/ ECCV 2020/ NeurIPS 2020/ ICML 2022等国际会议杰出审稿人荣誉，先后在CVPR 2015、ECCV 2016、ICCV 2019等国际会议合作组织并主讲Tutorial。研究成果获得2015年度国家自然科学奖二等奖 (第4完成人)、2022年度中国图象图形学学会自然科学奖一等奖 (第1完成人)。

Panel嘉宾：吴琦 (阿德莱德大学)

嘉宾简介：

吴琦博士，阿德莱德大学副教授，澳大利亚机器学习研究所视觉和语言实验室主任，2019-2021年间的 ARC Discovery早期职业研究员奖 (DECRA)研究员。2019年澳大利亚科学院授予罗素奖。2015年获得英国巴斯大学计算机科学博士学位，2011年获得硕士学位。他的研究兴趣主要是计算机视觉和机器学习。目前，他正在研究视觉语言问题，主要是图像字幕，视觉问答 (VQA)以及视觉语言导航方面的专家学者。在TPAMI、CVPR、ICCV、ECCV等著名会议和期刊发表论文100余篇。他还是CVPR 、ICCV和NeurIPS 的领域主席。

主持人：李冠彬 (中山大学)

主持人简介：

李冠彬，中山大学计算机学院副教授，博士生导师。主要研究领域包括计算机视觉与机器学习，迄今为止累计发表论文100余篇，其中包含CCF A类/ 中科院一区论文70余篇，Google Scholar引用超过 7900次。曾获得吴文俊人工智能优秀青年奖、ICCV 2019最佳论文提名奖、ICMR 2021最佳海报论文奖、中国图象图形学学会科学技术一等奖、ACM中国新星提名奖、英伟达AI城市挑战赛冠军等荣誉。主持了包括广东省杰出青年基金、国家自然科学基金面上项目、国家自然科学基金青年项目、CCF腾讯犀牛鸟科研基金等10多项科研项目。担任广州计算机学会副秘书长、CSIG青工委委员、视觉与学习青年学者研讨会 (VALSE)EAC副主席等。

特别鸣谢本次Webinar主要组织者：

主办AC：李冠彬 (中山大学)

协办AC：王文冠 (浙江大学)、吴琦 (阿德莱德大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ S群，群号：317920537）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。