VALSE Webinar 20230524-10期总第310期大模型背景下的多媒体智能检索 ...

2023-5-18 16:53| 发布者: 程一-计算所| 查看: 1393| 评论: 0

摘要: 报告时间2023年05月24日 (星期三)晚上20:00 (北京时间)主题大模型背景下的多媒体智能检索主持人张平平 (大连理工大学)直播地址https://live.bilibili.com/22300737报告嘉宾：李泽超 (南京理工大学)报告题目：多媒体 ...

报告时间	2023年05月24日 (星期三) 晚上20:00 (北京时间)
主题	大模型背景下的多媒体智能检索
主持人	张平平 (大连理工大学)
直播地址	https://live.bilibili.com/22300737

报告嘉宾：李泽超 (南京理工大学)

报告题目：多媒体内容细粒度分析与检索

报告嘉宾：董建锋 (浙江工商大学)

报告题目：多粒度多媒体智能检索

Panel嘉宾：

李泽超 (南京理工大学)、董建锋 (浙江工商大学)、朱霖潮 (浙江大学)、付彦伟 (复旦大学)、朱磊 (山东师范大学)、袁粒 (北京大学)

Panel议题：

1. 大模型已经在多媒体检索领域取得了巨大的进展，目前的检索技术还有哪些不足？哪些方向需要继续深挖？

2. 目前工业界对多媒体检索的解决方案有什么本质的技术需求？学术界应该如何在大模型背景下取得突破？除了依靠大厂的算力和数据，还有什么可以提高多媒体检索的性能？

3. 在做多媒体检索时，如何弥补不同模态特征之间的差异？学术界有必要提出新的benchmark吗？目前数据集缺少更细粒度的标注，有必要进行不同粒度的标注吗？Zero-shot检索问题该如何正确定义？意义何在？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：李泽超 (南京理工大学)

报告时间：2023年05月24日 (星期三)晚上20:00 (北京时间)

报告题目：多媒体内容细粒度分析与检索

报告人简介：

李泽超，南京理工大学计算机科学与工程学院/人工智能学院教授、博士生导师，“社会安全信息感知与系统”工信部重点实验室副主任，分别于2008年和2013年毕业于中国科学技术大学和中国科学院自动化研究所。研究兴趣主要是媒体智能分析、计算机视觉等。发表ACM/ IEEE Transactions和CCF A类会议论文70余篇；入选“万人计划”青年拔尖人才、2022年全球前2%顶尖科学家，2020-2022年连续3年入选爱思唯尔中国高被引学者；获得江苏省科学技术一等奖2项、中国电子学会自然科学一等奖1项等；主持科技创新2030“新一代人工智能”重大项目课题、国家自然科学基金联合基金重点项目、江苏省杰出青年基金等；担任IEEE TNNLS、Information Sciences等期刊编委。

个人主页：

https://imag-njust.net/zechaoli/

报告摘要：

图像视频大数据智能分析与识别在多种实际应用中具有至关重要的作用，比如无人驾驶、网络空间内容安全以及社会公共安全等。然而实际应用中图像视频内容类别粒度多样。为此，我们研究了开放环境下细粒度多媒体内容分析与检索问题，主要是弱监督视觉细粒度分析推理、基于语义遮挡的跨模态检索、基于深度协同因子分解的多模态内容检索、基于区域定位哈希的细粒度图像检索等。

参考文献：

[1] Zechao Li, Jinhui Tang, Tao Mei. Deep Collaborative Embedding for Social Image Understanding. IEEE Trans. Pattern Anal. Mach. Intell. 41(9): 2070-2083, 2019.

[2] Zechao Li, Jinhui Tang, Liyan Zhang, Jian Yang. Weakly-supervised Semantic Guided Hashing for Social Image Retrieval. Int. J. Comput. Vis. 128(8): 2265-2278, 2020.

[3] Lu Jin, Zechao Li, Yonghua Pan, Jinhui Tang. Weakly-Supervised Image Hashing through Masked Visual-Semantic Graph-based Reasoning. ACM Multimedia 2020.

[4] Lu Jin, Zechao Li, Jinhui Tang. Deep Semantic Multimodal Hashing Network for Scalable Image-Text and Video-Text Retrievals. IEEE Trans. Neural Networks Learn. Syst. 34(4): 1838-1851, 2023.

[5] Xinguang Xiang, Yajie Zhang, Lu Jin, Zechao Li, Jinhui Tang. Sub-Region Localized Hashing for Fine-Grained Image Retrieval. IEEE Trans. Image Process. 31: 314-326, 2022.

报告嘉宾：董建锋 (浙江工商大学)

报告时间：2023年05月24日 (星期三)晚上20:30 (北京时间)

报告题目：多粒度多媒体智能检索

报告人简介：

董建锋，浙江工商大学“西湖学者”青年优秀人才、研究员、浙江省可视媒体大数据工程实验室副主任，2018年获浙江大学计算机科学与技术博士学位；兼任中国图学学会可视化与认知计算专委会秘书长、计算机学会CCF YOCSEF杭州副主任。主要研究方向为多媒体检索、视频分析与理解等。近五年共发表学术论文40余篇，其中以第一或通讯作者在CCF A类期刊/ 会议TPAMI/ TIP/ TKDE/ CVPR/ AAAI/ ACM MM/ SIGIR等发表论文近20篇；主持国家自然科学基金青年项目、国家重点研发计划项目子课题、CCF-蚂蚁科研基金等科研项目7项。据谷歌学术统计近五年所发表的论文累计被引用1700余次；曾获得微软必应大规模图像检索挑战赛第一名、美国国家标准与技术研究院NIST 组织的TRECVID视频与文本匹配评测全球第一，ACM Multimedia 2016 Grand Challenge Award；博士论文获得中国图学学会优秀博士学位论文奖，入选中国科协第八届“青年人才托举工程”。

报告摘要：

随着多媒体技术的发展以及移动智能设备的普及，图像、视频的创作和分享变得越来越便捷，多媒体数据近年来呈现出爆炸式的增长。面对海量的多媒体数据，如何从中高效且准确地检索到用户所需的多媒体数据是一个既具挑战又具实际应用价值的问题。本次报告将围绕常见的文字、图像、视频等多媒体数据，介绍我们团队近年来在粗粒度的语义检索、细粒度的实例检索等方向的研究成果与应用，特别是在大模型背景下，如何利用公开的预训练大模型快速有效的训练多媒体检索模型。

参考文献：

[1] Jianfeng Dong, Xianke Chen, Minsong Zhang, Xun Yang, Shujie Chen, Xirong Li, and Xun Wang, “Partially Relevant Video Retrieval,” ACM international conference on Multimedia (ACM MM 2022), Lisbon, Portugal, 0ctober 2022.

[2] Jianfeng Dong, Xirong Li, Chaoxi Xu, Xun Yang, Gang Yang, Xun Wang, and Meng Wang, “Dual Encoding for Video Retrieval by Text,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI 2022), 44(8), August 2022.

[3] Jianfeng Dong, Zhe Ma, Xiaofeng Mao, Xun Yang, Yuan He, Richang Hong, and Shouling Ji, “Fine-Grained Fashion Similarity Prediction by Attribute-Specific Embedding Learning,” IEEE Transactions on Image Processing (TIP 2021), 30, October 2021.

[4] Jianfeng Dong, Xiaoman Peng, Zhe Ma, Daizong Liu, Xiaoye Qu, Xun Yang, Jixiang Zhu, and Baolong Liu, “From Region to Patch: Attribute-Aware Foreground-Background Contrastive Learning for Fine-Grained Fashion Retrieval,” International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2023), Taipei, Taiwan, China, July 2023.

Panel嘉宾：朱霖潮 (浙江大学)

嘉宾简介：

朱霖潮，浙江大学百人计划研究员、博士生导师。主要研究方向为时序建模、多模态分析及其应用、人工智能交叉领域研究。曾获得THUMOS动作识别竞赛冠军 (2015)、EPIC-KITCHENS第一视角动作识别竞赛冠军 (2019，2020)、CVPR MABe多智能体行为建模竞赛冠军 (2022)等竞赛冠军。

个人主页：

https://person.zju.edu.cn/linchao

Panel嘉宾：付彦伟 (复旦大学)

嘉宾简介：

付彦伟，博士，复旦大学大数据学院青年研究员，博士生导师，上海高校特聘教授 (即东方学者)、英国计算机协会会士 (BCS Fellow)。2014年获得伦敦大学玛丽皇后学院博士学位，2015.01-2016.07，在美国匹兹堡迪士尼研究院任博士后研究员。2016年获澳大利亚国家研究理事会 (ARC)颁发的杰出青年基金项目获得者 (Australian Research Council DECRA Fellow)。付博士发表高水平论文100多篇:在IEEE TPAMI 发表通讯作者/ 第一作者论文11篇 (影响因子24.314)，论文曾获得IEEE ICME 2019最佳论文，获得美国发明专利7项、中国专利10多项。研究方向侧重于基于迁移学习的多个任务，如零样本/ 小样本学习；3D/ 4D物体的建模；神经网络稀疏化学习、机械臂抓取；图像编辑及修复等。担任多个国际期刊、学术会议审稿人及程序委员会委员 (如IEEE TPAMI/ IJCV/ ACM MM/ NIPS/ ICCV等)等；长期担任NeurIPS会议领域主席，IJCAI会议高级程序委员会委员。

个人主页：

https://yanweifu.github.io/

Panel嘉宾：朱磊 (山东师范大学)

嘉宾简介：

朱磊，山东师范大学教授，博士生导师。主要研究方向是跨模态分析与检索。共发表CCF A类会议长文、ACM/ IEEE汇刊论文百余篇，ESI高被引论文8篇，Google引用5600多次，H-index 41。获得CCF A类会议等多个会议最佳论文奖/ 提名奖，1篇论文入选2019年中国百篇最具影响国际学术论文，拥有授权专利22件。担任ACM TOMM/ IEEE TBD/ Information Sciences等多个国际期刊的编委，任多媒体领域权威国际会议ACM MM/ IEEE ICME的领域主席 (Area Chair)，SIGIR/ CIKM/ AAAI高级程序委员会委员 (SPC)。主持/ 参与基金委青年/ 面上项目、山东省优秀青年基金项目等10余项横纵课题。获得ACM中国SIGMM新星奖，山东省留学回国人员创业奖、中国自动化学会优秀硕士生导师奖、山东省人工智能优秀青年奖等。

个人主页：

https://sites.google.com/site/homepageleizhu

Panel嘉宾：袁粒 (北京大学)

嘉宾简介：

袁粒，北京大学信息工程学院助理教授/ 研究员、博士生导师。分别在中国科学技术大学和新加坡国立大学获得本科 (2017年)和博士学位 (2021年)，研究方向为深度视觉神经网络设计和多模态机器学习，在人工智能顶级期刊和会议上发表论文40余篇，代表性一作论文包括T2T-ViT (被引1000+)和VOLO视觉模型 (IEEE TPAMI)，主持多项国家级项目，包括国家自然科学基金青年项目和科技部2030新一代人工智能重大项目课题，曾获国家优秀自费留学生奖、ACM MM最佳挑战赛冠军、入选2023年福布斯亚洲30U30榜单。

个人主页：

https://yuanli2333.github.io/

主持人：张平平 (大连理工大学)

主持人简介：

张平平，大连理工大学人工智能学院副教授，硕导。研究领域为计算机视觉与深度学习，重点关注复杂场景下的视觉目标检测和检索问题。目前在国际期刊和会议上发表论文40余篇，Google Scholar引用3700余次。主持或参与了国家自然科学基金青年项目、科技创新2030—“新一代人工智能”重大项目课题、CCF/ CAAI开放基金等多个项目。担任CVPR/ ICCV/ ECCV/ NeurIPS/ ICML/ AAAI等国际会议领域主席或审稿人。相关研究成果获得2020年度中国图象图形学学会优秀博士论文奖。

个人主页：

http://faculty.dlut.edu.cn/zhangpingping/zh_CN/index.htm

特别鸣谢本次Webinar主要组织者：

主办AC：张平平 (大连理工大学)

协办AC：丁长兴 (华南理工大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ S群，群号：317920537）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

收藏邀请

上一篇：VALSE 论文速览第113期：Understanding the Failure of BN in Transformer下一篇：VALSE Webinar 20230531-11期总第311期大模型时代下的三维视觉：路在何方？ ...

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-8-20 12:21 , Processed in 0.014058 second(s), 14 queries .

返回顶部

VALSE Webinar 20230524-10期 总第310期 大模型背景下的多媒体智能检索 ...

相关分类

下级分类

VALSE Webinar 20230524-10期总第310期大模型背景下的多媒体智能检索 ...