20220602智源大会视觉模型论坛-谷歌大脑翟晓华博士报告【大规模通用视觉表征学习】 ...

2022-6-20 17:14| 发布者: 程一-计算所| 查看: 1608| 评论: 0

摘要: 报告人：翟晓华(Google Brain瑞士)B站观看网址：https://www.bilibili.com/video/BV1L34y157rH/复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。视频介绍：2022年6月2日，来自Google Brain瑞士团队的翟晓华 ...

报告人：翟晓华 (Google Brain瑞士)

B站观看网址：

https://www.bilibili.com/video/BV1L34y157rH/

复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。

视频介绍：2022年6月2日，来自Google Brain瑞士团队的翟晓华博士受邀在智源大会视觉模型论坛上作报告，介绍了他们团队在大规模通用视觉表示学习方面的最新进展。经翟博士同意，VALSE在此推出其报告视频，以供VALSER们参考学习。

报告摘要：卷积神经网络 (CNN)自2012年以来已成为计算机视觉领域的主流模型。得益于自注意力机制 (Self Attention)在自然语言处理领域的成功，不少工作将自注意力机制与CNN结合并取得好结果。2020年，Vision Transformer (ViT)将原始的自注意力模型应用于计算机视觉并取得与CNN相当的效果。近年来ViT已获得大量关注和提高。本报告将围绕ViT视觉模型，探讨ViT-G大模型预训练的方法和技巧，分享实验发现的数据规模、模型规模和计算资源之间的经验规律。并介绍如何通过Locked-image Tuning (LiT)为任意视觉模型训练能够“读”出视觉表征的文本模型，从而支持零训练样本的新任务，识别例如“沙滩上的牛”的不常见类别。

报告人简介：翟晓华，瑞士苏黎世谷歌大脑团队主管研究员，研究方向为表征学习、深度学习、人工智能，于2014年在北京大学获得博士学位。他作为共同一作提出了BiT、ViT、ViT-G、LiT、VTAB等大模型预训练及评测方法。他共同创立并开源了原始用于开发ViT、ViT-G、MLP_Mixer、LiT等工作的Big Vision软件库。论文被谷歌学术引用八千余次。