报告人:翟晓华 (Google Brain瑞士) B站观看网址: https://www.bilibili.com/video/BV1L34y157rH/ 复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。 视频介绍:2022年6月2日,来自Google Brain瑞士团队的翟晓华博士受邀在智源大会视觉模型论坛上作报告,介绍了他们团队在大规模通用视觉表示学习方面的最新进展。经翟博士同意,VALSE在此推出其报告视频,以供VALSER们参考学习。 报告摘要:卷积神经网络 (CNN)自2012年以来已成为计算机视觉领域的主流模型。得益于自注意力机制 (Self Attention)在自然语言处理领域的成功,不少工作将自注意力机制与CNN结合并取得好结果。2020年,Vision Transformer (ViT)将原始的自注意力模型应用于计算机视觉并取得与CNN相当的效果。近年来ViT已获得大量关注和提高。本报告将围绕ViT视觉模型,探讨ViT-G大模型预训练的方法和技巧,分享实验发现的数据规模、模型规模和计算资源之间的经验规律。并介绍如何通过Locked-image Tuning (LiT)为任意视觉模型训练能够“读”出视觉表征的文本模型,从而支持零训练样本的新任务,识别例如“沙滩上的牛”的不常见类别。 报告人简介:翟晓华,瑞士苏黎世谷歌大脑团队主管研究员,研究方向为表征学习、深度学习、人工智能,于2014年在北京大学获得博士学位。他作为共同一作提出了BiT、ViT、ViT-G、LiT、VTAB等大模型预训练及评测方法。他共同创立并开源了原始用于开发ViT、ViT-G、MLP_Mixer、LiT等工作的Big Vision软件库。论文被谷歌学术引用八千余次。 看到这了,确定不关注下吗?关注下再走吧~ 活动参与方式 1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们! 直播地址: https://live.bilibili.com/22300737; 历史视频观看地址: https://space.bilibili.com/562085182/ 2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。 4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-1-12 00:51 , Processed in 0.012630 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.