VALSE

VALSE 首页 活动通知 查看内容

20220602智源大会视觉模型论坛-谷歌大脑翟晓华博士报告【大规模通用视觉表征学习】 ...

2022-6-20 17:14| 发布者: 程一-计算所| 查看: 880| 评论: 0

摘要: 报告人:翟晓华(Google Brain瑞士)B站观看网址:https://www.bilibili.com/video/BV1L34y157rH/复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。视频介绍:2022年6月2日,来自Google Brain瑞士团队的翟晓华 ...

报告人:翟晓华 (Google Brain瑞士)

B站观看网址:

https://www.bilibili.com/video/BV1L34y157rH/


复制链接到浏览器打开或点击阅读原文即可跳转至观看页面。


视频介绍:2022年6月2日,来自Google Brain瑞士团队的翟晓华博士受邀在智源大会视觉模型论坛上作报告,介绍了他们团队在大规模通用视觉表示学习方面的最新进展。经翟博士同意,VALSE在此推出其报告视频,以供VALSER们参考学习。


报告摘要:卷积神经网络 (CNN)自2012年以来已成为计算机视觉领域的主流模型。得益于自注意力机制 (Self Attention)在自然语言处理领域的成功,不少工作将自注意力机制与CNN结合并取得好结果。2020年,Vision Transformer (ViT)将原始的自注意力模型应用于计算机视觉并取得与CNN相当的效果。近年来ViT已获得大量关注和提高。本报告将围绕ViT视觉模型,探讨ViT-G大模型预训练的方法和技巧,分享实验发现的数据规模、模型规模和计算资源之间的经验规律。并介绍如何通过Locked-image Tuning (LiT)为任意视觉模型训练能够“读”出视觉表征的文本模型,从而支持零训练样本的新任务,识别例如“沙滩上的牛”的不常见类别。


报告人简介:翟晓华,瑞士苏黎世谷歌大脑团队主管研究员,研究方向为表征学习、深度学习、人工智能,于2014年在北京大学获得博士学位。他作为共同一作提出了BiT、ViT、ViT-G、LiT、VTAB等大模型预训练及评测方法。他共同创立并开源了原始用于开发ViT、ViT-G、MLP_Mixer、LiT等工作的Big Vision软件库。论文被谷歌学术引用八千余次。



图片

看到这了,确定不关注下吗?关注下再走吧~

图片
图片
图片
图片
图片

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-4-26 01:25 , Processed in 0.015313 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部