VALSE 短教程第01期：A Tutorial of Transformers（讲师：邱锡鹏）

2021-6-26 10:52| 发布者: 程一-计算所| 查看: 2937| 评论: 0

摘要: 短教程讲师：邱锡鹏 (复旦大学)短教程题目：A Tutorial of Transformers观看网址：https://www.bilibili.com/video/BV1sU4y1G7CN/讲师简介：邱锡鹏，复旦大学计算机学院教授，国家优青获得者，于复旦大学获得理学学 ...

短教程讲师：邱锡鹏 (复旦大学) [slide]

短教程题目：A Tutorial of Transformers

观看网址：https://www.bilibili.com/video/BV1sU4y1G7CN/

讲师简介：

邱锡鹏，复旦大学计算机学院教授，国家优青获得者，于复旦大学获得理学学士和博士学位。主要从事自然语言处理、深度学习等方向的研究，发表CCF A/B类论文70余篇，获得ACL 2017杰出论文奖（CCF A类）、CCL 2019最佳论文奖，有4篇论文入选PaperDigest发布的IJCAI/ACL/EMNLP的最有影响力论文（各会议每年10篇）。出版开源专著《神经网络与深度学习》，Github关注数1.4万，豆瓣评分9.4分。主持开发了开源框架FudanNLP和FastNLP，已被国内外数百家单位使用。2015年入选首届中国科协青年人才托举工程项目，2018年获钱伟长中文信息处理科学技术奖青年创新奖一等奖，2020-2021年连续两年入选"AI 2000人工智能全球最具影响力提名学者"等。培养学生曾获中国中文信息学会优博、中国人工智能学会优博、上海市优博、微软学者、百度奖学金等。

短教程摘要：

目前Transformer在自然语言处理、计算机视觉领域取得了广泛的成功。本次短教程主要介绍Transformer模型以及变体，主要涵盖两部分内容：1）Transformer模型介绍：介绍自注意力模型以及Transformer的基本架构并分析模型优缺点；2）Transformer模型的改进，通过针对性的改进来进一步提高Transformer模型的效率、泛化性，具体包括模块级的改进、架构级的改进、预训练、针对特定数据和任务的改进等。最后，对Transformer模型及其未来发展趋势进行展望。

综述文章:

https://arxiv.org/abs/2106.04554