约翰霍普金斯大学刘晨曦博士生 2017年12月20日VALSE Webinar 成功举办.
刘晨曦,约翰霍普金斯大学三年级博士生,师从Bloomberg Distinguished Professor Alan Yuille。他分别在清华大学和加州大学洛杉矶分校获得学士和硕士学位。他曾在Google, Adobe, Toyota Technological Institute at Chicago等诸多世界知名研究机构访问实习。他的研究方向包括计算机视觉和自然语言处理,以及这两者的交叉结合。
刘晨曦博士的Webinar的题目为:Progressive Neural Architecture Search。
在报告中,刘晨曦博士首先回顾了当前常用的自动学习网络结构的方法,包括基于强化学习和遗传算法的方法。然后他介绍了他们提出的一种循序渐进的基于模型优化的方法,即在学习过程中从简单网络,慢慢增加网络的复杂性。在CIFAR-10数据集上,他们的方法可以找到一种CNN网络结构:其分类精度和Zoph等人用强化学习得到的网络结构差不多,而速度却快2倍;其分类精度比Liu等人用遗传算法得到的网络结构要好,而速度更是快5倍。最后,他显示了他们在CIFAR-10上学习得到的网络结构同样可以在ImageNet上得到很好的结果:82.9% top-1 and 96.1% top-5分类精度。
问答部分:
问题1:现在做learn network architecture的方法,对每个学习得到的network的好坏是通过在validation set上的结果的好坏来评价的。是否还有其他的评价方法? 回答:暂时看来并没有太好的替代。在我们的实验中,LSTM surrogate function只是一个approximate的结果,而实际取得的validation set上的结果是最真实且珍贵的。
问题2:学习得到的每个网络结构都不一样,用同样的learning rate以及迭代次数,如何保证每个网络都收敛得很好了 回答:从宏观的角度来看,我们搜索的网络结构和learning rate、迭代次数一样,都属于超参数。从这个意义上来说,确实jointly optimize是更合理的选择。我也相信这是未来的趋势。
问题3:PNAS框架的数据读取是用的LMDB格式的还是其他格式的 有没有对数据进行预处理 回答:数据读取用的是Google内部的格式。对于CIFAR和ImageNet数据预处理的方法我已经尽可能完整地写在文章里。我们采用的数据预处理的方法都是比较常见和标准的。
问题4:训练LSTM的过程可以再介绍一下吗?关于LSTM的状态更新过程有些没理解 回答:我们所使用的encoder LSTM的输入是一串指定网络结构的数,输出是预测这个网络结构经过训练后在validation set上的精度。这一串数中的每一位经过embedding layer之后进入LSTM。这与神经机器翻译中encoder的部分是非常类似的。
问题5:训练PNAS框架的服务器配置吗? 回答:我在实验时只关注了GPU的类型,并没有留意CPU型号、内存大小之类的配置。我在结构搜索中使用的是K20,而搜索结束后的大规模实验使用的是P100。
录像视频在线观看地址: http://www.iqiyi.com/u/2289191062
活动参与方式: 1、VALSE Webinar活动全部网上依托VALSE QQ群的“群视频”功能在线进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过文字或语音与讲者交互; 2、为参加活动,需加入VALSE QQ群,目前A、B、C、D、E、F群已满,除讲者等嘉宾外,只能申请加入VALSE G群,群号:669280237。申请加入时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M 3、为参加活动,请下载安装Windows QQ最新版,群视频不支持非Windows的系统,如Mac,Linux等,手机QQ可以听语音,但不能看视频slides; 4、在活动开始前10分钟左右,主持人会开启群视频,并发送邀请各群群友加入的链接,参加者直接点击进入即可; 5、活动过程中,请勿送花、棒棒糖等道具,也不要说无关话语,以免影响活动正常进行; 6、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题; 7、建议务必在速度较快的网络上参加活动,优先采用有线网络连接。
|