17-30期VALSE Webinar会后总结

程一-计算所 发表于 2017-12-21 13:39:27

约翰霍普金斯大学刘晨曦博士生2017年12月20日VALSE Webinar 成功举办.

刘晨曦，约翰霍普金斯大学三年级博士生，师从Bloomberg Distinguished Professor Alan Yuille。他分别在清华大学和加州大学洛杉矶分校获得学士和硕士学位。他曾在Google, Adobe, Toyota Technological Institute at Chicago等诸多世界知名研究机构访问实习。他的研究方向包括计算机视觉和自然语言处理，以及这两者的交叉结合。

刘晨曦博士的Webinar的题目为：Progressive Neural Architecture Search。

在报告中，刘晨曦博士首先回顾了当前常用的自动学习网络结构的方法，包括基于强化学习和遗传算法的方法。然后他介绍了他们提出的一种循序渐进的基于模型优化的方法，即在学习过程中从简单网络，慢慢增加网络的复杂性。在CIFAR-10数据集上，他们的方法可以找到一种CNN网络结构：其分类精度和Zoph等人用强化学习得到的网络结构差不多，而速度却快2倍；其分类精度比Liu等人用遗传算法得到的网络结构要好，而速度更是快5倍。最后，他显示了他们在CIFAR-10上学习得到的网络结构同样可以在ImageNet上得到很好的结果：82.9% top-1 and 96.1% top-5分类精度。

问答部分：
问题1：现在做learn network architecture的方法，对每个学习得到的network的好坏是通过在validation set上的结果的好坏来评价的。是否还有其他的评价方法？回答：暂时看来并没有太好的替代。在我们的实验中，LSTM surrogate function只是一个approximate的结果，而实际取得的validation set上的结果是最真实且珍贵的。
问题2：学习得到的每个网络结构都不一样，用同样的learning rate以及迭代次数，如何保证每个网络都收敛得很好了回答：从宏观的角度来看，我们搜索的网络结构和learning rate、迭代次数一样，都属于超参数。从这个意义上来说，确实jointly optimize是更合理的选择。我也相信这是未来的趋势。
问题3：PNAS框架的数据读取是用的LMDB格式的还是其他格式的有没有对数据进行预处理回答：数据读取用的是Google内部的格式。对于CIFAR和ImageNet数据预处理的方法我已经尽可能完整地写在文章里。我们采用的数据预处理的方法都是比较常见和标准的。
问题4：训练LSTM的过程可以再介绍一下吗？关于LSTM的状态更新过程有些没理解回答：我们所使用的encoder LSTM的输入是一串指定网络结构的数，输出是预测这个网络结构经过训练后在validation set上的精度。这一串数中的每一位经过embedding layer之后进入LSTM。这与神经机器翻译中encoder的部分是非常类似的。
问题5：训练PNAS框架的服务器配置吗？回答：我在实验时只关注了GPU的类型，并没有留意CPU型号、内存大小之类的配置。我在结构搜索中使用的是K20，而搜索结束后的大规模实验使用的是P100。
录像视频在线观看地址： http://www.iqiyi.com/u/2289191062
活动参与方式：1、VALSE Webinar活动全部网上依托VALSE QQ群的“群视频”功能在线进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过文字或语音与讲者交互；2、为参加活动，需加入VALSE QQ群，目前A、B、C、D、E、F群已满，除讲者等嘉宾外，只能申请加入VALSE G群，群号：669280237。申请加入时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M3、为参加活动，请下载安装Windows QQ最新版，群视频不支持非Windows的系统，如Mac，Linux等，手机QQ可以听语音，但不能看视频slides；4、在活动开始前10分钟左右，主持人会开启群视频，并发送邀请各群群友加入的链接，参加者直接点击进入即可；5、活动过程中，请勿送花、棒棒糖等道具，也不要说无关话语，以免影响活动正常进行；6、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；7、建议务必在速度较快的网络上参加活动，优先采用有线网络连接。

页: [1]

VALSE's Archiver

17-30期VALSE Webinar会后总结