18-09期VALSE Webinar会后总结

程一-计算所 发表于 2018-4-26 17:39:53

美国爱荷华大学徐易博士2018年4月18日VALSE Webinar 成功举办。
徐易，美国爱荷华大学计算机系博士在读，本科毕业于浙江大学数学系，随后在美国南达科他州立大学获得硕士学位。主要研究兴趣在机器学习，优化和统计学习理论。博士期间已经在机器学习领域顶级会议NIPS，ICML和AAAI 发表5篇文章。担任过NIPS 2016，IJCAI 2016，AAAI 2017，IJCAI 2018，ACM TKDD，IEEE TBD，FCS等期刊和会议审稿人。
徐易博士Webinar的题目为：Accelerated Stochastic Subgradient Methods under Local Error Bound Condition.
在报告中, 徐易博士首先回顾了在机器学习的优化问题中常用的一些first-order的算法比如GD，AGD，SG。在大数据的情况下，这些方法每步更新的时候（次）梯度计算法量非常大，所以大家会常用SGD，SSG。但是SGD和SSG的收敛速度比较慢，此外SGD不能适用于非光滑函数，但是许多机器学习的问题又都是非光滑的。针对上述问题，徐易博士提出了一种加速SSG的方法，ASSG和它的变种RASSG。通过引入Local Error Bound这个概念，从理论上可以证明ASSG/RASSG能得到更快的收敛速度。最后还通过实验验证了所提出的ASSG/RASSG在机器学习问题中的有效性。
问答部分：
问题1：在介绍Structured composite non-smooth problems的时候，要求R(w) is polyhedral，这里的polyhedral如何理解？回答：直观理解，Polyhedral函数是piecewise affine。这是一个优化里面的概念，如果R(w) 的eipgraph 是 polyhedral的话，那么我们就说R(w) 是polyhedral。
问题2：在Error Bound里面，c的值可以不知道，但是\theta必须知道吧？回答：对的。一般在Local Error Bound里面，theta的值很多时候都是知道的。此外，我们的RASSG算法也可以针对于c的值不知道的情况。
问题3：次梯度在实际计算中要怎么确定？回答：次梯度是一个集合。在实际中，我们如果遇到只能算次梯度的点，那么就在这个集合里面随机抽取一个来使用。一个很简单的一维例子，绝对值函数在0点的次梯度是 [-1,1], 那么我们使用的时候就在这个区间里面随机抽取一个值来使用。
问题4：请问这个论文的相关代码公布了吗？回答：我们会很快公布出来。可以在我的主页上下载：https://homepage.cs.uiowa.edu/~yxu71/
问题5：ASSG收敛到局部极小的可能性大吗？回答：想这个问题应该是属于非凸优化，我们这个论文里面没有涉及到非凸优化。我相信ASSG/RASSG 能收敛到局部极小。
问题6：RASSG可以再解释一下吗，c是如何不需要考虑的？回答：首先我介绍一下ASSG这个算法，我们给定一个步长，然后跑一定的步数(t), 这样叫做一个stage，然后我们把这个stage得到的解作为下一个stage的初始解，同时我们又减小步长，然后同样的步数(t), 这样又得到一个解，如此循环，比如跑10个stage，我们可以得到最后的解。所以这个t的大小在我们的算法里面非常关键，但是问题是这个t的大小在理论上是跟c的值有关的。那么设置t的时候如果太小，收敛会慢，如果太大，其实又浪费了。这个时候，我们提出了RASSG。总的说来，RASSG是跑若干个ASSG，首先我们给定一个相对较小的t，然后我们跑一个ASSG（这个ASSG可能跑了5个stage），得到一个解，把这个解作为初始值，同时我们增大t，再跑一个ASSG，如此循环（比如10次或者5次），我们得到最后的解。
问题7：跟GD比起来，快了多少？回答：首先GD（或者Subgradient Descent）是deterministic的算法，而ASSG/RASSG是stochastic算法。如果数据很大的时候，我们一般会使用stochastic的算法，因为当数据很大的时候，可能每一步迭代的（次）梯度计算量非常之大，但是这个时候随机（次）梯度可以很快计算出来。所以这是stochastic算法的一个主要优势。当然在一些特殊问题上，ASSG/RASSG 能得到linear收敛速度O（log(1/epsilon)），比如l1 regularized hinge loss，而SG在这个问题上的收敛速度是O(1/epsilon^2). 此外，GD理论上只适用于光滑函数，而ASSG/RASSG 没有这个限制，当然对应的，SG可以用于非光滑函数。
问题8：核范数满足polyhedral条件吗？回答：不满足。核范数满足Local Error Bound, 所以适用我们的算法。
问题9：如果用到神经网络里面，相比于其他的Adam等等算法能加速吗？回答：在我们的论文里面，我们没有对比Adam算法。我们在机器学习的凸优化问题里面对比过其他算法，ASSG/RASSG还是有很大优势的。据我所知，在神经网络里面，一些论文用了和我们ASSG很类似的算法。也就是先给定一个步长，跑一定的步数之后，再减小步长，如此循环。我相信我们的算法在神经网络里有一定的优势的。
录像视频在线观看地址：http://www.iqiyi.com/u/2289191062
特别鸣谢本次Webinar主要组织者：VOOC责任委员：钟燕飞（武汉大学）VODB协调理事：张利军（南京大学）
活动参与方式：1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399），直播链接会在报告当天（每周三）在VALSE微信公众号和VALSE QQ群发布；*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。3、在活动开始前10分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；4、活动过程中，请勿送花、打赏等，也不要说无关话语，以免影响活动正常进行；5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知。

页: [1]

VALSE's Archiver

18-09期VALSE Webinar会后总结