我们已经进入了真正的“大数据”时代,针对真实大数据的各种信息处理与信息挖掘技术已经成为席卷整个科技界的前沿热点。然而,现实大数据本质蕴含有三个显著特点:一是“大”,数据量巨大,所需的存储量与计算也往往极其庞大;二是“脏”,数据的来源具有很强的多样性,可能来源于用户标注,也可能爬自网络,这个多样性往往导致数据质量鱼龙混杂,甚至包含大量outlier;三是“无监督”,大量数据并未经过人为筛选标注,若要针对某一识别目标获得大量标注样本,只能通过耗费大量人力物力完成目标,这对于日益增长的数据量是几乎不可行的。
因此,从海量“大”规模的“无监督”“脏”数据中,尝试构造有效的机器学习方法来自动对其有效信息进行挖掘,已成为领域的热点,也是时代的亟需,
针对这一问题,自步学习(Self-paced Learning),或可称为课程学习(Curriculum Learning),可能提供了一套行之有效,具有理论内涵的新颖解决思路。
课程学习的基本思想是由深度学习的开创者之一、Montreal大学的Yoshua Bengio教授团队在2009年的ICML会议上提出的,而概率图模型的主要提出者、Stanford大学的Daphne Koller教授团队在2010年的NIPS会议上进一步将该想法模型化,初步模型化自步学习的数学形式。该想法得要义是:我们可以模拟人的认知机理,先学习简单的、普适的知识(课程),然后逐渐增加难度,过渡到学习更复杂、更专门的知识,以此完成对复杂对象的认知。人们受教育的“课程”正是按照这样的规律来帮助获取知识与能力的。模拟这一过程,我们可以将学习对象(数据、特征、概念等)按其对学习目标的难易程度,从易到难开展学习,以这种方式让机器完成复杂的学习与推理任务。Bengio教授预测该种学习方式将帮助机器学习吸取人类学习的优点,提升包括深度学习等机器学习策略的学习效果,协助其跳出局部极优,获得更好推广性。
2014年,由卡内基梅隆大学,西安交通大学,中国科学院计算所等机构研究人员系统研究了自步学习的内在机理,提出了自步学习的公理化构造条件,并说明:根据不同应用目标,可由该公理化准则延伸出各种实用的课程学习方案,如:对非凸矩阵分解问题构造了SPMF算法,对多模态多媒体事件检测问题构造了SPaR算法,对视频动作识别应用构造了SPLD算法,可融入课程先验信息的SPCL算法等。这些算法用于典型姿态识别、图像查询、事件检测等,均获得了很好的表现。
我们将于2015年中国计算机视觉大会(CCCV)的专题论坛与中国机器学习与应用研讨会(MLA)详细汇报我们在此方面获得的成果,欢迎大家前来参与。
相关文章: SPaR: Lu Jiang, Deyu Meng, Qian Zhao, Shiguang Shan, Alexander Hauptmann. Self-pacedCurriculum Learning. AAAI, 2015.
SPMF: Qian Zhao, Deyu Meng, Lu Jiang, Qi Xie, Zongben Xu, Alexander Hauptmann.Self-paced Matrix Factorization. ACM MM, 2014.
SPLD: Lu Jiang, Deyu Meng, Shoou-I Yu, Zhen-Zhong Lan, Shiguang Shan, AlexanderHauptmann. Self-paced Learning with Diversity. NIPS, 2014.
SPCL: Lu Jiang, Deyu Meng, Teruko Mitamura, Alexander Hauptmann. Easy Samples First:Self-paced Reranking for Zero-Example Multimedia Search. AAAI. 2015.
|