无标记数据学习及其在图像检索中的应用
作者:武永成
来源:《软件导刊》2013年第03期
摘 要:机器学习的应用中,通常存在大量的未标记示例,对这些数据进行标记是昂贵和耗时的。与传统的监督学习不同,基于无标记数据的学习能同时在少量的已标记数据和大量的未标记数据上进行学习,从而提高学习的性能,已成为目前机器学习领域中的一个研究热点。分析了基于无标记数据的学习适用基于内容的图像检索的原因,并阐述了相关研究的进展情况。
关键词:机器学习;数据挖掘;半监督学习;主动学习;分类;图像检索 中图分类号:TP317.4 文献标识码:A 文章编号:16727800(2013)003015802 0 引言
机器学习能自动地从数据中获取相关信息,进行学习,通过学习到的经验来改善计算机系统自身的性能。传统的监督学习算法(supervised learning)为了获得高的准确性,要求大量的已标记(labeled)数据。当这种已标记的数据不足时,该学习算法的准确性也会随之降低。但是给数据加上标记(labeling)是一个困难、昂贵和耗时的工作,它要求有经验的专家对数据进行一一判读和做标记。例如在计算机辅助医学图像分析中,可以从医院获得大量的医学图像作为训练案例,但如果要求医学专家把这些图像中的病灶都标识出来,则往往是不现实的。 在真实世界的许多问题中通常存在大量的未标记示例,但有标记示例则比较少。因而在很多实际数据集中,未标签样例的数量远大于已标签样例的数量。如果只使用少量已标签样例,那么有监督学习训练得到的学习模型不具有很好的泛化能力,同时造成大量未标签样例的浪费;如果只使用大量未标签样例,那么无监督学习(nonsupervised learning)将会忽略已标签样例的价值。因此,研究如何利用少量已标签样例和大量的未标签样例来提高学习性能的半监督学习(Semisupervised Learning)成为当前机器学习的重要研究领域之一。
半监督学习研究主要关注当训练数据的部分信息缺失(包括数据的类别标签缺失、数据的部分特征维缺失、噪声等)的情况下,如何获得具有良好性能和泛化能力的学习机器。目前,该学习方法已应用于目标识别和跟踪、网页和电子邮件的分类等各方面。
当前,基于无标记数据的学习主要分为3类:半监督学习(semisupervised learning)、直推学习(transductive learning)和主动学习(active learning)。半监督学习在学习过程中利用少量的有标记数据的同时,自动利用无标记数据,不需要人为地干预。直推学习与半监督学习类似,也是在学习的过程中自动地利用无标记数据,不需要人为地干预。它与半监督不同的地
龙源期刊网 http://www.qikan.com.cn
方在于:直推学习的目标是在一个已知的测试集上追求最好的泛化能力,且这个测试集就是学习过程中用到的未标记数据;而半监督学习则没有假设这样一个已知的测试集。
主动学习与半监督学习和直推学习的不同点在于:在学习的过程中,利用无标记数据时,需要人的干预,即需要向一个神谕(oracle),如向领域专家进行咨询,以确定一些无标记数据的标记到底是什么。为了使查询的次数最小,必需选择那些能传递最多有用信息的无标记数据进行查询。 1 适用缘由
随着数字图像容量的快速增长,要求检索系统能够根据用户提供的查询图像自动地从图像库中检索出相似图像的需求越来越大。基于内容的图像检索(contentbased image retrieval,CBIR)已成为研究重点。使用者可以提交一副图像,要求智能系统能从相应的图像数据库中找出与之相关的图像。CBIR最主要的困难在于:图像低层次的图像特征与高层次的语义之间不好直接建立联系。相关性反馈(relevance feedback)被证明是解决该困难的一个有力的工具。在相关性反馈方法中,用户可以先对一些图像进行标记,即标记这些图像与自己要检索的目标图像是相关的或不是相关的。这些被标记的图像,作为辅助数据提供给CBIR系统,能使最后检索出的图像与用户的期望更接近。
事实上,CBIR的检索引擎可以看成一个机器学习过程,即:根据用户提供的检索图像,CBIR系统试图训练得到一个分类器,该分类器能将CBIR系统数据库中的图像分为两类:相关的或不相关的。但是,上述的学习过程与使用传统的监督学习有很大不同。在检索的过程中,很少有人能耐心地向CBIR系统提供较多的图像,从机器学习的角度看,即用户提供的用来训练CBIR系统的有标记的实例数据很少。对于传统的监督学习算法来说,如果提供的有标记的示例数据少,则学习后生成的分类器的泛化能力就差,分类的精度就不高。
这与引言中提到的基于无标记数据学习的背景很相似:一方面用户提供的示例数据少;另一方面,数据库中存在大量的无标记的数据。显然,可以利用基于无标记数据学习的相关技术,来提高基于内容的图像检索的性能。
当CBIR是在一个给定的数据库上进行时,该任务可看成是一个直推学习的过程,因为此时只关注在给定数据集上的泛化能力;如果CBIR是在一个开放的数据库上进行,如Web上,该任务可看成是一个半监督学习过程。另外,相关性反馈涉及到人的干预,这与主动学习的本质又相同。因此,基于无标记数据学习的3种方法在CBIR都能得到很好的应用。 2 应用
Zhou等人将协同训练(cotraining)引入CBIR,提出了基于协同训练的主动半监督相关反馈方法, 有效地提高了检索性能。
龙源期刊网 http://www.qikan.com.cn
协同训练最初由卡耐基梅隆大学的Blum和Mitchell提出,最初的算法是:在两个充分冗余的视图(特征集)上(即:每个视图都能训练得到一个分类器,且在给定的分类类别下,两个视图条件是独立的),利用少量的已标签数据,分别训练得到两个分类器。然后,每个分类器从未标记示例中挑选出若干置信度较高的示例进行标记,并把标记后的示例加入另一个分类器的有标记训练集中,以便对方利用这些新标记的示例进行更新。协同训练的目的是,通过相互提供未知的信息,使得两个分类器的准确性都得以提高。
为了满足图像检索时的实时要求,应避免使用复杂的学习算法。文献\[6,7\]中采用了一种很简单的模式来实现两个分类器。它采用Minkowski 距离(Minkowski distances)来度量图像的相似性。每个分类器给每个无标记数据一个排序值,该排序值在-1和1之间。正数表示该图像与检索目标是相关的,值越大,则越相关;负数则表示不相关,绝对值越大,越不相关。然后,利用协同训练的思想,每个分类器会根据无标记数据的排序值选一些无标记数据给另一个分类器。在扩大了的训练集上,两个分类器重新进行训练,并对无标记数据产生一个新的排序(ranking)。最后,无标记数据中排序最靠前的那些图像作为检索的结果返回给检索者。而那些排序绝对值最小的(接近0)的无标记数据,也反馈给用户,让用户做标记(满意或不满意,即相关或不相关)后,再提供给学习器重新学习。显然,这是一种主动学习的方法。文献\[6,7\]表明主动学习和半监督学习的结合,可得到更好的图像检索结果。 此外,郑声恩等人设计了基于半监督的主动学习图像检索框架,在相关反馈过程中,首先利用半监督学习算法对标签图像进行训练,然后根据提出的主动学习算法从未标签图像中选取K 幅有利于优化学习过程的图像并反馈给用户使用。此外,He等人在图像检索中使用了基于图像的半监督学习的排序流形(ManifoldRanking)方法。 3 结语
基于无标记数据的学习可应用于机器学习和数据挖掘的各个方面。文章分析了对于CBIR,基于无标记数据的学习算法也是适用的。对于图像检索,这是一个新的可行的方向。当然,想要让用户对检索的结果达到真正满意的程度,还有很长的路要走。 参考文献:
\[1\] 周志华,王 珏.机器学习及其应用\[M\].北京:清华大学出版社,2007. \[2\] F TANG,S BRENNAN,Q ZHAO,et al.Cotracking using semisupervised support vector machines\[C\].Proceedings of the IEEE International Conference on Computer Vision,2007.
\[3\] T SCHEFFER.Email answering assistance by semisupervised text classification\[J\].Intell.Data Anal,2004(5).
龙源期刊网 http://www.qikan.com.cn
\[4\] A W M SMEULDERS,M WORRING,S SANTINI,et al.Contentbased image retrieval at the end of the early years\[J\].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012(22).
\[5\] X S ZHOU,T S HUANG.Relevance feedback in image retrieval:a comprehensive review\[J\].Multimedia Systems,2003(6).
\[6\] ZH ZHOU,KJ CHEN,HB DAI.Enhancing relevance feedback in image retrieval using unlabeled data\[J\].ACM Transactions on Information Systems,2006(2).
\[7\] ZH ZHOU,KJ CHEN,Y JIANG.Exploiting unlabeled data in contentbased image retrieval\[C\].In Proceedings of the 15th European Conference on Machine Learning, pages 525536,Pisa,Italy,2004.
\[8\] BLUM A,MITCHELL T.Combining labeled and unlabeled data with cotraining\[C\].Proc.of the 11th Annual Conf.on Computational Learning Theory(COLT 1998).
\[9\] 郑声恩,叶少珍.一种基于内容图像检索的半监督和主动学习算法\[J\].计算机工程与应用,2006(5).
\[10\] JR,HE,MJ,LI,HJ,ZHANG.Manifoldranking based image retrieval\[C\].Proceedings of the 12th Annual ACM International Conference on Multimedia,New York,USA,2004.
(责任编辑:杜能钢)
因篇幅问题不能全部显示,请点此查看更多更全内容