无标记数据学习及其在图像检索中的应用
2021-01-28
来源:爱问旅游网
第12卷第3期 201 3年3月 软件导刊 Software Guide Vo1.12NO.3 Mar.20I3 无标记数据学习及其在图像检索中的应用 武永成 (荆楚理工学院计算机工程学院,湖北荆门448000) 摘 要:机器学习的应用中,通常存在大量的未标记示例,对这些数据进行标记是昂贵和耗时的。与传统的监督学习 不同,基于无标记数据的学习能同时在少量的已标记数据和大量的未标记数据上进行学习,从而提高学习的性能,已 成为目前机器学习领域中的一个研究热点。分析了基于无标记数据的学习适用基于内容的图像检索的原因,并阐述 了相关研究的进展情况。 关键词:机器学习;数据挖掘;半监督学习;主动学习;分类;图像检索 中图分类号:TP317.4 文献标识码:A 文章编号:1672-7800(2013)003—0158—02 learning)和主动学习(active learning)。半监督学习在 0 引言 机器学习能自动地从数据中获取相关信息,进行学 习过程中利用少量的有标记数据的同时,自动利用无标记 数据,不需要人为地干预。直推学习与半监督学习类似, 也是在学习的过程中自动地利用无标记数据,不需要人为 地干预。它与半监督不同的地方在于:直推学习的目标是 习,通过学习到的经验来改善计算机系统自身的性能。传 统的监督学习算法(supervised learning)为了获得高的准 确性,要求大量的已标记(1abeled)数据。当这种已标记的 数据不足时,该学习算法的准确性也会随之降低。但是给 数据加上标记(1abeling)是一个困难、昂贵和耗时的工作, 它要求有经验的专家对数据进行一一判读和做标记。例 如在计算机辅助医学图像分析中,可以从医院获得大量的 在一个已知的测试集上追求最好的泛化能力,且这个测试 集就是学习过程中用到的未标记数据;而半监督学习则没 有假设这样一个已知的测试集。 主动学习与半监督学习和直推学习的不同点在于:存 学习的过程中,利用无标记数据时,需要人的干预,即需要 向一个神谕(oracle),如向领域专家进行咨询,以确定一些 无标记数据的标记到底是什么。为了使查询的次数最小, 必需选择那些能传递最多有用信息的无标记数据进行查 询。 医学图像作为训练案例,但如果要求医学专家把这些图像 中的病灶都标识出来,则往往是不现实的。 在真实世界的许多问题中通常存在大量的未标记示 例,但有标记示例则比较少。因而在很多实际数据集中, 未标签样例的数量远大于已标签样例的数量。如果只使 用少量已标签样例,那么有监督学习训练得到的学习模型 1 适用缘由 随着数字图像容量的快速增长,要求检索系统能够根 不具有很好的泛化能力,同时造成大量未标签样例的浪 费;如果只使用大量未标签样例,那么无监督学习(non— supervised learning)将会忽略已标签样例的价值。因此, 研究如何利用少量已标签样例和大量的未标签样例来提 高学习性能的半监督学习(Semi—supervised I earning)成 为当前机器学习的重要研究领域之一。 据用户提供的查询图像自动地从图像库中检索出相似图 像的需求越来越大。基于内容的图像检索(content based image retrieval,CBIR)已成为研究重点。使用者可以提交 一副图像,要求智能系统能从相应的图像数据库中找出与 之相关的图像。CBIR最主要的困难在于:图像低层次的 图像特征与高层次的语义之间不好直接建立联系。相关 性反馈(relevance feedback)被证明是解决该困难的一个 有力的_[具。在相关性反馈方法中,用户可以先对一些图 半监督学习研究主要关注当训练数据的部分信息缺 失(包括数据的类别标签缺失、数据的部分特征维缺失、噪 声等)的情况下,如何获得具有良好性能和泛化能力的学 习机器。目前,该学习方法已应用于目标识别和跟踪、网 页和电子邮件的分类等各方面。 像进行标记,即标记这些图像与自己要检索的目标图像是 相关的或不是相关的。这些被标记的图像,作为辅助数据 当前,基于无标记数据的学习主要分为3类:半监督 学习(semi—supervised learning)、直推学习(transductive 提供给CBIR系统,能使最后检索出的图像与用户的期望 更接近。 作者简介:武永成(1971一),男,硕士,荆楚理工学院计算机工程学院讲师,研究方向为机器学习、数据挖掘。 第3期 武永成:无标记数据学习及其在图像检索中的应用 ・1 59・ 事实上,CBIR的检索引擎可以看成一个机器学习过 程,即:根据用户提供的检索图像,CBIR系统试图训练得 到一个分类器,该分类器能将CBIR系统数据库中的图像 分为两类:相关的或不相关的。但是,上述的学习过程与 使用传统的监督学习有很大不同。在检索的过程中,很少 有人能耐心地向CBIR系统提供较多的图像,从机器学习 的角度看,即用户提供的用来训练CBIR系统的有标记的 实例数据很少。对于传统的监督学习算法来说,如果提供 的有标记的示例数据少,则学习后生成的分类器的泛化能 力就差,分类的精度就不高。 这与引言中提到的基于无标记数据学习的背景很相 似:一方面用户提供的示例数据少;另一方面,数据库中存 在大量的无标记的数据。显然,可以利用基于无标记数据 学习的相关技术,来提高基于内容的图像检索的性能。 当CBIR是在一个给定的数据库上进行时,该任务可 看成是一个直推学习的过程,因为此时只关注在给定数据 集上的泛化能力;如果CBIR是在一个开放的数据库上进 行,如Web上,该任务可看成是一个半监督学习过程。另 外,相关性反馈涉及到人的干预,这与主动学习的本质又 相同。因此,基于无标记数据学习的3种方法在CBIR都 能得到很好的应用 , 2 应用 Zhou等人将协同训练(CO—training)引入CBIR,提出 了基于协同训练的主动半监督相关反馈方法,有效地提 高了检索性能。 协同训练最初由卡耐基一梅隆大学的Blum和Mitch— e11提出,最初的算法是:在两个充分冗余的视图(特征集) 上(即:每个视图都能训练得到一个分类器,且在给定的分 类类别下,两个视图条件是独立的),利用少量的已标签数 据,分别训练得到两个分类器。然后,每个分类器从未标 记示例中挑选出若=F置信度较高的示例进行标记,并把标 记后的示例加入另一个分类器的有标记训练集中,以便对 方利用这些新标记的示例进行更新。协同训练的目的是, 通过相互提供未知的信息,使得两个分类器的准确性都得 以提高。 为了满足图像检索时的实时要求,应避免使用复杂的 学习算法。文献[6,7]中采用了一种很简单的模式来实现 两个分类器。它采用Minkowski距离(Minkowski dis— tances)来度量图像的相似性。每个分类器给每个无标记数 据一个排序值,该排序值在一1和1之间。正数表示该图 像与检索目标是相关的,值越大,则越相关;负数则表示不 相关。绝对值越大,越不相关。然后,利用协同训练的思想, 每个分类器会根据无标记数据的排序值选一些无标记数据 给另一个分类器。在扩大了的训练集上,两个分类器重新 进行训练,并对无标记数据产生一个新的排序(ranking)。 最后,无标记数据中排序最靠前的那些图像作为检索的结 果返回给检索者。而那些排序绝对值最小的(接近O)的无 标记数据,也反馈给用户,让用户做标记(满意或不满意,即 相关或不相关)后,再提供给学习器重新学习。显然,这是 一种主动学习的方法。文献[6,7]表明主动学习和半监督 学习的结合,可得到更好的图像检索结果。 此外,郑声恩等人设计了基于半监督的主动学习图像 检索框架,在相关反馈过程中,首先利用半监督学习算法 对标签图像进行训练,然后根据提出的主动学习算法从未 标签图像中选取K幅有利于优化学习过程的图像并反馈 给用户使用。此外,He等人在图像检索中使用了基于图 像的半监督学习的排序流形(Manifold—Ranking)方法。 3 结语 基于无标记数据的学习可应用于机器学习和数据挖 掘的各个方面。文章分析了对于CBIR,基于无标记数据 的学习算法也是适用的。对于图像检索,这是一个新的可 行的方向。当然,想要让用户对检索的结果达到真正满意 的程度,还有很长的路要走。 参考文献: [1] 周志华,王珏.机器学习及其应用[M].北京:清华大学出版社, 2007. [2] F TANG,S BRENNAN,Q ZHAO,et a1.Co tracking using semi— supervised support vector machines[c].Proceedings of the IEEE International Conference on Computer Vision,2007. E3]T SCHEFFER.Email answering assistance by semi supervised text c1assIfjcati0n[J].Intel1.Data Anal,2004(5). r4] A W M SMEUI DERS,M W0RR1NG,S SANTINI,et a1.Content based image retrieval at the end of the early years[J].IEEE Trans actions on Pattern Analysis and Machine Intelligence,2012(22). Y5]X S ZHOU,T S HUANG.Relevance feedback in image retrieval:a comprehensive review[J].Multimedia Systems,2003(6). [6] z—H ZH0U,K—J CHEN,H B DAI.Enhancing relevance feedback in image retrieval using unlabeled data[J].ACM Transactions on Information Systems,2006(2). [7] Z—H ZH0U,K—J CHEN,Y JIANG.Exploiting unlabeled data in content—based image retrieval[C].In Proceedings of the l5th Euro— pean Conference on Machine Learning,pages 525—536,Pisa,Italy, 2004. [8] BI uM A,MITCHEI I T.Combining labeled and unlabeled data with CO training[C ̄.Proc.of the 11th Annual Conf.on Computa— tional I earning Theory(C()I T 1998). E9]郑声恩,叶少珍.一种基于内容图像检索的半监督和主动学习算法 [J].计算机工程与应用,2006(5). [1O] J—R,HE,M~J,LI,H—J,ZHANG.Manifold ranking based image retrieval[C].Proceedings of the 12th Annual ACM International Conference on Multimedia,New York,USA,2004. (责任编辑:杜能铜)