ICLR 2023杰出论文奖得主分享:适【shì】配任【rèn】意密集预测【cè】任务【wù】的【de】通用小样本【běn】学习器

2024-9-22 11:28:23来源:新智元

国际学习表【biǎo】征会议 ICLR(International Conference on Learning Representations),被公认为当前最【zuì】具影响【xiǎng】力的机器学习国际学术会【huì】议之【zhī】一。

在今【jīn】年的【de】 ICLR 2023 大会上,微软亚【yà】洲研究院发表了在机器学习鲁棒性、负【fù】责任的【de】人工智能等领域的最【zuì】新研【yán】究【jiū】成果。

其中,微【wēi】软【ruǎn】亚洲研究院与韩国科【kē】学技术院(KAIST)在双方学术【shù】合作框架下的科研【yán】合作成果,因出色的清【qīng】晰性、洞【dòng】察【chá】力、创造力【lì】和潜【qián】在【zài】的持久影响获评【píng】 ICLR 2023 杰出论文奖。


(相关资料图)

论文【wén】地址【zhǐ】:https://arxiv.org/abs/2303.14969

VTM:首个适配所有密集预测任务的小样本学习器

密【mì】集预测任务是计算【suàn】机视觉领域的一类重要任务,如语义【yì】分割、深【shēn】度估计、边缘检测【cè】和关键【jiàn】点【diǎn】检测等。对于这类任【rèn】务,手动标注像素【sù】级标签【qiān】面临着难以承受【shòu】的巨额成本。因此【cǐ】,如【rú】何从少量的标注数据中学习并作出准确预测【cè】,即小样本学习,是【shì】该领【lǐng】域备受关注的课题。近【jìn】年来,关于小样【yàng】本学习的研【yán】究不断【duàn】取【qǔ】得【dé】突破,尤其是【shì】一些【xiē】基【jī】于元学【xué】习和【hé】对抗学【xué】习的方法,深受学术界的关【guān】注和欢迎。

然【rán】而【ér】,现有【yǒu】的计算机【jī】视觉小样本学习方法一般针对【duì】特【tè】定的【de】某【mǒu】类任务,如分【fèn】类【lèi】任务【wù】或【huò】语义分割任务。它们通常在设计模型架构【gòu】和训练过程【chéng】中利用特定于这些任务的先验知识和假设,因此不适合推广【guǎng】到任【rèn】意的【de】密集预测任【rèn】务。微软亚洲研究院的研究员们希望【wàng】探究一个核【hé】心问题:是否存在一种通【tōng】用的小样本学习器【qì】,可以【yǐ】从少量【liàng】标记图像中学习【xí】任意段未【wèi】见过的【de】密集预【yù】测任务。

一个【gè】密集【jí】预测任【rèn】务的目【mù】标是学【xué】习【xí】从输入图像到以像素为单位注释的标签【qiān】的映射,它可以被【bèi】定义为:

其中 H 和 W 分别【bié】是图像的高与宽,输【shū】入图像一般包含 RGB 三个通道,C_Τ 表示【shì】输出【chū】通【tōng】道【dào】的数【shù】目。不同【tóng】的密集预测任务可能涉及不同的输出通道【dào】数目和通【tōng】道属性,如语【yǔ】义【yì】分割任【rèn】务的【de】输出是多通道二值的,而深度估【gū】计任务的输出是单通道连续值的。一【yī】个通用的小【xiǎo】样本学【xué】习器 F,对于任何这【zhè】样的任务 Τ,在给定少量【liàng】标记样本【běn】支持【chí】集 S_Τ(包含了 N 组样本 X^i 和【hé】标注【zhù】 Y^i)的情况下【xià】,可以为未见过的查【chá】询【xún】图【tú】像 X^q 产【chǎn】生预测,即:

如【rú】果存【cún】在适配【pèi】任【rèn】意密【mì】集预测任务的通【tōng】用小样本学习【xí】器,那么必须满足以下期望:

首先,它必须【xū】具备 e 统一【yī】的体系结【jié】构。该【gāi】结构能【néng】够处理任意【yì】密集预测任务,并共享大【dà】多数任务所需的参数,以便获取可泛化的知识,从而能以小量【liàng】样本学习任【rèn】意未见过【guò】的任【rèn】务。其次,学习器【qì】应该灵【líng】活地调整【zhěng】其【qí】预测【cè】机制,以解决具有各种语义的未见【jiàn】过【guò】的任务,同时足够高效,以防止【zhǐ】过度拟【nǐ】合。

因此,微软亚洲研究院的研究员【yuán】们设计并实现了小【xiǎo】样本学习【xí】器视觉【jiào】token匹配 VTM(Visual Token Matching),其可【kě】用【yòng】于任意的【de】密【mì】集预测【cè】任务【wù】。这是首个适配所有密集预测任务的小样本学习器,VTM为计【jì】算机视觉中密集预测任【rèn】务的处【chù】理以【yǐ】及小样【yàng】本学习方【fāng】法打开了全新的思路。该工作获得了ICLR 2023 杰出论文奖

VTM 的【de】设计灵感【gǎn】源【yuán】于【yú】类比人【rén】类的思维过程:给定一个新任务的【de】少量示例,人【rén】类可【kě】以根据【jù】示例之间的相似性快速将【jiāng】类似的输【shū】出【chū】分【fèn】配给【gěi】类似的输入,同时也【yě】可以【yǐ】根据给定的上下文灵活变通输入和输出之间在哪些【xiē】层面相似【sì】。研究员们使用基【jī】于图像【xiàng】块(patch)级别的非参数匹配实【shí】现了密集预测的【de】类比过程。通过训练,模型被启发出了捕【bǔ】捉图像块中相似【sì】性的能力。

给定【dìng】一个新任务的少量标记示【shì】例,VTM 首先会根据给定的【de】示例以【yǐ】及示例的标【biāo】签调【diào】整其【qí】对【duì】相似性的理解,从示例图像【xiàng】块中锁定与待预测图像块相似的【de】图【tú】像块,通过组合它们【men】的标签来预测未见【jiàn】过【guò】的图【tú】像块的标【biāo】签。

图1:VTM 的整体架构

VTM 采用【yòng】分【fèn】层【céng】的编码器-解码器架构,在多【duō】个层【céng】次上实现了【le】基于图像块的非参数【shù】匹配。它主要由四【sì】个模块组成,分别为图像编【biān】码器 f_Τ、标签编码器 g、匹【pǐ】配模块和标签解【jiě】码器 h。给定查询图像和支持集,图像编码器首先会【huì】独立地【dì】提取【qǔ】每个【gè】查【chá】询和【hé】支持图【tú】像的图像块级表达【dá】。标【biāo】签编码器也会类似地【dì】提取每个支【zhī】持标签的【de】标记。在每个层次【cì】的标记给定后,匹【pǐ】配模块会执行非【fēi】参【cān】数匹【pǐ】配,最终由标签解码器推【tuī】断出查询【xún】图【tú】像的标签。

VTM 的本质是一【yī】个元学习方【fāng】法。其训【xùn】练由多【duō】个【gè】 episode 组成,每个【gè】 episode 模【mó】拟一【yī】个小样本学习问题【tí】。VTM 训【xùn】练运用【yòng】到了元【yuán】训练数据集 D_train,其【qí】中包含多种【zhǒng】有标【biāo】签的密集预测任【rèn】务【wù】示【shì】例【lì】。每【měi】个训练 episode 都会模拟数据集中特【tè】定任务 T_train 的小样本【běn】学习场景,目【mù】标是【shì】在给定支持集的【de】条件【jiàn】下,为查询图像产生正确的标签【qiān】。通过【guò】多【duō】个小样【yàng】本学习的经【jīng】验,模型能够学习到通用的知识,以便快速【sù】、灵活地适【shì】应【yīng】新的任务。在测试时,模型需要在训练数据【jù】集 D_train 中未包含的任意任务 T_test 上进行【háng】小样本学习。

在处理任意任务时,由于元训练和测【cè】试中的每个任务的输出维度 C_Τ 不【bú】同,因此使得为所有任务设计统一【yī】的通用【yòng】模型参数【shù】成为了巨大挑【tiāo】战。为了提供一个简单【dān】而普【pǔ】适的解决方【fāng】案【àn】,研究员们将任务转换为 C_Τ 个单通【tōng】道子任【rèn】务,分别学【xué】习每个通【tōng】道,并使【shǐ】用共【gòng】享的模型 F 独立【lì】地对每个子任【rèn】务进行建【jiàn】模。

为了测试【shì】 VTM ,研究员们还【hái】特别【bié】构建了 Taskonomy 数据集的一个【gè】变种,从而模拟未【wèi】见过的密集【jí】预测任务的小样本学习。Taskonomy 包【bāo】含各种标注过的室内图像,研究员们从【cóng】中选择【zé】了十【shí】个具【jù】有不同语义和输【shū】出维度【dù】的密集预测任【rèn】务,将【jiāng】其分为五部分用于交叉验证【zhèng】。在每个拆【chāi】分方式中【zhōng】,两个任【rèn】务用于小样本评估(T_test),其余八【bā】个任务【wù】用【yòng】于训练(T_train)。研究【jiū】员们仔细构【gòu】造了分【fèn】区,使得训练和测试任务彼此有【yǒu】足够的【de】差【chà】异,例如将边缘【yuán】任务(TE,OE)分组为测【cè】试任务,以便对新语义的任务进【jìn】行【háng】评估。

表【biǎo】1:在 Taskonomy 数据集上的定量比较( Few-shot 基线在训练了来自其他分区的任务后,在【zài】需测【cè】试【shì】的分区任务上进行【háng】了 10-shot 学习,其中完全【quán】监督的基线在每个【gè】 fold(DPT)或所有【yǒu】 fold(InvPT)上【shàng】训【xùn】练和评估【gū】了【le】任务)

表1和图2分【fèn】别【bié】定量与定性地展【zhǎn】示【shì】了 VTM 和两类基线【xiàn】模型在十个密集预测任务上【shàng】的小样本学习【xí】性能。其中,DPT 和 InvPT 是两种【zhǒng】最先进的监【jiān】督学习方【fāng】法,DPT 可独【dú】立【lì】地【dì】针对【duì】每【měi】个单一任【rèn】务【wù】进行训【xùn】练,而 InvPT 则可【kě】以联合训【xùn】练所有任务。由于在 VTM 之前还没有【yǒu】针对【duì】通用密【mì】集预测任务开发的【de】专用小【xiǎo】样本方法,因此【cǐ】研【yán】究员【yuán】们将【jiāng】 VTM 与三【sān】种最先进的小样【yàng】本分割方法,即【jí】 DGPNet、HSNet 和 VAT,进行对比【bǐ】,并把【bǎ】它【tā】们【men】拓展到处理密集预测任务的一般标签空间。VTM 在训练期间没有访问测试任务 T_test,并且仅在测试时使用【yòng】了【le】少量(10张)的标记图【tú】像,但它却在【zài】所有小样本基【jī】线模型中表现得最好【hǎo】,并且在许多任务中的表现都具【jù】备与全监督基线模型比较的竞争力。

图2:在 Taskonomy 的十【shí】个密集预【yù】测任务中,在新【xīn】任务上仅提供十张标记图像的【de】小样本学习【xí】方法的定性比较。在【zài】其他方法失败的情【qíng】况下, VTM 成功地学习【xí】了【le】所【suǒ】有具有【yǒu】不同语义和不【bú】同标【biāo】签表示的新任务。

在图2中【zhōng】,虚线上方的分【fèn】别【bié】是真实标签和两种监【jiān】督【dū】学习方法 DPT 和【hé】 InvPT。虚线下方【fāng】的是小样本学习方法。值得【dé】注【zhù】意的是,其【qí】他小样本基线在新任【rèn】务上【shàng】出现了灾难性的欠【qiàn】拟合【hé】,而 VTM 成功【gōng】地学习了【le】所有任【rèn】务。实验【yàn】说明,VTM 可以在极少【shǎo】量的标记示例(<0.004%的完全监督)上现表现出与完全监督基线类似的竞争力,并能够在相对较少的附加数据(0.1%的完全监督)下缩小与监督方法的差距,甚至实现反超。

总结来说,尽管 VTM 的底层思路非常简单,但它具有统一的体系结构,可用【yòng】于任意密集预测任务【wù】,因为匹【pǐ】配算法本【běn】质上包含【hán】所有任【rèn】务和标签结构(例如,连【lián】续或【huò】离散)。此外,VTM 仅引入了少量的任【rèn】务特【tè】定参数【shù】,就能具备【bèi】抗过拟合性与灵活性。未【wèi】来研究员们【men】希望【wàng】进一步探【tàn】究预训练过程中的任务类型、数据量、以及【jí】数【shù】据分布对模【mó】型泛化性能的影响,从而帮助【zhù】我们构建一【yī】个真正普适的小样本学习【xí】器【qì】。

为你推荐

最新资讯

股票软件