新闻资讯与公告

多路径多领域通吃!谷歌AI发布多领域学习通用模型MDL


  研究人员提出了一种多路径神经架构搜索(MPNAS)方法,为多领域建立一个具有异质网络架构的统一模型。


  面向视觉任务(如图像分类)的深度学习模型,通常用来自单一视觉域(如自然图像或计算机生成的图像)的数据进行端到端的训练。


  一般情况下,一个为多个领域完成视觉任务的应用程序需要为每个单独的领域建立多个模型,分别独立训练,不同领域之间不共享数据,在推理时,每个模型将处理特定领域的输入数据。


  即使是面向不同领域,这些模型之间的早期层的有些特征都是相似的,所以,对这些模型进行联合训练的效率更高。这能减少延迟和功耗,降低存储每个模型参数的内存成本,这种方法被称为多领域学习(MDL)。


  此外,MDL 模型也可以优于单领域模型,在一个域上的额外训练,可以提高模型在另一个域上的性能,这称为「正向知识迁移」,但也可能产生负向知识转移,这取决于训练方法和具体的领域组合。


  虽然以前关于 MDL 的工作已经证明了跨领域联合学习任务的有效性,但它涉及到一个手工制作的模型架构,应用于其他工作的效率很低。


  为了解决这个问题,在「Multi-path Neural Networks for On-device Multi-domain Visual Classification」一文中,谷歌研究人员提出了一个通用 MDL 模型。


  文章表示,该模型既可以有效地实现高精确度,减少负向知识迁移的同时,学习增强正向的知识迁移,在处理各种特定领域的困难时,可以有效地优化联合模型。



  为此,研究人员提出了一种多路径神经架构搜索(MPNAS)方法,为多领域建立一个具有异质网络架构的统一模型。


  该方法将高效的神经结构搜索(NAS)方法从单路径搜索扩展到多路径搜索,为每个领域联合寻找一条最优路径。


  同时引入一个新的损失函数,称为自适应平衡域优先化(ABDP),它适应特定领域的困难,以帮助有效地训练模型。由此产生的 MPNAS 方法是高效和可扩展的。


  新模型在保持性能不下降的同时,与单领域方法相比,模型大小和 FLOPS 分别减少了 78% 和 32%。


  多路径神经结构搜索


  为了促进正向知识迁移,避免负向迁移,传统的解决方案是,建立一个 MDL 模型,使各域共享大部分的层,学习各域的共享特征(称为特征提取),然后在上面建一些特定域的层。


  然而,这种特征提取方法无法处理具有明显不同特征的域(如自然图像中的物体和艺术绘画)。另一方面,为每个 MDL 模型建立统一的异质结构是很耗时的,而且需要特定领域的知识。


  NAS 是一个自动设计深度学习架构的强大范式。它定义了一个搜索空间,由可能成为最终模型一部分的各种潜在构建块组成。


  搜索算法从搜索空间中找到最佳的候选架构,以优化模型目标,例如分类精度。最近的 NAS 方法(如 TuNAS)通过使用端到端的路径采样,提高了搜索效率。


  受 TuNAS 的启发,MPNAS 在两个阶段建立了 MDL 模型架构:搜索和训练。


  在搜索阶段,为了给每个领域共同找到一条最佳路径,MPNAS 为每个领域创建了一个单独的强化学习(RL)控制器,它从超级网络(即由搜索空间定义的候选节点之间所有可能的子网络的超集)中采样端到端的路径(从输入层到输出层)。


  在多次迭代中,所有 RL 控制器更新路径,以优化所有领域的 RL 奖励。在搜索阶段结束时,我们为每个领域获得一个子网络。


  最后,所有的子网络被结合起来,为 MDL 模型建立一个异质结构,如下图所示。


  由于每个域的子网络是独立搜索的,所以每一层的构件可以被多个域共享(即深灰色节点),被单个域使用(即浅灰色节点),或者不被任何子网络使用(即点状节点)。


  每个域的路径在搜索过程中也可以跳过任何一层。鉴于子网络可以以优化性能的方式自由选择沿路使用的区块,输出网络既是异质的又是高效的。


  下图展示了 Visual Domain Decathlon 的其中两个领域的搜索架构。


  Visual Domain Decathlon 是 CVPR 2017 中的 PASCAL in Detail Workshop Challenge 的一部分,测试了视觉识别算法处理(或利用)许多不同视觉领域的能力。


  可以看出,这两个高度相关的域(一个红色,另一个绿色)的子网,从它们的重叠路径中共享了大部分构建块,但它们之间仍然存在差异。