首页>>科技 >>内容

神经网络超体,新国立LV_lab提出全新网络克隆技术

发布时间:2023-11-03 15:22:09编辑:温柔的背包来源:

很多朋友对神经网络超体,新国立LV_lab提出全新网络克隆技术不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

神经网络超体,新国立LV_lab提出全新网络克隆技术

神经网络发展到100%会怎么样?神经网络的极端形式是什么?什么是网络超体?以上问题的答案或许可以在电影《露西》中找到。影片中,随着女主角露西脑力的逐渐发展,她获得了以下能力:10%:能够控制身体的自主神经系统,提高身体的协调能力和反应速度。30%:能够预测未来和人的行动,提高洞察力和判断力。

50%:能够通过感知周围环境的微小变化来预测未来的变化。70%:能够控制身体和物体的运动,具有非凡的运动和战斗技能。90%:能够与宇宙和时间连接,拥有灵感和直觉的力量。100%:能达到超自然的力量,超过人类的认知极限。

影片最后,女主角逐渐消失,变成一种纯粹的能量形态,最终消失在宇宙中,与宇宙和时间融为一体。人的超体的实现就是能够与外界联系,获得无限价值。如果将这种思想转移到神经网络领域,如果能够建立起与整个网络的连接,也可以实现网络超体,理论上将获得无边界的预测能力。

也就是说,物化的网络必然会限制网络性能的增长,将目标网络与模型动物园连接起来。此时,网络不再有实体,而是网络之间的连接超体形式。图:超体网络和实体网络的区别。超网络没有实体,是网络之间的一种连接形式。本文探讨了网络超体的概念,分享CVPR 2023论文《Partial Network Cloning》。本文中,新加坡国立大学吕实验室提出了一种全新的网络克隆技术。

链接:https://arxiv.org/abs/2303.1059701问题的定义在本文中,作者提到利用这种网络克隆技术实现网络去物化可以带来以下优势:数据依赖性弱:只需要部分修正数据来修改部分连接模块,训练复杂度低:只需要微调部分连接模块和任务预测模块,存储要求低:只需要存储网络的连接路径,不需要整个网络可持续可恢复;可以增加或减少连接的路径,并且不会对Model Zoo进行任何修改。

传输友好:网络传输时只需要传输连接的路径信息,不需要传输整个网络。超网是基于快速扩张的模型动物园,海量的前期训练模型都有。所以,对于任何一个任务T,我们总能找到一个或者多个模型,这样这些已有的模型的任务就可以组合成需要的任务。即:(选择三个网络进行连接)。如上图所示,对于任务T,为了构建相应的超体网络M_c,本文提出如下构建框架:

第一步:定位最合适的本体网络M_t,使本体网络M_t的任务集T_t与所需任务集T的交集TT_t最大,此时将本体网络设置为主网络;第二步:选择校正网络M _ S 1和M _ S 2,补充本体网络中的一些缺失任务;第三步:使用网络克隆技术定位并连接部分校正网络M _ S 1和M _ S 2到本体网络M _ T;第四步:利用部分校正后的数据对网络的连接模块和预测模块进行微调。

综上所述,本文提出的网络克隆技术可以表述为:M_s代表校正网络的集合,所以网络超体的连通形式是一个本体网络加上一个或几个校正网络,网络克隆技术是克隆所需的校正网络的一部分,嵌入在本体网络中。具体来说,本文提出的网络克隆框架包括以下两个技术点:

对于有P校正网络的克隆体,第一个技术点是在关键部位定位Local ()。由于修改后的网络可能包含与任务集T无关的任务信息,定位Local ()的关键部分是定位修改后网络中与任务TT _ S相关的部分,定位参数用m 表示,实现细节在2.1节给出。

第二个技术点是网络模块嵌入在Insert ()中,需要选择合适的网络嵌入点R 来嵌入所有修改后的网络。实施细节在第2.2节中给出。

在网络克隆的方法部分,为了简化描述,我们设置修改网络的个数P=1(所以省略了修改网络的上标),即我们连接一个本体网络和一个修改网络来构建所需的超网络。

如上所述,网络克隆包括关键部件定位和网络模块嵌入。这里,我们引入中间可运输模块M_f来帮助理解。即网络克隆技术在修改后的网络中定位关键部分形成可迁移模块M_f,然后通过软连接将可迁移模块嵌入本体网络M_t。因此,网络克隆技术的目标是定位和嵌入具有可移植性和本地保真性的可移植模块。2.1网络关键部分的位置

定位网络关键部分的目标是学习选择函数m,它在这里被定义为作用于网络每一层的滤波器的掩码。此时的可移动模块可以表示为:在上面的公式中,我们将修改后的网络M_s表示为L层,每层表示为。众所周知,可运输模块的提取不会对校正网络进行任何修改。

为了获得合适的可移植模块M_f,我们定位对最终预测结果做出最大贡献的修改网络M_s的显式部分。在此之前,考虑到神经网络的黑箱特性,并且我们只需要网络的部分预测结果,我们在所需任务中使用石灰拟合来修改网络的局部建模(详见论文正文)。用局部建模结果来表示,其中D_t是所需部分预测结果对应的训练数据集(小于原网络的训练集)。

因此,选择函数M可以通过以下目标函数进行优化:在该公式中,定位的关键部分符合局部建模的g. 2.2当网络模块嵌入到修改的网络中以定位可运输模块M_f时,选择函数M用于直接从M_s中提取它,而不修改它的权重。下一步是确定可迁移模块M_f在本体网络M_t中的嵌入位置,以获得最佳的克隆性能。

网络模块的嵌入由位置参数R控制,遵循大多数模型重用设置,网络克隆保留本体模型的前几层作为通用特征提取器,网络嵌入过程简化为寻找最佳嵌入位置(即在R层嵌入可迁移模块M_f)。求嵌入的过程可以表述为:详细公式解释请查阅正文。一般来说,基于搜索的嵌入包括以下几点:搜索最优位置参数r的过程是从网络的深层到浅层;

超体网络在R层嵌入移动模块后,需要额外引入嵌入式适配器A和re-finetune F_c层(针对涉密网络),但它们的参数相对于整个模型动物园可以忽略;当从网络的L-1层到第0层建立连接时,我们根据每次微调的损耗收敛值粗略估计嵌入性能,选取收敛值最小的点作为最终的网络嵌入点。网络克隆技术的实际应用

本文提出的网络克隆技术的核心是建立预训练网络之间的连接路径,不需要修改预训练网络的任何参数。它可以作为构建网络超体的关键技术,也可以灵活应用于各种实际场景。场景一:网络克隆技术使得在线使用模型动物园成为可能。在一些资源有限的情况下,用户可以灵活使用在线模型动物园,而无需将预训练网络下载到本地。

需要注意的是,克隆的模型是由确定的,其中M_t和M_s是固定的,在整个过程中不变。模型克隆没有修改预训练模型,也没有引入新的模型。模型克隆使得模型动物园中的任何功能组合成为可能,这也有助于维持模型动物园良好的生态环境,因为使用M和R建立连接是一个简单的遮罩和定位操作,很容易取消。

因此,本文提出的网络克隆技术为模型动物园建立可持续的在线推理平台提供了支持。

场景二:网络克隆产生的网络有更好的信息传递形式。该技术可以减少网络传输时的传输延迟和损耗。

在网络传输中,我们只需要传输集合,接收方结合公模Zoo就可以恢复原网络。与整个克隆网络相比,它非常小,因此可以减少传输延迟。如果A和F_c仍然有一些传输损耗,接收器可以通过对数据集进行微调来轻松修复它们。因此,网络克隆为高效传输提供了一种新的网络形式。04实验结果

我们对分类任务进行了实验验证。为了评估可移植模块的局部性能表征能力,我们引入了一个条件相似性指标:其中Sim_cos ()代表余弦相似性。在上表中给出了在MNIST、CIFAR-10、CIFAR-100和Tiny-ImageNet上的实验结果。可以看出,网络克隆(PNC)得到的模型性能最为显著。而对整个网络进行微调(PNC-F)并不会提高网络性能,相反会增加模型的偏差。

此外,我们评估了可移动模块的质量(如上所示)。从图(左)中可以看出,从每个子数据集中学习到的每个函数都或多或少有关联,这说明了从修改后的网络中提取和定位局部函数的重要性。对于可运输模块,我们计算其相似性Sim ()。

图(右)显示可迁移模块与待克隆的子数据集相似度高,与其他子数据集的关系减弱(非对角线区域用比源网络矩阵图浅的颜色标注)。因此,可以得出结论,可迁移模块成功模拟了待克隆任务集上的本地性能,证明了定位策略的正确性。

本文研究了一种新的知识转移任务,称为部分网络克隆(PNC)。它从修改后的网络中复制并粘贴参数模块,并将其嵌入到本体网络中。不同于以往的知识转移设置(它们依赖于更新网络的参数),我们的方法保证了所有预训练模型的参数保持不变。PNC的技术核心是定位网络关键部位,同时嵌入便携模块,两个步骤是相辅相成的。

我们在几个数据集上展示了我们的方法在准确性和可移植性方面的突出结果。审核编辑:李倩

以上知识分享希望能够帮助到大家!