首页>>科技 >>内容

attenunation,Attention的具体原理详解

发布时间:2023-09-30 09:08:19编辑:温柔的背包来源:

attenunation,Attention的具体原理详解

很多朋友对attenunation,Attention的具体原理详解不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

注意机制——注意机制的原理和应用,即注意机制,在顺序学习任务中起着很大的作用。在codec的框架内,通过在编码段加入模型,对源数据序列进行加权变换,或者在解码端引入模型,对目标数据进行加权变换,以序列对序列的自然方式有效提高系统性能。什么是注意力?

注意力模型的基本表述可以理解为(我个人理解):我们在看东西的时候,一定要时刻关注当前正在看的东西的某个地方。换句话说,当我们看向别处时,我们的注意力随着眼睛的运动而转移,这意味着当人们注意到某个目标或某个场景时,注意力在目标内和场景内每个空间位置的分布是不同的。

在以下情况下也是如此:当我们试图描述一个事物时,我们此刻正在谈论的词语和句子以及被描述的事物的相应片段是最先通过的,而其他部分的关联性是随着描述不断变化的。从以上两种情况,读者可以看出,从注意的作用来看,我们可以从空间注意和时间注意两个角度对注意的类型进行分类,即空间注意和时间注意。

这种分类更多的是从应用层面,但是从注意的作用方式来说,可以分为软注意和硬注意,这不仅仅是我们说的,注意输出的向量分布是一热分布还是软分布,直接影响到对上下文信息的选择。

你为什么加入关注?解释完注意力做了什么,我们再来讨论为什么需要注意力模型,也就是注意力加入的动机:

当序列输入后,随着序列的不断增长,原来的时间步长模型的性能越来越差。这是因为原来的时间步长模型的结构是有缺陷的,即所有的上下文输入信息都被限制在一个固定的长度,整个模型的能力也是有限的。我们暂时将这个原始模型称为简单的编解码器模型。编解码器的结构无法解释,导致其无法设计。注意的原理是什么?

我们来看看注意的具体原理:首先让编码器输出结构化的表征。假设这些表示可以用下面的集合来表示,(打住,我要截图,太麻烦了!)由于定长上下文特征表示造成的信息损失,也是一个缺陷。由于信息在不同时间片或空间位置上的明显差异,用常数表征无法很好地解决丢失的问题,而注意正好解决了这个问题。

我们甚至可以进一步解释编解码器一般是如何工作的。当然,在我看来,这有点像马后炮。毕竟注意力是根据人的先天来设计的,导致最终的训练结果朝着人指定的目标前进。可以说是第j个维度的上下文表示信息和第t个时间片的输出之间的关系。第j个维度可以是空间维度,也可以是时间序列。

因为添加注意力会基于权重过滤输入的上下文表征,然而,这种显示的筛选模式并不是人为公式化这种机制所要看到的结果,而是通过这种加权的方式,网络可以学习空间或时间的结构关系,当然前提是这里存在一种无法解释的关系。上面的图1可以清楚的看到机器翻译问题中注意模型的输出权重分布与输入输出信息的关系。

那么注意力的作用是?

注意力的出现有两个目的:1 .减少处理高维输入数据的计算负担,通过结构化的方式选择输入子集来降低数据维度。2.“去伪存真”使任务处理系统更专注于在输入数据中寻找与当前输出相关的重要有用信息,从而提高输出质量。

注意力模型的最终目的是帮助像codec这样的框架更好地学习各种内容模式之间的关系,从而更好地表示这些信息,克服因为无法解释而难以设计的缺陷。

从以上研究问题中可以发现,注意机制非常适合推断不同模态数据之间的相互映射关系,这种映射关系难以解释,隐蔽而复杂,这就是注意的优势——不需要监督信号,对于上述认知先验很少的问题极其有效。

我们来看一个具体的例子!让我们来看看其他研究人员如何在本文中使用注意模型。在最新的2017年CVPR接受的关于VQA的论文中,作者使用了基于空间和时间层次的注意力模型,效果肯定是提高了。这个问题不用多说,很好的利用了这两点。其实这两种应用方式在MT中早就有了。

* *今天真的太晚了。我要回家睡觉了,就先写到这里吧。不然不知道什么时候睡觉,总不能一直熬夜吧。我会在星期五之前完成更新。* *上次说周五前更新完,拖了一周,没说是哪周五,啊哈哈哈。这里,上图中注意力的两种用法都是软注意,即通过确定性得分计算得到代码被关注后的隐藏状态,图来自论文。

Zhangyan, Song Yan, Yu, et al. Research on Visual Question Answering System for Spatio-temporal Reasoning [J].arXiv preprint: 1704.497,2017. Let's discuss how the left and right attention in the diagram are realized. 10. 1(a) Spatial attention Spatial attention

对于视频到文本、图像到文本和VQA的问题,这种任务需要视觉信息。然后,就像文本信息一样,在对视觉内容进行编码后,我们可以直接将编码后的特征表示访问到解码器,以获得所需的输出,例如文本句子。这是基本的结构,但是现在加入空间注意后如何改变结构?

假设视觉编码后的特征表示为7x7x3072维featuremaps(文中参数)mt,然后从文本编码器得到的隐藏状态为hq1x1024,生成一个7x7的attend mask,at=f(hq,mt),attended featuremaps为atmt,那么当前维数不是1x3072?

以上知识分享希望能够帮助到大家!