跨境派

跨境派

跨境派,专注跨境行业新闻资讯、跨境电商知识分享!

当前位置:首页 > 卖家故事 > 什么是轴向注意力(Axial Attention)机制

什么是轴向注意力(Axial Attention)机制

时间:2024-03-29 16:40:34 来源:网络cs 作者:峨乐 栏目:卖家故事 阅读:

标签: 机制  注意 
阅读本书更多章节>>>>

Axial Attention,轴向注意力,有行注意力(row-attention)和列注意力(column-attention)之分,一般是组合使用。

原文阅读:https://arxiv.org/pdf/1912.12180v1.pdf

self-attention已经显示出了良好的性能,不过其缺点也是明显的:它的使用使得模型的参数量和计算量开始飙增,特别是应用在nlp的长序列问题和图像的像素点上时。以后者为例,单张图像大小为H*W(*3),一个像素点需要和其他所有像素点作注意力,即H*W,一共又有H*W个像素点,则一次self-attention的计算量在O((H*W)2),当图像的分辨率不断增高,这种平方式增长的计算量是不能接受的。
在这里插入图片描述

轴向注意力应运而生,简单来说,是分别在图像的竖直方向和水平方向分别进行self-attention,这样计算量被削减为O(2*H*W)=O(H*W)

显然,单独使用行或列注意力是无法融合全局信息的,只有组合起来才能获得与full attention相似的性能。

以两个维度为例,组合方式可以先行再列,可以先列再行,也可以分别进行行与列注意力,再对结果分别相加。

先行再列:x1 = RowAtten(x), out = ColAtten(x1)先列再行:x1 = ColAtten(x), out = RowAtten(x1)分别进行:out = RowAtten(x) + ColAtten(x)

代码展示可以参考我的另一篇博客论文学习——VideoGPT,使用的是对时间和空间共三个维度分别进行axial attention,再对结果相加的形式。

阅读本书更多章节>>>>

本文链接:https://www.kjpai.cn/gushi/2024-03-29/150411.html,文章来源:网络cs,作者:峨乐,版权归作者所有,如需转载请注明来源和作者,否则将追究法律责任!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

文章评论