transformer_self-attention机制学习

transformer, self-attention机制

统计学习

发布日期: 2020-11-13

更新日期: 2022-08-20

文章字数: 242

阅读时长: 1 分

阅读次数:

基于RNN的网络结构(LSTM,gru等)在nlp领域有着广泛应用，但RNN这样的网络结构使其固有长程梯度消失的问题，对于较长的句子，我们很难寄希望于将输入的序列转化为定长的向量(embedding)而保存所有有效的信息。为了解决这一由长序列到定长向量转化而造成信息损失的瓶颈，attention机制诞生了。

self-attention

上面的gif给出了self-attention机制的直观演示，对于传统的RNN网络，网络结构本身就导致经过Encoder之后的向量中更多包含后面样本的信息，而前面样本的信息被稀释了，而self-attention机制可以无差别的注意到序列中的任意一个单位。

Transformer 详解

关于transformer结构的详解请参考这篇博文:
图解transformer

实验部分

后面会补一个实验，先挖坑在这

思考猫

https://xuejy19.github.io/2020/11/13/transformer-self-attention-ji-zhi-xue-xi/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源思考猫 !

transformer, self-attention机制

评论

上一篇

论牺牲

本篇文章围绕以下问题做个简单讨论: 人应该什么时候拿出牺牲自我的逻辑，什么时候拿出保护自己利益的逻辑？当所处的小团体与包含小团体的大团体利益发生冲突时，此时是否应当牺牲小团体？

2020-11-19 闲谈

无感而发

下一篇

毛选第一卷读后感

毛选第一卷读后感

在柳州出差的20多天里，我每天回宾馆后会读上半个小时到1个小时毛选第一卷，回学校后又读了几天，昨晚算是正式将这本书给读完了，在阅读的过程中自己还是颇有所得的，现藉此文系统地总结一下这本书的内容并谈一下我个人的心得体会。

2020-11-05 灵魂雕琢

毛选、辩证唯物主义