transformer_self-attention机制学习


基于RNN的网络结构(LSTM,gru等)在nlp领域有着广泛应用,但RNN这样的网络结构使其固有长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化为定长的向量(embedding)而保存所有有效的信息。 为了解决这一由长序列到定长向量转化而造成信息损失的瓶颈,attention机制诞生了。

self-attention

上面的gif给出了self-attention机制的直观演示,对于传统的RNN网络,网络结构本身就导致经过Encoder之后的向量中更多包含后面样本的信息,而前面样本的信息被稀释了,而self-attention机制可以无差别的注意到序列中的任意一个单位。

Transformer 详解

关于transformer结构的详解请参考这篇博文:
图解transformer

实验部分

后面会补一个实验,先挖坑在这


文章作者: 思考猫
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 思考猫 !
评论
 上一篇
论牺牲 论牺牲
本篇文章围绕以下问题做个简单讨论: 人应该什么时候拿出牺牲自我的逻辑,什么时候拿出保护自己利益的逻辑? 当所处的小团体与包含小团体的大团体利益发生冲突时,此时是否应当牺牲小团体?
2020-11-19
下一篇 
毛选第一卷读后感 毛选第一卷读后感
在柳州出差的20多天里,我每天回宾馆后会读上半个小时到1个小时毛选第一卷,回学校后又读了几天,昨晚算是正式将这本书给读完了,在阅读的过程中自己还是颇有所得的,现藉此文系统地总结一下这本书的内容并谈一下我个人的心得体会。
2020-11-05
  目录