以下为《Transformerppt》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
Transformer2021.5.13俞某某1Attention in RNN目 录2Attention in Transformer/GNN3Multi-head4FFN & Positional EncodingAttention in RNNSimple RNN
采用Encoder-Decoder结构,将序列压缩成一个向量,再通过decoder恢复,面向机器翻译的一种产物。信息丢失?context information!
每个Decoder端的token用到的co 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 在参数总量不变的情况下,将同样的Q,K,V映射到不同子空间中进行运算。
通过随机初始化,可以使每个输出结果不同,即可以从不同角度分析input的关联程度。FFN & Positional EncodingFeed Forward Network
有时计算完Attention后,会将其输入一个FFN中,目的是引入ReLU激活函数,通过这种非线性变换,增加模型的表现力。
去掉FFN,模型也能用,不过表现能力会差很多。Positional Encoding
补充了Attention机制本身无法捕捉位置信息的缺陷,将位置信息编码后,加在embedding上,使每个token的positional information和semantic information相结合。THANK YOU2021.5.13[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《Transformerppt》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。