基于自注意力机制的革命性架构,是GPT、BERT等大语言模型的基础
Q = XW^Q, K = XW^K, V = XW^V通过线性变换得到查询、键、值矩阵
Score = QK^T / √d_k计算查询和键的相似度,除以缩放因子
Attention = softmax(Score)将分数转换为概率分布
Output = Attention × V用注意力权重对值进行加权求和
不同于RNN的序列处理,Transformer可以并行处理所有位置
通过注意力机制直接建立任意位置之间的联系
注意力权重可视化,了解模型关注的重点