Transformer 架構理解 — Attention Is All You Need | Agentic Research

為什麼要有 Transformer？

在 Transformer 出現之前，序列建模主要依賴 RNN / LSTM / GRU。這些架構有一個根本問題：無法並行化。每一步計算都依賴前一步的隱藏狀態，導致訓練速度極慢。

2017 年，Google 發表了《Attention Is All You Need》，提出一個完全基於 Attention 機制的架構，徹底解決了這個問題。

Self-Attention 的核心思想很簡單：讓序列中的每個 token 都能直接「看到」其他所有 token。

計算過程：

Attention(Q, K, V) = softmax(QK^T / √d_k) V

除以 √d_k 是為了防止點積過大導致 Softmax 梯度消失。

與其做一次 Attention，不如做多次（多個 head），每個 head 關注不同的特徵：

每個 head 的結果拼接後再做一次線性變換。

因為 Attention 本身不關心位置（它是「無序」的），需要額外注入位置信息。原始論文使用正弦/餘弦函數：

PE(pos, 2i)   = sin(pos / 10000^(2i/d_model))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

GPT 的本質就是 Transformer Decoder-only 架構：