<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>KERNEL_PANIC / ARCHITECTURE &amp; SYSTEMS</title><description>Computing as craft — Technical writing and portfolio</description><link>https://kernel-panic.dev/</link><language>en-us</language><item><title>理解 Transformer 注意力机制</title><link>https://kernel-panic.dev/articles/hello-world/</link><guid isPermaLink="true">https://kernel-panic.dev/articles/hello-world/</guid><description>深入理解 Transformer 模型中的注意力机制，这是现代大语言模型的核心组件。</description><pubDate>Sat, 28 Mar 2026 00:00:00 GMT</pubDate><content:encoded># 理解 Transformer 注意力机制

注意力机制是 Transformer 模型的核心创新。它允许模型在处理序列时关注相关的部分。

## 基本概念

注意力函数可以描述为将一个查询和一组键值对映射到一个输出。

```python
import torch
import torch.nn.functional as F

def scaled_dot_product_attention(Q, K, V, mask=None):
    d_k = Q.size(-1)
    scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)
    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)
    attention = F.softmax(scores, dim=-1)
    return torch.matmul(attention, V)
```

## 为什么需要缩放

缩放因子 √d_k 用于防止点积结果过大，导致 softmax 函数进入梯度极小的区域。</content:encoded></item></channel></rss>