<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>KV Cache Lookup on 我的技术博客</title><link>https://cybersecurityerial.github.io/echo_blog/series/kv-cache-lookup/</link><description>Recent content in KV Cache Lookup on 我的技术博客</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Sun, 10 May 2026 12:46:00 +0800</lastBuildDate><atom:link href="https://cybersecurityerial.github.io/echo_blog/series/kv-cache-lookup/index.xml" rel="self" type="application/rss+xml"/><item><title>LLM System: KV Cache 查询 01 - PagedAttention 原理</title><link>https://cybersecurityerial.github.io/echo_blog/posts/llm-system-kvcache-01-pagedattention-principle/</link><pubDate>Sun, 10 May 2026 12:46:00 +0800</pubDate><guid>https://cybersecurityerial.github.io/echo_blog/posts/llm-system-kvcache-01-pagedattention-principle/</guid><description>&lt;blockquote&gt;
&lt;p&gt;TODO: 这里写 PagedAttention 的核心抽象：block/page、block table、逻辑 token 到物理 KV block 的映射。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id="基础tensor-级拆请求的形状大量细节"&gt;基础：tensor 级拆请求的形状（大量细节）&lt;/h2&gt;
&lt;p&gt;定义符号：$B$ 是 batch size，$T$ 是 seq_len，$D$ 是 token_dim，$d_q$ 是把 embedding token 投影到 $Q$ 后的维度。&lt;/p&gt;
&lt;p&gt;推理框架拿到的请求是：\(R \in \mathbb{R}^{B \times T}\)。&lt;/p&gt;
&lt;p&gt;$R_{b,t}$ 是一个最最基本的 token id 标量。&lt;/p&gt;
&lt;p&gt;raw 请求经过 embedding lookup，做的操作是把这个 token 标量映射成一个高维向量。假设原先 token 是 &lt;code&gt;1234&lt;/code&gt; 这个标量，现在就把 token 映射成 &lt;code&gt;[0.1, 0.2, 0.3, 0.4]&lt;/code&gt; 这样的向量。&lt;/p&gt;
&lt;p&gt;所以 $R$ 经过 embedding lookup 之后，得到：\(X \in \mathbb{R}^{B \times T \times D}\)。&lt;/p&gt;
&lt;p&gt;因为我们目前只考虑推理场景，所以把 $W_Q$、$W_K$、$W_V$ 之类的矩阵当成固定的模型参数。&lt;/p&gt;
&lt;p&gt;然后很多博客会直接写：\(Q = XW_Q\)。&lt;/p&gt;</description></item></channel></rss>