被问懵了！腾讯面试官让我手写PagedAttention。。。-吴师兄大模型

大家好，我是吴师兄。

上周群里有位同学在大模型面试时被问了这样一道题：

“能不能手写一下 PagedAttention 的实现逻辑，并讲讲它和 KV Cache 的区别与优化点？”

他当场愣住了，只能尴尬地回答“没听过”。

这类底层优化相关的考点，其实在近一年的大模型岗位面试中频频出现，尤其是服务端推理、部署方向的岗位中，PagedAttention、KV Cache、分块调度、流式输出、吞吐率优化，基本上成了面试官判断“你是否真的做过大模型实战”的标志性问题。

本文将围绕以下几个方面详细展开这道题的知识背景与答题框架：

什么是 PagedAttention？
它解决了什么问题？
工作流程是什么？
和传统 Attention 的本质差异是什么？
为什么它是 vLLM 系统的核心？
面试中如何答得更有逻辑和深度？

如果你正在准备大模型相关岗位的面试，建议收藏和精读。

一、PagedAttention 是什么？

PagedAttention 是一种受操作系统“虚拟内存分页机制”启发的注意力机制变种，目标是优化大语言模型（LLM）推理过程中的 KV 缓存管理，提升内存利用率与推理吞吐性能。

传统的注意力机制在推理阶段需要维护一份 Key/Value 缓存（KV Cache），这个缓存会随着生成的 token 数不断增长。当模型接收长上下文、或处理高并发请求时，KV 缓存会变得非常庞大。

问题就出在这里：传统实现往往要求 KV 缓存使用连续的内存空间，容易引发两个关键问题：

内存碎片化严重：无法复用零碎内存。
内存申请失败：当可用内存不连续时，会直接申请失败，模型推理报错。

PagedAttention 引入分页思想，把 KV 缓存“分页”成若干小块，每块包含固定数量的 token 的 key 和 value，存储在非连续的物理内存中。

系统通过一个“块表”来记录逻辑块与物理内存块之间的映射，从而像操作系统一样，进行灵活的缓存管理。

二、为什么需要它？PagedAttention 解决了哪些问题？

传统注意力机制的设计初衷是为训练而非推理服务，尤其是在生成式任务中，它存在以下几个显著问题：

推理阶段缓存不断增长：生成每个 token 时都要使用之前所有的 key/value 缓存，随着生成长度增加，KV 缓存会呈线性增长。
高并发情境下资源冲突频繁：并发多个请求，每个请求都需要独立缓存，容易导致 OOM（Out of Memory）。
重复计算浪费算力：没有缓存复用机制的 naive 实现会重复计算已生成序列对应的 attention。
动态 token 长度造成管理混乱：每个请求的 prompt 长度不同，预留缓存空间难以预测。

PagedAttention 从底层结构出发，解决了这些问题：

分页分块：不要求连续内存，规避碎片化问题；
灵活调度：按需分配与释放 KV Block，提高缓存回收能力；
可共享机制：部分 KV 缓存可以在多个请求之间共享，支持高效的并行采样；
适配长序列推理：即便上下文极长，分页机制仍能保障推理的稳定与高效；

这使得 PagedAttention 成为目前大模型推理系统中非常关键的基础优化之一，vLLM、OpenLLM 等多个推理框架均已内置该机制。

三、PagedAttention 的工作流程

PagedAttention 的整个工作流程可分为两个阶段：prefill 阶段和 decoding 阶段。

（1）prefill 阶段：初始化缓存

用户输入 prompt（如：“请写一首诗”），这个 prompt 会被切分为若干 token。
系统将这些 token 分块，每个 block 包含固定数量的 token（如 128 个），组成逻辑块。
每个逻辑块通过映射表被分配到实际的物理内存块中。
KV 向量（即 Attention 的 key 和 value）会存储在这些物理块中。

这一步就像操作系统中的页表，将“虚拟地址”映射到“物理地址”。

（2）decoding 阶段：使用缓存 + 更新缓存

每当生成一个新 token，模型需要利用之前的所有 KV 信息。
此时系统会通过逻辑块的索引，在块表中查找对应的物理块，从中取出历史 KV。
同时，生成的新 token 的 KV 信息也会被划分到新的 block，追加写入并更新映射表。

整个过程动态而高效，支持缓存增量更新、共享、释放，大幅减少内存占用，提高推理吞吐量。

四、和传统 KV Cache 有何差异？

对比一下传统做法和 PagedAttention，可以清晰看出本质差异：

维度	传统 KV Cache	PagedAttention
缓存结构	全部保存在连续数组中	分块存储，每块独立
内存占用	随 token 数增加线性增长，容易 OOM	分页管理，动态释放与复用
并发处理	难以管理多任务缓存	支持多请求间缓存复用
内存碎片问题	存在，申请大块连续内存时失败概率高	不存在，使用非连续内存分配
吞吐与效率	长上下文性能急剧下降	保持高吞吐，特别适用于长序列和高并发场景
工程复杂度	实现简单	实现复杂，需要分页调度逻辑

也正因如此，PagedAttention 已成为包括 vLLM 在内的新一代推理框架中的“标配模块”。

五、为什么说它是 vLLM 的基石？

vLLM 是目前大模型推理系统中最具代表性的优化框架之一。

在 vLLM 中，PagedAttention 被用于：

高效管理 KV 缓存池：通过“分页机制 + 映射表”统一调度不同请求的 KV；
流式输出优化：保证低延迟、高并发下仍能快速响应；
共享机制提升采样效率：同一 batch 中多个生成路径共享 prompt 部分的 KV，减少冗余计算；
与 block scheduling 配合：实现 token 级别的并发调度。

很多大模型推理的性能瓶颈，其实不是出现在计算上，而是卡在了缓存调度和内存管理上。而 PagedAttention 正好切中这个瓶颈。

六、面试中怎么回答这道题？

如果你在面试中遇到这个问题，建议从以下 5 个层次逐步回答：

概念识别：PagedAttention 是什么，在哪些系统中使用过；
动机背景：它解决了哪些传统 KV Cache 面临的问题；
结构原理：KV block 的划分、映射关系、分页调度；
对比分析：与传统 Attention 实现做对比，突出其优势；
应用举例：举出 vLLM 中的使用场景，如 KV 共享、吞吐优化、长文本推理等。

如果你还能画出一个示意图（逻辑块→块表→物理内存映射），那面试官基本上会直接打上“工程实践强”的标签。

七、结语

PagedAttention 是一个非常典型的“工程+架构”类考点，属于真正落地过大模型项目才可能接触的内容。

它不依赖高深数学推导，而是考察你是否真正理解推理阶段的大模型运行机制，是否做过高并发部署调优、是否了解 token 级别调度和缓存机制。这些，都是校招/转行选手与有实战经验选手之间的分水岭。

你可以不手写代码，但你不能完全没听说。你可以回答不完整，但你要知道它的设计思路。

如果你准备冲刺 2025 秋招的大模型岗位，那么像 PagedAttention、KV Cache、RAG 架构、MoE 路由、Streaming 解码、推理加速等知识点，一定要提前储备。

真正的大模型面试，从底层原理走起。

如果你需要我继续帮你拆解更多大模型核心模块，比如：

KV Cache 机制实现细节
Rotary Positional Embedding 的应用场景
RAG 系统中的索引构建逻辑
Function Calling 的调用规范和 schema 输出

可以继续留言给我，我会整理成系列干货。

写到这里，希望你下次再遇到类似问题时，不会再懵圈。真正懂底层的人，从不会被问住。

自 2025 年春节以来，吴师兄的大模型冲刺营已经陪伴数百位同学完成从“看不懂源码”到“能手撕 Transformer”的转变。

如果你也在准备秋招，渴望进入大模型方向的大厂岗位，不妨认真考虑加入我们。

这不是一门简单的网课，而是一套覆盖全流程的陪跑式成长体系：

我们不堆概念，而是真正带你做出能上线的大模型项目
我们不空谈理论，而是手把手拆底层细节，讲到你会为止
我们不让你一个人卷，而是组团并肩冲刺，每天有人答疑、有人陪练

我们坚持：项目不是模板填空，而是要匹配你的简历背景和目标岗位，帮你定制出专属的实战履历。

你不是来“听完课程”的，而是要“亲手做出来，并讲得明明白白”。

如果你：

想补上工程实践的最后一环
想让简历从“理论堆砌”进化成“能跑能讲的项目”
想在大模型赛道真正跑通“技术-项目-面试”的闭环

欢迎加入这场为期 99 天的大模型冲刺计划。我们已经出发，终点是 offer，不如一起登船。

“真正的学习，从不是刷课堆知识，而是一次次‘我能搞出来’的自我验证。”

今年秋招，一起冲！

加入一起学习

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

被问懵了！腾讯面试官让我手写PagedAttention。。。