牛客面经整理：AI Agent 实习面经（字节，RLHF / 推理优化 / 部署）（二十六）

收录日期：2026-04-28
关键词：AI Agent、RLHF、Reward Model、推理加速、量化、剪枝、vLLM、FastAPI、长上下文、微调、Transformer

1. RLHF 中奖励模型（Reward Model, RM）的训练数据如何构建？

参考答案

数据形态：同一 prompt 的多候选回答（A/B 或多选），配对偏好（preference）或打分（scalar）。
来源：
- 人工标注：人类偏好比较（pairwise ranking）最常见。
- 规则/弱监督：基于约束、格式、事实一致性、拒答策略等生成偏好信号（需防偏差）。
- 来自线上反馈：点击/停留/人工工单（要做去噪与反作弊）。
质量控制：一致性校验、标注指南与仲裁、覆盖多任务/多领域、采样 hard cases。
训练：常见用 pairwise loss（如 Bradley–Terry/LogSigmoid），并注意分布漂移与过拟合。

2. 推理加速技术有哪些？怎么选？

参考答案

模型侧：量化（INT8/INT4、GPTQ/AWQ）、剪枝/蒸馏、KV Cache、FlashAttention。
服务侧：batching（动态批）、并行（tensor/pipeline）、prefill/decode 分离、异步 IO。
系统侧：算子融合、CUDA Graph、内存池、NUMA 绑定、Pinned memory。
选型维度：吞吐 vs 延迟、精度损失、硬件（A100/H100/消费卡）、工程复杂度与可维护性。

3. 模型剪枝/量化（GPTQ、AWQ）与服务化（FastAPI + vLLM）

参考答案

量化：
- GPTQ：后训练量化（PTQ）常见方案，追求较好精度/速度权衡。
- AWQ：通过权重激活感知等方法降低精度损失，工程侧同样是 PTQ 常用。
服务：
- FastAPI：API 层（鉴权、路由、限流、日志）。
- vLLM：推理引擎（PagedAttention、KV Cache 管理、连续批处理），提升吞吐并降低延迟抖动。
工程要点：超时与取消、并发限流、熔断降级、指标（QPS/TTFT/TPOT/显存）。

4. 如何优化长文本生成的显存占用？

参考答案

核心瓶颈：KV Cache 随序列长度与 batch 增长，占用显存显著。
手段：
- 限制最大上下文与最大输出，做分段摘要/检索（RAG）降低上下文长度。
- Paged/KV Cache 管理（如 vLLM 思路），减少碎片并提升利用率。
- 量化 KV Cache（部分框架支持）或用更小 dtype（FP16/BF16）。
- 采用推理并行与 prefill/decode 分离，提升资源利用率。

5. 微调方法对比（SFT / LoRA / QLoRA / DPO 等）

参考答案

SFT：监督微调，最基础；数据质量决定上限，成本相对高。
LoRA：低秩适配器，训练参数少、速度快、易部署；适合多任务/多领域适配。
QLoRA：在量化权重上训练 LoRA，显存更省；注意量化带来的不稳定与精度权衡。
偏好对齐：DPO/IPO/ORPO 等直接用偏好数据优化；相对 RLHF（带 RM+PPO）工程更轻。

6. 设计一个“AI 爬取字节视频”的系统：怎么设计？

参考答案

先澄清合规：遵守平台 ToS、robots、版权与隐私；不做绕过登录/反爬的违规设计。
合法数据来源优先：官方 API / 已授权数据 / 自有上传库。
架构拆解：
- 抓取层：任务队列（重试/限速/去重）、抓取器（解析、下载）、存储（对象存储 + 元数据表）。
- 处理层：ASR（字幕）、OCR、帧抽取、向量化与索引（文本/多模态检索）。
- 应用层：检索问答/摘要/标签/推荐，带审计与权限。
工程点：幂等 key、断点续传、反压（backpressure）、可观测性（trace + metrics）。

7. Transformer 自注意力、位置编码、梯度消失/爆炸怎么答？

参考答案

自注意力：对序列中每个 token 计算与其它 token 的相关性，加权聚合得到上下文表示；Q/K/V 来自线性投影。
位置编码：补足序列顺序信息；可分为绝对（Sinusoidal/learned）与相对（RoPE 等）。
梯度问题：
- 解决爆炸：梯度裁剪、合适初始化、规范化（LayerNorm）、学习率策略。
- 缓解消失：残差连接、规范化结构、激活函数与优化器选择（AdamW）。

8. 如何降低大模型 API 响应延迟？

参考答案

优先拆指标：TTFT（首 token）与 TPOT（每 token 时间）分别优化。
TTFT：prompt 长度控制、prefill 优化、缓存（prompt cache）、并发限制。
TPOT：量化、flash attention、连续批处理、合适的 max tokens、避免过大 batch 导致排队。
系统：就近部署、连接复用、超时/取消、队列与优先级、热点隔离。