牛客面经整理:AI Agent 实习面经(字节,RLHF / 推理优化 / 部署)(二十六)
收录日期:2026-04-28
关键词:AI Agent、RLHF、Reward Model、推理加速、量化、剪枝、vLLM、FastAPI、长上下文、微调、Transformer
1. RLHF 中奖励模型(Reward Model, RM)的训练数据如何构建?
参考答案
- 数据形态:同一 prompt 的多候选回答(A/B 或多选),配对偏好(preference)或打分(scalar)。
- 来源:
- 人工标注:人类偏好比较(pairwise ranking)最常见。
- 规则/弱监督:基于约束、格式、事实一致性、拒答策略等生成偏好信号(需防偏差)。
- 来自线上反馈:点击/停留/人工工单(要做去噪与反作弊)。
- 质量控制:一致性校验、标注指南与仲裁、覆盖多任务/多领域、采样 hard cases。
- 训练:常见用 pairwise loss(如 Bradley–Terry/LogSigmoid),并注意分布漂移与过拟合。
2. 推理加速技术有哪些?怎么选?
参考答案
- 模型侧:量化(INT8/INT4、GPTQ/AWQ)、剪枝/蒸馏、KV Cache、FlashAttention。
- 服务侧:batching(动态批)、并行(tensor/pipeline)、prefill/decode 分离、异步 IO。
- 系统侧:算子融合、CUDA Graph、内存池、NUMA 绑定、Pinned memory。
- 选型维度:吞吐 vs 延迟、精度损失、硬件(A100/H100/消费卡)、工程复杂度与可维护性。
3. 模型剪枝/量化(GPTQ、AWQ)与服务化(FastAPI + vLLM)
参考答案
- 量化:
- GPTQ:后训练量化(PTQ)常见方案,追求较好精度/速度权衡。
- AWQ:通过权重激活感知等方法降低精度损失,工程侧同样是 PTQ 常用。
- 服务:
- FastAPI:API 层(鉴权、路由、限流、日志)。
- vLLM:推理引擎(PagedAttention、KV Cache 管理、连续批处理),提升吞吐并降低延迟抖动。
- 工程要点:超时与取消、并发限流、熔断降级、指标(QPS/TTFT/TPOT/显存)。
4. 如何优化长文本生成的显存占用?
参考答案
- 核心瓶颈:KV Cache 随序列长度与 batch 增长,占用显存显著。
- 手段:
- 限制最大上下文与最大输出,做分段摘要/检索(RAG)降低上下文长度。
- Paged/KV Cache 管理(如 vLLM 思路),减少碎片并提升利用率。
- 量化 KV Cache(部分框架支持)或用更小 dtype(FP16/BF16)。
- 采用推理并行与 prefill/decode 分离,提升资源利用率。
5. 微调方法对比(SFT / LoRA / QLoRA / DPO 等)
参考答案
- SFT:监督微调,最基础;数据质量决定上限,成本相对高。
- LoRA:低秩适配器,训练参数少、速度快、易部署;适合多任务/多领域适配。
- QLoRA:在量化权重上训练 LoRA,显存更省;注意量化带来的不稳定与精度权衡。
- 偏好对齐:DPO/IPO/ORPO 等直接用偏好数据优化;相对 RLHF(带 RM+PPO)工程更轻。
6. 设计一个“AI 爬取字节视频”的系统:怎么设计?
参考答案
- 先澄清合规:遵守平台 ToS、robots、版权与隐私;不做绕过登录/反爬的违规设计。
- 合法数据来源优先:官方 API / 已授权数据 / 自有上传库。
- 架构拆解:
- 抓取层:任务队列(重试/限速/去重)、抓取器(解析、下载)、存储(对象存储 + 元数据表)。
- 处理层:ASR(字幕)、OCR、帧抽取、向量化与索引(文本/多模态检索)。
- 应用层:检索问答/摘要/标签/推荐,带审计与权限。
- 工程点:幂等 key、断点续传、反压(backpressure)、可观测性(trace + metrics)。
7. Transformer 自注意力、位置编码、梯度消失/爆炸怎么答?
参考答案
- 自注意力:对序列中每个 token 计算与其它 token 的相关性,加权聚合得到上下文表示;Q/K/V 来自线性投影。
- 位置编码:补足序列顺序信息;可分为绝对(Sinusoidal/learned)与相对(RoPE 等)。
- 梯度问题:
- 解决爆炸:梯度裁剪、合适初始化、规范化(LayerNorm)、学习率策略。
- 缓解消失:残差连接、规范化结构、激活函数与优化器选择(AdamW)。
8. 如何降低大模型 API 响应延迟?
参考答案
- 优先拆指标:TTFT(首 token)与 TPOT(每 token 时间)分别优化。
- TTFT:prompt 长度控制、prefill 优化、缓存(prompt cache)、并发限制。
- TPOT:量化、flash attention、连续批处理、合适的 max tokens、避免过大 batch 导致排队。
- 系统:就近部署、连接复用、超时/取消、队列与优先级、热点隔离。