其他热门公司 — Stripe / Snowflake / Databricks / Coinbase / Uber · Uber

描述处理实时/低延迟问题。

Describe working on a real-time / low-latency problem.

答案语言

考察要点

这道题旨在评估你对系统性能瓶颈的分析能力、技术深度以及在压力下交付成果的决心。

对于 Amazon，这道题重点考察以下 Leadership Principles (LP):

Dive Deep: 你是否能深入到系统指标、代码、架构层面，精准定位性能问题的根源。
Deliver Results: 你是否能克服困难，最终交付一个可量化的高质量成果。
Ownership: 你是否将系统性能视为己任，主动发起并推动优化，而不是被动等待分配任务。

高分示范答案（STAR）

Situation（背景） 在 2022 年，我担任某电商公司推荐算法团队的资深工程师（SDE II）。我们团队共 5 人，负责商品详情页（PDP）的“猜你喜欢”推荐模块。当时，这个模块的 API 响应非常慢，直接拖慢了整个页面的加载速度，用户体验很差，我们收到了大量来自前端团队和用户的负面反馈。

Task（任务） 我的任务是诊断并解决推荐服务的性能问题。我们设定的硬性目标是：在两个月内，将该服务接口的 P99 延迟从当时的 800ms 以上，降低到 200ms 以内，以满足前端页面秒开的核心 KPI 要求。

Action（行动） 整个过程我主导了三个关键步骤：

第一步，我主导了性能瓶颈的精准定位（Dive Deep）。我没有直接猜测，而是首先使用 Prometheus 和 Grafana 对服务进行了全链路的性能监控埋点。我将整个请求过程拆分为：1) 用户特征获取 2) 召回 3) 排序模型推理 4) 数据后处理四个阶段。通过火焰图分析，我发现超过 70% 的耗时（约 600ms）都集中在“排序模型推理”阶段，因为它依赖一个复杂的深度学习模型，并且是同步阻塞式调用。
第二步，我设计并推动了一个“预计算+缓存”的架构改造方案。既然实时推理是瓶颈，我的思路就是将大部分计算离线化。我设计了一个新的架构：通过 Flink 消费实时的用户行为日志，在几秒内触发对活跃用户的推荐列表进行异步重新计算。然后，我将计算好的 Top 200 推荐结果存储在了一个新的 Redis 集群（ElastiCache）中，Key 是用户 ID。这样，线上服务的逻辑就从“实时复杂计算”简化为了一次“O(1) 复杂度的 Redis 读取”，极大地降低了延迟。
第三步，我处理了方案推行中的阻力并确保了平稳上线。产品经理担心预计算会降低推荐的实时性。为了说服他，我拉取了数据证明：95% 以上的用户在 30 分钟内的短期兴趣是稳定的，秒级更新的预计算完全可以覆盖。在上线时，为了控制风险，我没有采用全量切换，而是使用了灰度发布策略。我通过配置中心增加了一个流量开关，先切 1% 的流量到新架构，持续观察了 3 天的延迟和业务指标，确认无误后，才逐步在两周内将流量放大到 100%。

Result（结果） 新架构完全上线后，推荐服务的 P99 延迟从 850ms 稳定下降到了 50ms，降幅高达 94%，远超我们 200ms 的目标。由于页面加载速度显著提升，该推荐模块的点击率（CTR）在接下来的一个月内提升了 12%，直接带来了可观的 GMV 增长。通过这次经历，我深刻理解到对于关键性能问题，精准的度量和分阶段的架构演进是成功的关键。

低分陷阱（常见扣分点）

Action 停留在表面，没有技术深度。
- 反例：“我们发现服务很慢，于是我们做了一些优化，比如加了缓存。”
- 问题：具体是什么服务？慢到什么程度？加了什么缓存？是本地缓存还是分布式缓存？为什么选型是这个？完全没有细节，听起来像个项目经理在汇报。
结果含糊不清，没有量化。
- 反例：“项目上线后，性能得到了极大的提升，业务效果也很好。”
- 问题：“极大提升”是多少？P99 延迟从多少降到多少？“效果很好”是指什么？用户数、转化率还是收入？没有数字，就没有说服力。
混淆“我”和“我们”，个人贡献不突出。
- 反例：“我们团队一起分析了问题，我们决定用缓存，最后我们成功上线了。”
- 问题：听起来像个团队的普通成员。面试官想知道的是，在这个过程中，你提出了什么关键想法？你解决了什么核心难题？你推动了哪个决策？
故事过于简单，无法体现资深水平。
- 反例：“我发现一个 SQL 查询没加索引，导致查询很慢。我加了个索引，速度就快了。”
- 问题：这对于一个资深工程师来说是基本操作，无法体现你在复杂系统中的设计和权衡能力。你需要一个涉及系统架构、多方协作、有技术挑战的故事。

高概率追问（3 个 + 示范回答要点）

追问：你提到用 Redis 做缓存，为什么选择 Redis 而不是 Memcached 或者其他方案？
- 要点 1 (数据结构)：回答要突出选型背后的思考。可以强调 Redis 丰富的数据结构。比如，可以说：“我们不仅需要缓存最终的商品 ID 列表（List），未来还可能需要存储每个商品的排序分数（Sorted Set），Redis 对这些复杂结构的原生支持比 Memcached 更好。”
- 要点 2 (生态和运维)：可以提团队熟悉度和云服务。“我们团队对 Redis 的运维经验更丰富，而且 AWS/GCP 提供了成熟的 ElastiCache/MemoryStore 托管服务，可以大大降低我们的运维成本和故障风险。”
- 要点 3 (持久化)：可以提持久化特性。“Redis 的持久化能力（RDB/AOF）让我们在缓存集群需要重启时，可以更快地恢复数据，减少冷启动时的缓存穿透问题。”
追问：你说服产品经理时，除了数据，还有没有考虑其他方案来平衡实时性和性能？
- 要点 1 (混合方案)：展示你的方案设计灵活性。可以回答：“我当时确实准备了一个 Plan B。我提出一个混合方案：对于 99% 的普通用户，我们走预计算缓存。但对于刚发生‘加购’、‘下单’等强意图行为的超高价值用户，我们可以触发一个 flag，在接下来的 5 分钟内强制走实时计算路径，确保对他们推荐的极致新鲜度。这个方案能将性能开销控制在 1% 以内，同时解决 PM 最担心的问题。”
- 要点 2 (用户可感知性)：从用户体验角度分析。“我也和 PM 讨论了用户感知的边界。一个商品价格变动后，推荐系统在 5-10 秒内响应，和在 500 毫秒内响应，对于用户的最终决策影响微乎其微。但页面加载慢 1 秒，用户的跳出率会显著增加。我们应该优先解决用户痛感最强的问题。”
追问：你怎么衡量那 12% 的 CTR 提升确实是你的优化带来的，而不是因为同期其他的市场活动？
- 要点 1 (A/B 测试)：这是标准答案，必须提到。回答：“我们有严格的 A/B 测试流程。在灰度发布期间，我利用公司的实验平台，将用户随机分成两组。实验组（Treatment Group）使用我的新版缓存架构，对照组（Control Group）继续使用老版实时计算架构。我们运行了两周的实验。”
- 要点 2 (指标隔离)：说明你如何排除干扰项。“在分析结果时，我们不仅看最终的 CTR，还会看其他辅助指标，比如页面的跳出率、服务的错误率。我们观察到实验组的页面跳出率显著下降，而同期全站的其他市场活动对两组用户的影响是均等的。通过剥离这些变量，我们能以 95% 的置信度确认，这 12% 的 CTR 提升归因于本次性能优化。”

故事复用建议

这个故事非常扎实，除了回答“低延迟”问题，还可以稍作调整，用于回答以下问题：

Dive Deep: 重点讲你如何通过工具和数据分析，一步步从表面现象定位到代码层面的根本原因。
Deliver Results: 重点讲你如何设定量化目标，并克服阻力最终超额完成，并量化业务影响。
Ownership: 重点讲这个问题最初可能并不在你的直接任务列表里，但你主动发现并承担起解决它的责任。
Invent and Simplify: 重点讲你如何用一个更简单的架构（缓存读取）替代了过去复杂的架构（实时计算），并取得了更好的效果。
Disagree and Commit: 重点讲你和产品经理在“实时性”上的分歧，以及你如何用数据和备选方案来推动决策。
Tell me about a time you dealt with ambiguity: 重点讲在问题初期，性能瓶颈不明确，你如何设计实验和监控来澄清问题。