按能力维度分类（GitHub 开源题库） · Tech-Specific

描述一次你提升系统可靠性或性能的经历。

Describe a time you improved system reliability or performance.

答案语言

考察要点

这道题旨在考察你主动发现问题、深入分析、解决复杂技术难题并最终交付可衡量业务价值的能力。

对于 Amazon，它重点考察 Dive Deep, Ownership, 和 Deliver Results 这三条 Leadership Principles。

高分示范答案（STAR）

Situation（背景） 在 2022 年，我在某电商公司担任推荐系统团队的资深工程师。我们团队约 8 人，负责维护一个高 QPS 的推荐服务，为首页信息流提供商品推荐。当时，我们的核心服务在晚间 8-10 点的流量高峰期，P99 延迟会飙升到 800ms 以上，并伴随约 3% 的请求超时，直接影响用户体验和订单转化率。

Task（任务） 我的任务是诊断并解决这个性能瓶颈，目标是将高峰期的 P99 延迟稳定在 200ms 以下，并将超时率降低到 0.1% 以下，以保障系统稳定性和用户体验。

Action（行动） 整个过程持续了大约一个月，我主导了以下关键行动：

我首先主导了性能瓶颈的深入分析（Dive Deep）。我没有直接假设是算法或数据库问题，而是利用 Prometheus 和 Grafana 对服务的各项指标进行了细致监控。通过火焰图分析，我发现 CPU 和内存都不是瓶颈，真正的瓶颈在于我们用于存储用户画像的单体 Redis 实例，在高并发读写下出现了严重的 I/O 争抢。
我设计并评估了多种解决方案。我提出了三个方案：A. 垂直扩容 Redis 实例；B. 引入多级缓存；C. 将单体 Redis 迁移到分布式 Redis 集群。经过压力测试和成本评估，我发现方案 A 成本高昂且很快会再次触顶，方案 B 会引入数据一致性问题。因此，我最终选择了方案 C，决定采用 Codis 作为我们的分布式 Redis 解决方案，因为它对客户端透明，且支持平滑的数据迁移。
我制定了详尽且低风险的迁移计划（Ownership）。为了避免服务中断，我设计了一个三步走的迁移策略：第一步，在生产环境旁路搭建一套全新的 Codis 集群；第二步，我修改了应用代码，实现“双写”逻辑，同时向旧 Redis 和新 Codis 写入数据，确保数据同步；第三步，我利用功能开关，逐步将读流量从旧 Redis 切换到新 Codis，从 1% 开始，每小时递增，持续观察核心指标。
我主动解决了团队的顾虑。在方案评审时，我的技术经理担心引入 Codis 会增加团队的运维负担。为了打消他的顾虑，我主动编写了一套详尽的运维手册，并构建了包含关键指标（如代理延迟、分片健康度）的监控告警看板。我还进行了一次彻底的负载测试，用数据证明新架构能轻松承载预估 2 倍的峰值流量，最终获得了团队的一致支持。

Result（结果） 迁移在两周内平稳完成，没有造成任何线上故障。

性能提升：推荐服务的 P99 延迟从 800ms 稳定下降至 150ms，降幅超过 80%。
可靠性提升：高峰期请求超时率从 3% 降至 0.05%，基本消除了超时错误。
业务影响：在接下来的一个季度，我们观察到推荐商品点击率提升了 5%，这归功于更快的页面加载速度和更稳定的服务。

通过这个项目，我深刻理解到对于核心系统，必须进行主动的容量规划和架构演进，而不是被动地等待问题爆发。

低分陷阱（常见扣分点）

Action 停留在表面，缺乏深度：只说“我优化了代码”、“我加了缓存”，但不解释你为什么这么做，对比过哪些方案，技术选型的思考是什么。
- 反例：“我们发现 Redis 很慢，于是我把它换成了集群版。”
混淆“我”和“我们”，个人贡献不突出：全程使用“我们团队做了分析”、“我们决定迁移”，面试官无法判断你在这个过程中的角色和贡献。
- 反例：“我们开会讨论后，决定用 Codis，然后大家一起完成了迁移。”
结果没有量化，空洞无力：只说“项目很成功”、“性能得到了很大提升”，缺乏具体数字支撑。
- 反例：“迁移后，系统快多了，用户反馈也很好。”
故事过于简单，无法体现资深水平：选择一个“给数据库字段加索引”之类的故事。这对于初级工程师可以，但对于资深岗位，则显得经验不足，无法处理复杂问题。
没有体现权衡（Trade-off）：一个好的技术决策往往是在成本、时间、复杂度、风险之间做权衡。没有体现这一点，会让故事显得不真实。
- 反例：“我直接用了最好的技术方案。”

高概率追问（3 个 + 示范回答要点）

追问：在评估分布式 Redis 方案时，你为什么最终选择了 Codis，而不是业界也很流行的 Twemproxy 或者云厂商的托管服务（如 ElastiCache）？
- 要点 1 (技术对比)：说明你做了横向对比。例如：Twemproxy 是一个优秀的代理，但它不支持平滑的在线扩容，对于我们这种需要不停机变更的业务不友好。
- 要点 2 (成本与控制力)：说明你考虑了非技术因素。例如：云托管服务虽然运维简单，但成本是自建的 3-4 倍，且我们团队有能力自运维。自建 Codis 让我们对网络拓扑和代理配置有更精细的控制。
- 要点 3 (迁移路径)：强调 Codis 的关键特性如何匹配你的任务。例如：Codis 最大的优势是其 rebalance 工具支持在线数据迁移，这对于我们“零停机”的核心要求至关重要。
追问：你在 Action 中提到实现了“双写”，如何保证双写过程中的数据一致性？如果一个写成功，一个写失败怎么办？
- 要点 1 (最终一致性策略)：承认问题并给出策略。表明你接受在短暂时间内的数据不一致，以新系统为准，并通过后续机制修复。例如：我们的策略是以写入新 Codis 集群成功为准。如果写旧 Redis 失败，我们会记录一条日志，然后通过一个异步补偿任务去重试或修复。
- 要点 2 (降级预案)：展示你的风险控制思维。例如：我们设置了开关，如果新集群出现问题，可以立刻降级为只写旧 Redis，保障核心链路不受损。双写阶段的短暂不一致，对推荐业务（非交易业务）的影响是可接受的。
追问：你说点击率提升了 5%，你怎么能确定这个提升就是由你的性能优化带来的，而不是同期上线的其他功能（比如新的推荐算法）或市场活动导致的？
- 要点 1 (A/B 测试或分组实验)：这是最有力的证据。例如：在流量切换期间，我们保留了 1% 的用户继续使用旧系统作为对照组。通过对比实验组和对照组的点击率，我们分离出了性能提升带来的具体增益。
- 要点 2 (排除法和相关性分析)：如果没有做严格的 A/B 测试。例如：我可以调取数据，确认在那段时间内，没有大规模的市场活动，也没有对推荐算法模型做重大变更。性能（延迟）和点击率的改善在时间曲线上高度相关，这是强有力的旁证。

故事复用建议

这个故事非常扎实，除了回答“性能与可靠性”问题，稍加调整重点，还可以用于回答以下问题：

Ownership：你主动发现问题，并从头到尾负责到底，甚至承担了额外的运维文档和监控建设工作。
Deliver Results：你交付了远超预期的、可量化的业务和技术成果。
Dive Deep：你没有停留在表面，而是通过工具和数据分析，找到了问题的根本原因。
Bias for Action：面对系统风险，你没有等待，而是迅速行动，评估方案并推动落地。
Are Right, A Lot：你做出了正确的技术选型判断，并且用数据说服了他人。
Tell me about a complex project you led.：这个故事完整地展现了一个从分析、设计、执行到交付的复杂项目。