其他热门公司 — Stripe / Snowflake / Databricks / Coinbase / Uber · Databricks

请介绍一下您设计或运维过的大规模分布式系统。

Tell me about a large-scale distributed system you designed or operated.

答案语言

考察要点

这道题旨在考察候选人设计和驾驭复杂系统的能力，以及在规模化、高可用、高并发场景下的技术判断力和权衡取舍能力。对于 Amazon，这直接映射到 Dive Deep, Ownership, 和 Deliver Results 这三条领导力准则。

高分示范答案（STAR）

Situation（背景） 我在上一家电商公司（类似淘宝）担任资深后端工程师，属于订单平台团队（约 15 人）。当时，我们的核心交易系统是一个巨大的单体应用，已经运行了超过五年。随着公司业务每年翻倍增长，这个系统在每次大促（如双十一）期间都濒临崩溃，数据库和应用服务器的 CPU 经常飙到 99%，导致大量下单失败和用户投诉。

Task（任务） 我的任务是主导设计并落地新一代的分布式订单交易系统，以支撑未来三年的业务增长。具体目标是：系统能稳定支撑峰值 10 万 QPS 的下单请求（是当时峰值的 10 倍），同时保证 P99 延迟在 200ms 以内，并且系统可用性达到 99.99%。

Action（行动） 整个项目历时 9 个月，我作为核心设计者和开发者，主要做了以下几件事：

第一，我主动发起了技术深潜和瓶颈分析。 我没有直接说“我们来做微服务吧”，而是花了两周时间，使用 Prometheus 和 Jaeger 对现有单体系统进行全链路压力测试和性能剖析。我发现最大的瓶颈在于订单主表的单库写入（占用了 70% 的响应时间）和与库存、优惠券等多个下游服务的同步 RPC 调用。我将这些数据和火焰图整理成一份详细的分析报告，向团队和总监清晰地论证了重构的必要性和紧迫性。
第二，我设计了“异步化”和“分片化”的核心架构。 针对数据库瓶颈，我提出将订单数据按用户 ID 进行水平分片（sharding），并引入 TiDB 这种分布式数据库来解决单机容量和写入热点问题。针对同步调用阻塞，我设计了一套基于 Kafka 的异步事件驱动架构。当用户下单时，系统只做最核心的参数校验并快速生成一个“待处理”订单，然后立即返回成功，后续的扣减库存、使用优惠券、生成履约单等步骤都通过发布和订阅 Kafka 消息来异步完成。
第三，我主导了最关键的“订单状态机”服务的设计与实现。 在异步架构下，保证数据最终一致性是最大的挑战。我设计了一个健壮的订单状态机模型，它精确定义了订单从“待创建”到“已完成”或“已取消”等十几种状态的流转路径。为了防止消息丢失或重复消费导致状态错乱，我为每个状态变更操作设计了幂等性保证，并开发了一个独立的对账服务，该服务会定期扫描和修复状态不一致的异常订单。
第四，我推动了平滑的灰度上线方案。 一次性切换整个交易系统风险极高。我设计并实现了一套基于用户白名单和流量百分比的灰度发布系统。我们先从内部员工开始，然后是 1% 的真实用户，我持续监控新系统的订单成功率、延迟和 Kafka 消息积压等核心指标。在两周内，我们逐步将流量从 1%->10%->50%->100% 平稳地切到了新系统上。

Result（结果） 新系统上线后的第一个双十一大促，我们取得了巨大成功：

峰值 QPS 达到了 12 万，超出目标 20%，是旧系统的 12 倍。
下单 P99 延迟稳定在 150ms，远低于 200ms 的目标。
系统整体可用性达到 99.995%，整个大促期间核心交易链路零故障。
这套异步化的架构设计被公司推广为最佳实践，后续被支付和物流等多个核心团队复用，为他们节省了至少 6 个月的设计和研发时间。我因为这个项目获得了当年的公司级技术卓越奖。

低分陷阱（常见扣分点）

只说"我们"，不说"我"："我们团队决定采用微服务架构..."。面试官会追问："那你在其中具体做了什么决策？" 好的回答应该像上面示范一样，"我发起了技术深潜...我设计了...我主导了..."。
结果含糊不清，没有量化："项目上线后效果很好，系统性能得到了极大提升"。这等于什么都没说。必须用数字说话，比如 "P99 延迟从 800ms 降至 150ms"。
Action 变成技术流水账："我写了 A 模块的代码，然后写了 B 模块的代码，然后做了单元测试..."。这暴露不了你的设计能力。应该聚焦于关键决策点，比如 "为什么选 Kafka 而不是 RabbitMQ？" "如何处理异步带来的数据一致性问题？"
故事规模太小：讲一个自己做的个人博客或小型内部工具，无法体现处理大规模、高复杂度问题的能力。这个问题的题眼是 "large-scale"。
缺乏权衡取舍（Trade-off）：一个好的设计故事必然包含权衡。比如在可用性和一致性之间的取舍，在开发成本和系统性能之间的取舍。没有提到这些，会让故事显得不真实。

高概率追问（3 个 + 示范回答要点）

追问：你提到用 Kafka 实现异步化，为什么选择 Kafka，而不是比如 RabbitMQ 或 RocketMQ？你如何处理消息积压问题的？
- 回答要点 1 (技术选型)：强调 Kafka 在高吞吐量、持久化和水平扩展方面的优势，这与我们应对大促洪峰流量的场景高度契合。可以对比 RabbitMQ 在消息确认机制上的不同，以及 RocketMQ 在阿里体系内的优势，说明选择 Kafka 是基于我们团队的技术栈和场景需求。
- 回答要点 2 (应对积压)：说明我设计了多层监控告警。首先，对 Kafka Topic 的 Lag 设置了阈值告警。其次，我让消费端服务可以动态扩缩容（基于 K8s HPA），当检测到积压增加时，能自动增加消费者实例。最后，我还设计了降级预案，在极端积压情况下，可以暂时关闭非核心的消费链路（如积分服务），优先保证核心履约流程。
追问：在异步架构下，如何向用户实时反馈订单的最终状态？比如支付成功后，App 页面需要刷新。
- 回答要点 1 (推送)：对于需要强实时通知的场景，我们在后端处理完关键事件（如支付成功、发货）后，会通过一个长连接服务（WebSocket 或 gRPC stream）主动将状态变更推送给前端。
- 回答要点 2 (轮询)：对于部分非核心状态，前端会采用“短轮询”或“长轮询”机制，每隔几秒向服务端查询一次订单的最新状态。我当时做了一个权衡，只有最重要的状态才走推送，避免给长连接服务带来过大压力。
追问：如果让你重新设计这个系统，你会做出哪些不一样的决定？
- 回答要点 1 (技术反思)：可以说当时为了快速上线，对账服务的设计相对简单，是 T+1 的批量校对。如果重做，我会引入流式对账（Stream Processing, e.g., Flink），实现准实时的不一致检测和修复，进一步缩短数据不一致的窗口期。
- 回答要点 2 (流程反思)：可以说在项目初期，可以说服产品侧在业务流程上做一些妥协，比如在下单高峰期，允许库存少量超卖，事后再通过客服沟通进行补偿。这样可以进一步简化系统的设计复杂度，用业务上的灵活性换取技术上的更高稳定性和性能。这能体现你的业务 sense 和更大的格局。

故事复用建议

这个故事非常扎实，可以轻松复用于回答以下问题：

Ownership: "Tell me about a time you took on a project that went beyond your job description." (主动发起瓶颈分析和重构)
Deliver Results: "Describe a time when you faced a significant challenge to meet a commitment." (面对双十一巨大流量压力，交付了超出预期的系统)
Dive Deep: "Give an example of a time you used data to make a decision." (通过性能剖析数据来定位瓶颈和驱动决策)
Are Right, A Lot: "Tell me about a time you made a complex technical decision." (在单体 vs 微服务，同步 vs 异步，SQL vs NoSQL 之间做出正确选择)
Bias for Action: "Describe a situation where you had to act with a sense of urgency." (在大促前有限的时间内推动并完成了大规模系统重构)
Insist on the Highest Standards: "Tell me about a time you refused to compromise on quality." (没有选择打补丁，而是设计了长期可扩展的架构)