Microsoft · Growth Mindset / Customer Focus / One Microsoft

描述一次你从失败中学习的经历。

Describe a time you learned from a failure.

答案语言

考察要点

这道题旨在考察你面对挫折时的成熟度和学习能力。重点评估你是否能坦诚地承认错误、深入分析根本原因，并从中提炼出可推广的经验教训，最终将失败转化为积极的成果。

对于 Amazon，这道题直接考察 Learn and Be Curious 和 Ownership。一个好的答案还会体现出 Dive Deep（深入分析根因）和 Are Right, A Lot（承认错误并从中学习是“判断正确”的一部分）。

高分示范答案（STAR）

Situation（背景） 我在上一家公司（一家电商独角兽）担任核心交易组的软件工程师。2022 年，为了应对“黑五”大促，我们团队（约 8 人）负责开发一套全新的、支持复杂规则的优惠券系统。这是一个公司级的重点项目，上线时间非常紧，距离大促只有不到两个月的时间。

Task（任务） 我的任务是主导优惠券计算引擎的设计和开发，并确保它能在大促洪峰流量下，P99 延迟低于 100ms。这个引擎需要与十几个下游服务（如库存、用户画像、商品信息）进行实时交互，逻辑非常复杂。

Action（行动） 为了赶上紧张的排期，我在项目初期做出了一个现在看来是错误的权衡。

错误的决策与假设： 我认为只要单元测试和模拟（Mock）测试的覆盖率达到 95% 以上，就可以保证服务的稳定性。因此，我主张将联调和全链路压测的时间从计划的 2 周压缩到 3 天，以便为前端留出更多时间。当时我的理由是，下游服务的 SLA 都是有保障的，我们只需要关注自身逻辑。
失败的发生： 系统如期上线。大促开始后的第一个小时，监控系统开始报警，优惠券引擎的 P99 延迟飙升到 2000ms，导致大量用户在购物车页面加载不出优惠，甚至下单失败。作为核心开发者，我立刻被拉入紧急作战室。
补救与担当： 我顶住压力，第一时间没有去“甩锅”给下游服务。我通过日志和链路追踪（Tracing）分析，迅速定位到瓶颈在于对“库存服务”的调用。在高并发下，该服务的某个非核心查询的响应时间从平时的 20ms 劣化到 1500ms，而我的代码里没有设置足够短的超时和熔断机制。我立刻做出了两个决定：1. 与作战指挥官沟通，紧急降级非核心优惠券功能，暂时禁用了对库存服务的实时校验，让主交易流程恢复。2. 我在 30 分钟内完成了一个 hotfix，为该调用增加了 50ms 的超时和快速失败（fast-fail）的熔断逻辑，并推送上线。
复盘与改进： 事故平息后，我主动牵头了这次事故的复盘（Post-mortem）。我坦诚地承认了自己当初为了赶进度而轻视全链路压测的决策失误。更重要的是，我将这次失败转化为了一个机制：我设计并推动了一个“发布前置检查清单（Pre-launch Checklist）”，要求所有核心交易链路的变更，都必须包含在模拟生产环境下的、带真实依赖的全链路压测报告。这个清单后来被整个技术部采纳。

Result（结果） 这次故障导致服务不稳定约 45 分钟，初步估计造成了约 1.5% 的订单流失。但通过我的紧急修复，核心交易在 15 分钟内恢复正常。更长远地看，我推动的“发布前置检查清单”在后续半年内，将整个部门因性能问题导致的 P0/P1 级事故从平均每季度 2 次降低为 0。我个人也深刻认识到，对核心系统的敬畏心，永远比开发速度更重要。

低分陷阱（常见扣分点）

将失败归咎于他人或环境：“那个下游服务太坑了，文档也没写清楚。” —— 这体现了缺乏 Ownership。你应该说：“我没有充分预估到依赖服务的风险，并且我的容错设计不足。”
选择一个无足轻重的失败：“我写代码时有个 bug，导致一个页面按钮颜色不对，后来修复了。” —— 这无法体现你的能力。失败的“价值”在于它造成的损失足够大，让你学到的教训足够深刻。
没有“学到”，只有“做到”：“我学到了以后要更仔细。” —— 这是空话。好的学习是形成方法论或机制：“我学到了必须通过制度来保证，因此我推动建立了一个自动化测试流程/一个发布清单。”
结果含糊不清：“项目后来变好了。” —— 必须量化：“事故率从每季度 2 次降为 0”，“新机制被 3 个兄弟团队采纳”。
只说技术修复，不说流程和人的影响：只讲自己如何改代码，但没有说如何推动团队、改变流程，这会让你的影响力看起来很局限。

高概率追问（3 个 + 示范回答要点）

追问：当你的提议（压缩测试时间）最终导致事故时，你的经理和同事是什么反应？你是如何处理这些关系的？
- 要点 1 (坦诚与担当): 我在复盘会上第一个站出来承认我的决策失误，没有找任何借口。我明确表示，责任主要在我，因为是我基于不充分的假设提出了这个建议。
- 要点 2 (聚焦解决问题): 我向经理和团队保证，我会把精力放在如何从机制上杜绝此类问题，而不是停留在追责。我主动承诺会输出详细的复盘报告和改进计划。这种态度让团队的焦点从“谁的错”转移到了“怎么办”。
- 要点 3 (重建信任): 通过后续推动“发布清单”并取得的实际效果，我用行动证明了我从失败中吸取了教训，并为团队带来了积极的改变，从而重新赢得了甚至加强了同事们的信任。
追问：你提出的“发布前置检查清单”在推行时，有没有遇到阻力？其他团队愿意配合吗？
- 要点 1 (数据驱动): 我没有直接要求大家遵守。我首先把这次事故的复盘报告和损失数据（订单流失、用户投诉等）分享给了其他团队的负责人，让他们清晰地看到问题的严重性。
- 要点 2 (MVP 启动): 我先在我自己的团队内部试行这个 Checklist，并证明了它虽然增加了一点前期工作，但能有效发现潜在问题，减少了后期救火的成本。我们用两周的实践数据证明了它的 ROI 是正向的。
- 要点 3 (降低接入门槛): 我将 Checklist 做成了模板，并提供了一键生成的脚本工具，大大降低了其他团队的使用成本。我不是在增加工作，而是在提供一个“最佳实践工具包”。
追问：如果时间倒流，回到项目开始时，你会做出什么不一样的决策？
- 要点 1 (早期风险暴露): 我会从一开始就将“全链路压测”作为项目的一个关键里程碑，并明确指出如果缺少这一环，项目上线的风险等级将是“高”。我会更早、更正式地向产品经理和项目经理沟通这个风险，而不是自己默默消化。
- 要点 2 (寻求外部帮助): 我会主动邀请 SRE 团队或性能测试专家早期介入项目设计评审，利用他们的经验来识别我们可能忽略的性能瓶颈。
- 要点 3 (设计上的防御): 在编码阶段，我会更激进地执行防御性编程。即使下游服务承诺了 SLA，我也会默认它们是不可靠的，为每一个网络调用都设计好超时、重试和熔断降级策略。

故事复用建议

这个故事非常扎实，除了“Learn from a failure”，它还可以根据你的侧重点进行微调，用于回答以下问题：

Ownership: 你主动承担了事故责任并推动了根本性解决。
Deliver Results: 尽管经历了波折，你最终交付了一个更稳定、更可靠的系统和流程。
Bias for Action: 你在事故发生时快速响应、紧急修复的行为。
Dive Deep: 你深入分析了事故的根本原因，而不是停留在表面。
Influence without Authority: 你成功说服其他团队采纳了你提出的新流程。
Tell me about a time you made a wrong decision. (与本题高度重合)