讲讲你一次在压力下迅速做决定的经历。
Tell me about a time you made a quick decision under pressure.
考察要点
这道题旨在考察你在压力和信息不完整的情况下,快速做出判断并采取行动的能力。它直接对应 Amazon 的 Bias for Action (崇尚行动) Leadership Principle。面试官希望看到你不是一个在分析中陷入瘫痪的人,而是一个能够评估风险、做出“足够好”的决定并推动事情前进的实干家。一个好的答案会展示你承担经过计算的风险(calculated risk)的勇气,并且理解很多决策是“双向门”(two-way doors),可以被逆转。
高分示范答案(STAR)
Situation(背景) 去年 Q2,我在一家电商公司担任支付网关团队的技术负责人(Tech Lead)。我们团队有 6 名工程师,负责处理所有交易的支付、退款和对账。当时,我们刚刚上线了一个与新支付渠道(比如叫 PayNow)对接的功能,为期一周的大促活动也刚刚在周一早上 10 点开始。
Task(任务) 大促开始后约 15 分钟,我收到了大量告警,显示用户在使用 PayNow 付款时,有接近 40% 的订单创建失败。监控面板显示我们的支付创建服务 P99 延迟从 150ms 飙升到了 3000ms。我的任务是立即恢复支付成功率,将业务损失降到最低,因为每分钟的故障都意味着数万笔交易的流失。
Action(行动) 当时情况非常紧急,业务和运营团队都在电话会议里催促。我采取了以下几个关键行动:
- 我首先判断情况并控制场面:我立刻在电话会议中告诉所有人:“请给我 10 分钟,我和团队先定位问题,期间请不要随意重启服务。我会随时同步进展。” 这为技术团队争取了宝贵的、不受干扰的排查时间。
- 我快速分析数据,形成假设:我没有直接去看代码,而是先冲到我们的监控系统(Grafana & ELK)。我发现所有延迟都指向了对 PayNow 渠道的同步调用。我的假设是:PayNow 的服务器无法承受我们的促销流量,导致了请求积压和雪崩。我们有两个选择:A. 联系 PayNow 让他们扩容(耗时未知);B. 立刻降级,先止损。
- 我做出了一个有风险但可逆的决定:我决定不等 PayNow 的回复了。我判断,与其让 40% 的用户失败,不如暂时牺牲掉这个新渠道,保住另外 95% 使用支付宝和微信支付的用户。我利用我们预先埋好的功能开关(Feature Flag),在配置中心动态地将 PayNow 渠道的流量权重降为 0,实质上是暂时屏蔽了这个支付选项。这是一个“双向门”决策,如果判断失误,我可以随时重新打开。
- 我验证决策并沟通闭环:执行操作后,我紧盯着监控面板。大约 1 分钟内,服务的 P99 延迟恢复到了 150ms,订单失败率降至 0.1% 以下。我立即在电话会议中向所有业务方同步:“问题已通过暂时下线 PayNow 渠道解决,用户支付流程已恢复正常。我们会后会与 PayNow 复盘并制定长期方案。”
Result(结果) 整个决策和行动过程在 10 分钟内完成。我们成功将一次可能持续数小时的重大 P0 级故障的影响控制在了 15 分钟以内,预估挽回了超过 200 万元的交易额。事后复盘,PayNow 确认是他们的网关容量预估不足。这次经历也让我推动团队将所有新渠道的上线流程标准化,强制要求进行前置压力测试和具备一键降级开关。
低分陷阱(常见扣分点)
- 决策不够“快”:把一个需要几天甚至几周来分析和讨论的决策当成“快速决策”。例如:“我们花了一周时间调研了三种技术方案,最后我拍板用了方案 A。” 这考察的是技术选型,不是 Bias for Action。
- 压力感不强:选择一个无关痛痒的场景,比如“我很快决定了我们下午茶喝什么”。这完全没有体现出在压力下做决定的能力。
- 行动归功于“我们”:“我们发现问题后,我们决定关掉那个功能。” 面试官会追问:“具体是谁做的决定?你的角色是什么?”
- 没有体现风险权衡:如果你的决定没有任何负面影响或风险,那它就不是一个困难的决定。好的故事应该体现出你在“两害相权取其轻”。例如,这个故事里就权衡了“损失一个渠道的收入”和“整个支付服务瘫痪”的风险。
- 只有行动,没有思考:“线上出问题了,我就把它回滚了。” 为什么回滚是当时最好的选择?有没有其他选项?你评估过回滚的风险吗(比如数据不一致)?
高概率追问(3 个 + 示范回答要点)
-
追问:在你做出禁用 PayNow 渠道的决定时,业务方的第一反应是什么?你是如何说服他们的?
- 要点 1 (数据驱动):强调你不是凭感觉,而是基于数据。回答:“业务方一开始很犹豫,因为 PayNow 是我们这次大促主推的新渠道。我立刻把监控截图(P99 延迟和失败率)发到群里,并用一句话解释:‘我们现在每分钟有 40% 的用户付不了钱,但 99% 的问题都来自这一个渠道。’ ”
- 要点 2 (聚焦共同目标):把个人决定上升为团队共同目标。回答:“我接着说:‘我的建议是先止损,保住大盘交易。恢复后,我们再看怎么和 PayNow 一起解决问题。我们的首要目标是保证用户能下单。’ 这样就把讨论从‘要不要关’变成了‘如何最好地实现共同目标’。”
-
追问:如果关掉 Feature Flag 之后问题没有解决,你的 Plan B 是什么?
- 要点 1 (有预案):表明你不是在赌博,而是有层次的应对策略。回答:“我的 Plan A 是隔离可疑变量,也就是 PayNow。如果 3-5 分钟内问题依旧,说明我的假设是错的。我的 Plan B 就是执行服务级别的回滚,将整个支付网关回滚到大促前的稳定版本。这个操作大概需要 10 分钟,风险更高,但能保证系统状态的确定性。”
- 要点 2 (风险评估):解释为什么不直接用 Plan B。回答:“我之所以先选择 Plan A,是因为它更快、影响面更小,且完全可逆。直接回滚服务可能会引发短暂的全服务不可用和潜在的数据兼容问题,所以我把它作为最后的保险措施。”
-
追问:事后来看,这个“快速决策”有没有带来什么负面影响?你从中学到了什么?
- 要点 1 (坦诚承认不足):诚实地说明决策的代价,体现你的反思能力。回答:“有负面影响。我们确实损失了原计划通过 PayNow 渠道获取的新用户和交易额,并且让当天主推这个渠道的市场活动效果打了折扣。这让我们的合作伙伴 PayNow 一度有些被动。”
- 要点 2 (将学习转化为机制):说明你如何把教训变成未来的财富。回答:“我学到的最重要的一点是,对于有外部依赖的关键路径功能,‘可以快速失败’的设计比‘寄希望于对方稳定’更重要。因此,我推动建立了一个‘新渠道上线SOP’,强制要求所有新支付渠道在上线前必须:1. 提供压测报告;2. 默认支持异步调用;3. 必须配备动态流量控制和一键降级开关。”
故事复用建议
这个故事非常扎实,除了 Bias for Action,还可以根据不同的提问侧重点,复用在以下几个方面:
- Ownership (主人翁精神):你没有把问题推给 PayNow,而是主动承担起解决问题的责任,保护了公司的利益。
- Deliver Results (交付结果):面对危机,你最终交付了“恢复服务、挽回损失”这个最重要的结果。
- Dive Deep (深入细节):你没有停留在表面(“服务挂了”),而是深入到监控数据中去定位根本原因。
- Earn Trust (赢得信任):你通过清晰的沟通、果断的行动和最终的结果,赢得了业务方和团队的信任。
- Are Right, A Lot (决策正确):你的假设被证明是正确的,体现了良好的技术直觉和判断力。