Amazon — 16 Leadership Principles · LP14. Deliver Results

说说你为了交付产品/项目，克服重重困难的经历。

Tell me about a time you had to push through obstacles to ship.

答案语言

考察要点

这道题旨在评估候选人在面对困难、不确定性和意外障碍时，能否保持目标导向，并最终交付业务价值。它直接考察 Amazon 的 Deliver Results（达成业绩）领导力准则，同时也深挖了 Ownership（主人翁精神）和 Bias for Action（崇尚行动）。

Deliver Results: 关注候选人是否能在重重困难下，依然专注于最终目标，并使用创造性的方法达成或超越它。
Ownership: 候选人是否将项目的成败视为己任，主动解决超出自己职责范围的问题。
Bias for Action: 在信息不全或路径不明时，候选人是选择等待还是主动尝试、快速迭代。

高分示范答案（STAR）

Situation（背景） 我在上一家电商公司担任推荐算法团队的资深工程师。2022 年第三季度，我们的核心 OKR 是在“黑色星期五”大促前，上线一个全新的“猜你喜欢”信息流，以提升用户粘性和转化率。我的团队有 5 名工程师，我作为这个项目的技术负责人（Tech Lead），负责端到端的交付。

Task（任务） 我的任务是带领团队在 10 月底前完成该功能的开发、测试和上线，确保系统能够承载大促预估 5 倍的流量（约 10k QPS），同时将推荐的点击率（CTR）相对旧版提升 15%。然而，项目进行到一半时，我们遇到了两个致命的障碍。

Action（行动） 项目中期，我们发现两个严重问题：1）依赖的兄弟团队“用户画像组”交付的数据 Pipeline 存在严重延迟，数据T+1才能用，无法满足我们对“实时”推荐的要求。2）初步的性能压测显示，新模型的 P99 响应时间高达 800ms，远超产品要求的 200ms。团队士气低落，有人甚至建议项目延期。面对这种情况：

我首先主动解决数据依赖问题，而不是等待或抱怨。 我分析了用户画像数据的更新频率，发现 80% 的核心用户特征（如性别、年龄段）是低频变化的。基于这个洞察，我设计了一个“增量更新 + 本地缓存”的方案：我主导构建了一个轻量级的 Lambda 服务，每小时从数据湖拉取增量特征，并将其缓存在我们服务自身的 Redis 集群中。对于 20% 的高频动态特征，我与用户画像组协商，让他们提供一个轻量级的实时查询接口。这个混合方案绕开了他们整个 Pipeline 的延迟瓶颈。
其次，我主导了性能瓶颈的攻坚。 我没有让团队盲目地去优化，而是组织了一次性能分析冲刺（Performance Sprint）。我使用 pprof 工具对服务进行火焰图分析，定位到 80% 的耗时都在一个复杂的特征交叉计算上。为了在不牺牲太多效果的前提下解决问题，我提出了一个关键的权衡（trade-off）：将最耗时的几个特征交叉从线上实时计算，改为线下预计算，并将结果存入一个高性能的 KV 存储（如 ScyllaDB）中。我用一周时间开发了一个 PoC（概念验证）版本，证明该方案能将 P99 延迟降至 150ms 左右，同时模型 AUC 仅下降了 0.8%，这个损失产品和算法同学都认为可以接受。
最后，我重新凝聚团队士气并管理交付预期。 我将这两个解决方案整理成清晰的技术文档，并召集了两次紧急会议。在会上，我不仅展示了解决方案的可行性，还把剩下的工作拆解成多个明确、可执行的子任务，分配到人。同时，我主动与产品总监和部门负责人同步了风险和我们的应对计划，将“按时上线”的承诺转变为“按时上线核心功能，部分非核心体验后续迭代”的务实目标，成功管理了上级的预期。

Result（结果） 最终，我们克服了障碍，在“黑色星期五”前一周成功上线了“猜你喜欢”信息流。

业务结果：上线后一个月，新信息流的点击率（CTR）提升了 18%，超过了 15% 的目标。大促当天，系统平稳支撑了 12k QPS 的峰值流量，无任何事故。
工程结果：服务的 P99 延迟稳定在 160ms，完全符合产品要求。我设计的“增量缓存”方案后来被推广到其他 3 个业务团队，为他们节省了类似的开发和等待时间。
个人收获：我学到了在极端压力下，作为 Tech Lead，最重要的不是自己写多少代码，而是快速定位瓶颈，做出关键的技术决策，并有效调动团队资源和士气。

低分陷阱（常见扣分点）

将功劳归于团队，个人贡献模糊
- 反例：“我们遇到了数据延迟问题，后来我们想了个办法解决了。”
- 分析：面试官想知道的是“你”做了什么。是“你”发现的？是“你”提出的方案？是“你”写的核心代码？必须用“我”来主导行动的描述。
只有问题，没有解决问题的思考过程
- 反例：“模型太慢了，我就把它优化了一下，然后就快了。”
- 分析：这毫无吸引力。面试官想听的是你如何诊断问题（用了什么工具？）、如何思考解决方案（为什么选方案 A 而不是 B？做了什么权衡？）、如何验证方案（PoC 的结果如何？）。
结果含糊不清，没有量化
- 反例：“项目最后成功上线了，效果很好，领导很满意。”
- 分析：这是最致命的扣分项。“效果很好”是多好？必须用数字说话，例如“CTR 提升 18%”、“P99 延迟从 800ms 降到 160ms”、“支撑了 12k QPS 峰值”。
抱怨或指责他人
- 反例：“那个用户画像团队太不靠谱了，数据一直给不出来，拖累了我们整个项目的进度。”
- 分析：这会显得你缺乏 Ownership 和合作精神。成熟的工程师会把外部依赖问题看作是自己需要管理和解决的风险，而不是推卸责任的借口。

高概率追问（3 个 + 示范回答要点）

追问：你提到的“增量更新+本地缓存”方案，有没有考虑过其他替代方案？为什么最终选择了这个？
- 要点 1 (展现技术广度)：提及其他可能性，例如：直接请求实时数据库、或者推动用户画像组进行架构改造。
- 要点 2 (展现决策能力)：分析为什么放弃了其他方案。例如：直接请求数据库会对主库造成压力，风险太高；推动对方改造周期太长（至少一个季度），无法满足我们的上线时间。
- 要点 3 (强调当前方案的优势)：强调你选择的方案是一个在“时间、成本、风险”三者间取得最佳平衡的务实选择，它解决了眼前的核心矛盾，同时没有引入新的巨大风险。
追问：当团队士气低落时，你作为 Tech Lead 具体是怎么和他们沟通的？有没有人当面反对你的计划？
- 要点 1 (共情而非说教)：说明你首先是倾听和理解团队的沮丧，承认问题的严重性，而不是简单地说“大家加油”。
- 要点 2 (用数据和事实说话)：强调你不是空喊口号，而是带着你的 PoC 结果和清晰的解决方案去沟通的。当大家看到一条切实可行的路径时，信心自然会恢复。
- 要点 3 (处理反对意见)：如果有人反对，诚实地描述。例如：“有位资深同事担心预计算方案会影响模型效果。我没有直接否定他，而是邀请他一起参与了 PoC 的效果评估，用数据证明 AUC 仅下降 0.8% 是可接受的，最终说服了他。”
追问：这个项目结束后，你有没有做什么来避免未来发生类似的问题？
- 要点 1 (流程改进)：说明你推动了团队复盘（Retrospective），并将经验固化为流程。例如，我们规定未来所有新项目，必须在项目启动第一周就对所有外部依赖进行“健康度检查”，并为每个依赖建立明确的 SLA 和备用计划（Plan B）。
- 要点 2 (技术沉淀)：你将那个“增量缓存”的通用解决方案沉淀为一个标准的内部库或 CDK 组件，方便其他团队复用，从根本上提升组织的工程效率。
- 要点 3 (跨团队影响)：你主动与用户画像组的负责人进行了一次复盘会议，分享了这次遇到的问题对下游业务的影响，这推动了他们将“提供更实时的 Pipeline”列入了下一个季度的规划中。

故事复用建议

这个故事非常扎实，除了 Deliver Results，还可以根据面试官的提问侧重点，进行微调后用于回答以下问题：

Ownership: 当依赖的团队出问题时，你没有等待，而是主动承担解决。
Bias for Action: 你没有在问题面前瘫痪，而是快速设计并验证了 PoC。
Invent and Simplify: 你设计的“混合方案”和“预计算方案”都是在复杂约束下，对问题进行的简化和创新。
Are Right, A Lot: 你对技术方案的判断（缓存方案、性能优化权衡）最终被证明是正确的。
Technical Deep Dive: 在回答性能优化部分时，可以深入讲解 pprof 的使用细节和特征工程的权衡。
Disagree and Commit: 如果追问中涉及到与产品或团队成员的分歧，可以展开这部分。