连接超时设置成30秒，我收获了一个愤怒的CTO

凌晨两点，告警短信把你从被窝里拽出来。服务器内存爆了，接口响应时间从200ms飙升到30秒。你抓着头皮翻日志，发现罪魁祸首是一个看似无害的HTTP请求——它在等待一个永远不会返回的响应。

这不是段子，这是真实发生的事故。今天聊聊后端开发中那些"看起来很简单"的配置，以及它们背后藏着的刀子。

超时：一道容易被忽略的送命题

很多程序员写HTTP客户端代码时，超时配置是这样的：

OkHttpClient client = new OkHttpClient.Builder()
    .connectTimeout(30, TimeUnit.SECONDS)
    .readTimeout(30, TimeUnit.SECONDS)
    .writeTimeout(30, TimeUnit.SECONDS)
    .build();

或者这样的Python代码：

requests.get(url, timeout=30)

30秒，看起来很安全对吧？但现实会给你上一课：当你的上游服务卡死时，30秒意味着什么？100个并发请求进来，30秒内它们全部堆积在等待状态。线程池打满，内存暴涨，服务开始拒绝新的请求——雪崩就这么发生了。

更骚的操作是，有人把超时设成None，意思是"无限等待"。我见过生产环境中有个服务调用另一个服务的接口，因为对方网络抖动导致TCP连接建立卡住，结果整个服务hang死8小时无人发现，直到第二天早上用户投诉才暴露。

连接池：不是你以为的那个池子

假设你学过"连接池"这个概念，觉得自己懂了。于是你配置了一个连接池，满心欢喜以为可以复用连接、提高性能。

但你有没有想过这个问题：连接池里的连接，真的可以永远复用吗？

看这段代码：

pool = http_pool(maxsize=10)

def fetch(url):
    conn = pool.get_connection()
    try:
        return conn.request(GET, url)
    finally:
        pool.release_connection(conn)

看起来很标准对吧？但问题来了：如果conn.request抛异常呢？你的finally块确实会执行，但如果异常发生在获取连接之后、release之前呢？更隐蔽的是，如果conn本身已经是坏的（服务端已经关闭了TCP连接），你把它放回池子里，下一个请求就会拿到一个坏连接，然后收获一个神秘的连接错误。

真实的坑是这样的：线上有个服务调用量突然翻倍，日志里充斥着各种偶发的connection reset by peer错误。排查了一周，最后发现是上游服务悄悄加了个7小时不活跃断连的配置，而他们的连接池默认保活时间正好是8小时。绝大多数请求正常返回，但总有那么几个"幸运"请求撞上那个坏连接，然后失败。

重试：救命稻草还是隐形炸弹？

当请求失败时，重试是个看起来很美的方案。失败了？再来一次！说不定就成功了呢？

但重试机制设计不好，就是一场灾难。

想象这个场景：订单服务调用库存服务扣库存，库存服务因为网络抖动返回了超时错误。如果订单服务无脑重试3次，在峰值时段1秒钟有1000个订单涌入，那就变成了最多4000次库存扣减请求——即使库存服务恢复了，也会被瞬间洪流击垮。

更糟糕的是，如果这个库存服务还调用了下游的物流服务、积分服务，那么重试风暴会沿着调用链一路蔓延，最后整个系统一起爆炸。

所以重试机制需要考虑：

哪些错误可以重试，哪些必须直接失败
重试间隔应该指数递增，而不是固定间隔
设置最大重试次数，防止无限重试
分布式环境下，需要分布式限流来配合

熔断器：给自己留条活路

熔断器（Circuit Breaker）模式是工程师从电路里学来的设计：当电流过载时，保险丝会熔断，切断电路防止火灾。软件里的熔断器也是一个道理——当某个服务的错误率超过阈值时，直接短路返回失败，而不是继续往这个服务发送请求。

很多人知道这个概念，但实际用的时候往往设错参数。比如熔断器打开的阈值设为50%错误率，但你的服务正常情况下也有2%的错误率（数据库偶尔慢查询、网络抖动等），那么这个熔断器在高峰期几乎永远不会打开——因为错误率还没到50%，系统就已经被拖死了。

合理的阈值应该基于历史数据计算。假设你的服务正常错误率是0.1%，那么可以设一个动态阈值：超过正常水平的3-5倍标准差就触发熔断。

实战建议：怎么活下来

说了这么多坑，给几条能救命的建议：

第一，所有超时都必须设置，不要相信默认值。语言框架的默认超时有时候是0（无限），有时候是几分钟，不管是哪种，在生产环境都可能要你的命。

第二，连接池要配合健康检查使用。每次从池子里拿连接时，顺手做个轻量级的ping/pong检查，发现坏连接立即丢弃。牺牲一点点性能，换取系统的稳定性。

第三，重试必须有上限，且间隔要指数递增。常见的退避策略：第1次等1秒，第2次等2秒，第3次等4秒，超过3次就放弃。

第四，熔断器的阈值要基于实际监控数据设置。不要拍脑袋，要看历史曲线。

第五，也是最重要的一条：给你的服务加上完善的监控和告警。如果那个凌晨两点的告警能早几个小时触发，根本不需要从被窝里爬起来。

最后

后端开发就是这样，满是细节魔鬼。一个看似简单的HTTP请求，背后涉及到连接管理、超时控制、重试策略、熔断机制……任何一个环节出问题，都可能让你在半夜三点对着服务器日志怀疑人生。

所以，写代码的时候多想想：如果这个请求永远不返回怎么办？如果对方服务器宕机了我该怎么办？如果我的服务被洪流击垮了怎么自救？

想清楚了这些，你离"愤怒的CTO"就远了一点。

祝各位的服务器安稳，睡眠充足。

连接超时设置成30秒，我收获了一个愤怒的CTO

超时：一道容易被忽略的送命题

连接池：不是你以为的那个池子

重试：救命稻草还是隐形炸弹？

熔断器：给自己留条活路

实战建议：怎么活下来

最后

相关文章

发布评论取消回复

连接超时设置成30秒，我收获了一个愤怒的CTO

超时：一道容易被忽略的送命题

连接池：不是你以为的那个池子

重试：救命稻草还是隐形炸弹？

熔断器：给自己留条活路

实战建议：怎么活下来

最后

相关文章

发布评论 取消回复

发布评论取消回复