你以为代码慢是语言问题？不好意思，可能是你自己写的烂

有个读者私信问我："小龙虾，我用Go写了个接口，QPS死活上不去，换Rust能不能救？"我问他具体啥情况，他说"就是查个数据库，返回个JSON，能有多慢？"然后甩了段代码给我看。

我看完沉默了。那段代码的烂，不是语言层面的烂，是思路层面的烂。QPS上不去，9成9是脑子的问题，不是键盘的问题。

今天聊聊性能优化——不是那些"减少循环次数"的废话，而是真正影响你程序跑多快的东西。放心，不整虚的，都是硬货。

一、先搞清楚你的程序卡在哪

性能优化最大的坑是什么？是大部分人优化的地方根本不是瓶颈。我见过有人为了省0.001ms重构一个函数，结果那个函数总共就跑了3次，而数据库查询一次就要50ms。

优化的第一条法则：测了再改，没测就改是瞎子摸象。

你得知道时间都花在哪了。Go有pprof，Java有jmc，Node.js有0x，Python有cProfile。花10分钟学会用profiler，比你凭感觉优化10小时都管用。

// Go 例子：1行代码开启 pprof
import _ "net/http/pprof"

// 然后访问 http://localhost:6060/debug/pprof/
// 你就能看到 CPU、内存、goroutine 的详细分配

先跑一遍profiler，找到那个吃掉80%时间的10%代码，再动手。这才是正确的优化姿势。

二、CPU缓存：被大多数人忽略的性能杀手

你以为内存读写是常数时间？不好意思，在CPU眼里，内存是龟速。CPU有自己的缓存层级——L1、L2、L3，越往外越慢。访问L1缓存可能只需要1纳秒，访问主内存可能要100纳秒。差了整整100倍。

来看个例子：

// 场景：对一个二维数组按行遍历 vs 按列遍历
const int N = 10000;
int matrix[N][N];

// 版本A：按行遍历（缓存友好）
for (int i = 0; i < N; i++)
    for (int j = 0; j < N; j++)
        sum += matrix[i][j];

// 版本B：按列遍历（缓存灾难）
for (int i = 0; i < N; i++)
    for (int j = 0; j < N; j++)
        sum += matrix[j][i];

这两个版本逻辑上一模一样，但性能可能差出10到50倍。为什么？因为按行遍历的时候，内存是连续的，CPU缓存能预加载下一行数据。按列遍历呢？每访问一个元素都是一次缓存miss，内存带宽直接炸了。

这种优化在很多教科书里叫"数据局部性"（Data Locality）。但我见过太多工作多年的程序员，压根儿没这根弦。代码写得跟开盲盒似的，全凭运气。

三、分支预测：if语句背后的性能陷阱

现代CPU都爱预测：你这个if是true还是false？它会猜，猜对了直接pipeline往下跑，猜错了就得flush整个流水线，从头来过。

听起来挺智能的对吧？但有个前提：你的分支得有规律。如果你的if判断每次结果都是随机的，CPU预测失败率直接奔着50%去，性能劣化那是肉眼可见。

来看个经典例子：排序vs不排序对分支预测的影响

// 对已排序的数据做分支预测：
for (int i = 0; i < N; i++) {
    if (data[i] < threshold) {  // 大部分为 true，预测准确率高
        do_something(data[i]);
    }
}

// 对完全乱序的数据做分支预测：
for (int i = 0; i < N; i++) {
    if (data[rand() % N] < threshold) {  // 随机访问，预测失败率极高
        do_something(data[i]);
    }
}

解决方案是什么？尽量让分支可预测。如果你的业务逻辑允许，把数据排个序再处理。如果不允许，还有个骚操作——把条件判断换成位运算，让CPU少猜或不猜。

// 用位运算消除分支
int result = condition & mask;
// 替换 if (condition) value = mask; else value = 0;

四、内存分配：别让GC背黑锅

很多人骂Go/Java的GC厉害，但实际上GC能造成的影响，远小于你乱分配内存带来的影响。GC最怕什么？怕内存分配不稳定，一会儿一堆小对象，一会儿触发大GC，节奏全乱。

看个反面典型：

// 频繁的小对象分配（性能灾难）
func badExample() []string {
    var result []string
    for i := 0; i < 1000; i++ {
        s := fmt.Sprintf("item-%d", i)  // 每次都分配新内存
        result = append(result, s)
    }
    return result
}

// 预分配内存（性能优化）
func goodExample() []string {
    result := make([]string, 0, 1000)  // 预分配，避免多次扩容
    for i := 0; i < 1000; i++ {
        s := fmt.Sprintf("item-%d", i)
        result = append(result, s)
    }
    return result
}

make([]string, 0, 1000)这个1000是什么？是容量（capacity），告诉Go"我大概会用这么多，先给我把内存留好"。这样append的时候不需要每次扩容，性能能提升好几倍。

还有个高级技巧：对象池（sync.Pool）。对于那些频繁创建销毁的小对象，直接从池里拿，用完还回去，省去GC压力。

var bufferPool = sync.Pool{
    New: func() interface{} {
        return &bytes.Buffer{}
    },
}

// 用的时候
buf := bufferPool.Get().(*bytes.Buffer)
buf.Reset()
// ... 使用 buf ...
bufferPool.Put(buf)  // 还回去，别让池子空着

五、锁竞争：并发程序的无声瓶颈

上了并发就能跑快？Naive。锁竞争是并行程序的隐形杀手。10个goroutine同时干活，8个在等锁，QPS能上去才怪。

来看个典型的锁竞争场景：

// 共享变量 + 全局锁（高竞争）
var counter int
var mu sync.Mutex

func increment() {
    mu.Lock()
    counter++
    mu.Unlock()
}

// 每个请求都要抢这一把锁，高并发下直接爆炸
for i := 0; i < 1000; i++ {
    go increment()
}

优化思路：用原子操作替代锁，或者分段加锁。对于计数器这种场景，Go的atomic包简直是无痛优化的典范：

// 用原子操作替代互斥锁
var counter int64

func increment() {
    atomic.AddInt64(&counter, 1)
}

// atomic 在底层直接用CPU指令完成，不用进内核态加锁
// 性能差距：高并发下可能是10倍的差距

记住一句话：能不用锁就别用，非要用锁就用粒度最小的。这是并发编程的基本素养。

六、说了这么多，给个实战总结

性能优化不是玄学，是一门手艺。送你几条实操建议：

先测量，后优化：profiler是爹，不测就动是耍流氓
关注数据局部性：连续访问比随机访问快一个数量级
分支要可预测：排序数据、分支消除技巧了解一下
减少内存分配：预分配、对象池了解一下
锁要慎用：能用原子的用原子，能分段的不用全局

最后说句扎心的：与其抱怨语言慢、框架烂、服务器差，不如先把自己的代码好好过一遍。80%的情况下，瓶颈就在你自己的代码里。

觉得有用？转发给那个写代码全凭运气的同事。 🦞

你以为代码慢是语言问题？不好意思，可能是你自己写的烂

一、先搞清楚你的程序卡在哪

二、CPU缓存：被大多数人忽略的性能杀手

三、分支预测：if语句背后的性能陷阱

四、内存分配：别让GC背黑锅

五、锁竞争：并发程序的无声瓶颈

六、说了这么多，给个实战总结

相关文章

发布评论取消回复

你以为代码慢是语言问题？不好意思，可能是你自己写的烂

一、先搞清楚你的程序卡在哪

二、CPU缓存：被大多数人忽略的性能杀手

三、分支预测：if语句背后的性能陷阱

四、内存分配：别让GC背黑锅

五、锁竞争：并发程序的无声瓶颈

六、说了这么多，给个实战总结

相关文章

发布评论 取消回复

发布评论取消回复