Node.js 中基于 Worker Threads 与事件循环监控的 CPU 密集型任务性能优化实战

很多人第一次用 Node.js 做服务时，都会先享受到它“写起来快、I/O 场景爽”的好处；但只要业务里混入一点重计算，比如图片处理、加密、复杂 JSON 计算、规则引擎、报表聚合，问题马上就会冒出来：

API 明明不多，却偶尔卡顿
CPU 飙高时，连健康检查接口都变慢
日志里没报错，但用户感知就是“服务抽风了”

我自己第一次踩这个坑，是在一个“批量计算 + 实时接口混跑”的场景里。最开始只盯着 CPU 使用率看，后来才发现：真正该关注的不只是 CPU 高不高，还包括事件循环有没有被堵住。
这篇文章就带你从“为什么会卡”，一路走到“怎么监控、怎么改造、怎么验证”。

背景与问题

Node.js 的单线程事件循环模型非常适合 I/O 密集型任务，比如：

数据库查询
HTTP 调用
文件读写
消息队列消费

但对 CPU 密集型任务 就没那么友好了。典型例子包括：

大量哈希/加密计算
图像压缩与格式转换
大规模数据解析
复杂排序、聚合、规则匹配
机器学习前后处理

一个典型症状

假设你有一个 HTTP 服务，同时提供：

/health：健康检查
/calc：执行一次重 CPU 计算

如果 /calc 直接在主线程跑，那么在它执行期间：

主线程无法及时处理新的请求
定时器回调延后
Promise 回调延后
整个进程的响应延迟上升

也就是说，不是只有 /calc 慢，其他接口也会被连带拖慢。

前置知识与环境准备

本文示例基于：

Node.js 18+（推荐 Node.js 20+）
内置模块：
- worker_threads
- perf_hooks
- os
- http

初始化一个最小项目：

mkdir node-worker-demo
cd node-worker-demo
npm init -y

目录结构建议如下：

node-worker-demo/
├─ server-single.js
├─ server-worker.js
├─ worker-pool.js
├─ calc-worker.js
└─ benchmark.js

核心原理

这部分建议一定先搞明白，不然后面代码虽然能跑，但你会不知道“为什么它有效”。

1. 事件循环为什么会被 CPU 任务拖住

Node.js 的 JavaScript 代码默认跑在主线程。
如果你在主线程执行一个长时间同步计算，比如 2 秒不释放控制权，那么这 2 秒里事件循环基本上就“喘不过气”。

flowchart LR
    A[HTTP 请求进入] --> B[主线程事件循环]
    B --> C{任务类型}
    C -->|I/O 操作| D[交给底层异步处理]
    D --> B
    C -->|CPU 密集计算| E[主线程同步执行]
    E --> F[事件循环阻塞]
    F --> G[其他请求/定时器/回调延迟]

2. Worker Threads 解决了什么问题

worker_threads 允许你在同一个 Node.js 进程内创建多个线程，每个 Worker 都有自己的事件循环和 JS 执行上下文。

核心价值：

把 CPU 密集任务从主线程挪走
主线程继续负责网络请求和调度
多核 CPU 可以被更充分利用

但它不是“银弹”：

创建 Worker 有成本
线程间通信有开销
传大对象会增加序列化成本
并发开太大可能反而让系统抖动

3. 为什么还要监控事件循环

很多同学把 Worker 用上后就觉得结束了，其实不够。
因为你需要知道：

主线程是不是还在卡
哪些请求会触发卡顿
Worker 池大小是否合理
优化后是否真的改善了 tail latency（尾延迟）

Node.js 提供了 perf_hooks.monitorEventLoopDelay() 来监控事件循环延迟，这是很实用的一手指标。

4. 推荐的整体思路

sequenceDiagram
    participant Client as 客户端
    participant Main as 主线程
    participant Monitor as 事件循环监控
    participant Pool as Worker 池
    participant Worker as Worker 线程

    Client->>Main: 请求 /calc
    Main->>Monitor: 记录当前事件循环状态
    Main->>Pool: 提交计算任务
    Pool->>Worker: 分配任务
    Worker-->>Pool: 返回结果
    Pool-->>Main: Promise resolve
    Main-->>Client: 响应结果
    Monitor-->>Main: 周期输出 delay/utilization

先复现问题：单线程版本

我们先故意写一个“有问题”的版本，让症状可见。

`server-single.js`

const http = require('http');
const { monitorEventLoopDelay, performance } = require('perf_hooks');

function heavyCalc(n) {
  let count = 0;
  for (let i = 2; i < n; i++) {
    let isPrime = true;
    for (let j = 2; j * j <= i; j++) {
      if (i % j === 0) {
        isPrime = false;
        break;
      }
    }
    if (isPrime) count++;
  }
  return count;
}

const histogram = monitorEventLoopDelay({ resolution: 20 });
histogram.enable();

let lastELU = performance.eventLoopUtilization();

setInterval(() => {
  const currentELU = performance.eventLoopUtilization(lastELU);
  lastELU = performance.eventLoopUtilization();

  console.log('[monitor]', {
    minMs: Number(histogram.min / 1e6).toFixed(2),
    maxMs: Number(histogram.max / 1e6).toFixed(2),
    meanMs: Number(histogram.mean / 1e6).toFixed(2),
    p99Ms: Number(histogram.percentile(99) / 1e6).toFixed(2),
    elu: currentELU.utilization.toFixed(4),
  });

  histogram.reset();
}, 2000);

const server = http.createServer((req, res) => {
  const start = Date.now();

  if (req.url.startsWith('/health')) {
    res.writeHead(200, { 'Content-Type': 'application/json' });
    return res.end(JSON.stringify({
      ok: true,
      latencyMs: Date.now() - start
    }));
  }

  if (req.url.startsWith('/calc')) {
    const url = new URL(req.url, 'http://localhost');
    const n = Number(url.searchParams.get('n') || 120000);

    const t1 = Date.now();
    const result = heavyCalc(n);
    const t2 = Date.now();

    res.writeHead(200, { 'Content-Type': 'application/json' });
    return res.end(JSON.stringify({
      mode: 'single-thread',
      n,
      result,
      computeMs: t2 - t1,
      totalMs: Date.now() - start
    }));
  }

  res.writeHead(404);
  res.end('Not Found');
});

server.listen(3000, () => {
  console.log('single-thread server listening on http://localhost:3000');
});

运行

node server-single.js

手工验证

开两个终端。

终端 1 持续打健康检查：

while true; do curl -s http://localhost:3000/health; echo; sleep 0.2; done

终端 2 触发计算：

curl "http://localhost:3000/calc?n=150000"

你会看到什么

大概率会出现：

/calc 执行时，/health 响应明显变慢
控制台里 p99Ms、maxMs 变大
eventLoopUtilization 偏高

这说明：主线程被同步计算占住了。

实战改造：基于 Worker Threads 的可运行版本

接下来把计算逻辑移到 Worker 中。

第一步：实现 Worker

`calc-worker.js`

const { parentPort } = require('worker_threads');

function heavyCalc(n) {
  let count = 0;
  for (let i = 2; i < n; i++) {
    let isPrime = true;
    for (let j = 2; j * j <= i; j++) {
      if (i % j === 0) {
        isPrime = false;
        break;
      }
    }
    if (isPrime) count++;
  }
  return count;
}

parentPort.on('message', (task) => {
  const { taskId, n } = task;
  const startedAt = Date.now();

  try {
    const result = heavyCalc(n);
    parentPort.postMessage({
      taskId,
      ok: true,
      result,
      computeMs: Date.now() - startedAt
    });
  } catch (err) {
    parentPort.postMessage({
      taskId,
      ok: false,
      error: err.message
    });
  }
});

第二步：实现一个简单 Worker 池

直接每次请求创建一个 Worker 也能跑，但现实里往往不划算。
更常见的做法是维护一个固定大小的池。

`worker-pool.js`

const os = require('os');
const path = require('path');
const { Worker } = require('worker_threads');

class WorkerPool {
  constructor(options = {}) {
    this.workerFile = options.workerFile || path.resolve(__dirname, 'calc-worker.js');
    this.size = options.size || Math.max(1, os.cpus().length - 1);
    this.workers = [];
    this.idleWorkers = [];
    this.queue = [];
    this.callbacks = new Map();
    this.taskId = 0;

    for (let i = 0; i < this.size; i++) {
      this.addNewWorker();
    }
  }

  addNewWorker() {
    const worker = new Worker(this.workerFile);

    worker.on('message', (message) => {
      const { taskId, ok, result, error, computeMs } = message;
      const callback = this.callbacks.get(taskId);
      if (!callback) return;

      this.callbacks.delete(taskId);
      this.idleWorkers.push(worker);
      this.processQueue();

      if (ok) {
        callback.resolve({ result, computeMs });
      } else {
        callback.reject(new Error(error));
      }
    });

    worker.on('error', (err) => {
      console.error('[worker error]', err);
    });

    worker.on('exit', (code) => {
      this.workers = this.workers.filter((w) => w !== worker);
      this.idleWorkers = this.idleWorkers.filter((w) => w !== worker);

      if (code !== 0) {
        console.error(`[worker exited] code=${code}, restarting...`);
        this.addNewWorker();
      }
    });

    this.workers.push(worker);
    this.idleWorkers.push(worker);
  }

  runTask(payload) {
    return new Promise((resolve, reject) => {
      const task = {
        taskId: ++this.taskId,
        payload,
        resolve,
        reject
      };
      this.queue.push(task);
      this.processQueue();
    });
  }

  processQueue() {
    if (this.queue.length === 0 || this.idleWorkers.length === 0) {
      return;
    }

    const worker = this.idleWorkers.shift();
    const task = this.queue.shift();

    this.callbacks.set(task.taskId, {
      resolve: task.resolve,
      reject: task.reject
    });

    worker.postMessage({
      taskId: task.taskId,
      ...task.payload
    });
  }

  async destroy() {
    await Promise.all(this.workers.map((worker) => worker.terminate()));
  }

  stats() {
    return {
      size: this.size,
      totalWorkers: this.workers.length,
      idleWorkers: this.idleWorkers.length,
      queuedTasks: this.queue.length,
      activeTasks: this.callbacks.size
    };
  }
}

module.exports = WorkerPool;

第三步：主线程接入 Worker 池与事件循环监控

`server-worker.js`

const http = require('http');
const WorkerPool = require('./worker-pool');
const { monitorEventLoopDelay, performance } = require('perf_hooks');

const pool = new WorkerPool({
  size: 4
});

const histogram = monitorEventLoopDelay({ resolution: 20 });
histogram.enable();

let lastELU = performance.eventLoopUtilization();

setInterval(() => {
  const currentELU = performance.eventLoopUtilization(lastELU);
  lastELU = performance.eventLoopUtilization();

  console.log('[monitor]', {
    minMs: Number(histogram.min / 1e6).toFixed(2),
    maxMs: Number(histogram.max / 1e6).toFixed(2),
    meanMs: Number(histogram.mean / 1e6).toFixed(2),
    p99Ms: Number(histogram.percentile(99) / 1e6).toFixed(2),
    elu: currentELU.utilization.toFixed(4),
    pool: pool.stats()
  });

  histogram.reset();
}, 2000);

const server = http.createServer(async (req, res) => {
  const start = Date.now();

  if (req.url.startsWith('/health')) {
    res.writeHead(200, { 'Content-Type': 'application/json' });
    return res.end(JSON.stringify({
      ok: true,
      latencyMs: Date.now() - start,
      pool: pool.stats()
    }));
  }

  if (req.url.startsWith('/calc')) {
    try {
      const url = new URL(req.url, 'http://localhost');
      const n = Number(url.searchParams.get('n') || 120000);

      const { result, computeMs } = await pool.runTask({ n });

      res.writeHead(200, { 'Content-Type': 'application/json' });
      return res.end(JSON.stringify({
        mode: 'worker-pool',
        n,
        result,
        workerComputeMs: computeMs,
        totalMs: Date.now() - start
      }));
    } catch (err) {
      res.writeHead(500, { 'Content-Type': 'application/json' });
      return res.end(JSON.stringify({
        error: err.message
      }));
    }
  }

  res.writeHead(404);
  res.end('Not Found');
});

server.listen(3001, () => {
  console.log('worker server listening on http://localhost:3001');
});

async function shutdown() {
  console.log('shutting down...');
  server.close(async () => {
    await pool.destroy();
    process.exit(0);
  });
}

process.on('SIGINT', shutdown);
process.on('SIGTERM', shutdown);

第四步：压测脚本

为了方便对比，我们再写一个简单 benchmark。

`benchmark.js`

const http = require('http');

function request(url) {
  return new Promise((resolve, reject) => {
    const start = Date.now();
    http.get(url, (res) => {
      let data = '';
      res.on('data', chunk => data += chunk);
      res.on('end', () => {
        resolve({
          statusCode: res.statusCode,
          durationMs: Date.now() - start,
          body: data
        });
      });
    }).on('error', reject);
  });
}

async function runBatch(baseUrl, total = 20, n = 150000) {
  const tasks = [];
  for (let i = 0; i < total; i++) {
    tasks.push(request(`${baseUrl}/calc?n=${n}`));
  }

  const results = await Promise.all(tasks);
  const durations = results.map(r => r.durationMs).sort((a, b) => a - b);

  const avg = durations.reduce((a, b) => a + b, 0) / durations.length;
  const p50 = durations[Math.floor(durations.length * 0.5)];
  const p90 = durations[Math.floor(durations.length * 0.9)];
  const p99 = durations[Math.floor(durations.length * 0.99)] || durations[durations.length - 1];

  console.log({
    total,
    avg: avg.toFixed(2),
    p50,
    p90,
    p99,
    min: durations[0],
    max: durations[durations.length - 1]
  });
}

const baseUrl = process.argv[2] || 'http://localhost:3001';

runBatch(baseUrl, 20, 150000).catch(console.error);

运行方式

先启动单线程版：

node server-single.js

压测：

node benchmark.js http://localhost:3000

再启动 Worker 版：

node server-worker.js

压测：

node benchmark.js http://localhost:3001

结果怎么理解

你不一定会看到“每个请求都变得更快”，但更常见的是：

主线程版：
- 健康检查抖动大
- 事件循环延迟高
- 少量并发就明显卡顿
Worker 池版：
- 主线程更稳定
- /health 更快、更稳
- /calc 在并发下整体吞吐更好

这点很关键：

Worker Threads 的优化目标，很多时候不是单次任务绝对耗时最小，而是让服务整体可用性和并发稳定性更高。

逐步验证清单

如果你想确认自己不是“看上去优化了，实际上没优化”，可以按这个顺序验证。

1. 验证主线程是否解放

看这两个指标：

monitorEventLoopDelay().percentile(99)
performance.eventLoopUtilization()

如果改造后：

p99Ms 降了
elu 降了
/health 延迟更稳定

说明方向是对的。

2. 验证 Worker 池是否过小或过大

观察：

queuedTasks 是否长期堆积
idleWorkers 是否长期为 0
系统 CPU 是否已经接近打满
上下文切换是否过多

经验上：

size = CPU 核数 - 1 是一个常见起点
不是越大越好
容器环境下要看实际 CPU limit，而不是宿主机物理核数

3. 验证任务传输成本

如果你传的是巨大对象，比如几十 MB 的 JSON，可能出现：

主线程序列化成本高
Worker 反序列化成本高
总耗时反而没明显下降

这时要考虑：

传更小的数据结构
使用 ArrayBuffer / SharedArrayBuffer
让 Worker 自己读取数据源，而不是主线程先拼好全部数据再传过去

常见坑与排查

这一部分很重要，很多线上问题都不是“不会写”，而是“写了但不稳”。

坑 1：每个请求创建一个 Worker

示例：

const worker = new Worker('./calc-worker.js');

这样写在低频场景可能没事，但高并发下会有明显问题：

线程创建销毁成本高
内存抖动
CPU 调度开销大

建议：使用 Worker 池，而不是请求级 Worker。

坑 2：Worker 数量照着机器核数硬开

如果你的服务跑在容器里，os.cpus().length 看到的可能不是容器真正可用核数。
这时会出现：

本以为开 8 个 Worker 很合理
实际容器只给了 2 核
结果 CPU 争抢更严重

建议：

优先结合容器 CPU limit 配置
用压测找最佳池大小
关注 p95/p99，而不是只看平均值

坑 3：把 I/O 任务也塞进 Worker

不是所有任务都该丢到 Worker。

比如：

数据库查询
调用外部 HTTP
普通文件读写

这些本来就适合 Node 的异步 I/O 模型。
如果硬塞进 Worker，可能只是把结构变复杂，收益很小。

一个简单判断标准：

如果主要时间花在“等外部资源”，这是 I/O 密集
如果主要时间花在“本地计算”，这是 CPU 密集

坑 4：只看 CPU，不看事件循环

这是我最想强调的一点。
有些服务 CPU 使用率并不夸张，但用户依然感觉“接口抽风”。原因可能是：

某些同步计算把主线程卡住了
某些日志格式化、JSON 序列化很重
某段正则处理过于复杂

这时事件循环延迟会比 CPU 百分比更敏感。

建议同时监控：

CPU 使用率
eventLoopDelay 的 p95 / p99
eventLoopUtilization
Worker 队列长度
请求响应时间分位数

坑 5：任务无超时、无背压

如果请求无限制地往 Worker 池塞任务，会导致：

队列越积越多
响应时间越来越长
内存持续上升
最终服务雪崩

可以在主线程加入队列上限和超时控制。

例如给 runTask 外包一层超时：

function withTimeout(promise, ms) {
  return Promise.race([
    promise,
    new Promise((_, reject) => {
      setTimeout(() => reject(new Error(`task timeout after ${ms}ms`)), ms);
    })
  ]);
}

在接口中使用：

const { result, computeMs } = await withTimeout(pool.runTask({ n }), 5000);

如果队列过长，也可以直接拒绝：

if (pool.stats().queuedTasks > 100) {
  res.writeHead(429, { 'Content-Type': 'application/json' });
  return res.end(JSON.stringify({ error: 'server busy' }));
}

安全/性能最佳实践

这部分给你一些更贴近线上环境的建议。

1. 给输入参数设边界

不要直接相信请求参数。

错误示例：

const n = Number(url.searchParams.get('n'));

更稳妥的写法：

const raw = Number(url.searchParams.get('n') || 120000);
const n = Math.min(Math.max(raw, 1000), 300000);

这样能避免有人传入超大值，直接把 CPU 打满。

2. 限制并发与队列长度

Worker 池能提高吞吐，但不能无限吃流量。
一定要有：

池大小限制
队列长度限制
请求超时
熔断/降级策略

3. 主线程尽量保持“轻”

主线程应该专注于：

收请求
做轻量参数校验
分发任务
汇总结果
输出监控

不要在主线程做这些重操作：

大对象深拷贝
巨型 JSON 序列化
超大数组排序
复杂正则匹配

4. 使用池化而不是临时线程

池化的好处：

降低线程创建销毁成本
更稳定的吞吐
更容易做任务调度和统计

如果任务类型不止一种，还可以进一步做：

多个 Worker 池按任务类型隔离
高优任务和低优任务分池
避免慢任务拖垮快任务

5. 监控不要只打日志

开发阶段打印日志足够，但线上建议接入监控系统，至少把这些指标打出来：

请求量、错误率、延迟分位数
eventLoopDelay p95/p99
eventLoopUtilization
Worker 活跃数、空闲数、队列长度
任务超时数、拒绝数

一个更完整的决策模型

什么时候该上 Worker Threads？我一般用下面这个判断方式。

flowchart TD
    A[任务变慢或服务卡顿] --> B{是否 CPU 密集}
    B -->|否| C[优先排查 I/O: DB/网络/缓存]
    B -->|是| D{是否阻塞主线程}
    D -->|否| E[继续分析算法和数据结构]
    D -->|是| F[引入事件循环监控]
    F --> G[使用 Worker 池迁移任务]
    G --> H[设置池大小/超时/队列上限]
    H --> I[压测并观察 p95/p99]
    I --> J[根据结果迭代]

方案边界与取舍

中级工程师最容易忽略的一点是：技术方案一定有边界。

Worker Threads 适合：

明确的 CPU 密集任务
可拆分成独立任务单元
主线程需要保持高响应性
单机多核资源可利用

Worker Threads 不一定适合：

极短小的计算任务
因为通信和调度开销可能超过计算本身
主要瓶颈在数据库/网络
这时应该优化 I/O，而不是加 Worker
任务需要大量共享复杂状态
线程间通信会让设计变复杂

如果任务更重怎么办？

当单机 Worker 池也扛不住时，可以继续演进到：

多进程：cluster 或多个独立实例
任务队列：如 Redis / RabbitMQ / Kafka
独立计算服务：把重计算从 API 服务拆出去

也就是说：

Worker Threads 很适合做“单机内 CPU 并行化”，但它不是分布式任务系统的替代品。

总结

我们这次做的事情，本质上是两步：

把 CPU 密集任务从主线程迁移到 Worker Threads
用事件循环监控验证主线程是否真正变轻了

如果你只记住三条，我建议是这三条：

先确认是不是 CPU 密集问题
不要把所有性能问题都归因到 Node.js 单线程。
优化时同时看业务延迟和事件循环指标
尤其关注 eventLoopDelay 和 eventLoopUtilization。
Worker 池要有限流、超时、队列上限
否则只是把阻塞从主线程搬到了另一个失控点。

最后给一个很实用的落地建议：

如果你的接口已经出现“高 CPU 时所有接口一起抖”
并且能定位到明确的同步计算逻辑
那就先做一个最小 Worker 池改造
再用事件循环监控和压测结果说话

这样做，通常比一上来大改架构更稳，也更容易在真实业务里拿到正收益。