Node.js 中基于 Worker Threads 与消息队列的高并发任务处理实战

在很多团队里，Node.js 一开始总是被拿来做“轻服务”：Web API、网关、BFF、定时任务编排。写起来快，生态也成熟。但一旦业务里混入了CPU 密集型计算，或者需要同时吞掉大量异步任务，问题就会很快冒出来：

接口响应越来越慢
事件循环被阻塞，P99 延迟飙高
任务堆积，重试越来越乱
单进程打满 CPU，但整体吞吐并不高
一出故障就很难定位：到底是 Node 卡住了，还是队列消费不过来？

这篇文章我想从架构落地的角度，带你搭一套适合中级工程师直接上手的方案：Node.js + Worker Threads + 消息队列。重点不是只讲 API，而是回答下面几个更实际的问题：

为什么单纯开异步还不够？
Worker Threads 和消息队列分别解决什么问题？
两者怎么配合，才能把吞吐、稳定性、可观测性同时做出来？
代码怎么写到“能跑、能扩、能排查”？

背景与问题

为什么 Node.js 在高并发任务场景里容易“看起来很忙，实际上很堵”？

Node.js 的强项是 I/O 密集型任务。比如请求数据库、调用第三方接口、读写文件，这些都可以借助事件循环高效处理。

但如果你的业务里出现下面这些任务：

图片压缩、转码、缩略图生成
大量 JSON/CSV 解析
加解密、签名、哈希计算
大数据量规则匹配
报表聚合、推荐预处理
AI 前后处理中的文本切分、向量整理

这些往往属于 CPU 密集型任务。这时仅靠事件循环和 Promise，并不能让 CPU 计算“异步化”。因为 JavaScript 执行本身仍在主线程里跑，算得久了，事件循环就会被堵住。

常见错误方案

我见过不少项目一开始这么写：

app.post('/submit', async (req, res) => {
  const result = heavyCompute(req.body);
  await saveResult(result);
  res.json({ ok: true });
});

问题很明显：

heavyCompute() 如果很耗 CPU，会直接阻塞主线程
即使外层是 async/await，也没有变成真正的并行计算
并发一高，API 本身就先被拖死了

于是很多人第二步会想到：

开多个 Node 进程
用 PM2 cluster
用 child_process

这些手段能缓解一部分问题，但仍然缺少任务缓冲、削峰、重试、可控并发等关键能力。

更合理的思路

高并发任务处理通常要拆成两层：

消息队列：解决任务接入、削峰填谷、解耦、重试
Worker Threads：解决 Node 进程内 CPU 任务并行执行

一句话总结：

消息队列负责“排队和调度”，Worker Threads 负责“真正干活”。

方案全景：为什么是 Worker Threads + 消息队列

先看整体架构。

flowchart LR
    A[业务请求/API] --> B[任务生产者 Producer]
    B --> C[消息队列 Queue]
    C --> D[消费者 Consumer]
    D --> E[Worker Pool]
    E --> F[任务结果/状态存储]
    D --> G[失败重试/死信队列]
    F --> H[回调通知/主动查询]

这个架构里，每一层职责都很明确：

Producer：接收任务请求，快速入队，避免同步阻塞
Queue：缓冲突发流量，支持确认、重试、失败转移
Consumer：从队列拉取任务，做限流、分发、回写状态
Worker Pool：在同一个 Node 进程中并行执行 CPU 密集任务
Result Store：存储任务状态，供查询或回调使用
DLQ（死信队列）：收纳多次失败的任务，便于排查

核心原理

这一部分不只讲“是什么”，还讲“为什么这样组合有效”。

1. Worker Threads：Node.js 里的真正多线程计算

worker_threads 是 Node.js 提供的线程模型，用于把 JS 计算放到独立线程执行。它和 child_process 的区别主要是：

Worker 是线程，进程开销更小
支持通过消息传递通信
适合做高频、短到中等时长的 CPU 密集任务
不适合拿来替代完整微服务隔离

如果你只是需要把一些计算从主线程移出去，Worker Threads 通常比新起进程更轻。

2. 消息队列：把“瞬时高并发”变成“可控吞吐”

消息队列的价值不只是异步，而是：

削峰：请求瞬间暴涨时先入队，后端按能力消费
解耦：API 层不关心具体计算过程
重试：消费失败后按策略重投
顺序/幂等控制：可以按任务类型定制
观测性：积压、失败率、消费时延都可以监控

如果没有队列，服务只能硬扛瞬时流量；有了队列，你可以把系统设计成“输入快、处理稳”。

3. 为什么不是只用消息队列，不用 Worker Threads？

这个问题很关键。

很多系统里消费者也是 Node.js 写的，消费端如果直接在主线程跑 CPU 任务，那么即使有队列：

单个消费者进程仍会被计算阻塞
拉消息、提交 ack、健康检查都会受到影响
实际吞吐不高，容易误判为“队列太慢”

所以消费端内部还需要一个 Worker Pool，把“消费逻辑”和“计算逻辑”拆开。

4. 为什么不是只用 Worker Threads，不用消息队列？

只用 Worker Threads 也不够，因为它不负责：

持久化任务
削峰
跨实例协调
失败重试
宕机恢复

Worker Threads 解决的是单机内计算并行，消息队列解决的是系统级任务流转。两者不冲突，反而是天然互补。

方案对比与取舍分析

Worker Threads vs child_process vs cluster

方案	适合场景	优点	缺点
Worker Threads	CPU 密集任务并行	轻量、通信方便、适合池化	隔离性不如进程
child_process	强隔离、执行外部程序	隔离好，可运行非 JS 程序	启动和通信开销更大
cluster	多进程分摊网络请求	部署成熟，适合 HTTP 扩展	不解决单请求内 CPU 阻塞

我的经验是：

只做 Web 扩容：优先 cluster/PM2/k8s HPA
做 CPU 并行计算：优先 Worker Threads
需要运行 ffmpeg/python/系统命令：优先 child_process
高并发任务系统：队列 + Worker Threads 是比较平衡的落地方案

Redis 队列 vs RabbitMQ vs Kafka

这篇文章的实战代码我会用一个“自实现内存队列 + Worker Pool”来演示原理，方便你直接运行。但落地时你通常会选真实消息队列：

队列	适合场景	特点
Redis / BullMQ	中小型任务系统	上手快，延迟低，Node 生态友好
RabbitMQ	复杂路由、可靠投递	ACK/NACK/DLQ 机制成熟
Kafka	海量日志/流式处理	吞吐高，偏事件流平台

如果你是 Node 团队、任务型系统、想快速上线，通常我会先推荐 BullMQ / RabbitMQ。

容量估算：别等上线后再猜并发

做高并发任务系统，建议至少粗算一下容量。

假设：

单任务平均 CPU 处理时间：200ms
单机 CPU 核心数：8
Worker Pool 并发数设为：6
每个 Worker 近似串行处理任务

理论吞吐大致为：

TPS ≈ Worker 数 / 单任务耗时
TPS ≈ 6 / 0.2 = 30 task/s

如果入口峰值是 300 task/s，那单机一定积压，需要：

提升机器数
降低任务耗时
分层处理重任务/轻任务
调整限流和排队时长
引入优先级队列

这里要注意：理论值通常会高估，实际还要扣除：

序列化/反序列化开销
队列交互耗时
数据库存储耗时
GC 停顿
上下文切换

我一般会预留 30%~50% 的余量，不要把 CPU 长时间打到 100%。

实战代码（可运行）

为了让你能直接本地跑起来，下面实现一个简化版架构：

一个任务生产者：批量提交任务
一个内存消息队列：模拟 MQ
一个消费者：从队列取任务
一个 Worker Pool：并行执行 CPU 密集计算
一个状态存储：打印任务结果

说明：代码重点在架构模式，生产环境请替换为 Redis/RabbitMQ/Kafka 等真实队列。

目录结构

high-concurrency-demo/
├─ package.json
├─ index.js
├─ queue.js
├─ worker-pool.js
└─ task-worker.js

package.json

{
  "name": "high-concurrency-demo",
  "version": "1.0.0",
  "type": "commonjs",
  "scripts": {
    "start": "node index.js"
  }
}

task-worker.js

这个文件运行在 Worker 线程中，模拟 CPU 密集型计算。

const { parentPort } = require('worker_threads');

function heavyCompute(n) {
  let count = 0;
  for (let i = 2; i < n; i++) {
    let isPrime = true;
    for (let j = 2; j * j <= i; j++) {
      if (i % j === 0) {
        isPrime = false;
        break;
      }
    }
    if (isPrime) count++;
  }
  return count;
}

parentPort.on('message', (task) => {
  try {
    const start = Date.now();
    const result = heavyCompute(task.payload.n);
    const cost = Date.now() - start;

    parentPort.postMessage({
      taskId: task.id,
      ok: true,
      result: {
        primeCount: result
      },
      cost
    });
  } catch (err) {
    parentPort.postMessage({
      taskId: task.id,
      ok: false,
      error: err.message || 'Unknown worker error'
    });
  }
});

worker-pool.js

这是核心：维护固定数量 Worker，空闲时接任务，忙时排队。

const { Worker } = require('worker_threads');
const path = require('path');

class WorkerPool {
  constructor(size = 4) {
    this.size = size;
    this.workers = [];
    this.idleWorkers = [];
    this.taskQueue = [];
    this.callbacks = new Map();

    for (let i = 0; i < size; i++) {
      this.createWorker();
    }
  }

  createWorker() {
    const worker = new Worker(path.resolve(__dirname, './task-worker.js'));
    worker.currentTaskId = null;

    worker.on('message', (message) => {
      const { taskId } = message;
      const cb = this.callbacks.get(taskId);

      if (cb) {
        this.callbacks.delete(taskId);
        cb.resolve(message);
      }

      worker.currentTaskId = null;
      this.idleWorkers.push(worker);
      this.dispatch();
    });

    worker.on('error', (err) => {
      if (worker.currentTaskId) {
        const cb = this.callbacks.get(worker.currentTaskId);
        if (cb) {
          this.callbacks.delete(worker.currentTaskId);
          cb.reject(err);
        }
      }

      this.workers = this.workers.filter(w => w !== worker);
      this.idleWorkers = this.idleWorkers.filter(w => w !== worker);

      this.createWorker();
      this.dispatch();
    });

    worker.on('exit', (code) => {
      this.workers = this.workers.filter(w => w !== worker);
      this.idleWorkers = this.idleWorkers.filter(w => w !== worker);

      if (code !== 0) {
        this.createWorker();
      }
    });

    this.workers.push(worker);
    this.idleWorkers.push(worker);
  }

  runTask(task) {
    return new Promise((resolve, reject) => {
      this.taskQueue.push({ task, resolve, reject });
      this.dispatch();
    });
  }

  dispatch() {
    while (this.idleWorkers.length > 0 && this.taskQueue.length > 0) {
      const worker = this.idleWorkers.shift();
      const item = this.taskQueue.shift();

      worker.currentTaskId = item.task.id;
      this.callbacks.set(item.task.id, {
        resolve: item.resolve,
        reject: item.reject
      });

      worker.postMessage(item.task);
    }
  }

  getStats() {
    return {
      totalWorkers: this.workers.length,
      idleWorkers: this.idleWorkers.length,
      pendingTasks: this.taskQueue.length,
      busyWorkers: this.workers.length - this.idleWorkers.length
    };
  }

  async close() {
    await Promise.all(this.workers.map(worker => worker.terminate()));
  }
}

module.exports = WorkerPool;

queue.js

一个简化版内存消息队列，支持入队、消费、失败重试。

class MemoryQueue {
  constructor({ maxRetries = 3 } = {}) {
    this.queue = [];
    this.processing = new Set();
    this.maxRetries = maxRetries;
    this.deadLetterQueue = [];
  }

  publish(task) {
    this.queue.push({
      ...task,
      retries: task.retries || 0
    });
  }

  consumeBatch(batchSize = 5) {
    const tasks = [];

    while (tasks.length < batchSize && this.queue.length > 0) {
      const task = this.queue.shift();
      this.processing.add(task.id);
      tasks.push(task);
    }

    return tasks;
  }

  ack(taskId) {
    this.processing.delete(taskId);
  }

  nack(task) {
    this.processing.delete(task.id);

    if (task.retries + 1 > this.maxRetries) {
      this.deadLetterQueue.push({
        ...task,
        failedAt: new Date().toISOString()
      });
      return;
    }

    this.queue.push({
      ...task,
      retries: task.retries + 1
    });
  }

  stats() {
    return {
      queued: this.queue.length,
      processing: this.processing.size,
      deadLetter: this.deadLetterQueue.length
    };
  }
}

module.exports = MemoryQueue;

index.js

主流程：生产任务、消费任务、交给 Worker Pool、输出状态。

const MemoryQueue = require('./queue');
const WorkerPool = require('./worker-pool');

const queue = new MemoryQueue({ maxRetries: 2 });
const pool = new WorkerPool(4);

const taskResults = new Map();

function createTask(id, n) {
  return {
    id: `task-${id}`,
    payload: { n },
    createdAt: Date.now()
  };
}

function produceTasks() {
  const nums = [35000, 36000, 37000, 38000, 39000, 40000, 41000, 42000, 43000, 44000];
  nums.forEach((n, index) => {
    queue.publish(createTask(index + 1, n));
  });
  console.log(`已投递任务数: ${nums.length}`);
}

async function handleTask(task) {
  try {
    const result = await pool.runTask(task);
    queue.ack(task.id);

    taskResults.set(task.id, {
      status: 'done',
      result: result.result,
      cost: result.cost
    });

    console.log(`[DONE] ${task.id}, primeCount=${result.result.primeCount}, cost=${result.cost}ms`);
  } catch (err) {
    console.error(`[ERROR] ${task.id}:`, err.message);
    queue.nack(task);

    taskResults.set(task.id, {
      status: 'retrying',
      error: err.message
    });
  }
}

async function consumeLoop() {
  const interval = setInterval(async () => {
    const batch = queue.consumeBatch(3);
    if (batch.length === 0) {
      const queueStats = queue.stats();
      const poolStats = pool.getStats();

      if (queueStats.queued === 0 && queueStats.processing === 0 && poolStats.pendingTasks === 0 && poolStats.busyWorkers === 0) {
        clearInterval(interval);
        console.log('\n全部任务处理完成');
        console.log('\n任务结果汇总:');
        console.table(Array.from(taskResults.entries()).map(([taskId, data]) => ({
          taskId,
          ...data
        })));
        console.log('\n队列状态:', queue.stats());
        console.log('线程池状态:', pool.getStats());
        await pool.close();
      }
      return;
    }

    await Promise.all(batch.map(handleTask));

    console.log('Queue Stats:', queue.stats());
    console.log('Pool Stats:', pool.getStats());
  }, 200);
}

async function main() {
  produceTasks();
  consumeLoop();
}

main().catch((err) => {
  console.error(err);
  process.exit(1);
});

运行方式

npm install
npm start

这套示例体现了什么？

虽然是简化版，但已经具备了真实系统的核心关系：

主线程不做重 CPU 计算
消费者从队列拉任务
Worker Pool 控制并发度
失败任务可重试
状态可追踪

时序视角：任务是如何流动的

很多人看完代码会知道“能跑”，但对数据流仍有点模糊。用时序图会更清楚。

sequenceDiagram
    participant Client as 客户端
    participant Producer as Producer/API
    participant Queue as 消息队列
    participant Consumer as Consumer
    participant Pool as WorkerPool
    participant Worker as Worker Thread
    participant Store as 结果存储

    Client->>Producer: 提交任务
    Producer->>Queue: publish(task)
    Producer-->>Client: 返回 taskId

    loop 轮询/订阅消费
        Consumer->>Queue: 拉取任务
        Queue-->>Consumer: task
        Consumer->>Pool: runTask(task)
        Pool->>Worker: postMessage(task)
        Worker-->>Pool: result/error
        Pool-->>Consumer: Promise resolve/reject

        alt 成功
            Consumer->>Queue: ack(taskId)
            Consumer->>Store: 保存结果/状态
        else 失败
            Consumer->>Queue: nack(task)
            Consumer->>Store: 更新失败/重试状态
        end
    end

核心设计点：为什么要用线程池，而不是每个任务起一个 Worker

这是非常容易踩坑的地方。

错误做法

每来一个任务就：

const worker = new Worker('./task-worker.js');
worker.postMessage(task);

看起来简单，但高并发时会出大问题：

Worker 创建本身有成本
线程数过多导致上下文切换严重
内存占用快速飙升
GC 压力增大
宿主机很容易抖动

正确做法

使用固定大小的 Worker Pool：

Worker 预创建
空闲时复用
任务排队等待
统一管理故障恢复

用状态图看更直观：

stateDiagram-v2
    [*] --> Idle
    Idle --> Busy: 分配任务
    Busy --> Idle: 任务完成
    Busy --> Failed: Worker 异常
    Failed --> Restarting: 自动拉起新 Worker
    Restarting --> Idle

常见坑与排查

这一节我尽量讲得“像线上会遇到的事”。

坑 1：以为 `async/await` 就能解决 CPU 阻塞

现象：

API 代码写成了异步形式
但 CPU 一高，整个服务还是卡

原因：

async/await 解决的是异步流程编排，不会把同步 CPU 计算自动扔到别的线程。

排查方式：

看 Node 进程 CPU 占用
用 clinic doctor、0x、node --prof 分析热点
观察 event loop lag

如果 event loop lag 高，通常说明主线程被堵了。

坑 2：Worker 数量一味开大

现象：

从 4 个 Worker 调到 32 个，吞吐不升反降
系统 load average 飙升
上下文切换变多

原因：

线程并不是越多越好。CPU 核数有限，过量线程会让调度成本吃掉收益。

建议：

Worker 数从 CPU 核数 - 1 或 CPU 核数 * 0.75 开始试
压测对比吞吐、延迟、CPU、load、内存
按任务类型拆池，而不是一个池硬吃所有任务

坑 3：消息体太大，线程通信成本过高

现象：

队列消费速度看起来还行
但 Worker 的实际吞吐很差
内存和序列化开销高

原因：

Worker 间通信依赖结构化克隆，大对象传输成本不低。

建议：

消息里只传必要字段
大文件传路径、对象存储 URL，不要直接传完整二进制
必要时使用 Transferable/SharedArrayBuffer，但要非常谨慎

坑 4：消费成功了，但结果重复写入

现象：

某些任务被处理了两次
数据库里有重复结果
重试后副作用放大

原因：

消息队列通常只能保证“至少一次投递”，不保证“恰好一次执行”。

建议：

必须做幂等：

每个任务有唯一 taskId
持久化时用唯一键约束
结果写入前先检查状态
外部副作用操作设计成可重入

这不是可选项，是任务系统的基本功。

坑 5：Worker 崩了，任务直接丢失

现象：

某个 Worker 线程报错退出
队列里看不到这条任务了
最终状态也没更新

原因：

任务已经从队列取出，但处理结果还没成功 ack/nack。

建议：

消费状态和结果状态分离
Worker 崩溃时，让消费者把该任务重新入队
真实 MQ 要结合 ack 超时、visibility timeout、重试机制处理

我自己踩过这个坑：当时只顾着让线程自动重建，却忘了把“正在执行中的任务”回补到队列，结果线上偶发丢单，非常难查。

安全/性能最佳实践

这一节讲的是“真上线前最好落实的事”。

1. 任务输入要做边界校验

不要把任意用户输入直接交给 Worker。否则可能导致：

超大参数触发长时间计算
恶意构造造成内存爆炸
数据格式异常导致线程频繁崩溃

建议：

function validateTaskPayload(payload) {
  if (typeof payload.n !== 'number') {
    throw new Error('payload.n must be a number');
  }
  if (payload.n < 1 || payload.n > 100000) {
    throw new Error('payload.n out of range');
  }
}

2. 限流要放在入口和消费端两层

只在 API 层限流还不够，消费端也要控并发。

入口限流：保护队列和数据库
消费限流：保护 Worker Pool 和 CPU
下游限流：保护外部依赖

3. 分任务等级，不要把轻重任务混在一个池里

比如：

轻任务：文本清洗、字段聚合
重任务：图片处理、复杂加密

如果共用一个 Worker Pool，重任务会拖慢轻任务。更好的方式是：

分不同 topic / queue
分不同 Worker Pool
设不同并发和重试策略

4. 为每个任务设置超时

Worker 并不天然知道“这个任务跑太久了”。要在宿主层控制超时。

一个简单思路：

function withTimeout(promise, ms) {
  return Promise.race([
    promise,
    new Promise((_, reject) => setTimeout(() => reject(new Error('Task timeout')), ms))
  ]);
}

生产环境可以进一步做：

超时后标记任务失败
重建 Worker
回补任务到队列或进入死信队列

5. 做好可观测性

至少要监控这些指标：

队列长度
死信队列数量
任务平均耗时 / P95 / P99
重试率、失败率
Worker 忙碌数、空闲数
进程 CPU、内存、event loop lag

如果没有这些指标，系统会陷入一种“感觉挺忙，但不知道堵在哪”的状态。

6. 把结果存储与任务状态设计清楚

建议任务状态至少包括：

pending
processing
done
retrying
failed
dead-letter

并记录：

创建时间
开始时间
完成时间
重试次数
错误信息
处理节点

这些信息在排查线上问题时非常值钱。

一个更贴近生产环境的演进路线

如果你打算把本文方案真正用起来，我建议按下面顺序演进，而不是一步到位搞很复杂。

第一步：单机内存队列 + Worker Pool

适合：

本地验证
原型设计
压测基本模型

目标：

验证 CPU 计算移出主线程后吞吐是否提升
找到合理的 Worker 数量

第二步：接入真实消息队列

第三步：结果状态中心化

可以用：

MySQL / PostgreSQL
Redis + DB 混合
Elasticsearch 做查询分析

目标：

任务全生命周期可查
失败原因可追溯

第四步：加监控、报警、容量治理

目标：

队列积压报警
失败率异常报警
Worker 重启频繁报警
按任务类型做扩缩容策略

生产环境落地建议

如果你准备在业务中采用这套模式，我会给出这些更务实的建议：

适合采用的场景

CPU 密集型任务较多
任务可以异步化
允许最终一致性
需要削峰和重试
有明显的流量波峰波谷

不太适合的场景

强实时、同步返回结果且耗时很短的请求
任务必须严格全局顺序执行
每个任务都依赖大型外部进程或独占资源
业务副作用无法幂等，且无法接受重复执行

总结

Node.js 并不是不能做高并发任务处理，关键在于别让它用错地方。

如果把所有计算都塞在主线程里，Node 很快会变成“事件循环很忙，但业务吞吐不高”的状态。更稳妥的方式是：

用消息队列接住流量、削峰、解耦、重试
用Worker Threads把 CPU 密集计算从主线程剥离
用线程池控制并发，而不是无限开 Worker
用幂等、超时、死信、监控补上工程化能力

最后给几个可执行建议，适合你直接拿去落地：

先确认你的瓶颈是不是 CPU，而不是数据库或外部 I/O
Worker 数量从 CPU 核数 - 1 开始压测，不要拍脑袋
消息体尽量小，大对象传引用不要传实体
任务系统一定做幂等，否则重试会变成事故放大器
监控队列积压、任务耗时、失败率，比盯 CPU 更有用
轻任务和重任务分队列、分线程池，收益通常非常明显

如果你现在的 Node 服务已经出现“接口偶发卡顿、CPU 飙高、任务积压”的问题，那么这套 Worker Threads + 消息队列 的组合，往往就是从“能跑”走向“能抗”的关键一步。

《Node.js 中基于 Worker Threads 与消息队列的高并发任务处理实战-452》

Node.js 中基于 Worker Threads 与消息队列的高并发任务处理实战

背景与问题

为什么 Node.js 在高并发任务场景里容易“看起来很忙，实际上很堵”？

常见错误方案

更合理的思路

方案全景：为什么是 Worker Threads + 消息队列

核心原理

1. Worker Threads：Node.js 里的真正多线程计算

2. 消息队列：把“瞬时高并发”变成“可控吞吐”

3. 为什么不是只用消息队列，不用 Worker Threads？

4. 为什么不是只用 Worker Threads，不用消息队列？

方案对比与取舍分析

Worker Threads vs child_process vs cluster

Redis 队列 vs RabbitMQ vs Kafka

容量估算：别等上线后再猜并发

实战代码（可运行）

目录结构

package.json

task-worker.js

worker-pool.js

queue.js

index.js

运行方式

这套示例体现了什么？

时序视角：任务是如何流动的

核心设计点：为什么要用线程池，而不是每个任务起一个 Worker

错误做法

正确做法

常见坑与排查

坑 1：以为 async/await 就能解决 CPU 阻塞

坑 2：Worker 数量一味开大

坑 3：消息体太大，线程通信成本过高

坑 4：消费成功了，但结果重复写入

坑 5：Worker 崩了，任务直接丢失

安全/性能最佳实践

1. 任务输入要做边界校验

2. 限流要放在入口和消费端两层

3. 分任务等级，不要把轻重任务混在一个池里

4. 为每个任务设置超时

5. 做好可观测性

6. 把结果存储与任务状态设计清楚

一个更贴近生产环境的演进路线

第一步：单机内存队列 + Worker Pool

第二步：接入真实消息队列

第三步：结果状态中心化

第四步：加监控、报警、容量治理

生产环境落地建议

适合采用的场景

不太适合的场景

推荐的边界划分

总结

坑 1：以为 `async/await` 就能解决 CPU 阻塞