自动化测试中的测试数据管理实战：从环境隔离到数据构造的工程化方案

自动化测试写到一定阶段，团队通常会遇到一个很“玄学”的问题：用例本身没变，但今天过、明天挂；本地能跑，CI 里失败；单独执行没问题，一并执行就互相污染。

我自己带过几轮测试平台建设后，越来越觉得，很多所谓“自动化测试不稳定”，本质上不是测试框架的问题，而是测试数据管理没有工程化。脚本只是表象，数据才是地基。

这篇文章我会从一个更偏落地的角度，带你把测试数据管理拆成几件可执行的事情：

怎么做环境隔离，避免相互污染
怎么设计测试数据构造机制，而不是到处手写插库
怎么让自动化测试在本地、CI、多人协作场景下都稳定运行
怎么排查那些最常见、也最烦人的数据问题

背景与问题

在自动化测试中，测试数据通常有几类来源：

环境里已有的共享数据
- 比如公共测试账号、固定商品、预置订单
测试执行前临时构造的数据
- 比如创建用户、生成优惠券、插入库存记录
测试过程中动态产生的数据
- 比如支付单号、异步任务记录、消息队列事件
依赖外部系统返回的数据
- 比如第三方风控、短信验证码、回调结果

问题往往出在这里：

多个用例复用同一批数据，导致状态被改坏
测试环境共用数据库，A 同学的脚本把 B 同学的数据删了
数据构造逻辑散落在各个测试文件中，维护成本极高
清理策略不一致，导致脏数据越积越多
CI 并发执行时，主键冲突、唯一索引冲突、资源抢占频繁发生

如果把这些问题归纳一下，核心矛盾通常是：

测试需要“可重复、可预测、可回收”的数据，而真实系统的数据天然是“共享、变化、带状态”的。

所以，测试数据管理不是“造几条数据”那么简单，它需要一套工程化方案。

核心原理

我通常会把自动化测试中的测试数据管理分成四层：

环境隔离层：解决“谁的数据跟谁隔开”
数据模板层：解决“数据长什么样”
数据工厂层：解决“数据怎么创建”
回收与校验层：解决“数据怎么清理、怎么确认状态正确”

可以用下面这张图理解。

flowchart TD
    A[测试用例] --> B[数据工厂 Factory]
    B --> C[数据模板 Template]
    B --> D[环境隔离策略]
    B --> E[唯一标识生成器]
    A --> F[断言校验]
    F --> G[业务数据库]
    B --> G
    A --> H[清理器 Cleaner]
    H --> G

1. 环境隔离：先别急着造数据，先解决冲突

环境隔离不是只有“分测试环境”这一种方式。实际项目里常见有三种粒度：

方案 A：独立测试环境

每个团队、分支、甚至每条流水线有独立环境。

优点：

隔离效果最好
最接近真实业务链路

缺点：

成本高
环境准备慢
维护复杂

方案 B：共享环境 + 数据命名空间

大家共用一套环境，但每次测试运行都带一个唯一标识，比如：

run_id=ci_20241201_001
用户名加前缀：auto_ci_001_xxx
订单备注带 trace id

优点：

成本低
接入快

缺点：

对数据治理要求高
需要强约束命名规则

方案 C：事务回滚 / 临时数据库 / 容器化实例

适合后端接口测试、单体服务测试或集成测试。

优点：

执行快
数据恢复容易

缺点：

对跨服务、异步流程支持有限
一旦涉及 MQ、缓存、外部系统，回滚就不完整

2. 数据构造：不要让每个测试自己“手搓”

很多团队一开始写自动化测试，都是直接在测试代码里插 SQL 或调创建接口，比如：

insert into user ...
create_user()
create_order()

短期看很快，长期看会非常痛苦。因为业务字段一变，几十上百个用例都要改。

更好的做法是把数据构造抽象成：

模板 Template：定义默认字段
工厂 Factory：负责生成实例
场景 Builder：负责拼装业务状态

例如：

UserFactory.build(vip=True)
OrderScenario.paid_order()
InventoryFactory.with_stock(100)

这样做的关键价值是：把“数据长什么样”和“测试要验证什么”解耦。

3. 唯一性设计：每条数据都应该能追踪来源

测试数据最怕“撞车”。

一个非常实用的原则是：

凡是有唯一索引、业务幂等、状态流转的字段，都必须带运行级唯一标识。

例如：

用户名：auto_user_${run_id}_${seq}
手机号：伪造号段 + 递增序列
订单号：时间戳 + worker id + 计数器
请求幂等号：UUID

这不仅能避免冲突，还能帮助排查问题。因为你在数据库里一搜，就知道这是哪次测试生成的。

4. 数据生命周期：创建、使用、验证、回收

完整链路应该是：

sequenceDiagram
    participant T as 测试用例
    participant F as 数据工厂
    participant DB as 数据库
    participant S as 被测系统
    participant C as 清理器

    T->>F: 申请场景数据
    F->>DB: 创建用户/订单/库存
    F-->>T: 返回数据句柄
    T->>S: 发起业务请求
    S->>DB: 更新状态
    T->>DB: 校验结果
    T->>C: 注册清理任务
    C->>DB: 删除或归档测试数据

这里有一个常被忽略的点：测试代码最好不要只拿原始 ID，还要拿“数据句柄”。
比如返回：

{
  "run_id": "ci_20241201_001",
  "user_id": 10001,
  "username": "auto_ci_20241201_001_001",
  "cleanup_keys": ["user:10001", "coupon:8001"]
}

这样后续清理、追踪、排障都更方便。

前置知识与环境准备

这篇文章的实战示例用 Python 演示，尽量保持简单可运行。你只需要：

Python 3.9+
SQLite（Python 自带）
基础的 pytest 使用经验更好，但不是必须

我们会模拟一个很常见的业务场景：

创建用户
创建订单
支付订单
校验订单状态
清理测试数据

目录结构可以很简单：

project/
  test_data_demo.py

实战代码（可运行）

下面这份代码演示一个最小可用的测试数据管理方案，包含：

运行级 run_id
数据工厂
场景构造
唯一命名
清理机制
基本断言

你可以直接保存为 test_data_demo.py 运行。

import sqlite3
import uuid
import time
from dataclasses import dataclass


def now_ts():
    return int(time.time())


class IdGenerator:
    def __init__(self, run_id: str):
        self.run_id = run_id
        self.seq = 0

    def next_suffix(self) -> str:
        self.seq += 1
        return f"{self.run_id}_{self.seq:04d}"

    def next_username(self) -> str:
        return f"auto_user_{self.next_suffix()}"

    def next_order_no(self) -> str:
        return f"ORD_{now_ts()}_{uuid.uuid4().hex[:8]}"


@dataclass
class DataHandle:
    run_id: str
    user_id: int = None
    username: str = None
    order_id: int = None
    order_no: str = None


class Database:
    def __init__(self, db_path=":memory:"):
        self.conn = sqlite3.connect(db_path)
        self.conn.row_factory = sqlite3.Row

    def init_schema(self):
        cursor = self.conn.cursor()
        cursor.execute("""
        CREATE TABLE IF NOT EXISTS users (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            username TEXT NOT NULL UNIQUE,
            is_vip INTEGER NOT NULL DEFAULT 0,
            created_by_run TEXT NOT NULL
        )
        """)
        cursor.execute("""
        CREATE TABLE IF NOT EXISTS orders (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            order_no TEXT NOT NULL UNIQUE,
            user_id INTEGER NOT NULL,
            amount INTEGER NOT NULL,
            status TEXT NOT NULL,
            created_by_run TEXT NOT NULL,
            FOREIGN KEY(user_id) REFERENCES users(id)
        )
        """)
        self.conn.commit()

    def execute(self, sql, params=()):
        cursor = self.conn.cursor()
        cursor.execute(sql, params)
        self.conn.commit()
        return cursor

    def query_one(self, sql, params=()):
        cursor = self.conn.cursor()
        cursor.execute(sql, params)
        return cursor.fetchone()

    def query_all(self, sql, params=()):
        cursor = self.conn.cursor()
        cursor.execute(sql, params)
        return cursor.fetchall()


class UserFactory:
    def __init__(self, db: Database, id_gen: IdGenerator, run_id: str):
        self.db = db
        self.id_gen = id_gen
        self.run_id = run_id

    def create(self, is_vip=False) -> DataHandle:
        username = self.id_gen.next_username()
        cursor = self.db.execute(
            "INSERT INTO users(username, is_vip, created_by_run) VALUES (?, ?, ?)",
            (username, int(is_vip), self.run_id)
        )
        return DataHandle(
            run_id=self.run_id,
            user_id=cursor.lastrowid,
            username=username
        )


class OrderFactory:
    def __init__(self, db: Database, id_gen: IdGenerator, run_id: str):
        self.db = db
        self.id_gen = id_gen
        self.run_id = run_id

    def create_pending(self, user_id: int, amount: int) -> DataHandle:
        order_no = self.id_gen.next_order_no()
        cursor = self.db.execute(
            "INSERT INTO orders(order_no, user_id, amount, status, created_by_run) VALUES (?, ?, ?, ?, ?)",
            (order_no, user_id, amount, "PENDING", self.run_id)
        )
        return DataHandle(
            run_id=self.run_id,
            user_id=user_id,
            order_id=cursor.lastrowid,
            order_no=order_no
        )


class OrderService:
    def __init__(self, db: Database):
        self.db = db

    def pay_order(self, order_no: str) -> bool:
        row = self.db.query_one(
            "SELECT id, status FROM orders WHERE order_no = ?",
            (order_no,)
        )
        if not row:
            raise ValueError("order not found")

        if row["status"] != "PENDING":
            return False

        self.db.execute(
            "UPDATE orders SET status = 'PAID' WHERE order_no = ?",
            (order_no,)
        )
        return True


class OrderScenario:
    def __init__(self, user_factory: UserFactory, order_factory: OrderFactory):
        self.user_factory = user_factory
        self.order_factory = order_factory

    def create_paid_order_candidate(self, amount=100) -> DataHandle:
        user = self.user_factory.create(is_vip=True)
        order = self.order_factory.create_pending(user.user_id, amount)
        return DataHandle(
            run_id=user.run_id,
            user_id=user.user_id,
            username=user.username,
            order_id=order.order_id,
            order_no=order.order_no
        )


class Cleaner:
    def __init__(self, db: Database):
        self.db = db

    def cleanup_by_run_id(self, run_id: str):
        self.db.execute("DELETE FROM orders WHERE created_by_run = ?", (run_id,))
        self.db.execute("DELETE FROM users WHERE created_by_run = ?", (run_id,))


def run_demo():
    run_id = f"ci_{uuid.uuid4().hex[:8]}"
    print(f"[INFO] run_id = {run_id}")

    db = Database()
    db.init_schema()

    id_gen = IdGenerator(run_id)
    user_factory = UserFactory(db, id_gen, run_id)
    order_factory = OrderFactory(db, id_gen, run_id)
    scenario = OrderScenario(user_factory, order_factory)
    service = OrderService(db)
    cleaner = Cleaner(db)

    handle = scenario.create_paid_order_candidate(amount=299)

    print(f"[INFO] username = {handle.username}")
    print(f"[INFO] order_no = {handle.order_no}")

    success = service.pay_order(handle.order_no)
    assert success is True

    row = db.query_one(
        "SELECT status FROM orders WHERE order_no = ?",
        (handle.order_no,)
    )
    assert row is not None
    assert row["status"] == "PAID"

    print("[PASS] order status is PAID")

    cleaner.cleanup_by_run_id(run_id)

    left_users = db.query_all(
        "SELECT * FROM users WHERE created_by_run = ?",
        (run_id,)
    )
    left_orders = db.query_all(
        "SELECT * FROM orders WHERE created_by_run = ?",
        (run_id,)
    )

    assert len(left_users) == 0
    assert len(left_orders) == 0
    print("[PASS] cleanup completed")


if __name__ == "__main__":
    run_demo()

运行方式：

python test_data_demo.py

如果一切正常，你会看到类似输出：

[INFO] run_id = ci_a1b2c3d4
[INFO] username = auto_user_ci_a1b2c3d4_0001
[INFO] order_no = ORD_1733200000_ab12cd34
[PASS] order status is PAID
[PASS] cleanup completed

逐步验证清单

如果你准备把这套思路迁移到自己的项目里，我建议按下面顺序验证，而不是一口气全改。

第一步：统一 run_id

无论是本地、CI、还是定时回归任务，先保证每次执行都有唯一 run_id。

例如：

import uuid

run_id = f"regression_{uuid.uuid4().hex[:8]}"

第二步：所有测试数据都带来源字段

数据库表里尽量增加：

created_by_run
created_by_case
created_at

如果暂时不能改表，也至少在可搜索字段里加前缀，例如用户名、备注、扩展字段。

第三步：把“造数据”收敛到 Factory

不要让测试用例里到处都是 SQL。
先从最常用的 2~3 类实体开始抽象，比如：

用户
订单
商品

第四步：补齐清理策略

清理方式一般有三种：

按 run_id 删除
按时间窗口清理
用独立库/临时库直接销毁

第五步：让 CI 并发跑起来

如果你做完前四步后，CI 仍然并发冲突，那说明还有隐藏的共享资源：

Redis key
MQ topic
文件路径
缓存穿透数据
外部服务测试账号

这时候就要把“数据库数据隔离”扩展到“全链路资源隔离”。

一个更完整的工程化结构建议

当项目变大后，我比较推荐下面这种分层方式：

classDiagram
    class TestCase {
      +execute()
      +assert_result()
    }

    class ScenarioBuilder {
      +build_paid_order()
      +build_refund_order()
    }

    class UserFactory {
      +create(is_vip)
    }

    class OrderFactory {
      +create_pending(user_id, amount)
    }

    class IdGenerator {
      +next_username()
      +next_order_no()
    }

    class Cleaner {
      +cleanup_by_run_id(run_id)
    }

    TestCase --> ScenarioBuilder
    ScenarioBuilder --> UserFactory
    ScenarioBuilder --> OrderFactory
    UserFactory --> IdGenerator
    OrderFactory --> IdGenerator
    TestCase --> Cleaner

这套结构有几个好处：

用例更聚焦业务断言，而不是忙着造数据
数据构造逻辑可复用
字段变化时，改动集中
更适合多人协作

我自己的经验是：
如果一个项目里已经有 30 条以上自动化用例，就值得建立 Factory/Scenario 层。
再往后省下来的维护成本，远比早期多写几层代码划算。

常见坑与排查

这一部分非常重要。很多测试平台“看起来有数据管理”，但一跑就乱，通常都卡在这些坑里。

坑 1：只清数据库，不清缓存

现象：

数据库里订单状态已经是 PAID
接口查出来还是 PENDING

原因：

系统读的是 Redis / 本地缓存
测试只改了 DB，没有同步清理缓存

排查方式：

SELECT order_no, status FROM orders WHERE order_no = 'xxx';

同时检查：

Redis key 是否存在
是否有延迟刷新机制
是否是读写分离导致延迟

建议：

测试场景里尽量走正式业务入口，不要只直插 DB 改状态
如果必须插库，补充缓存刷新/失效步骤

坑 2：异步任务未完成就开始断言

现象：

本地慢慢跑能过
CI 里偶发失败
查库时状态还没更新完

原因：

支付、发券、消息消费、库存扣减是异步的
断言执行得太早

错误示例是直接 sleep(1)，这个我当年踩过很多次，看似简单，实际最不稳定。

更好的做法是轮询等待：

import time

def wait_until(condition_fn, timeout=5, interval=0.2):
    start = time.time()
    while time.time() - start < timeout:
        if condition_fn():
            return True
        time.sleep(interval)
    return False

使用示例：

ok = wait_until(
    lambda: db.query_one(
        "SELECT status FROM orders WHERE order_no = ?",
        (order_no,)
    )["status"] == "PAID",
    timeout=10
)
assert ok

坑 3：测试账号被多人复用

现象：

用例依赖固定账号 test001
一会儿余额不够，一会儿权限不对
谁改坏的根本查不到

建议：

不要依赖共享账号做核心回归
每次运行动态创建账号
必须共用时，至少给账号状态做重置接口

坑 4：唯一索引冲突，但代码里看不出来

现象：

插入用户失败
报错 duplicate key
测试日志只有“创建失败”

建议：

日志打印完整唯一字段
所有工厂方法返回创建参数摘要
数据库异常不要吞掉

例如：

try:
    user = user_factory.create()
except Exception as e:
    print(f"[ERROR] create user failed, run_id={run_id}")
    raise

坑 5：清理逻辑误删公共数据

这是最危险的一类。

比如有人写了：

DELETE FROM orders WHERE status = 'PENDING';

这在共享环境里简直是灾难。

正确做法一定是：

按 run_id 清
按明确前缀清
按白名单范围清
在高危环境先 dry-run

例如：

DELETE FROM orders WHERE created_by_run = 'ci_a1b2c3d4';

安全/性能最佳实践

测试数据管理不是只追求“能跑”，还要考虑安全和性能边界。

安全最佳实践

1. 不要在测试环境使用真实敏感数据

包括但不限于：

真实手机号
真实身份证号
真实银行卡
真实地址信息

建议统一使用脱敏或伪造数据生成器。

例如手机号可以约定测试号段：

def fake_mobile(seq: int) -> str:
    return f"1990000{seq:04d}"

2. 限制清理权限

清理器最好只拥有测试数据范围内的删除权限，而不是全表删除权限。

3. 测试数据打标签

如果数据库支持，建议给测试数据打上：

来源系统
来源用例
创建时间
责任人/流水线

方便审计，也方便事后清理。

性能最佳实践

1. 不要每个用例都从零构造整套大场景

如果创建一套完整业务链路要 10 秒，100 个用例就会很慢。

可以分层处理：

基础稳定数据：预置
易变业务数据：动态构造
重资源依赖：做 mock 或共享只读快照

2. 批量构造，避免高频碎片插入

如果一个场景要建 100 个商品，不要循环单条插入，尽量批量写入。

3. 清理要可控

清理也会消耗资源。大批量 DELETE 可能锁表，尤其在 MySQL 中更明显。
更稳妥的做法是：

按 run_id 分批删
定时归档
大量测试时优先使用临时库直接销毁

4. 把“查找测试数据”的成本设计进去

如果要按 created_by_run 清理，记得建立索引，否则数据量大了清理会很慢。

示例：

CREATE INDEX idx_orders_created_by_run ON orders(created_by_run);
CREATE INDEX idx_users_created_by_run ON users(created_by_run);

方案取舍建议

实际落地时，不同团队可以按成熟度选择不同方案。

团队阶段	推荐方案	适用场景
起步阶段	共享环境 + run_id + 基础清理	用例数量不多，先解决冲突
成长期	Factory + Scenario + 统一数据标签	多人协作、CI 稳定性要求提升
成熟阶段	独立环境/临时库 + 全链路资源隔离	高并发 CI、复杂业务链路、回归规模大

我的建议是：

先统一标识，再做抽象
先解决稳定性，再优化执行速度
不要一开始就追求完美平台化

因为测试数据管理这件事，最怕的是设计了很多“宏大方案”，结果团队没人真用。
真正有效的方案，一定是能嵌进日常开发测试流程里的。

总结

自动化测试里的测试数据管理，核心不是“怎么插一条数据”，而是：

怎么隔离
怎么构造
怎么追踪
怎么清理
怎么在多人和 CI 场景下保持稳定

如果你只记住三条，我建议是：

每次测试运行必须有唯一 run_id
所有测试数据构造都收敛到 Factory/Scenario
清理只按明确标签执行，绝不做模糊删除

边界条件也要说清楚：

如果你的测试涉及异步链路、缓存、消息、第三方系统，仅靠数据库隔离是不够的
如果你的系统强依赖共享账号和预置状态，自动化测试稳定性会天然受限，需要推动业务侧补充重置能力
如果是高并发 CI，最终还是要走向更强的环境隔离或临时实例化方案

一句话收尾：
自动化测试的稳定性，很多时候不是断言写得不够好，而是数据管理没有工程化。
把数据这件事管起来，测试才能真正跑得久、跑得稳。