AI 漫剧人物一致性保持方案介绍

📝 前言

当下 AI 漫剧市场非常的火爆,我这边也最近一直在研究 AI 漫剧的自动化生成,就在这里记录一下探索的过程中遇到的人物一致性问题以及如何解决的。

🧭 背景介绍

AI 漫剧在制作时经常出现以下问题:

  • 同一角色在不同镜头中 脸型变化明显
  • 发型、刘海走势、发色细节不一致
  • 服饰细节(纹理/扣子/腰带/纹样)自动丢失
  • 动作或角度变化导致 显著换脸
  • 多角色同框时出现 风格冲突
  • 长篇连载中角色设定无法保持长期稳定

下面就来介绍几种处理方式。

🚀 人物一致性处理

1️⃣ 人物四视图UID生成

之前我们介绍过生成过人物的正面形象图,这还不够。

这里我们介绍第一种优化方式,生成一张包含人物角色正面、侧面、背面以及表情、配饰的UID图。

适用于大部分「图生图」工作流,例如:即梦、海螺、ComfyUI、常规生图 API。

提示词参考如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
# 角色
你是一个专业的角色设定美术 AI,需要根据用户提供的人物参考图,
生成该人物的四视图设定图与统一的文本标注说明。

# 任务目标
- 输出1张包含同一人物 **正面、侧面(左、右)、背面、四视图** 的角色设定图。
- 生成该人物的 「喜、怒、哀、乐」4 种表情的脸部特写图(仅头部特写)。
- 同时输出一段 **结构化文字信息**,以便后续多次复现该人物形象。
- 人物中文标注 UID 固定为:**xxx名称**。
- 所有局部英文标注使用 **UUID 风格字符串**(例如:`ID-a12f3c4e-5b6d-7e8f-9012-3456bcdef789`),并在图中用英文说明对应部位/特征。

---

## 一、图像内容要求

1. **视图构成(四视图)**
- 正视图:角色站立正面,全身。
- 侧视图:角色站立侧面(统一为左侧或右侧,全身),保持与正视图同一高度与比例。
- 背视图:角色站立背面,全身。
- 可选:半侧或再补一个侧面用于补充细节(如有空间)。

2. **人物身份与标识**
- 角色中文 UID:在画面空白处清晰标注 `UID:xxx名称`。
- 可附加一个全局 UUID 作为该人物的英文 ID:
例如 `CHAR-ID: e3c1a7f2-9d45-4b8f-bc16-0a1f8e9d23ab`。

3. **整体风格**
- 画面干净、设定稿风格,白色或浅色背景。
- 线条清晰,保证服装结构与人物比例易于识别。
- 默认写实偏二次元或用户指定的风格(如未指定则适度写实的角色设定图风格)。

---

## 二、需要提取和标注的细节

对人物的以下要素进行 **观察、归纳,并在画面和文字中清晰标注**:

1. **头部与脸型**
- 头型(圆脸、瓜子脸、方脸、长脸等)。
- 五官特征(眼睛大小形状、鼻梁高低、嘴唇薄厚、眉毛类型)。
- 面部表情的默认状态(严肃、温和、冷静等)。
- 发色、发量、刘海样式、鬓角、后发长度与形状。
- 若有伤疤、胎记、饰品(耳环、眼镜、发夹等),需单独标注。

2. **发型**
- 发型整体结构(短发、长发、马尾、丸子头、披散、中分、偏分等)。
- 从 **正面、侧面、背面** 展示发型轮廓和层次。
- 标注发色主色与辅色(如挑染、渐变)。

3. **服装**
- 上衣:款式(制服、风衣、西装、盔甲等)、长度、版型、细节结构(口袋、肩章、纽扣、徽章、装饰)。
- 下装:裤子/裙子类型、长度与版型。
- 鞋靴:类型(皮靴、战靴、运动鞋等)、高度与结构。
- 配件:皮带、手套、披风、徽章、勋章、肩章、帽子、耳机等。
- **服装颜色方案**:
- 主色(primary color)
- 副色(secondary color)
- 点缀色(accent color)

4. **体型与比例**
- 身高大致印象(偏高、偏矮、标准)。
- 体型(偏瘦、标准、偏壮、肌肉型等)。
- 肩宽、腰围、四肢比例等整体感觉(可用简洁描述)。

5. **性格/职业气质(根据形象推断)**
- 从服饰与站姿推断其身份(如军官副官、情报官、勤务人员等)。
- 以简短文字概括角色气质(冷静严谨、干练、沉稳等),方便后续统一塑造。

---

## 三、UUID 英文标注规范

1. 在图中需要对关键部位进行英文注释,并使用 **UUID 风格 ID**:
- 示例格式(用英文+UUID 标记):
- `ID-HEAD-e3a1b5c8-9d42-4fe7-8b01-2345abcde678: head shape & facial features`
- `ID-HAIR-12fa45bc-678d-4e90-8f12-3456789abcde: hairstyle & hair color`
- `ID-UNIFORM-98bc12de-34fa-56b7-89cd-ef0123456789: officer uniform design`
- UUID 可随机生成,但需保持 **一个视图内不重复**。
- 标注语言统一使用 **英文描述特征**,简短明晰。

2. 在画面空白处集中列出一个 **标注说明区域(Legend)**,列出所有 ID 与含义:
- 示例:
- `ID-HEAD-e3a1b5c8-9d42-4fe7-8b01-2345abcde678: oval face, calm expression, thin eyebrows`
- `ID-HAIR-12fa45bc-678d-4e90-8f12-3456789abcde: short dark brown hair, side part`
- `ID-UNIFORM-98bc12de-34fa-56b7-89cd-ef0123456789: dark navy military-style coat with silver buttons`

生成的样图如下:

最后通过垫这张图进行生成新的图,一般就会保持比较好的一致性。

2️⃣ Sora2 人物角色ID 生成

如果不想每次都垫图那么麻烦,也可以先只生成一个无人物出现的场景图,然后再通过 Sora2 生成角色ID,最后在生成视频时,提示词中直接调用角色ID,也基本都能保持较好的一致性。

整体流程如下:

1、在生成角色ID之前,需要先生成一段带有角色说话的视频;

2、然后再调Sora2 的 创建角色 Character 接口,获取角色ID

3、最后在生视频的过程中,直接在提示词中将人物名称改为:@角色ID + 空格,即可生成人物一致性的视频出来。

这个好处是不需要垫图,缺点是不支持真人,不过咱们这里主要就是面向动漫的,所以没太大关系。

3️⃣ Lora 微调模型训练

最后还有一个高级点的方案,就是自己训练 Lora,然后通过关键词进行触发,基本人物训练少的只需几张图,多的也就20~30张即可。

现在 Lora 微调的门槛是越来越低了,再加上前不久阿里刚出的 Z-Image 模型,在本地可玩性也是越来越高了。

最关键的是最近Nano Banana 官方并发降低,成本都在上涨了,这时候用本地模型可能是更好的一个选择。

限于篇幅,后面再单独介绍一下 Lora 微调训练吧~

✅ 总结

AI 漫剧的人物一致性,本质上是一个【角色资产标准化】的问题。

通过本篇的三个方案,我们可以大幅降低换脸、发型错乱、服装丢细节等问题:

  1. 人物四视图 UID 设定图

    用「正侧背 + 表情 + UUID 标注」把角色长相、发型、服装与气质标准化,适用于即梦、海螺、ComfyUI 等各类图生图工作流,是最通用也最推荐先上的一层“地基”。

  2. Sora2 角色 ID 流程

    先通过一段带人物的视频提取「角色 ID」,后续在视频生成提示词中直接调用 @角色ID,即可在不同镜头、不同剧情中保持角色高度统一,尤其适合大量视频内容生产。

  3. Lora 微调模型

    当有稳定角色、且产量较高时,可以考虑训练专属 Lora,用触发词随时召唤角色形象。配合本地模型(如 Z-Image),既能降低成本,又能获得更大的可控性和隐私空间。

实际项目中,这三种方式并不是互斥的:

可以先用「四视图 UID 设定」打好角色基础,再根据业务需求选择用 Sora2 角色 ID 或 Lora 微调去做更高级别的统一与放大。

只要前期把角色信息结构化,让模型“认识清楚这个人”,后续无论是漫剧长篇连载,还是多场景视频,都能更稳定地复现角色。