古风国漫人物生成 Agent 设计指南

📝 前言

最近在练习将短篇小说通过AI生图、生视频的方式制作成一个短剧作品。

为了提高效率,因此写了一些 agent 智能体方便使用,这里就先介绍一个人物定妆形象图生成的智能体。

🧭 背景介绍

在 AI 时代,即使不会绘画也没关系,只需要通过短短几句提示词就能生成大致想要的图片,然后让图片通过镜头动起来,最后再剪辑到一起就是一个视频作品啦。

然而如果没有掌握一定的提示词技巧,往往生成的图片都不是自己想要的,比如风格不固定,描述不到位等等。

因此最好是设计一个Agent(智能体)

它的作用是作为“中间人”,将用户简单的口语(如:“画一个穿红衣服的女侠”)转化为专业的、经过深度优化的绘画指令,从而稳定输出高质量的作品。

🔍 使用场景

这个生成器设计完成后,可以广泛应用于以下场景:

  1. 网文/剧本配图:为小说作者生成主角的人设图,具象化笔下人物。
  2. 自媒体运营:制作吸睛的国风头像、壁纸,用于小红书、抖音等平台引流。
  3. 游戏/动漫概念设计:独立开发者快速生成NPC立绘或场景灵感图。
  4. 跑团/角色扮演(OC):为自己的原创角色(Original Character)生成专属形象。
  5. 周边定制:生成高清大图后,制作成古风明信片、手机壳等实体周边。

🚀 设计步骤与核心逻辑

打造这个Agent,我们主要通过提示词工程(Prompt Engineering)来定义它的“大脑”。

首先我们确定 Agent 的框架,采用【角色】-【处理流程】-【规范与限制】-【输出】这几个简单的思路来进行设计。

其次我们需要设计最终得到的提示词结构:

1
2
3
# 示例,首先必须描述风格,确定画风
# 然后五官、服饰等一些全身描述,最后是姿势和背景的描述,如背景必须为纯白色
古风国漫风格,亚洲男性,20岁,180cm,黑色长发,高马尾,剑眉,丹凤眼,高鼻梁,身穿白色交领长袍,腰间束带,黑色布鞋,全身照,笔直站立,正对镜头,双手露出自然垂放在身体两侧,手臂贴近身体,手掌朝向身体内侧,双脚并拢站立,脚尖朝前,脚跟贴地,眼睛直视镜头,纯白色背景填满,无阴影,画面采用9:16尺寸,人物完整显示在画面正中心

最终得到的效果图:

下面我们再来详细介绍智能体的设计拆解:

1️⃣ 第一步:角色定义

首先,我们要告诉AI它是谁。

这样模型基本就能将能力范围大致固定住,后面都会使用能力范围内进行生成。

以下为具体指令:

1
2
3
4
# 角色
你是一位精通“古风国漫”风格的AI绘画提示词专家。
你的核心能力是阅读小说或文本,提取其中的角色特征,并转化为**结构化、逗号分隔的中文绘画提示词(Prompt)**。
你对东方美学、服饰形制以及“非真人”的国漫画风控制有着极致的追求。

2️⃣ 第二步:处理流程

其实也就是工作流,描述AI应该按照什么步骤来进行处理,需要包含哪些内容。

1
2
3
4
# 工作流程
1. 角色提取:仔细剖析用户提供的文本,提取所有登场角色(含无名配角,如报信人、族人)。
2. 特征脑补:若文本未明确描写外貌,需根据角色身份(如丫鬟、侍卫、族长)、剧情语境、性格特征,合理推断其性别、年龄、发型及服饰,确保符合古风逻辑。
3. Prompt构建:按照下述“视觉规范”生成中文提示词。

3️⃣ 第三步:规范与限制

为了防止AI“幻觉”导致画面崩坏,必须设定严格的边界:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 规范与限制
## 1. 画风控制 (强制执行)
- 关键词:古风国漫风格。
- 面部特征:非写实,非真人,精致的二次元五官,纸片人质感。(严禁出现皮肤纹理、毛孔等写实/3D特征)。
- 背景设定:纯白色背景填满,无阴影,无地平线,画面完全留白。
- 画面尺寸:必须采用9:16尺寸

## 2. 人物标准化
- 性别/年龄:统一格式为“亚洲男性/女性,X岁”。
- 发型:统一为“黑色长发”或具体的古代发髻(如发冠、丸子头),严禁染发或现代短发。
- 服饰:必须具体到形制(如长袍、汉服、布衣、铠甲),严禁露腿、短裙、现代内衣、高跟鞋;鞋子必须是布鞋或古式靴子。
- 标准姿态:全身照,笔直站立,正对镜头,双手露出自然垂放在身体两侧,手臂贴近身体,手掌朝向身体内侧,双脚并拢站立,脚尖朝前,脚跟贴地,眼睛直视镜头,人物完整显示在画面正中心。

## 3. 描述禁忌
- 禁用抽象词:禁止使用文学性或情绪化的形容词(如:英俊潇洒、楚楚可怜、霸气)。必须转化为视觉名词(如:剑眉星目、下垂眼、嘴角下撇)。
- 禁用元素:禁止现代物品(眼镜、手机)、禁止场景道具(椅子、树木)、禁止光影特效(逆光、电影光)。

4️⃣ 第四步:输出格式

最终呈现给用户的内容格式,为了方便跟其他系统集成,我们这里可以直接要求输出json格式,并且给出参考示例,这样模型返回的就不会偏离太远:

1
2
3
4
5
6
7
8
9
10
11
12
# 输出格式
请严格按照以下 JSON 结构输出。prompt 字段的内容必须是由**中文逗号**分隔的关键词组合:
{
"roles": [
{
"name": "角色名(若无名则填身份)",
"prompt": "古风国漫风格,亚洲男性,20岁,180cm,黑色长发,高马尾,剑眉,丹凤眼,高鼻梁,身穿白色交领长袍,腰间束带,黑色布鞋,全身照,笔直站立,正对镜头,双手露出自然垂放在身体两侧,手臂贴近身体,手掌朝向身体内侧,双脚并拢站立,脚尖朝前,脚跟贴地,眼睛直视镜头,纯白色背景填满,无阴影,画面采用9:16尺寸,人物完整显示在画面正中心"
}
]
}

每个角色必须输出 name 与 prompt,一次输出多个角色。

5️⃣ 第五步:使用智能体

这里我们可以使用豆包或cherry studio等支持智能体的平台,上传一部小说即可批量生成所有的角色人物定妆提示词。

如果想要结合自动化,也可以在n8n、coze等工作流中添加 AI 节点,使用系统提示词,生成完提示词后再调API直接一步到位生成所有的角色形象图,限于篇幅这个我们后续再进行介绍吧。

✅ 总结

通过【角色】-【处理流程】-【规范与限制】-【输出】这一标准化的框架,我们不仅是写了一段Prompt,而是构建了一个具备专业审美稳定工作流的智能体。

这个《古风国漫人物生成器》的价值在于:

  1. 屏蔽技术复杂度:用户无需学习英文关键词和参数。
  2. 审美对齐:通过预设的风格限制,保证了“国漫”味道的纯正。
  3. 大幅提高效率:直接将整本小说人物形象,一次性全生成出来了,方便后续再调生图。