AI 配音多音字踩坑记

青萍叙事2026-05-30

前言

你有没有遇到过这种情况。

花了一下午写好脚本，调好情感参数，满心期待点下生成。

结果 AI 用字正腔圆的播音腔，把你的重来读成了 重（zhòng）来。
把 言行一致 读成了 言 háng 一致。
把了结读成了 了（le）结。

那一刻的感觉，就像精心做了一桌菜，上桌时发现盐罐子打翻了。

这不是你的错。
多音字，是所有中文 TTS 引擎的噩梦。
今天我把自己踩过的坑一个一个扒出来，咱们看看都是怎么翻车的，最后再说怎么根治。

先从最常见的说起。

真行 AI 读成了 真 háng。
行在中文里有 xíng（真行、行走）和 háng（银行、行业）两个读音，TTS 默认给了一脸自信的 háng。

类似的还有一大堆。

重来一次 被读成 重（zhòng）来一次。
在配音脚本里，重来是最常见的高频词之一，偏偏 AI 十次有八次猜错。

了结被读成 了（le）结。
了作助词读 le，作动词（了结、了如指掌）读 liǎo。
如果你的角色台词里有一句 这件事必须了结，AI 大概率会把它变成一句没有痛感的陈述。

音乐和快乐也有问题。
对 AI 来说，乐在音乐里读 yuè，在快乐里读 lè，但有些模型在长句里会串。

走着瞧 被读成 走 zhe 瞧。
着的四个读音（zhe、zháo、zhāo、zhuó）各有各的用法，AI 从上下文判断准确率时好时坏，尤其在口语化台词里。

长相读成 相（xiāng）貌。
和相相关的翻车案例特别多。
相声读成 相（xiāng）声，相由心生 读成 相（xiāng）由心生。

还有地名。
我开始做有声小说的那段时间，写过一个发生在广州的场景，脚本里出现了 广州朝阳区。
我用的是广州的 朝（cháo）阳，最终 AI 给的是 朝（zhāo）阳。

多音字读错不是偶然失误，而是 TTS 技术的结构性难题。

中文里多音字有 1000 多个，其中高频使用的也有几百个。
每个字在不同语境下的读音不同，AI 需要根据上下文猜出正确读音。

问题就出在这个猜上。

现在的 TTS 模型大多基于 Transformer 架构，通过训练数据学习发音规律。
训练数据里，银行出现的次数远高于某些古文中的行，所以模型对行的默认倾向是 háng。
同理，重量远多于重来，快乐远多于音乐（在口语语料中的比例）。

这不是模型能力不够，而是统计分布的惯性。
你写了一个表达精确的句子，AI 用概率最高的读音去念。
巧合的是，概率最高的那个经常不对。

还有一个更隐蔽的问题：长距离依赖。
句子里的多音字，需要结合句子后面甚至几段之前的内容来判断。
如果句子的主语出现在句首，动词在句末，中间隔了三层定语从句，模型就很容易丢失上下文。

多音字翻车实在太普遍了，创作者们早就开始自救。
我总结了几种常见的土办法。

|同音字替换法。
把了结改成了解（但这个意思不对啊），或者把重来改成 从头再来。
重虽然还是会读错，但人家换了个写法。
缺点是很多多音字根本找不到合适的同音替代词，强行替换会改变原意。

|拼音标注法。
在文稿里给多音字加拼音，比如 重（chóng）来。
听起来很聪明，对吧？
问题是你得手工给每个字加括号注音，写一千字的稿子，可能有二三十个多音字要处理。
而且加了拼音后原文被破坏，文字排版乱成一团。

|分段生成法。
把长句拆成短句，逐段生成再拼接。
因为短句的上文变少，错误率确实低一些。
缺点是合成出来的语气不连贯，两段之间有明显的断气感。

|避字法。
写稿时故意避开多音字。
这个最省事，但也最离谱。
为了 AI 不读错，创作者连中文词汇都不能自由使用了。

这些方法我全都试过。
不是不能用，但各有各的代价。
你要么牺牲效率，要么牺牲效果，要么同时牺牲这两者。

后来我用青萍 AI 语音做播客时，发现它在语音合成界面上直接提供了一行标注：多音字设置。

多音字示例

多音字设置面板

选中文字后，系统会弹出多音字设置面板，展示该字的所有可选读音。

你不需要改原文，不需要加拼音，甚至不需要会注音。
选中行字，面板上会出现 xíng 和 háng 两个可选读音。
点一下 xíng 再点确认，AI 就会用正确读音来合成。

对于脚本创作者来说，这个交互方式太关键了。
你审视一遍稿子，遇到多音字点一下就行。
不用改原文结构，不影响排版，不改语法，不改语序，只是告诉 AI 这里读这个音。

我最近做了一个短剧的配音脚本，2000 多字的文案，逐段检查了一遍多音字。

言行一致？选中行，设为 xíng。
了结这件事？选中了，设为 liǎo。
有朝一日？选中朝，设为 zhāo。
走着瞧？选中着，设为 zháo。

前后花了两分钟过一遍，每处点一下确认就开始生成。
生成的语音里没有出现一个读错的字。

这个功能的妙处在于，不用人工校一遍音后，发现错了再回去改，再重头生成。
你在生成前就排除了所有隐患，一次合成，一步到位。

写稿、调参、合成、校对、重来。
内容创作者的时间本来就紧。

多音字问题说大不大，说小不小。
它不影响 AI 配音的整体质量，但它会让你的听众在关键台词前突然愣住。
一句重来读成重来，听众就出戏了。
一个 10 分钟的视频如果有 3 处读错，整个作品的专业感就被拉下来了。

土办法能对付，但不是一个可持续的方案。

青萍 AI 语音的多音字设置功能把这个小问题彻底消灭了。
不需要学 SSML 语法，不需要改原文，不需要分段生成。
写好的稿子点几下鼠标，所有多音字各就各位，然后一次生成。