语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,可用于微调文本转语音输出属性,例如音调、发音、语速、音量等。 与纯文本输入相比,它可以实现在推理时手动定义每一句文本的语气、停顿,或在音频中自由插入音效或音乐。
<speak>
<voice name="{{character}}">{{text}}</voice> ///指定{{character}}说{{text}}
<break time="{{X}}s" /> ///停顿X秒
<audio src="{{oss}}" /> ///播放指定OSS上的音频文件
<voice name="{{character}}" emotion="{{emotion}}=">{{text}}</voice> ///指定{{character}}以{{emotion}}的语气说{{text}}
<break time="{{X}}s" /> ///停顿X秒
<voice name="{{character}}" speed="{{X}}">{{text}}</voice>。///指定{{character}}以X倍速说{{text}}
</speak>
https://tts.nirvanaworld.cn/tts?ssml=<speak><voice name="南悠悠" speed="1.2" emotion="happy>姐姐,姐姐。来陪我玩。<voice name="秦柳烟">别闹,姐姐忙着呢。</voice></voice><break time="3s" /><voice name="南悠悠">姐姐,我最近听到一个特别好听的音乐,我放给你听。</voice><audio src="https://nvnapk.oss-cn-chengdu.aliyuncs.com/music.mp" /><voice name="秦柳烟" speed="0.9">唉,真拿你没办法</voice></speak>
<speak>
<voice name="南悠悠" speed="1.2" emotion="happy>姐姐,姐姐。来陪我玩。</voice>
<voice name="秦柳烟">别闹,姐姐忙着呢。</voice>
<break time="3s" />
<voice name="南悠悠">姐姐,我最近听到一个特别好听的音乐,我放给你听。</voice>
<audio src="https://nvnapk.oss-cn-chengdu.aliyuncs.com/music.mp3" />
<voice name="秦柳烟" speed="0.9">唉,真拿你没办法</voice>
</speak>