视频文字转语音经验笔记

自媒体视频制作的一些小经验，分享给大家。

一、音频部分：

1、文字转语音阐述：

微软语音识别云希-青年男， 0.5-0.8变速。注：云泽-中年男（不支持长音频录制），适合郑重场合，关键知识点阐述。
测试工具：
a、小蜗软件，测试效果也可以，综合了各种文字字幕转换工具。ui比较专业，用的微软tts内核。
b、edge-tts-record0.1.1 （测试后推荐）。也可自己录制后转音色的方式。30分钟录制限制。注：保存音频路径必须为英文或拼音。

c、关于佛教多音字发音校对的问题，微软ai对于专有中文名词发音有勿，需要用相应的其他词替代。
官方没提供快速字幕文字查找定位时间线功能。需要手动到处srt字幕，之后，在外部文本工具里，查看剪映相应的时间定位点。
不同的字数，会影响多音字发音ai判断。一乘了义不带标点，仅四个字了发liao，多字带标点速以上，发le。

比如：使用tts-vue1.9.15 软件ssml 标记语法输入词语拼音，并局部音频剪辑替换。

【阿弥陀佛】阿发错误音e，需要转为【阿`弥陀佛】发a。

【一乘了义】错误了音le，一乘了义不带标点，仅四个字了发liao，多字带标点速以上，发le。

【十行】错误音 hang 需要改为【十`行】 xing

【诸佛刹土】错误音 sha 需要改为【诸`佛刹土】 cha

【迦叶】ye需要转为【迦舍】发she

【舍利弗】fu改为【舍利佛】fo

d、录音期间，电脑要关闭下载等其他会发生的程序，以免夹杂。比如：网盘程序等。

2、配乐音效素材：

剪映官方，不多说，技术已经普及。

3、音色转换：

预方案：RMAIVoiceChanger（原入梦RVC软件）。暂时没使用。
选择了微软云希，简单快捷，语速设为0.8所有，平稳清晰。

二、图像部分：

1、图片素材来源：

baidu图片搜索，fooocus AI 图片生成修改。为了提升出图速度，建议关闭其他程序，仅运行ai程序。能保证在笔记本2070s显卡下稳定运算。
A、ai生成群体人物脸部扭曲错误，可以用ai换脸工具roop rope AI人脸替换离线版3.0完成批量替换。
测试工具：photoshop修图。
b、手部修复，不必用controlnet，可以在ps中简单重绘修补手部，外形，只后用ai重绘局部或全图。
c、图片缩放，fooocus 1.5倍放大，nv2070s显存能承担。2k左右。2倍放大卡死，估计显存不足。

2、音频转字幕生成：

剪映内置，ai语音转字幕。每次转换限制字数5000内。支持文字参考输入。
a、超长分钟以上音频，需要先将语音音频剪裁为多段，每段与输入文本对应的内容，如果文字与音频内容不对应，整体长度不一致，会出现字幕生成错位问题。
b、每次转字幕时，必须把每段音频拖到新轨道，并点选音频轨道后。锁定并静音其他轨道，一次次生成。最终合并一起。
c、最后，每转一段，最好把音轨与字幕合成一个剪辑组，便于拖动组合。最后都合并为一轨道里，最后，可以取消各分段的剪辑组。恢复字幕和音频独立状态，再合并为一个大剪辑组。便于管理分割。
d、如果音频与视频分离的，可以合为同步视频，最红合为一个大的剪辑组，便于之后剪辑。
e、视频转化低编码，可以用file converter （右键快速菜单）工具。高效环保。

3、剪映剪辑技巧：

a、同轨道两片段拖动对齐时，后一个对不上前一个，差一点就自动建到新轨去了。经实验，发现，将当前游标，移到前片段尾部自动吸附后，再拖动后片段到前片段尾部就对齐了。
b、剪映没有阴影特效。只能通过假阴影模拟，一种是默认官方黑片+方形蒙版（边缘模糊）
另一种是ps 手动做个png透明阴影图片，导入。
c、复合片段，有变速标签项，可以后期整体变速，但音频部分要适当做音频变速补偿，否则会失真。
d、封面的导出，任何视频、音频、字幕导出，都会自动包含封面，可仅选择字幕导出即可输出封面，加快输出速度。
e、修改内容后，剪映预览无法更新问题。可以关闭自动渲染功能，并删除预渲染视频文件，即可完成视频的更新显示。在全局设置中，第三个标签项下，可以找到预渲染视频文件夹设置，和自动渲染选项，关闭自动渲染，固态硬盘无需预渲染，流畅度不影响。