视频文字转语音经验笔记

自媒体视频制作的一些小经验,分享给大家。

一、音频部分:

1、文字转语音阐述:

微软语音识别 云希-青年男, 0.5-0.8变速 。注:云泽-中年男(不支持长音频录制), 适合郑重场合,关键知识点阐述。
测试工具:
a、小蜗软件,测试效果也可以,综合了各种文字字幕转换工具。ui比较专业,用的微软tts内核。
b、edge-tts-record0.1.1 (测试后推荐)。 也可自己录制后转音色的方式。30分钟录制限制。注:保存音频路径必须为英文或拼音。

c、关于佛教多音字发音校对的问题,微软ai对于专有中文名词发音有勿,需要用相应的其他词替代。
官方没提供快速字幕文字查找定位时间线功能。需要手动到处srt字幕,之后,在外部文本工具里,查看剪映相应的时间定位点。
不同的字数,会影响多音字发音ai判断。一乘了义 不带标点,仅四个字 了 发liao,多字带标点速以上,发le。

比如: 使用tts-vue1.9.15 软件ssml 标记语法输入词语拼音,并局部音频剪辑替换。

【阿弥陀佛】阿发错误音e,需要转为 【阿`弥陀佛】发a。

【一乘了义】错误了音le,一乘了义 不带标点,仅四个字 了 发liao,多字带标点速以上,发le。

【十行】错误音 hang 需要改为 【十`行】 xing

【诸佛刹土】错误音 sha 需要改为【诸`佛刹土】 cha

【迦叶】ye需要转为 【迦舍】发she

【舍利弗】fu改为【舍利佛】fo

d、录音期间,电脑要关闭下载等其他会发生的程序,以免夹杂。比如:网盘程序等。

2、配乐音效素材:

剪映官方,不多说,技术已经普及。

3、音色转换:

预方案:RMAIVoiceChanger(原入梦RVC软件)。暂时没使用。
选择了微软云希,简单快捷,语速设为0.8所有,平稳清晰。

二、图像部分:

1、图片素材来源:

baidu图片搜索,fooocus AI 图片生成修改。为了提升出图速度,建议关闭其他程序,仅运行ai程序。能保证在笔记本2070s显卡下稳定运算。
A、ai生成群体人物脸部扭曲错误,可以用ai换脸工具roop rope AI人脸替换离线版3.0完成批量替换。
测试工具:photoshop修图。
b、手部修复,不必用controlnet,可以在ps中简单重绘修补手部,外形,只后用ai重绘局部或全图。
c、图片缩放,fooocus 1.5倍放大,nv2070s显存能承担。2k左右。2倍放大卡死,估计显存不足。

2、音频转字幕生成:

剪映内置,ai语音转字幕。 每次转换限制字数5000内。支持文字参考输入。
a、超长分钟以上音频,需要先将语音音频剪裁为多段,每段与输入文本对应的内容,如果文字与音频内容不对应,整体长度不一致,会出现字幕生成错位问题。
b、每次转字幕时,必须把每段音频拖到新轨道,并点选音频轨道后。锁定并静音其他轨道,一次次生成。最终合并一起。
c、最后,每转一段,最好把音轨与字幕合成一个剪辑组,便于拖动组合。最后都合并为一轨道里,最后,可以取消各分段的剪辑组。恢复字幕和音频独立状态,再合并为一个大剪辑组。便于管理分割。
d、如果音频与视频分离的,可以合为同步视频,最红合为一个大的剪辑组,便于之后剪辑。
e、视频转化低编码,可以用file converter (右键快速菜单)工具。高效环保。

3、剪映剪辑技巧:

a、同轨道两片段拖动对齐时,后一个对不上前一个,差一点就自动建到新轨去了。经实验,发现,将当前游标,移到前片段尾部自动吸附后,再拖动后片段到前片段尾部就对齐了。
b、剪映没有阴影特效。只能通过假阴影模拟,一种是默认官方黑片+方形蒙版(边缘模糊)
另一种是ps 手动做个png透明阴影图片,导入。
c、复合片段,有变速标签项,可以后期整体变速,但音频部分要适当做音频变速补偿,否则会失真。
d、封面的导出,任何视频、音频、字幕导出,都会自动包含封面,可仅选择字幕导出即可输出封面,加快输出速度。
e、修改内容后,剪映预览无法更新问题。可以关闭自动渲染功能,并删除预渲染视频文件,即可完成视频的更新显示。在全局设置中,第三个标签项下,可以找到预渲染视频文件夹设置,和自动渲染选项,关闭自动渲染,固态硬盘无需预渲染,流畅度不影响。

4、其他经验:

b站视频回复时,如何添加快捷时间标记到回复里,作为内容预览大纲:
直接输入时间码 52:00 格式 空格+内容文字 即可。

南无阿弥陀佛

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/766417.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙开发设备管理:【@ohos.distributedHardware.deviceManager (设备管理)】

设备管理 本模块提供分布式设备管理能力。 系统应用可调用接口实现如下功能: 注册和解除注册设备上下线变化监听发现周边不可信设备认证和取消认证设备查询可信设备列表查询本地设备信息,包括设备名称,设备类型和设备标识 说明&#xff1a…

检索增强生成RAG系列5--RAG提升之路由(routing)

在系列3和系列4我讲了关于一个基本流程下,RAG的提高准确率的关键点,那么接下来,我们再次讲解2个方面,这2个方面可能与RAG的准确率有关系,但是更多的它们是有其它用途。本期先来讲解RAG路由。 目录 1 基本思想2 Logica…

Linux基础 - LNMP 架构部署动态网站环境

目录 零. 简介 一. 部署 二. 安装 Nginx 三. 安装MySQL 四. 安装PHP 五. 配置网站目录 六. 测试环境 零. 简介 LNMP 是指 Linux Nginx MySQL PHP 这一组合架构,用于部署动态网站环境。 Linux 作为操作系统,提供了稳定、安全和高效的基础平台。…

Swift 中强大的 Key Paths(键路径)机制趣谈(上)

概览 小伙伴们可能不知道:在 Swift 语言中隐藏着大量看似“其貌不扬”实则却让秃头码农们“高世骇俗”,堪称卧虎藏龙的各种秘技。 其中,有一枚“不起眼”的小家伙称之为键路径(Key Paths)。如若将其善加利用&#xff…

MYSQL函数进阶详解:案例解析(第19天)

系列文章目录 一、MySQL的函数(重点) 二、MySQL的窗口函数(重点) 三、MySQL的视图(熟悉) 四、MySQL的事务(熟悉) 文章目录 系列文章目录前言一、MySQL的函数1. 聚合函数2. group_c…

Linux基础 - MariaDB 数据库管理系统

目录 零. 简介 一. 安装 二. 基本使用 1. 设置root密码 2. 创建库 3. 创建表 4.添加数据 5. 查看数据 三. 管理表单及数据 四. 数据库的备份及恢复 零. 简介 MariaDB 是一种流行的开源数据库管理系统,它是 MySQL 的一个分支。 MariaDB 保留了与 MySQL 的…

HarmonyOS APP应用开发项目- MCA助手(Day01持续更新中~)

简言: gitee地址:https://gitee.com/whltaoin_admin/money-controller-app.git端云一体化开发在线文档:https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/agc-harmonyos-clouddev-view-0000001700053733-V5 注&#xff1…

激光粒度分析仪校准步骤详解:提升测量精度的秘诀

在材料科学、环境监测、医药研发等众多领域,激光粒度分析仪以其高精度、高效率的测量性能,成为了不可或缺的测试工具。然而,为了保持其测量结果的准确性和可靠性,定期校准是不可或缺的步骤。 接下来,佰德将为您详细介…

可视化低代码平台之:RayData光启元的震撼作品。

RayData家的可视化作品,贝格前端工场是经常碰到,制作十分的精良,业内很有影响力。他们也有自己的低代码平台,分为了桌面版和网页版,本期分享一下他们的作品。

【单片机毕业设计选题24043】-可旋转式电视支架控制系统设计与实现

系统功能: 系统操作说明: 上电后OLED显示 “欢迎使用电视支架系统请稍后”,两秒后进入正常界面显示 第一页面第一行显示 Mode:Key, 第二行显示 TV:Middle 短按B5按键可控制步进电机左转, 第二行显示 TV:Left 后正常显示 TV:…

六、资产安全—信息分级资产管理与隐私保护练习题(CISSP)

六、资产安全—信息分级资产管理与隐私保护(CISSP): 六、资产安全—信息分级资产管理与隐私保护(C

语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度

语义检索-BAAI Embedding语义向量模型深度解析:微调Cross-Encoder以提升语义检索精度 语义向量模型(Embedding Model)已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代,它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要…

【Python】已解决:ModuleNotFoundError: No module named ‘pyhanlp’

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例五、注意事项 已解决:ModuleNotFoundError: No module named ‘pyhanlp’ 一、分析问题背景 在使用Python进行自然语言处理时,有时我们可能会用到pyhanlp这个库,它是一个基于J…

煤矿安全大模型:微调internlm2模型实现针对煤矿事故和煤矿安全知识的智能问答

煤矿安全大模型————矿途智护者 使用煤矿历史事故案例,事故处理报告、安全规程规章制度、技术文档、煤矿从业人员入职考试题库等数据,微调internlm2模型实现针对煤矿事故和煤矿安全知识的智能问答。 本项目简介: 近年来,国家对煤矿安全生产的重视程度不断提升。为了确…

STM32 中断编程入门

目录 一、中断系统 1、中断的原理 2、中断类型 外部中断 定时器中断 DMA中断 3、中断处理函数 中断标志位清除 中断服务程序退出 二、实际应用 中断控制LED 任务要求 代码示例 中断控制串口通信 任务要求1 代码示例 任务要求2 代码示例 总结 学习目标&…

【第三版 系统集成项目管理工程师】第5 章 软件工程

持续更新。。。。。。。。。。。。。。。 【第三版】第五章 软件工程 5.1软件工程定义练习 5.2软件需求5.2.1雾求的层次1.业务需求-P2032.用户需求-P2033.系统需求-P203 5.2.2质量功能部署 P2035.2.3需求获取 P2045.2.4需求分析1.结构化分析-P2042.面向对象分析-P207 5.2.5号求…

第二证券:可转债基础知识?想玩可转债一定要搞懂的交易规则!

可转债,全称是“可转化公司债券”,是上市公司为了融资,向社会公众所发行的一种债券,具有股票和债券的双重特点,投资者可以选择按照发行时约定的价格将债券转化成公司一般股票,也可作为债券持有到期后收取本…

格式化选NTFS还是exFAT 格式化NTFS后Mac不能用怎么办 移动硬盘格式化ntfs和exfat的区别

面对硬盘、U盘或移动硬盘的格式化决策,NTFS与exFAT作为主流的文件系统,用户在选择时可以根据它们的不同特点来选择适用场景。下面我们来看看格式化选NTFS还是exFAT,格式化NTFS后Mac不能用怎么办的相关内容。 一、格式化选NTFS还是exFAT 在数…

DevOps认证是什么?DevOps工具介绍

DevOps 这个词是由Development(开发) 和 Operations(运维)组合起来的,你可以把它理解成为一种让开发团队和运维团队紧密合作的方法。 DevOps从2009年诞生到现在已经14年多了,一开始大家还在摸索&#xff0…

Webpack: 插件架构之Hook体系

概述 Webpack 之所以能够应对 Web 场景下极度复杂、多样的构建需求,关键就在于其健壮、扩展性极强的插件架构,而插件架构的精髓又在于其灵活多变的 Hook 体系,可以说,只有真正掌握 Hook 底层设计与实现逻辑,深入理解不…