口播剪辑工作流探索

#多媒体 #软件

在产品介绍、课程录制类型的视频制作中，有一个绕不开的问题就是如何让视频更紧凑。要解决这个问题，无非两条路：前期保证一次成型或者后期剪辑。

如果想节省后期功夫，前期就要写好逐字稿，并且保证实际录制时不能出现太多差错，诸如无意义的停顿和“嗯、啊、哦、呃、然后”等口头词的频繁出现。这对前期的准备工作量与演讲者的演讲能力提出了较高的要求。

如果前期粗糙制作，后期的工作量就会增大。后期需要将这些没有意义的部分全部剪辑掉，完全依赖水磨功夫。因此我想找到一个能极大节省这种水磨功夫的工具。

剪映有一个很好用的功能叫智能剪口播，能做到：

转录字幕
自动识别无意义的口头词与停顿
一键剪辑掉上述无意义内容
选择任意长度的字幕删除后，剪辑掉对应的视频片段

目前全网我只知道剪映有这个功能，其他软件大多只在自动剪辑停顿（即气口）这个层面，还无法做到剪辑口头词。

所以我在寻找能做到类似效果的开源项目，我找到两个项目：

AutoCut能通过字幕的时间戳来反向剪辑视频，不过原项目没有图形化界面，可以去fork的这个项目：zcf0508/autocut-client: AutoCut Client 下载打包好的程序。

QuickCut这个项目有一个比较有意思的功能，叫 辅助字幕自动剪辑，大概的工作原理是在前期录制的时候如果有一段出错了，当时就马上反应过来，然后在录制时说出对应的关键词进行标记，比如录了2分钟，发现有问题，就说一句 删除，然后再说2分钟，再说 保留，这样就会把第一个2分钟的片段剪辑掉。具体的效果展示可以参见作者的视频，不过这个功能的弊端也很明显：

前期录制的时候要能判断哪些需要被删除
对于下意义的停顿和与语气词无效

但是上述的项目也只是基于whisper的句级剪辑，无法复刻剪映那种根据单字来剪辑视频的效果。

不过我也看到有人和我有同样的想法：

请问有没有选项可以做到一字一断呢 · Issue #84 · mli/autocut

同时也有网友找到了可能有帮助的项目：

目前来看，成熟的工具可能只有剪映。