口播剪辑工作流探索

在产品介绍、课程录制类型的视频制作中,有一个绕不开的问题就是如何让视频更紧凑。要解决这个问题,无非两条路:前期保证一次成型或者后期剪辑。

如果想节省后期功夫,前期就要写好逐字稿,并且保证实际录制时不能出现太多差错,诸如无意义的停顿和“嗯、啊、哦、呃、然后”等口头词的频繁出现。这对前期的准备工作量与演讲者的演讲能力提出了较高的要求。

如果前期粗糙制作,后期的工作量就会增大。后期需要将这些没有意义的部分全部剪辑掉,完全依赖水磨功夫。因此我想找到一个能极大节省这种水磨功夫的工具。

剪映有一个很好用的功能叫智能剪口播,能做到:

目前全网我只知道剪映有这个功能,其他软件大多只在自动剪辑停顿(即气口)这个层面,还无法做到剪辑口头词。

所以我在寻找能做到类似效果的开源项目,我找到两个项目:

AutoCut能通过字幕的时间戳来反向剪辑视频,不过原项目没有图形化界面,可以去fork的这个项目:zcf0508/autocut-client: AutoCut Client 下载打包好的程序。

QuickCut这个项目有一个比较有意思的功能,叫 辅助字幕自动剪辑,大概的工作原理是在前期录制的时候如果有一段出错了,当时就马上反应过来,然后在录制时说出对应的关键词进行标记,比如录了2分钟,发现有问题,就说一句 删除,然后再说2分钟,再说 保留,这样就会把第一个2分钟的片段剪辑掉。具体的效果展示可以参见作者的视频,不过这个功能的弊端也很明显:

  1. 前期录制的时候要能判断哪些需要被删除

  2. 对于下意义的停顿和与语气词无效

    但是上述的项目也只是基于whisper的句级剪辑,无法复刻剪映那种根据单字来剪辑视频的效果。

不过我也看到有人和我有同样的想法:

请问有没有选项可以做到一字一断呢 · Issue #84 · mli/autocut

同时也有网友找到了可能有帮助的项目:

目前来看,成熟的工具可能只有剪映。