开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好
文摘
科学
2024-05-21 17:26
浙江
由阿里巴巴通义实验室语音团队开源的自动化视频剪辑工具FunClip在近期迎来了重大更新,在打磨语音识别、视频自动化剪辑基础功能之上进一步集成了大语言模型的能力,支持用户在上传视频、进行音轨的语音识别之后,通过我们提供的大语言模型调用接口,根据自己设置的prompt对视频的SRT字幕进行分析与精选,并根据LLM推理结果进行智能剪辑。FunClip项目地址:https://github.com/alibaba-damo-academy/FunClipFunASR项目地址:https://github.com/alibaba-damo-academy/FunASR通过Modelscope创空间体验FunClip:https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary
▎FunClip的基础功能
FunClip是一款基于Gradio构建的完全开源、本地部署、精准裁剪的视频剪辑工具。通过调用阿里巴巴通义实验室开源的FunASR工具包与Paraformer系列模型,FunClip首先对视频的音轨进行精确的语音识别,识别过程支持热词定制化并且能够一体化的预测识别结果的时间戳。随后,基于识别结果、时间戳与标点模型的切句,FunClip能够自动生成视频的SRT字幕。如果需要区分说话人,那么FunClip也会为字幕中的每一句标注说话人ID信息。随后在裁剪阶段,用户可以选择文本段落中任意的片段,或者选择想要裁剪出的说话人的ID,复制到相应位置,点击裁剪即可获得需要的视频片段。FunClip支持在裁剪阶段自动合成字幕、配置起止位置的时间偏移,配置字幕的颜色与尺寸等。不久之前,FunClip升级到v1.1版本,主要进行了如下更新:- 支持配置输出文件目录,保存ASR中间结果与视频裁剪中间文件;
- 易用性升级,视频与音频裁剪功能在同一页,按钮位置调整;
- 修复了由于FunASR接口升级引入的bug,该bug曾导致一些严重的剪辑错误;
(FunClip v1.1.0版本界面与使用方法)▎FunClip2.0:大语言模型智能剪辑
在大语言模型日益火爆的今天,我们希望能够借助LLM的理解能力为视频剪辑增加更多的智能元素,让AI更好地为大家所用。FunClip在今天开源了2.0版本,开放了基于大语言模型的智能剪辑功能。首先,我们集成了包括通义实验室Qwen系列大模型,OpenAI的GPT系列大模型在内的多种大模型调用方式,用户首先需要选择模型并且配置对应的API Key。在进行视频的识别、获取到SRT字幕之后,点击LLM推理按钮,FunClip会自动组合System Prompt,User Prompt与视频SRT字幕,根据对指令的理解截取字幕中的对应片段。例如,我们可以让大模型完成这样的功能:
以上功能只需要在prompt中输入,借助大模型的理解能力,帮助用户提高视频剪辑的效率。更多的prompt的配置与使用方法也欢迎大家在讨论区交流:)下一步,点击LLM智能裁剪,FunClip会匹配LLM输出结果中的时间戳部分,对原始的视频进行裁剪。这个过程中同样支持为视频自动添加字幕,以及对字幕进行个性化配置。▎联系我们
欢迎对模型开源和应用感兴趣的研究人员和开发人员加入FunASR开源社区交流群,共同探讨精进!
👇点击阅读原文,快来体验剪辑的快乐!