开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好

文摘   科学   2024-05-21 17:26   浙江  
深受以上烦恼缠身的剪辑星人
FunClip绝对是你的好帮手!
由阿里巴巴通义实验室语音团队开源的自动化视频剪辑工具FunClip在近期迎来了重大更新,在打磨语音识别、视频自动化剪辑基础功能之上进一步集成了大语言模型的能力,支持用户在上传视频、进行音轨的语音识别之后,通过我们提供的大语言模型调用接口,根据自己设置的prompt对视频的SRT字幕进行分析与精选,并根据LLM推理结果进行智能剪辑。
👉FunClip基础功能回顾
FunClip项目地址:https://github.com/alibaba-damo-academy/FunClip
FunASR项目地址:https://github.com/alibaba-damo-academy/FunASR
通过Modelscope创空间体验FunClip:https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary
(两分钟快速功能演示)

FunClip的基础功能

FunClip是一款基于Gradio构建的完全开源、本地部署、精准裁剪的视频剪辑工具。
通过调用阿里巴巴通义实验室开源的FunASR工具包与Paraformer系列模型,FunClip首先对视频的音轨进行精确的语音识别,识别过程支持热词定制化并且能够一体化的预测识别结果的时间戳。随后,基于识别结果、时间戳与标点模型的切句,FunClip能够自动生成视频的SRT字幕。如果需要区分说话人,那么FunClip也会为字幕中的每一句标注说话人ID信息。
随后在裁剪阶段,用户可以选择文本段落中任意的片段,或者选择想要裁剪出的说话人的ID,复制到相应位置,点击裁剪即可获得需要的视频片段。FunClip支持在裁剪阶段自动合成字幕、配置起止位置的时间偏移,配置字幕的颜色与尺寸等。
不久之前,FunClip升级到v1.1版本,主要进行了如下更新:
  • 支持配置输出文件目录,保存ASR中间结果与视频裁剪中间文件;
  • 易用性升级,视频与音频裁剪功能在同一页,按钮位置调整;
  • 修复了由于FunASR接口升级引入的bug,该bug曾导致一些严重的剪辑错误;
  • 支持为每一个段落配置不同的起止时间偏移;
(FunClip v1.1.0版本界面与使用方法)

FunClip2.0:大语言模型智能剪辑

在大语言模型日益火爆的今天,我们希望能够借助LLM的理解能力为视频剪辑增加更多的智能元素,让AI更好地为大家所用。FunClip在今天开源了2.0版本,开放了基于大语言模型的智能剪辑功能。
首先,我们集成了包括通义实验室Qwen系列大模型,OpenAI的GPT系列大模型在内的多种大模型调用方式,用户首先需要选择模型并且配置对应的API Key。在进行视频的识别、获取到SRT字幕之后,点击LLM推理按钮,FunClip会自动组合System Prompt,User Prompt与视频SRT字幕,根据对指令的理解截取字幕中的对应片段。例如,我们可以让大模型完成这样的功能:
  1. 裁剪出视频中的精彩片段;
  2. 裁剪出视频中与“美食”相关的片段;
  3. 裁剪出视频中使用了比喻与排比修辞手法的片段;
以上功能只需要在prompt中输入,借助大模型的理解能力,帮助用户提高视频剪辑的效率。更多的prompt的配置与使用方法也欢迎大家在讨论区交流:)
下一步,点击LLM智能裁剪,FunClip会匹配LLM输出结果中的时间戳部分,对原始的视频进行裁剪。这个过程中同样支持为视频自动添加字幕,以及对字幕进行个性化配置。
FunClip基于LLM智能剪辑的使用方法

联系我们

欢迎对模型开源和应用感兴趣的研究人员和开发人员加入FunASR开源社区交流群,共同探讨精进!













👇点击阅读原文,快来体验剪辑的快乐!

阿里语音AI
阿里巴巴通义实验室语音团队,基于多模态大模型语音识别、语音合成、自然语言理解等 AI 技术,实现“能听、会说、懂你”式的智能人机交互体验。