一款基于大语言模型(LLM)的视频字幕处理助手,支持语音识别、字幕断句、优化、翻译全流程处理。
卡卡字幕助手(VideoCaptioner)操作简单且无需高配置,支持网络调用和本地离线(支持调用GPU)两种方式进行语音识别,利用可用通过大语言模型进行字幕智能断句、校正、翻译,字幕视频全流程一键处理!为视频配上效果惊艳的字幕。
最新版本已经支持 VAD 、 人声分离、 字级时间戳 等实用功能
🎯 无需GPU即可使用强大的语音识别引擎,生成精准字幕
✂️ 基于 LLM 的智能分割与断句,字幕阅读更自然流畅
🔄 AI字幕多线程优化与翻译,调整字幕格式、表达更地道专业
🎬 支持批量视频字幕合成,提升处理效率
📝 直观的字幕编辑查看界面,支持实时预览和快捷编辑
🤖 消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用
主要功能
支持国内外主流视频平台(B站、Youtube等)
自动提取视频原有字幕处理
提供多种接口在线识别,效果媲美剪映(免费、高速)
支持本地Whisper模型(保护隐私、可离线)
自动优化专业术语、代码片段和数学公式格式
上下文进行断句优化,提升阅读体验
支持文稿提示,使用原有文稿或者相关提示优化字幕断句
结合上下文的智能翻译,确保译文兼顾全文
通过Prompt指导大模型反思翻译,提升翻译质量
使用序列模糊匹配算法、保证时间轴完全一致
丰富的字幕样式模板(科普风、新闻风、番剧风等等)
多种格式字幕视频(SRT、ASS、VTT、TXT)
接口名称 | 支持语言 | 运行方式 | 说明 |
---|---|---|---|
B接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
J接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
WhisperCpp | 中文、日语、韩语、英文等 99 种语言,外语效果较好 | 本地 | 需要下载转录模型 中文建议medium以上模型 英文等使用较小模型即可达到不错效果。 |
fasterWhisper | 中文、英文等多99种语言,外语效果优秀,时间轴更准确 | 本地 | 需要下载程序和转录模型 支持CUDA,速度更快,转录准确。 建议优先使用 |
项目地址:GitHub - WEIFENG2333/VideoCaptioner