VibeCoding实践-本地字幕君

其实很久之前就有这个念头了，在漫长的网上冲浪过程中，我们难免会下载到一些冷门纪录片或者什么教学视频之类的，要么找不到字幕，要么找到的是一堆跑马灯广告的低质量机翻字幕，于是基本无法看懂剧情，只能欣赏一下画面，难免有所遗憾。

最近这两年，AI越来越发达，要字幕也不是非得等字幕组出手不可，我们是不是可以用AI来解决这个问题呢？

我试着找了一下相关工具，首先排除了那些云端大模型的工具，因为比如我的资源比较特别，不能用那些在云端跑的模型来翻译，或者比较私密的资源不太适合用云端模型来处理。这些类似的情况并非不存在，所以我放弃了云端大模型相关的工具。

另外，是一些本地的字幕制作软件，我发现太专业了，特别复杂的各种设置，各种参数，各种调试项目，对于我只是想看个片来说，还是门槛太高了。

那么，就还有最后一条路子了，现在 AI 模型都卷成这样了，自己撸起袖子VibeCoding实践一把，撸一个除了下载模型需要联网，其他整个字幕生成工作流程都在纯本地的工具吧。

于是前阵子稍微有了点空余时间，就开始折腾这个 LocalSub（本地字幕君）。本来以为就是把几个开源模型拼一拼的事儿，结果不出意外的，就开始出意外了。

看起来虽然也不难，但实际确实一点也不轻松

最开始我是想直接用现成的库，结果发现显存根本不够用。现在的 LLM 动不动就几十 G，我这笔记本 8G 显存简直就是“贫民窟配置”，而且还有一堆环境配置问题。

首先是 CUDA 环境，这玩意儿简直是玄学。CUDA Error、DLL not found、Illegal Instruction... 这些报错我大概见了几百次。为了适配最新的显卡架构，我不得不把底层的 llama-cpp-python 库重新编译、调试，甚至要把不同版本的依赖库一个个塞进包里。

好在，经过几十个晚上的折腾，终于搞定了，于是赶紧1.0版本安排，兴高采烈的想着功能完全跑通了，几乎就等着发布上线了。

结果拿了几个不同资源一跑，发现出来的字幕压根看不懂，全是什么“这是最好的地段“”，“当前位置-首页”之类的无意义内容，真跟剧情相关的不到10%，于是开始研究为什么会出现这些，逐一排查语音的识别切片，翻译模型的能力边界等，发现一个问题，优化一个问题，不断寻找更优方案，这里不得不提到我的一个好朋友老王，他在我折腾过程中，给出了两个极具参考价值的开源项目（主要优化方向恰好都是面向日语资源的），被我集成到了本地字幕君软件中，所以目前这个软件在处理日语资源方面能力比其他语言的稍强一些。

经过不断的参考学习，试错修改，语音识别模型从Whisper的Small到Large V3，再到Large V3 Turbo最终用上了老王推荐的Kotoba-Whisper和海南鸡v2等模型，翻译模型从Helsinki到NLLB，最终用上了基于Qwen3-8B模型的SakuraLLM（玩大模型的大佬们应该知道Sakura 在日文翻译，尤其是二次元、轻小说风格这块，那就是神一般的存在，它懂梗，甚至懂语气，比机翻那种生硬的感觉强太多了），终于得到了一个还算能用的本地字幕君2.0

效果展示

LocalSub 2.0 是什么？

简单说，它就是一个纯离线、不联网、利用你自己显卡把视频里的语音转成双语字幕的工具。

它具有以下特点：

1.纯本地，除了下载模型需要联网，整个处理视频生成字幕的过程都在本地完成，隐私能够得到最大限度的保障，不管资源多稀有，都可以放心使用。

2.易上手，这不像那些专业的字幕工具，我们的要求也不是用于专业的字幕制作，我们需要的只是一个可以帮助我们看懂资源内容的字幕。所以只需要3步操作（选择要生成字幕的资源--选择要用的模型--点击生成字幕），然后字幕君会搞定一切，普通人上手没有任何门槛。

3.可生成双语字幕，我们看字幕很多时候也是为了学习一门外语，要学习就不能只看单语字幕，那是在练听译了。所以除了集成的海南鸡v2模型是音频输入直接输出中文无法提供原语言的双语字幕外，其他模型均支持双语字幕生成。

4.支持批量任务，在1.0实现功能的时候，我自己平时是下一部看一部，结果给老王试用，他掏出了几个T的资源，问我应该如何应对？守着一部一部的转？明显不科学，所以后面直接实现了支持多文件，晚上睡觉前添加好，开始生成后去睡觉就醒了，睡醒全部生成完，这个体验就好多了。

5.支持多种视频格式，得益于ffmpeg，几乎支持所有视频格式，可以满足日常的需求。

6.纯绿色版，如果需要配置各种环境就很烦了，所以程序直接打包成了一个压缩包。 不需要安装，不需要配环境，解压即用。

7.集合优质模型：这方面主要是老王给我提供了帮助，特别是日语资源，用了 Kotoba-Whisper v2.2，这应该是目前开源界日语识别的天花板了，再加上SakuraLLM的超强翻译能力，应对某些资源如虎添翼。另外还有海南鸡v2这种直出中文的专门优化模型，基本上相关的优质模型都被集成了。

食用方法

因为Python程序加上CUDA依赖打包出来体积都比较大了，所以我把程序和模型分开了。

下载程序包：LocalSub_v2.0_Final.7z，这里面是程序主体和运行库（models文件夹里面没有模型）。
下载模型包：网络不太理想的朋友可以同时下载Models.7z，这里面是我下载好的 VAD、Kotoba、Sakura-8B 等模型。如果您网络好，也可以不下载，只要有主程序包了，它就可以运行了，会自动下载，只是模型体积较大，时间可能会比较长。
合体：把主程序包带的models文件夹删掉，然后把模型包解压出来的 models 文件夹，直接丢进程序根目录。（网络好没下载模型包的朋友可以忽略这个步骤）
开搞：双击 LocalSub.exe，选择要生成字幕的资源，然后软件中可以选择音频识别模型和翻译模型，如果选择的模型在本地并不存在，它就会自己下载（这也是本软件唯一需要联网的地方，就是自动下载模型到本地），此时就需要根据网络情况等待较长时间，只要下载了一次，本地有了，后面再用该模型就不会重复下载了。
点“开始生成”。

然后你就可以去泡杯茶，或者刷会儿手机。等你回来，那个 srt 字幕文件就已经静静地躺在视频旁边了。

碎碎念

做这个工具，初衷纯粹是为了满足我自己的观影需求。发出来也是想着也许能帮到和我有一样痛点的朋友。

关于配置：推荐有 NVIDIA 独立显卡（6G 显存以上）的机器使用。如果是核显，虽然也能跑（会自动降级到 CPU），但那个速度比较慢了。
关于用途：大家拿去学习外语资料、看生肉美剧日剧都行。但请低调使用，切勿用于处理非法违规内容，咱们也就是为了看懂剧情，图个乐呵。
个人推荐搭配：英语用Whisper的Large V3 Turbo + NLLB，日语用 Kotoba-Whisper v2.2 + Sakura-8B，当然最终能跑起来的才是好搭配，所以最终选择还是得根据您的机器配置来。

如果这个小工具帮到了你，哪怕只是让你看懂了一部期待已久的片子，它的价值就实现了。

最后，我也要再次申明一下，除了下载模型会联网外，所有的视频处理，字幕生成均是各位用户大佬自己操作，自己用自己的电脑在纯本地跑出来的，请各位切勿用于处理非法违规内容！！！

下载地址：https://pan.baidu.com/s/1qrdWcUyuK73OFvkG6E0D5g
提取码：0210