
其实很久之前就有这个念头了,在漫长的网上冲浪过程中,我们难免会下载到一些冷门纪录片或者什么教学视频之类的,要么找不到字幕,要么找到的是一堆跑马灯广告的低质量机翻字幕,于是基本无法看懂剧情,只能欣赏一下画面,难免有所遗憾。
最近这两年,AI越来越发达,要字幕也不是非得等字幕组出手不可,我们是不是可以用AI来解决这个问题呢?
我试着找了一下相关工具,首先排除了那些云端大模型的工具,因为比如我的资源比较特别,不能用那些在云端跑的模型来翻译,或者比较私密的资源不太适合用云端模型来处理。这些类似的情况并非不存在,所以我放弃了云端大模型相关的工具。
另外,是一些本地的字幕制作软件,我发现太专业了,特别复杂的各种设置,各种参数,各种调试项目,对于我只是想看个片来说,还是门槛太高了。
那么,就还有最后一条路子了,现在 AI 模型都卷成这样了,自己撸起袖子VibeCoding实践一把,撸一个除了下载模型需要联网,其他整个字幕生成工作流程都在纯本地的工具吧。
于是前阵子稍微有了点空余时间,就开始折腾这个 LocalSub(本地字幕君)。本来以为就是把几个开源模型拼一拼的事儿,结果不出意外的,就开始出意外了。
看起来虽然也不难,但实际确实一点也不轻松
最开始我是想直接用现成的库,结果发现显存根本不够用。现在的 LLM 动不动就几十 G,我这笔记本 8G 显存简直就是“贫民窟配置”,而且还有一堆环境配置问题。
首先是 CUDA 环境,这玩意儿简直是玄学。CUDA Error、DLL not found、Illegal Instruction... 这些报错我大概见了几百次。为了适配最新的显卡架构,我不得不把底层的 llama-cpp-python 库重新编译、调试,甚至要把不同版本的依赖库一个个塞进包里。
好在,经过几十个晚上的折腾,终于搞定了,于是赶紧1.0版本安排,兴高采烈的想着功能完全跑通了,几乎就等着发布上线了。
结果拿了几个不同资源一跑,发现出来的字幕压根看不懂,全是什么“这是最好的地段“”,“当前位置-首页”之类的无意义内容,真跟剧情相关的不到10%,于是开始研究为什么会出现这些,逐一排查语音的识别切片,翻译模型的能力边界等,发现一个问题,优化一个问题,不断寻找更优方案,这里不得不提到我的一个好朋友老王,他在我折腾过程中,给出了两个极具参考价值的开源项目(主要优化方向恰好都是面向日语资源的),被我集成到了本地字幕君软件中,所以目前这个软件在处理日语资源方面能力比其他语言的稍强一些。
经过不断的参考学习,试错修改,语音识别模型从Whisper的Small到Large V3,再到Large V3 Turbo最终用上了老王推荐的Kotoba-Whisper和海南鸡v2等模型,翻译模型从Helsinki到NLLB,最终用上了基于Qwen3-8B模型的SakuraLLM(玩大模型的大佬们应该知道Sakura 在日文翻译,尤其是二次元、轻小说风格这块,那就是神一般的存在,它懂梗,甚至懂语气,比机翻那种生硬的感觉强太多了),终于得到了一个还算能用的本地字幕君2.0
效果展示










LocalSub 2.0 是什么?
简单说,它就是一个纯离线、不联网、利用你自己显卡把视频里的语音转成双语字幕的工具。
它具有以下特点:
1.纯本地,除了下载模型需要联网,整个处理视频生成字幕的过程都在本地完成,隐私能够得到最大限度的保障,不管资源多稀有,都可以放心使用。
2.易上手,这不像那些专业的字幕工具,我们的要求也不是用于专业的字幕制作,我们需要的只是一个可以帮助我们看懂资源内容的字幕。所以只需要3步操作(选择要生成字幕的资源--选择要用的模型--点击生成字幕),然后字幕君会搞定一切,普通人上手没有任何门槛。
3.可生成双语字幕,我们看字幕很多时候也是为了学习一门外语,要学习就不能只看单语字幕,那是在练听译了。所以除了集成的海南鸡v2模型是音频输入直接输出中文无法提供原语言的双语字幕外,其他模型均支持双语字幕生成。
4.支持批量任务,在1.0实现功能的时候,我自己平时是下一部看一部,结果给老王试用,他掏出了几个T的资源,问我应该如何应对?守着一部一部的转?明显不科学,所以后面直接实现了支持多文件,晚上睡觉前添加好,开始生成后去睡觉就醒了,睡醒全部生成完,这个体验就好多了。
5.支持多种视频格式,得益于ffmpeg,几乎支持所有视频格式,可以满足日常的需求。
6.纯绿色版,如果需要配置各种环境就很烦了,所以程序直接打包成了一个压缩包。 不需要安装,不需要配环境,解压即用。
7.集合优质模型:这方面主要是老王给我提供了帮助,特别是日语资源,用了 Kotoba-Whisper v2.2,这应该是目前开源界日语识别的天花板了,再加上SakuraLLM的超强翻译能力,应对某些资源如虎添翼。另外还有海南鸡v2这种直出中文的专门优化模型,基本上相关的优质模型都被集成了。
食用方法
因为Python程序加上CUDA依赖打包出来体积都比较大了,所以我把程序和模型分开了。
- 下载程序包:
LocalSub_v2.0_Final.7z,这里面是程序主体和运行库(models文件夹里面没有模型)。 - 下载模型包:网络不太理想的朋友可以同时下载
Models.7z,这里面是我下载好的 VAD、Kotoba、Sakura-8B 等模型。如果您网络好,也可以不下载,只要有主程序包了,它就可以运行了,会自动下载,只是模型体积较大,时间可能会比较长。 - 合体:把主程序包带的models文件夹删掉,然后把模型包解压出来的
models文件夹,直接丢进程序根目录。(网络好没下载模型包的朋友可以忽略这个步骤) - 开搞:双击
LocalSub.exe,选择要生成字幕的资源,然后软件中可以选择音频识别模型和翻译模型,如果选择的模型在本地并不存在,它就会自己下载(这也是本软件唯一需要联网的地方,就是自动下载模型到本地),此时就需要根据网络情况等待较长时间,只要下载了一次,本地有了,后面再用该模型就不会重复下载了。 - 点“开始生成”。
然后你就可以去泡杯茶,或者刷会儿手机。等你回来,那个 srt 字幕文件就已经静静地躺在视频旁边了。
碎碎念
做这个工具,初衷纯粹是为了满足我自己的观影需求。发出来也是想着也许能帮到和我有一样痛点的朋友。
- 关于配置:推荐有 NVIDIA 独立显卡(6G 显存以上)的机器使用。如果是核显,虽然也能跑(会自动降级到 CPU),但那个速度比较慢了。
- 关于用途:大家拿去学习外语资料、看生肉美剧日剧都行。但请低调使用,切勿用于处理非法违规内容,咱们也就是为了看懂剧情,图个乐呵。
- 个人推荐搭配:英语用Whisper的Large V3 Turbo + NLLB,日语用 Kotoba-Whisper v2.2 + Sakura-8B,当然最终能跑起来的才是好搭配,所以最终选择还是得根据您的机器配置来。
如果这个小工具帮到了你,哪怕只是让你看懂了一部期待已久的片子,它的价值就实现了。
最后,我也要再次申明一下,除了下载模型会联网外,所有的视频处理,字幕生成均是各位用户大佬自己操作,自己用自己的电脑在纯本地跑出来的,请各位切勿用于处理非法违规内容!!!
下载地址:https://pan.baidu.com/s/1qrdWcUyuK73OFvkG6E0D5g
提取码:0210