基本条件
- 独显
- Whisper 本体:下载
WhisperDesktop.zip
- ggml 语音模型:模型有大小之分,模型越大,占用的硬盘和内存就越多。中等的是 1.5 GB 硬盘,2.6 GB 内存的占用,更多的信息可以看 Available models 表格
用法
- 解压
WhisperDesktop.zip
; - 将下载好的模型文件放到你觉得合适的路径;
- 启动
WhisperDesktop.exe
; - 在 Whisper 中指定模型的加载路径:
- 然后在「Advanced…」(高级)中配置显卡设定:
- 「OK」进入下一步;
- 「Language」选择「Chinese」,并去掉「Translate」的勾选,而后,指定待转换文件的路径,在「Output Format」中选择是需要纯文本还是字幕或别的什么类型的文件,输出路径可以选择和输入文件相同(勾选「Place that file to the input folder」),也可以任意指定,一切都设置好以后,点击「Transcribe」:
- 然后它就会调用显卡开始劳动:
- 完成!
- 查看结果:
这个结果有点怪,因为这首歌完全是 ChiliChill 的原创,但是一大堆「刘亦凡」不知道是怎么转录出来的,也许是特定的旋律鼓点让我们的模型认为它像是「刘亦凡」罢。
总的来说准确率还是挺高的,有时候会出现莫名其妙的繁体结果,如果是这样,就丢到 Word 里做一下简繁转换即可。