网站建设玖金手指排名13,东莞网站公司推广技巧,电商系统平台开发的主要技术,什么叫网站域名一、背景
最近想提取一些视频的字幕#xff0c;语音文案#xff0c;研究了一波
二、whisper语音识别
Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练#xff0c;也是一个多任务模型#xff0c;可以执行多语言语音识别以及语音翻译和语言识别。 …一、背景
最近想提取一些视频的字幕语音文案研究了一波
二、whisper语音识别
Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练也是一个多任务模型可以执行多语言语音识别以及语音翻译和语言识别。 stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代码发布生成更准确的阶段时间切换并在无须额外推介的情况下获得申领
安装pip install openai-whisper pip install stable-ts SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speedtiny39 Mtiny.entiny~1 GB~32xbase74 Mbase.enbase~1 GB~16xsmall244 Msmall.ensmall~2 GB~6xmedium769 Mmedium.enmedium~5 GB~2xlarge1550 MN/Alarge~10 GB1x
三、示例
模型越大越精确相应话费的时间越长 自带语言识别功能language最好加上下面歌曲识别为英语加后为中文 stable_whisper 是 whisper 进化版
import whisper
import stable_whisper as whisperclass WhisperTranscriber(object):def __init__(self, model_name):self.model whisper.load_model(model_name)def whisper_transcribe(self, audio_path):audio self.model.transcribe(audio_path, fp16False, languageChinese)return audio[text]if __name__ __main__:transcriber WhisperTranscriber(base)text transcriber.whisper_transcribe(257853511.mp3)print(text)可能是伴奏声音过大你才出来这是什么歌了吗stable_whisper 别的用法、生成字幕
import stable_whisper
model stable_whisper.load_model(base)
results model.transcribe(257853511.mp3, fp16False, languageChinese)
stable_whisper.results_to_sentence_srt(results, audio)
stable_whisper.results_to_sentence_word_ass(results, audio.ass)四、封装工具
buzz https://github.com/chidiwilliams/buzz
如果遇到简繁转换可以石下面
pip install zhconvzh-cn 大陆简体
zh-hant 繁體from zhconv import convert
convert(Python是一种动态的、面向对象的脚本语言, zh-hant)
Python是一種動態的、面向對象的腳本語言