哪家做网站好,wordpress主题圆角,全球品牌网,物流公司响应式网站建设一、引言
上一篇对[ChatTTS文本转语音模型]原理和实战进行了讲解#xff0c;第6次拿到了热榜第一#x1f3c6;。今天#xff0c;分享其对称功能#xff08;语音转文本#xff09;模型#xff1a;Whisper。Whisper由OpenAI研发并开源#xff0c;参数量最小…一、引言
上一篇对[ChatTTS文本转语音模型]原理和实战进行了讲解第6次拿到了热榜第一。今天分享其对称功能语音转文本模型Whisper。Whisper由OpenAI研发并开源参数量最小39M最大1550M支持包含中文在内的多种语言。由于其低资源成本、优质的生存效果被广泛应用于音乐识别、私信聊天、同声传译、人机交互等各种语音转文本场景且商业化后价格不菲。今天免费分享给大家不要再去花钱买语音识别服务啦
二、Whisper 模型原理
2.1 模型架构
Whisper是一个典型的transformer Encoder-Decoder结构针对语音和文本分别进行多任务Multitask处理。 2.2 语音处理 Whisper语音处理基于680000小时音频数据进行训练包含英文、其他语言转英文、非英文等多种语言。将音频数据转换成梅尔频谱图再经过两个卷积层后送入 Transformer 模型。 2.3 文本处理 Whisper文本处理文本token包含3类special tokens标记tokens、text tokens文本tokens、timestamp tokens时间戳基于标记tokens控制文本的开始和结束基于timestamp tokens让语音时间与文本对其。 仅用通俗易懂的语言描述了下Whisper的原理如果想更深入的了解请参考OpenAI官方Whisper论文。
三、Whisper 模型实战
3.1 环境安装
本文基于HuggingFace的transfomers库采用pipeline方式进行极简单的模型实用实战具体的pipeline以及其他transformers模型使用方式可以参考我之前的[文章]。
所以您仅需要安装transformers库。
pip install transformers当前语音经常会和视频等其他媒介联系起来所以我建议您顺带安装多媒体处理工具ffmpeg没有提供pip库仅能依靠apt-get安装。
sudo apt-get update apt-get install ffmpeg3.2 模型下载
基于pipeline会自动进行模型下载当然如果您的网速不行请替换HF_ENDPOINT为国内镜像。
os.environ[HF_ENDPOINT] https://hf-mirror.comtranscriber pipeline(taskautomatic-speech-recognition, modelopenai/whisper-medium)不同尺寸模型参数量、多语言支持情况、需要现存大小以及推理速度如下 3.3 模型推理
推理函数仅需2行非常简单基于pipeline实例化1个模型对象将要转换的音频文件传至模型对象中即可
def speech2text(speech_file):transcriber pipeline(taskautomatic-speech-recognition, modelopenai/whisper-medium)text_dict transcriber(speech_file)return text_dict3.4 完整代码
运行完整代码
python run_whisper.py -a output_video_enhanced.mp3 完整代码如下
import os
os.environ[HF_ENDPOINT] https://hf-mirror.com
os.environ[CUDA_VISIBLE_DEVICES] 2
os.environ[TF_ENABLE_ONEDNN_OPTS] 0from transformers import pipeline
import subprocessdef speech2text(speech_file):transcriber pipeline(taskautomatic-speech-recognition, modelopenai/whisper-medium)text_dict transcriber(speech_file)return text_dictimport argparse
import json
def main():parser argparse.ArgumentParser(description语音转文本)parser.add_argument(--audio,-a, typestr, help输出音频文件路径)args parser.parse_args()print(args) text_dict speech2text(args.audio)#print(视频内的文本是\n text_dict[text])print(视频内的文本是\n json.dumps(text_dict,indent4))if __name____main__:main()这里采用argparse处理命令行参数将mp3音频文件输入后经过speech2text语音转文本函数处理返回对应的文本结果如下 3.5 模型部署
如果想将该服务部署成语音识别API服务可以参考之前的FastAPI相关文章。
四、总结
本文是上一篇chatTTS文章的夫妻篇既然教了大家如何将文本转语音就一定要教大家如何将语音转成文本这样技术体系才完整。首先简要概述了Whisper的模型原理然后基于transformers的pipeline库2行代码实现了Whisper模型推理希望可以帮助到大家。码字不易如果喜欢期待您的关注3连投票。
如何学习AI大模型
我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。 第一阶段 从大模型系统设计入手讲解大模型的主要方法
第二阶段 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用
第三阶段 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统
第四阶段 大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统
第五阶段 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型
第六阶段 以SD多模态大模型为主搭建了文生图小程序案例
第七阶段 以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。 学会后的收获 • 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力
• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求
• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握
• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。 1.AI大模型学习路线图 2.100套AI大模型商业化落地方案 3.100集大模型视频教程 4.200本大模型PDF书籍 5.LLM面试题合集 6.AI产品经理资源合集 获取方式 有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】