您的位置:首页 > 教育 > 锐评 > 株洲百度推广地址_响应式布局bootstrap_郑州网站关键词排名_谷歌seo教程

株洲百度推广地址_响应式布局bootstrap_郑州网站关键词排名_谷歌seo教程

2025/5/13 3:32:20 来源:https://blog.csdn.net/qq_44193969/article/details/147197690  浏览:    关键词:株洲百度推广地址_响应式布局bootstrap_郑州网站关键词排名_谷歌seo教程
株洲百度推广地址_响应式布局bootstrap_郑州网站关键词排名_谷歌seo教程

Ultravox

一款为实时语音交互设计的快速多模态LLM

概述

Ultravox是一种新型的多模态LLM,能够理解文本和人类语音,无需单独的自动语音识别(ASR)阶段。基于AudioLM、SeamlessM4T、Gazelle、SpeechGPT等研究,Ultravox能够将任何开放权重LLM扩展为一个多模态投影器,直接将音频转换为LLM使用的高维空间。

ultravox官方仓库:https://github.com/fixie-ai/ultravox

ultravox-cn仓库:https://github.com/seanzhang-zhichen/ultravox-cn

由于官方版本模型对中文支持较差,因此,我们训练了基于Qwen2.5-7B-Instruct和whisper-large-v3-turbo的中文友好的语音多模态模型

架构

在这里插入图片描述

效果

在这里插入图片描述

模型

  • Huggingface下载地址:https://huggingface.co/zhichen/ultravox-cn
  • Modelscope下载地址:https://modelscope.cn/models/seanzhang/ultravox-cn

环境设置

安装just

git clone https://github.com/seanzhang-zhichen/ultravox-cn.git
cd ultravox-cn
sudo apt-get install just
conda create -n ultravox python=3.11
conda activate ultravox
just install

模型准备

运行demo前,需准备以下模型:

  • Qwen2.5-7B-Instruct
  • whisper-large-v3-turbo
  • seanzhang/ultravox-cn

以上模型准备好后,修改seanzhang/ultravox-cn/config.json中的audio_model_id为本地whisper-large-v3-turbo路径,text_model_id为本地Qwen2.5-7B-Instruct路径。

在这里插入图片描述

Web Demo

python ultravox/tools/gradio_demo.py --model_path seanzhang/ultravox-cn(或本地路径)   

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com