男同 阿里深宵炸场!通义千问发布新一代端到端旗舰模子Qwen2.5-Omni

你的位置:金先生 偷拍 > 橘梨纱第六部 > 男同 阿里深宵炸场!通义千问发布新一代端到端旗舰模子Qwen2.5-Omni
男同 阿里深宵炸场!通义千问发布新一代端到端旗舰模子Qwen2.5-Omni
发布日期:2025-03-27 12:27    点击次数:145

男同 阿里深宵炸场!通义千问发布新一代端到端旗舰模子Qwen2.5-Omni

K图 09988_0]

K图 BABA_0

  北京时候周四凌晨,阿里巴巴发布通义千问系列的最新旗舰模子Qwen2.5-Omni。这款端到端多模态模子专为无为的多模态感知筹画,粗略科罚文本、图像、音频和视频等多种输入,同期粗略通过生成文本和合谚语音提供及时流式反馈。

  据“通义千问Qwen”官方微信号先容,这款模子的主要特色如下:

  万能变嫌架构:Qwen团队提倡了一种全新的Thinker-Talker架构,这是一种端到端的多模态模子,旨在支撑文本/图像/音频/视频的跨模态显露,同期以流式面容生成文本和当然语音反馈。Qwen提倡了一种新的位置编码技巧,称为TMRoPE(Time-aligned Multimodal RoPE),通过期候轴对都吊销视频与音频输入的精确同步。

黑丝足交

  及时音视频交互:架构旨在支撑十足及时交互,支撑分块输入和即时输出。

  当然流通的语音生成:在语音生成的当然性和壮健性方面高出了很多现存的流式和非流式替代决策。

  全模态性能上风:在同等范围的单模态模子进行基准测试时,进展出不凡的性能。Qwen2.5-Omni在音频才气上优于访佛大小的Qwen2-Audio,并与Qwen2.5-VL-7B保合手同等水平。

  不凡的端到端语音教导随从才气:Qwen2.5-Omni在端到端语音教导随从方面进展出与文本输入科罚相比好意思的后果,在MMLU通用学问显露和GSM8K数学推理等基准测试中进展优异。

  模子性能方面,Qwen2.5-Omni在包括图像,音频,音视频等多样模态下的进展都优于访佛大小的单模态模子以及闭塞源模子,举例Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

  在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的进展。此外,在单模态任务中,Qwen2.5-Omni在多个鸿沟中进展优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频显露(MMAU)、图像推理(MMMU、MMStar)、视频显露(MVBench)以及语音生成(Seed-tts-eval和主不雅当然听感)。

image

  该模子现已在 Hugging Face、ModelScope、DashScope 和 GitHub上开源灵通。