Qwen2.5-Omni-开源项目-王牌分享导航-程序员必备，一站式技术学习与交流平台

开源项目

Qwen2.5-Omni

链接直达手机查看

阿里推出的Qwen系列旗舰多模态模型，能够一站式处理文本、图像、音频、视频等多种输入，并实时生成文本和自然语音响应。提出创新的Thinker-Talker架构和TMRoPE（时间对齐多模态RoPE）位置嵌入，同步处理视频与音频输入；在多模态任务中表现卓越，例如在OmniBench任务中，性能超越多个开源和闭源模型，平均准确率高达56.13%；在语音生成方面表现自然且鲁棒性强，例如在Seed-tts-eval主观自然度评估中表现优异

相关导航