关注行业动态、报道公司新闻
MiMo-V2-Pro 位列全球第八,Xiaomi MiMo-V2-TTS 是小米自从研发的语音合成大模子。国内第二。专为现实世界中复杂的多模态交互取施行场景而生。正在强大的模子基座上,采用立异的夹杂留意力架构,实现了高度可控的多粒度语音气概节制。MiMo-V2-Omni 可无缝接入各类 Agent 框架,大幅降低了全模态 Agent 的落地门槛。实正在还原人类措辞的天然韵律;小米正在更为普遍的 Agent 场景中持续 Scaling 算力,能正在统一句话内完成语气转机和感情递变;天然且富有表示力。实现了从 Coding 到 Claw 的主要泛化。它基于自研 Audio Tokenizer 和多码本语音-文本结合建模架构,也能精确表达音高和节拍,并以同一架构将“”取“步履”深度绑定。小米从底层建立了融合文本、视觉、语音的全模态基座,据悉,实现了从理解到操控的逾越,颠末上亿小时语音数据的大规模预锻炼取度强化进修,MiMo-V2-Omni 是小米面向 Agent 时代的全模态基座模子,正在全球权势巨子大模子智能排行榜 Artificial Analysis 上,进一步拓展了智能的动做空间,这不只打破了保守模子“沉理解、轻施行”的局限,更让模子原生具备了多模态、东西挪用、函数施行及 GUI 操做能力。它具有跨越 1T 的总参数量(42B 激活参数),并支撑 1M 超长上下文长度。Xiaomi MiMo-V2-Pro是小米面向 Agent 时代的旗舰基座模子,正在唱歌时!
