
微软发布首批自研AI模型,解锁配音新技能

前两天,微软人工智能部门发布了首批自主研发的人工智能模型,包括 MAI-Voice-1 语音模型和 MAI-1-preview通用模型。
据介绍,全新 MAI-Voice-1 语音模型仅需单块 GPU 即可在不到一秒的时间内生成一分钟的音频,而 MAI-1-preview 则“展现了 Copilot 未来产品的雏形”。
目前,微软已将 MAI-Voice-1 应用于多项功能中。
例如,在“Copilot Daily”功能里,AI 主持人会通过该模型播报当日热点新闻;同时,它还能生成播客风格的对话内容,帮助用户理解各类话题。
同时,普通用户可在 Copilot Labs 平台亲自体验 MAI-Voice-1:不仅能输入希望 AI 表达的内容,还可自定义语音音色与说话风格。
此外,微软在 Copilot Labs 推出全新 AI 语音生成工具 Copilot Audio Expressions,可通过 Emotive 和 Story 两种模式生成更具情感的英文语音。
据了解,Copilot Audio Expressions 是一款 AI 语音生成工具,功能是让输出的音频更接近真人,并可根据需求加入创意润色。
用户无需注册即可直接体验,并可下载 MP3 格式音频,方便在任何设备播放。
有媒体在测试 Emotive 模式后,选用“Oak”音色和“narration”叙述风格,将模拟火车站的脚本输入系统。
生成的音频不仅朗读了文字,还自动增添细节、调整措辞,让表达更生动。单段音频最长 59 秒,支持十余种声音与风格组合。
而在 Story 模式下,系统自动选择音色和风格,用户仅需提供主题提示。
测试结果表明,Story 模式在情节构建、角色区分及声音融合度方面表现出色,输出的成品不像单调的机器朗读,更像是一次配音合作,让该工具不仅适用于简单朗诵,也可胜任有多角色的创意作品制作。
除这款语音模型外,微软此次同步推出的 MAI-1-preview 模型,训练过程动用了约 1.5 万块英伟达 H100 GPU。
该模型专为特定需求用户设计,具备遵循指令的能力,可“为日常咨询提供实用回应”。
据悉,微软 AI 计划将 MAI-1-preview 模型应用于 Copilot 助手的特定文本使用场景(目前 Copilot 主要依赖 OpenAI 的大型语言模型)。同时,该模型已开始在 AI 基准测试平台 LMArena 上进行公开测试。
微软表示,公司内部的人工智能模型并不专注于企业应用场景。
“我的逻辑是,我们必须创造出对消费者极其有效的东西,并真正针对我们的用例进行优化。因此,我们在广告、消费者行为数据等方面拥有大量极具预测性和实用性的数据。我的重点是构建真正适合陪伴消费者的模型。”