本文作者:访客

微软发布首批自研AI模型,解锁配音新技能

访客 2025-09-01 13:02:44 41049
微软发布首批自研AI模型,解锁配音新技能摘要: 前两天,微软人工智能部门发布了首批自主研发的人工智能模型,包括 MAI-Voice-1 语音模型和 MAI-1-prev...

前两天,微软人工智能部门发布了首批自主研发的人工智能模型,包括 MAI-Voice-1 语音模型和 MAI-1-preview通用模型。

据介绍,全新 MAI-Voice-1 语音模型仅需单块 GPU 即可在不到一秒的时间内生成一分钟的音频,而 MAI-1-preview 则“展现了 Copilot 未来产品的雏形”。

微软发布首批自研AI模型,解锁配音新技能

目前,微软已将 MAI-Voice-1 应用于多项功能中。

例如,在“Copilot Daily”功能里,AI 主持人会通过该模型播报当日热点新闻;同时,它还能生成播客风格的对话内容,帮助用户理解各类话题。

微软发布首批自研AI模型,解锁配音新技能

同时,普通用户可在 Copilot Labs 平台亲自体验 MAI-Voice-1:不仅能输入希望 AI 表达的内容,还可自定义语音音色与说话风格。

微软发布首批自研AI模型,解锁配音新技能

此外,微软在 Copilot Labs 推出全新 AI 语音生成工具 Copilot Audio Expressions,可通过 Emotive 和 Story 两种模式生成更具情感的英文语音。

微软发布首批自研AI模型,解锁配音新技能

据了解,Copilot Audio Expressions 是一款 AI 语音生成工具,功能是让输出的音频更接近真人,并可根据需求加入创意润色。

用户无需注册即可直接体验,并可下载 MP3 格式音频,方便在任何设备播放。

微软发布首批自研AI模型,解锁配音新技能

有媒体在测试 Emotive 模式后,选用“Oak”音色和“narration”叙述风格,将模拟火车站的脚本输入系统。

生成的音频不仅朗读了文字,还自动增添细节、调整措辞,让表达更生动。单段音频最长 59 秒,支持十余种声音与风格组合。

微软发布首批自研AI模型,解锁配音新技能

而在 Story 模式下,系统自动选择音色和风格,用户仅需提供主题提示。

测试结果表明,Story 模式在情节构建、角色区分及声音融合度方面表现出色,输出的成品不像单调的机器朗读,更像是一次配音合作,让该工具不仅适用于简单朗诵,也可胜任有多角色的创意作品制作。

微软发布首批自研AI模型,解锁配音新技能

除这款语音模型外,微软此次同步推出的 MAI-1-preview 模型,训练过程动用了约 1.5 万块英伟达 H100 GPU。

该模型专为特定需求用户设计,具备遵循指令的能力,可“为日常咨询提供实用回应”。

微软发布首批自研AI模型,解锁配音新技能

据悉,微软 AI 计划将 MAI-1-preview 模型应用于 Copilot 助手的特定文本使用场景(目前 Copilot 主要依赖 OpenAI 的大型语言模型)。同时,该模型已开始在 AI 基准测试平台 LMArena 上进行公开测试。

微软发布首批自研AI模型,解锁配音新技能

微软表示,公司内部的人工智能模型并不专注于企业应用场景。

“我的逻辑是,我们必须创造出对消费者极其有效的东西,并真正针对我们的用例进行优化。因此,我们在广告、消费者行为数据等方面拥有大量极具预测性和实用性的数据。我的重点是构建真正适合陪伴消费者的模型。”

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享