小米开源声音理解大模型MiDashengLM-7B!人车家全生态战略关键技术组件
快科技8月4日消息,小米正式发布并开源声音理解大模型MiDashengLM-7B,该模型是小米“人车家全生态”战略的关键技术组件。
MiDashengLM通过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。
基于MiDashengLM的模型通过自然语言和用户交互,为用户提更人性化的沟通和反馈,比如在用户练习唱歌或练习外语时提供发音反馈并制定针对性提升方案,又比如在用户驾驶车辆时实时对用户关于环境声音的提问做出解答,其应用场景有广阔的空间。
结合高效的推理部署性能,MiDashengLM将广泛赋能智能座舱、智能家居等场景,推动多模态交互体验升级。
基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B Thinker自回归解码器构建,通过通用音频描述训练策略,实现对语音、环境声音和音乐的统一理解。
训练数据100%来自公开数据集,涵盖五大类110万小时资源,以Apache License 2.0协议发布,支持学术和商业应用。
性能领先:在22个公开评测集上刷新多模态大模型更好成绩(SOTA),在音频描述、声音理解、音频问答任务中表现突出,同时具备可用的语音识别能力。其音频编码器Xiaomi Dasheng在X-ARES Benchmark多项关键任务,尤其是非语音类理解任务上显著优于Whisper。
推理效率高:单样本推理的首Token延迟(TTFT)仅为业界先进模型的1/4;同等显存下数据吞吐效率是业界先进模型的20倍以上,80GB GPU上处理30秒音频并生成100个token时,batch size可达512,而同类模型在batch size 16时即显存溢出。
训练范式革新:采用通用音频描述对齐范式,通过非单调全局语义映射,学习音频场景深层语义关联,避免传统ASR转录数据对齐的局限,数据利用率高,还能捕捉说话人情感、空间混响等关键声学特征。
17173全新怀旧频道已上线!推荐怀旧网游,重温老玩家故事。点此进入怀旧频道
标签: 情感分析是什么意思
相关文章
-
疯狂的交换 MBA智库详细阅读
曾刚表示,中国经济在全球化当中占比非常高,经济高度融入全球,金融也应高度融入全球,要和实体经济发展相匹配。中国要提升金融体系的竞争力,...
2025-08-25 11 情感分析是什么意思
-
乱申遗的韩国没想到中国成功当选主席国先治的就是韩国坏毛病详细阅读
大家都知道,这些年韩国没少把咱们中国的文化拿去申遗,什么端午、儒学书院、泡菜,甚至兵马俑、黄豆酱都想占为己有!...
2025-08-24 10 情感分析是什么意思
-
《定风波》演技排行榜女主遭垫底男主仅排第2第1毋庸置疑!详细阅读
人们在社交平台上对她的角色展开热议,一方面是对角色的批判,另一方面也是对传统女主角形象的反思。 很多人认为,童双...
2025-08-24 10 情感分析是什么意思
-
小米申请一种情感确定方法、装置、电子设备及存储介质专利能够更好的了解待进行情感分析对象的情感状态详细阅读
金融界2025年8月19日消息,国家知识产权局信息显示,北京小米移动软件有限公司申请一项名为“一种情感确定方法、装置、电子设备及存储介...
2025-08-21 11 情感分析是什么意思
-
二月是什么星座详细阅读
在十二星座中,每个星座都有其独特的特征、运势和可能遇到的问题,而二月出生的人,则以其特殊的特性、特点以及面临的挑战,在星座中占据了一席...
2025-08-09 11 情感分析是什么意思
-
7000元瓶!茅台超高端新品试水“一日一瓶” 上线即被疯抢!详细阅读
酒(五星商标上市70周年纪念)”(以下简称五星茅台纪念酒)在“i茅台”正式开售。虽然单瓶价格高达7000元,但却挡不住“茅粉”的抢购热...
2025-08-09 11 情感分析是什么意思

发表评论