小米開源聲音理解大模型MiDashengLM-7B
小米(01810)發布和全量開源聲音理解大模型MiDashengLM-7B。
據介紹,MiDashengLM-7B聲音理解性能在22個公開評測集上,刷新多模態大模型最好成績(SOTA),單樣本推理的首Token延遲(TTFT)僅為業界先進模型的四分一,同等顯存下的數據吞吐效率是業界先進模型的20倍以上。
在目前版本的基礎上,小米已着手對MiDashengLM模型做計算效率的進一步升級,尋求終端設備上可離線部署,並完善基於用戶自然語言提示的聲音編輯等更全面的功能。
