美團(03690)技術團隊今日正式開源了其數字人視頻生成模型LongCat-Video-Avatar 1.5。該版本在唇形同步、物理合理性、長視頻穩定性、多人互動及推理效率方面均實現了升級,旨在推動數字人視頻生成從「高擬真」走向「真可用」的商業化場景。該版本在1.0版本的基礎上完成全面升級,定位從「開源SOTA」走向「商業級應用」。
據介紹,這一版本在基礎體驗上進行了強化,能夠應對長句、快語速、歌唱等複雜語音輸入,使唇部運動更精準平滑,同時面部表情、頭部姿態與肢體動作也更為協調。
在場景支持方面,借助高質量數據體系,模型可穩定處理真人、動漫、動物等多種主體,並在多人對話場景中自然區分說話者與聆聽者。
推理部署方面,LongCat-Video-Avatar 1.5採用DMD蒸餾技術,將生成步數從50步壓縮至8步,推理效率提升約15倍,生成一段10秒視頻僅需約1分鐘。
《經濟通通訊社22日專訊》
【說說心理話】潛意識治療師分享用催眠自我療癒經歷:由被確定骨枯到坐輪椅,最後更跑了馬拉松!► 即睇


































