EMOVA

优惠 多模态大语言模型EMOVA:使大语言模型具备端到端的语音能力,同时保持领先的视觉-语言性能。

  • 多模态大语言模型EMOVA:使大语言模型具备端到端的语音能力,同时保持领先的视觉-语言性能。
    AI
  • 香港科技大学、香港大学,、华为诺亚方舟实验室、香港中文大学、中山大学和南方科技大学的研究人员推出多模态大语言模型EMOVA,使大语言模型具备端到端的语音能力,同时保持领先的视觉-语言性能。通过一个语义-声学解耦的语音标记器,研究团队发现全模态对齐可以进一步增强视觉-语言和语音能力,相比于双模态对齐。此外,我们提出了一个... 阅读全文