清华大学、无问芯穹、斯坦福大学和上海交通大学的研究人员推出MoA(Mixture of Sparse Attention),它是一种用于自动压缩大语言模型(LLMs)的新方法。MoA的核心思想是通过稀疏注意力机制来减轻大型语言模型在处理长文本时对内存和吞吐量的高需求。以往的稀疏注意力方法通常采用统一的模式,对所有注意力... 阅读全文
Together AI推出一种名为“Mixture-of-Agents”(MoA,即代理混合)的新颖方法,它通过结合多个大语言模型(LLMs)的集体智慧来增强单个模型的能力。例如,如果有多个专家在团队中,每个专家都有自己擅长的领域,通过合作,他们可以共同解决更复杂的问题。MoA的原理与此类似,它通过让不同的LLMs在多... 阅读全文