人工智能
优惠 阿里巴巴推出多模态大语言模型mPLUG-Owl3
4个月前 (08-16)AI
阿里巴巴推出多模态大语言模型mPLUG-Owl3,它在处理单图像、多图像和视频任务方面取得了显著的进展。例如,你向mPLUG-Owl3展示一系列图片,并询问其中的天气情况,模型可以分析这些图片并告诉你哪一张是雪天。或者,如果你展示一段视频,并要求模型按时间顺序描述视频中的事件,mPLUG-Owl3可以准确地按照视频中的... 阅读全文
优惠 OpenResearcher:利用人工智能(AI)技术来加速科学研究进程
标签:OpenResearcher
AI
4个月前 (08-16)AI
创新平台OpenResearcher,它利用人工智能(AI)技术来加速科学研究进程。想象一下,研究人员每天都在与成堆的学术论文打交道,试图跟上他们领域内的最新进展,这既耗时又费力。OpenResearcher就像一个智能助手,可以帮助研究人员快速找到他们需要的信息,节省时间,提高研究效率。例如,如果一个生物医学研究人员... 阅读全文
优惠 新型大语言模型LongWriter:能够生成超过10,000个词的超长文本
标签:LongWriter
AI
4个月前 (08-16)AI
清华大学和智谱AI的研究人员推出新型大语言模型LongWriter,它能够生成超过10,000个词的超长文本。这在人工智能领域是一个重要的突破,因为现有的大型语言模型虽然能够处理长达100,000个词的输入,但在生成文本时却难以超过2,000个词的限制。例如,你是一位历史学家,需要写一篇关于罗马帝国历史的深入分析文章。... 阅读全文
优惠 新型图像编辑工具MVInpainter:能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑
标签:MVInpainter
AI
4个月前 (08-16)AI
复旦大学、 阿里巴巴达摩院和湖畔实验室的研究人员推出新型图像编辑工具MVInpainter,它能够学习多视角下一致的图像修复技术,以连接二维(2D)图像编辑和三维(3D)场景编辑。简单来说,MVInpainter能够在多个视角的图像中,对缺失或需要编辑的部分进行智能填充和修复,使得编辑后的图像在不同视角下保持一致性。 ... 阅读全文
优惠 新型高保真度、高效率的波形生成模型PeriodWave-Turbo:通过对抗性流匹配优化来加速生成高质量的波形信号
4个月前 (08-16)AI
韩国亚洲大学的研究人员推出新型高保真度、高效率的波形生成模型PeriodWave-Turbo,它通过对抗性流匹配优化(Adversarial Flow Matching Optimization)来加速生成高质量的波形信号。想象一下,你想要制作一段音乐或者合成一段语音,但希望这个过程既快速又能够达到专业水准的音质。Pe... 阅读全文
优惠 深度求索推出开源语言模型DeepSeek-Prover-V1.5:专门为在Lean 4环境中进行定理证明而设计
4个月前 (08-16)AI
深度求索推出开源语言模型DeepSeek-Prover-V1.5,它专门为在Lean 4环境中进行定理证明而设计。Lean 4是一种用于数学和逻辑推理的正式证明助手。想象一下,你有一道非常复杂的数学证明题,需要一步步严格推导,DeepSeek-Prover-V1.5就像一个超级助手,可以帮助你更快更准确地完成这个过程。... 阅读全文
优惠 阿里通义千问开源语音交互大模型Qwen2-Audio 7B:自由互动,无需输入文本
标签:Qwen2-Audio 7B
AI
4个月前 (08-13)AI
阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。 作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式: 语音聊天:用户可以自由地与 Q... 阅读全文
优惠 sprite-decompose:一种快速从动画图形中分解精灵(sprites)的方法
4个月前 (08-10)AI
这篇论文的主题是关于一种快速从动画图形中分解精灵(sprites)的方法。精灵在这里指的是构成动画视频的基本元素或图层,比如在社交媒体帖子或广告中常见的动画元素。论文还构建了一个新的数据集Crello Animation,用于评估动画图形分解的质量,并定义了基准指标来衡量分解精灵的质量。实验表明,这种方法在质量和效率的... 阅读全文
优惠 大规模数据集和基准测试框架Openstory++:专注于实例感知的开放领域视觉叙事(Visual Storytelling)
标签:Openstory++
AI
4个月前 (08-10)AI
华南理工大学、西湖大学、OPPO美国研究中心、中国科学院自动化研究所基础模型研究中心和阿卜杜拉国王科技大学的研究人员推出大规模数据集和基准测试框架Openstory++,它专注于实例感知的开放领域视觉叙事(Visual Storytelling)。简单来说,Openstory++旨在训练和评估人工智能模型,使其能够根据... 阅读全文