OpenAI在昨晚展示了其首个文本到视频生成的AI模型——Sora。这款模型具备将简单文本提示或图像转化为长达一分钟高清视频的能力,并拥有“延伸”或向现有视频中插入帧的功能。尽管Sora尚未确定是否将作为产品推向市场,但其在视频生成领域的表现已引起广泛关注。
与其他生成性视频模型相比,Sora的表现尤为出色。谷歌和Meta的模型往往分辨率较低、画面不连贯,而Sora则能生成1080p分辨率、流畅帧率的视频,其质量有时甚至难以与真实视频区分。OpenAI官方网站上展示了Sora的早期输出示例,从中可以看出该模型在理解人体比例、光影效果以及创意摄影手法方面表现出色。此外,Sora还能绘制逼真的动物形象,并模仿老式电影的瑕疵效果。
然而,Sora的输出并非完美。仔细观察可发现一些人工智能图像生成的特点,如主题对象的失重感等。OpenAI也承认Sora的表现时好时坏,并提供了一些不佳的AI输出示例。尽管如此,Sora仍具有深入的语言理解能力,能在输出内容中生动表达情感。与ChatGPT的图像生成功能相似,Sora并不需要复杂的提示语句,一些实例仅基于开放性的单句提示即可生成。
遗憾的是,OpenAI尚未展示Sora的图像转视频功能。我们同样对Sora的视频扩展和帧插入特性充满好奇。如果这些功能有效,Sora或许将成为视频编辑或修复的有力工具。关于Sora训练数据的具体信息,OpenAI透露使用了大约1万小时的“高质量”视频资料。
在Sora成为真正可用的产品之前,OpenAI仍需克服一些挑战。他们正在与政策制定者、教育工作者和艺术家进行咨询,以了解公众关注的问题。同时,OpenAI还与专家合作,评估Sora潜在的误导信息、仇恨内容及偏见风险。一旦OpenAI决定公开发布Sora,AI生成的所有视频内容将附带C2PA元数据,以便于识别。
0条评论