昨晚,OpenAI在“圣诞节攻势”的Day8发布搜索功能,其实10月份就已经正式发布了,本次更新是做了优化:更快,而且可以搜索出多模态信息,而且还可以在实时通话的时候语音搜索。此外,搜索功能开始向所有免费用户推出。
感觉,OpenAI又是敷衍了事的一天直播,感觉压轴的东西还要等等。
而对手公司谷歌却在昨晚带来了全新的视频生成模型Veo 2和改进版图像生成模型Imagen 3,而且全部都是Sota。
谷歌CEO劈柴还亲自在X平台宣传最新版的Veo 2和Imagen 3。
谷歌在2024谷歌I/O大会上正式推出视频生成模型Veo,Veo可以生成超过60s的高质量1080p视频。今天,谷歌发布了Veo的新版本Veo 2,Veo 2相比第一代Veo主要的提升有:
生成分辨率高达4K的视频,这个应该是目前所有商业视频模型没有的;
更好地理解现实世界的物理和人类的动作与表情,提升了生成视频的细节和整体的逼真度;
理解提示词中的相机控制,比如广角镜头,POV镜头和无人机镜头等等。
生成出现“幻觉”的情况较少,比如出现多余的手指或者意外的物体。
话不多说,直接上生成视频的例子:
而且,在Meta发布的基准数据集MovieGenBench(包含1003个提示词)上,人工评测结果显示,Veo 2在整体偏好和提示词遵循能力方面均超过目前的主流模型如可灵1.5,Minmax的海螺,Meta的Movie Gen以及OpenAI最新发布的Sora Turbo。所以,Veo 2应该是目前视频生成模型中的Sota了。
不过,Veo 2也不是没有缺陷。尽管Veo 2有了很大的进步,但能够创建逼真的、动态的或复杂的视频,并在复杂场景或运动中保持完全一致性,但这仍然是一个挑战。下面是几个不好的例子:
Prompt:The camera moves in a slow dolly shot, revealing the opulence of a Renaissance palace chamber adorned with gold-inlaid furniture, velvet drapes, and chandeliers casting soft, flickering light. A queen sits motionless at a gilded desk, her crimson silk gown cascading onto the floor like spilled blood. On the desk lies an unsigned letter, its edges curled with age. The camera frames her from behind, catching the reflection of her stoic face in a massive, ornate mirror. In the background, courtiers murmur, their silhouettes dancing like ghosts in the candlelight. The room feels heavy, every gilded detail amplifying an air of betrayal and paranoia. The color palette alternates between deep, regal reds and cold golds, with chiaroscuro lighting intensifying the drama. Shot on 70mm film for rich texture, evoking the grandeur of historical masterpie
Prompt:A tracking shot, with the subject centered in the frame, follows an ice skater gliding across an ice rink that appears to be floating amidst the clouds. The skater, clad in a flowing white costume that ripples with every move, exudes an ethereal grace. The camera smoothly keeps pace, capturing their every movement with a dreamlike quality. The background is a swirling canvas of pastel colors and soft, shifting clouds, creating a sense of otherworldly wonder. The skater's serene expression and the whisper-quiet sound of their blades on the ice add to the magical atmosphere. The overall impression is one of ethereal beauty and effortless movement, set against a backdrop of pure fantasy.
Prompt:A wide, static shot re-establishes the entire skatepark, showcasing the various features and obstacles. The setting sun casts long, dramatic shadows across the park, creating a heightened sense of anticipation for the skateboarder's final, and most challenging, trick.
除了升级Veo,谷歌还改进了自己的图像生成模型Imagen 3。升级的Imagen 3可以生成更明亮、构图更好的图像。同时它能够以更高的准确性渲染更多样化的艺术风格:从写实主义到印象派,从抽象艺术到动漫。这次升级还提升了模型的提示词遵循能力,生成的模型也有更丰富的细节和质感。
下面是一些生成的图像实例:
在GenAI-Bench上,人工评测结果显示,最新版的Imagen 3已经超过之前的Sota模型Flux 1.1 Pro以及Recraft V3,成为图像生成领域新的Sota。
另外,除了谷歌还发布了一个实验的工具Whisk,Whisk这个工具可以配合Imagen 3来用。Imagen 3只能实现文本来生成模型,但是有了Whisk,Imagen 3可以输入图片来传达要新生成图像的主体、场景和风格,简单来说,就是支持了图像提示词。
它的实现也很简单,就是在后台,Whisk结合了Imagen 3模型和Gemini的视觉理解和描述能力。Gemini模型会自动为输入图像编写详细的说明,然后将这些描述输入Imagen 3。这个过程能以有趣的新方式混合输入图像的主题、场景和风格。