AI一周应知看点精华(05/07)

文摘   2024-05-07 14:49   浙江  

#1.

OpenAI将发布ChatGPT搜索引擎,

挑战谷歌搜索!

OpenAI将在5月9日发布ChatGPT搜索引擎,挑战谷歌搜索的市场垄断;


新搜索引擎基于大语言模型,改进关键字匹配,提高上下文理解和搜索精度;


OpenAI联合微软,通过提供更好的用户体验和减少广告干扰,提升搜索质量。


​#2.

Anthropic 推出企业版及 iOS 应用!

全面对标 OpenAI

Anthropic推出面向企业的“Team”计划,提供高优先级访问权限和强化的用户管理控制;


Team计划允许200,000个token的上下文窗口,提供高效的语言理解和生成功能;


新iOS应用发布,同步提供Claude 3的视觉和文本处理功能,增强用户移动体验。



#3.

首支OpenAI Sora生成MV诞生!

4分钟MV震惊网友


使用OpenAI Sora生成了首支MV《The Hardest Part》,导演Paul Trillo拼接700个AI生成片段中的55个;


MV通过一系列快速变焦镜头生动展示了一对夫妇关键生活时刻;

创意来自10年前的想法,通过AI技术终于实现,预示着AI在视频制作中的颠覆性趋势。



#4.

国内首个自研Sora级视频大模型 Vidu

Vidu 是生数科技和清华大学联合发布的,是中国首个长时长、高一致性、高动态性视频大模型,支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。

从官方释出的演示视频来看,虽然时长还比不上 Sora 的最长 60 秒,但多镜头生成能力、时空一致性已经靠近 Sora 水准。


#5.

PixVerse,另一家国内视频大模型

爱诗科技2024年1月发布文生视频产品 PixVerse 海外版,对标该领域的 Runway 和 Pika ;2024年3月,发布了爱诗视频大模型,也就是多模态视频生成大模型的国内版本

爱诗科技成立于2023年4月,专注于AI视频大模型及应用,已经完成天使轮、A1轮、A2轮融资,累计获得融资超2亿人民币。创始人兼 CEO 王长虎曾任字节跳动视觉技术负责人,主导了字节跳动视觉大模型从0到1的建设。核心成员来自字节、微软亚研院、腾讯等


#6.

Sora 幕后创作团队大爆料:

那些惊艳的视频,有「人工」也有「智能」

视频生成领域标杆Sora,最近被官方授权的创作团队爆料:之前发布的 Sora 作品「Air Head」,其中有大量视觉效果,需要人工后期实现

2024年3月,Sora引发轰动的Air head原片


OpenAI 官方对此迟迟没有正面回应,也就是说,Sora 曾经掀起的AI生成视频风暴,很可能是一场有意为之的误导性营销

根据分享出来的信息

  • Sora 用户界面允许输入文本提示词,然后由 ChatGPT 将其转换为更长的字符串,触发视频片段的生成

  • 尚不确定 Sora 能否真正理解提示词中的镜头运动指令,在镜头控制方面还不够完善。

  • Sora 支持480P 和 720P 的分辨率 (1080P 的功能已经推出,但渲染时间会更长);一般来说,每次渲染需要 10 到 20 分钟,可以生成 3-20 秒的视频;根据经验,选择的片段时长对渲染时间的影响不大。

而引发轰动的作品《Air Head》的制作过程:

  • 所有素材都是以 480P 渲染的,然后用 Topaz 放大。

  • Sora生成了几百个画面素材片段,每个片段 10 到 20 秒,因为画面不一致、多余的元素等原因,创作团队对素材进行了大量的Roto(抠像)、调速、调色处理,最后再把多个片段拼接起来,成为对外发布的一分半钟成片。总的素材量大概是最终用量的 300 倍

  • AI视频的创作逻辑是:先获得大量素材,然后从中提炼拼凑出一个故事,而不是传统的按照已有剧本完成拍摄。本质是因为AI生成视频的不可控性,也就是说 Sora 创作视频也免不了「抽卡」。


还有些比较靠谱的“江湖传闻”:

  • Sora 目前还是卖家秀,开放的账号非常有限,而且不清楚展示的内容是如何生成出来的,比如有没有「抽卡」。

  • Pika 产品发布时宣称只有4 名全职员工,但他们的部分工作是外包的,比如数据标注。

  • Runway 并没有直接提供 18 秒的视频生成,而是通过几个 4 秒片段拼接而成。



#7.

Google发布Med-Gemini 

医学大模型里程碑之作!

Med-Gemini是Google开发的多模态医学AI模型,提供高级推理、多模态理解和长文本处理能力;


在医学基准测试如MedQA中,展现出优越性能,准确率达91.1%,超过前最佳模型4.6%;

能有效处理电子健康记录、生成医学文本摘要,并优于人类专家,在多模态医学对话中提供自然高效的交互。



#8.

摩根大通正式发布IndexGPT

用ChatGPT方式进行投资


IndexGPT由摩根大通发布,支持由OpenAI的GPT-4技术,专门用于自动创建并分析主题投资篮子;


该工具能扫描新闻和其他数据源生成投资指数,帮助客户识别有商业价值的股票,扩展投资视野至非传统企业;


IndexGPT集成了深度分析功能,用于分析复杂的金融、新闻数据,挖掘潜力公司,适用于多样化的主题投资策略。



多角色AI助手/超级AI画师/AI短视频/数字人免费体验⬇️



- end -


更多精彩...




AilinGo
关注科技带来的转变,AI的What/How\x26amp;Why
 最新文章