1
▌OpenAI推出“文生视频”AI模型「Sora」,颠覆视频生成技术
美国时间2月15日,OpenAI公司宣布推出名为「Sora」的全新人工智能模型,引发了科技界的一场轰动。这一模型能够根据用户的文本提示生成长达1分钟的视频内容,其视觉效果和真实性刷新了AI技术的新高度。
「Sora」的亮点在于其采用了扩散型变换器(diffusion transformer)架构,能够生成复杂的场景,包括多个角色和特定类型的动作,并理解用户提示内容以及这些场景在物理世界中的存在方式。生成的视频在光影色彩、镜头移动和纹理结构变化等方面呈现出极高质感。
然而,「Sora」并非完美无缺,仍存在一些不成熟之处。例如,在模拟复杂场景的物理原理方面可能存在难度,同时可能无法准确理解因果关系,以及在精细内容的调控方面还有待加强。
篮球穿过篮筐后“爆炸”,篮球没有正确被篮筐阻挡。
值得一提的是,「Sora」这一命名源自日语中的“空”(そら sora),意为天空,象征着无限的创造潜力。此外,公开的演示视频中也出现了大量日本文化元素,据推测可能与OpenAI CEO山姆·奥特曼计划在日本设立办事处、推动与日本研究人员合作的计划相关。
「Sora」的推出不仅展示了视频生成技术的巨大进步,更凸显了大型模型对真实世界的理解和模拟能力。这一突破或许将为实现通用人工智能(AGI)带来更为广阔的可能性,开启了人工智能领域的新篇章。
2
▌Apple发布头戴式显示器「Apple Vision Pro」:空间计算时代的开端
美国时间2月2日,苹果公司正式推出头戴式显示器设备「Apple Vision Pro」。这款革命性的空间计算设备将数字内容与现实世界融为一体,为用户提供全新的体验,能处在当下并与他人保持连接。
首先,它打造了无边际的画布,突破了传统显示屏的限制,为用户带来了全新的3D交互体验,可以通过最自然、最直观的方式来控制,包括眼睛、双手和语音。
其次,它搭载了全球首创的空间操作系统visionOS,用户可以与数字内容进行互动,实现数字内容如同真实存在于世界中的效果。
再者,它采用了突破性的设计,包括2300万像素的超高分辨率显示系统和定制的双芯片设计的苹果芯片,为每个用户带来身临其境的即时体验。
苹果首席执行官蒂姆·库克表示:“如同Mac将我们带入了个人计算时代,iPhone将我们带入了移动计算时代,「Apple Vision Pro」将带我们进入空间计算时代。”
然而,尽管「Apple Vision Pro」带来了许多创新,但最近一些用户在体验后也提出了一些问题:
●存在眼动追踪需要定期重新校准的问题;
●长时间佩戴可能不太舒适;
●沉浸式应用仍处于早期阶段且有限;
●不适合进行运动等等。
3
▌神奈川县公立高中入试报名系统故障持续一个月,Gmail邮箱无法接收确认邮件
近日,神奈川县公立高中入学考试报名系统出现故障,考生通过Gmail邮箱注册账户时收不到确认邮件,报名无法正常进行下去。初步调查发现该问题可能是由于考试报名系统的设置有疏漏,导致被Gmail误识别成垃圾邮件。该问题一度得到解决,但无奈一周之后再次出现,解决这个问题花了一个月时间。
神奈川县教育委员会于2月7日晚间发布公告,宣布神奈川县公立高中入学考试报名系统的故障已得到解决。然而,故障处理过程中仍出现一些问题,对于希望继续使用@gmail.com地址的用户,需要限制部分功能的使用。
神奈川县是从今年(2024年度)开始将公立高中入学考试报名方式从传统的纸质申请改为线上申请的。线上报名方式在东京、福井等地已经被成功推广过。神奈川县在2023年2月开始公布线上报名系统的招标方案,同年3月宣布采用曾有福井县线上考试报名系统构筑经验的系统研究所(システム研究所)作为开发供应商。
4
▌思科宣布计划裁员5%,波及约4250个工作岗位
美国时间2月15日,网络巨头思科宣布计划裁员5%,预计将裁减约4250个工作岗位。此消息导致思科股价一度下跌9%。
同时,思科还公布了第二财年业绩,但财务预期较低。思科第二财年净利润为26亿美元,同比下降5%,收入为128亿美元,同比下降6%。预计第三财季收入为121亿至123亿美元。
首席执行官查克·罗宾斯表示,“就宏观环境而言,鉴于高度的不确定性,我们看到对交易的谨慎和审查程度越来越高。正如我们从客户那里听到的那样,这让我们对预测和预期更加谨慎。”
今年1月是自2023年3月以来行业裁员最繁忙的一个月,据CNBC引述Layoffs.fyi数据报道,包括Alphabet(谷歌母公司)、亚马逊、微软、SAP、eBay、Unity、Discord 等公司在内,已有144家科技公司裁减近35000名员工,而思科成为当前“裁员大潮”中受影响的又一家科技公司。
另外,据可靠消息称,思科此次大规模裁员旨在计划进行业务重组,将重心转移到人工智能和软件等高增长领域。
5
▌Google发布下一代生成AI模型「Gemini 1.5 Pro」,与OpenAI的「Sora」相辉映
在OpenAI发布「Sora」的同一天,Google也发布了其下一代生成AI模型「Gemini 1.5 Pro」。
作为「Gemini Pro 1.0」的升级版,「Gemini 1.5 Pro」是一款中型多模态模型,通过采用新的Mixture-of-Experts(MoE)架构,优化了性能和效率,在各类广泛任务中表现出色,且使用的计算资源更少。
「Gemini 1.5 Pro」的几个亮点包括:
上下文理解突破:「Gemini 1.5 Pro」能够进行最多100万个tokens的连续处理,为目前任何大规模基础模型中最长的上下文窗口。
对大量信息的复杂推理:「Gemini 1.5 Pro」可以无缝分析、分类和概述特定提示内的大量内容。例如,当给出阿波罗11号登月任务的402页记录文本时,它能够准确推断其中记录的对话、事件、图像等细节。
多模态任务的高级理解和推理能力:「Gemini 1.5 Pro」能够对视频等多种模态进行高级理解和推理任务,例如,给出巴斯特·基顿(Buster Keaton)的44分钟无声电影时,它能够准确分析各种情节和事件,并推理出电影中常常被忽视的小细节。
更相关问题的解决能力:「Gemini 1.5 Pro」能够在更长的代码块中执行更相关的任务去解决问题。
尽管「Gemini 1.5 Pro」的功能十分强大,但其光芒却在OpenAI的「Sora」发布之下显得黯然失色。然而,有网友评价认为:「Gemini 1.5 Pro」可能是今年(迄今为止)最大的LLM能力提升。
这一次Google的「Gemini 1.5 Pro」发布,标志着生成AI技术的又一次重要进步,将为各行各业带来更多可能性和更广阔的应用场景。
ITgo技术者之家,持续关注在日IT人关心的各种资讯,打造在日技术者的专属社区。欢迎留言交流互动。
ITgo