生成式AI
一、 马斯克版 ChatGPT iOS 应用上线,测试一天发现这些惊喜和槽点
1. Grok已推出iOS独立应用,免注册可用,支持文字、图片和文件输入,可访问X平台内容但非实时;
2. 相比ChatGPT,Grok在图像生成方面更自由,可生成公众人物和版权内容,但在餐厅推荐等实用问题上表现粗糙;
3. 界面设计对标ChatGPT,具有贴心的交互细节,如自动滚动到问题开始处,整体UI美感十足。
https://mp.weixin.qq.com/s/lmyNqogc-fLRrCID1C3j7Q
二、 虽迟但到:DeepSeek正式推出手机app,苹果安卓系统都支持
1. DeepSeek发布iOS和安卓版手机应用,支持联网搜索、文件上传和图片解析功能,但未在官网展示和宣传;
2. 应用底层使用DeepSeek V3纯文本模型,开启深度搜索后调用DeepSeek-R1-Lite推理模型;
3. 图片和文件解析通过OCR等外部工具实现,而非使用模型的多模态能力。
https://mp.weixin.qq.com/s/lF-E0OXt0tM1yB5WcQP1UA
三、 450美元训练「o1-preview」?UC伯克利开源32B推理模型Sky-T1
1. 伯克利团队开源32B推理模型Sky-T1,训练成本仅450美元,性能媲美早期o1-preview,首次完整开放训练数据和代码;
2. 模型基于Qwen2.5-32B-Instruct微调,使用数学和编程混合数据训练,在MATH500和LiveCodeBench上表现优异;
3. 研究发现32B以上规模和均衡的数据混合对推理能力提升至关重要,较小模型容易生成重复内容。
https://mp.weixin.qq.com/s/aRUHeDheE4nwncbCLakgIQ
四、 海螺 AI 上线「主体参考」功能,提升主体一致性,彻底解放抽卡
1. 海螺AI新推出"主体参考"功能,基于S2V-01模型,仅需单张图片即可生成保持角色特征的视频,动作自由且面部稳定;
2. 采用图片参考技术路线,区别于LoRA方案,无需大量素材和计算,生成速度快,实现精准还原和高自由度兼得;
3. 目前主体参考仅支持单人物识别,未来将拓展至多人、物体和场景,适用于广告营销等创意场景。
https://mp.weixin.qq.com/s/pueewWSMZvrUhb2OBgOEcQ
五、 GAN归来:模型大幅简化训练更稳定,逆袭扩散模型,社区疯传
1. 布朗大学研究团队通过新的损失函数解决GAN模式崩溃和不稳定性问题,简化模型架构后性能反而超越扩散模型;
2. 新方法R3GAN基于StyleGAN2改造,剥离非必要功能,采用现代ConvNets和transformer设计,实现更简洁可扩展的架构;
3. R3GAN在FFHQ、ImageNet等数据集测试中,以更小参数量和一次前向传递实现超越扩散模型的性能。
https://mp.weixin.qq.com/s/k0dSZuAQLWtSTn-HO01OvA
六、 迈向System 2推理,100页论文硬核讲述Meta-CoT实验过程
1. Meta-CoT框架通过显式建模底层推理过程,扩展传统思维链方法,解决复杂问题时能捕捉非线性和迭代性的真实数据生成过程;
2. 传统CoT数据仅包含最终解决方案而缺乏潜在思考过程,Meta-CoT通过MCTS和A*等搜索算法生成合成数据来弥补;
3. 模型通过整合搜索、验证和迭代优化,实现更强大的推理能力,并能在上下文中进行探索和回溯。
https://mp.weixin.qq.com/s/L_tErITBzUZ75GVGtbtdDQ
前沿科技
七、 OpenAI 正式进军机器人领域,启动硬件人才招聘,剑指具身AGI
1. OpenAI首次开放硬件招聘,进军机器人领域,目标是打造在动态环境中具有AGI级别智能的通用机器人;
2. 招聘三类核心人才:系统集成电气工程师、机械产品工程师和TPM经理,要求具备丰富的机器人硬件开发经验;
3. 团队致力于将AI算法与物理机器人融合,认为实体机器人是实现AGI的必经之路。
https://mp.weixin.qq.com/s/-MmcqPvHDMnxsMEhiNyD8g
报告观点
八、 Scale AI 创始人:AI Agent的分水岭在于产品设计而非技术本身
1. Scale AI创始人认为AI Agent最大突破在产品设计而非技术,重点是如何将强大模型能力转化为实用工具;
2. 独立思考是AI创业关键,不应盲目跟随硅谷趋势,需在特定领域保持专注而非追求资金规模;
3. AI领域面临数据瓶颈,现有公开数据接近极限,需要开发新形式的人类生成数据以推进模型发展。
https://mp.weixin.qq.com/s/MSdHVsWXsdNlyiGGqzXWAw
九、 取代工作or生产力神器?清华校友联手发文:AI时代怎么选工作
1. 研究发现AI影响就业存在拐点,一旦AI能力超过阈值,对特定工种的替代效应将不可逆转;
2. 写作、咨询、编程等自由职业受AI替代风险较大,而运营和创意类工作因需要人际互动,主要体现生产力提升效应;
3. 目前没有任何职业能从替代效应转回生产力效应,建议从业者重新考虑职业发展方向或与AI协同工作。
https://mp.weixin.qq.com/s/UO6ExLHraIU7PHSv2LtPsQ
AI50节选
👇订阅下方合集,获取每日推送