DeepSeek 降低 LLM 训练成本:DeepSeek 发布的模型展示出训练成本大幅下降的潜力,如 DeepSeek - v3 基于 280 万 H800 GPU 小时、约 560 万美元训练,远低于 Meta Llama 3 405B 的训练资源需求。成本降低因素包括多头潜在注意力机制等技术应用,这将推动 LLM 和生成式 AI 产品创新、提高经济生产力。 对各行业的影响
半导体行业:其技术虽未改变行业投资计划,但低成本和高效能可能加速推理需求,不过出口管制仍是风险。 互联网行业:成本效率提升利于产品创新与采用,GOOGL、META 和 AMZN 等大型企业因资本、用户和技术整合优势,有望获益最多。 软件行业:软件供应商的 AI 输入成本降低,如微软、ServiceNow、Snowflake、Elastic 等公司在模型策略和应用上积极推进,提高了软件生态系统的效率和效益,长期对软件企业是积极因素。 能源行业:美国 AI 基础设施增长促使大量资本投入,数据中心计算成本下降引发 “杰文悖论”,推理需求增长,不同能源相关企业受影响各异,电力需求结构也在发生变化。 硬件行业:对 IT 硬件企业影响复杂,苹果因专注小型设备模型、边缘 AI 可行及强大分销平台,可能成为相对赢家;戴尔、希捷科技等企业虽面临挑战,但也有潜在机遇,需综合多因素评估。
美国 LLM 领导人回应:可能促使企业提高训练效率、加快发展,调整策略以适应变化。 地缘政治影响:开源 LLM 市场竞争激烈,美国重视开源市场主导权,中国 LLM 在美国推广仍有障碍。 ASIC 芯片发展:训练 / 推理计算能力需求变化,对 NVDA 竞争对手如 AMZN 的 Trainium 和 Inferentia 可能是利好,但市场预期尚未充分反映。 蒸馏能力展示:DeepSeek 展示小型模型蒸馏能力,对未来开源模型发展有重要意义,有助于推动高效模型应用。
本公号新创智能交通技术AI服务,可扫码进入体验(或在后台私信公号)。