初期发展:人工智能领域的研究始于1950年代,标志性事件是Alan Turing提出的“图灵测试”和1956年达特茅斯会议(Dartmouth Conference)。这期间,研究者们希望通过符号处理来实现智能。
早期成就:此阶段的主要成就包括初步的自动推理、求解数学问题和象棋程序。
2. 第一场AI寒冬(1970s)
背景:20世纪70年代初期,人工智能遇到了技术和资金上的双重困难。由于早期AI系统在处理复杂问题上表现不佳,加上对计算资源的需求高昂,导致研究进展缓慢。
结果:许多项目被取消,资金投入锐减,这段时期被称为“AI寒冬”。
3. 符号主义和专家系统(1980s)
专家系统:20世纪80年代,人工智能研究的重点转向专家系统,这些系统在特定领域显示出了优越的性能。
商业应用:一些成功的商业应用(如医疗诊断系统)增加了对AI的投资和兴趣。
4. 第二场AI寒冬(1980s末-1990s初)
背景:尽管专家系统在某些领域取得了成功,但其开发和维护成本高昂,适应新领域的能力有限。市场和学术界对AI的过高期望未能实现,再次导致投资减少和研究热情下降。
结果:AI研究再次进入低谷,这段时期被称为第二场“AI寒冬”。
5. 机器学习和神经网络复兴(1990s-2000s)
神经网络复兴:20世纪90年代,随着计算能力的提升和新的算法(如反向传播算法)的发展,神经网络研究重新受到关注。
数据驱动的AI:大数据和计算能力的提升推动了机器学习和数据驱动方法的发展,AI开始在图像识别、语音识别等领域取得实际应用成果。
6. 深度学习的兴起(2010s-至今)
深度学习:2010年代,深度学习模型(如卷积神经网络和循环神经网络)在处理图像、语音和自然语言任务上取得了巨大成功。
广泛应用:AI技术被广泛应用于自动驾驶、医疗诊断、金融分析等领域。以AlphaGo击败世界围棋冠军李世石为标志性事件,AI在复杂任务中的能力被广泛认可。
老派 AI(GOFAI)
计算机代码是决定性的,代码逻辑写好后,程序运行1万次,每次都会给出同样的结果,计算机非常擅长推理,“男人都有喉结”,因为“关羽是男人”,所以“关羽有喉结”。当用这种Symbol-manipulation符号操作的方式来实现AI时,由于边界情况corner case太多,用再多的if-else也难以穷举,最终进入死胡同。
机器学习
深度学习
深度学习是机器学习的一个子集,是其复杂演化。深度学习算法使用与人类相似的逻辑结构来分析数据。深度学习使用称为人工神经网络的智能系统来分层处理信息。数据从输入层流经多个“深层”隐藏神经网络层,然后到达输出层。额外的隐藏层支持比标准机器学习模型更强大的学习能力。深度学习层是人工神经网络(ANN)节点,其运作方式与人脑神经元类似。节点可以是硬件和软件的组合。深度学习算法中的每一层都由ANN节点组成。每个节点或人工神经元都连接到另一个节点,并具有关联的值号和阈值号。节点在激活时将其值号作为输入发送到下一层节点。仅当其输出高于指定阈值时才会激活。否则,不会传递任何数据。
无监督学习(Unsupervised Learning):训练数据不再需要人工打标,大大减少了数据准备工作。 Transformer 架构:2017年出现,通过并行处理大大降低了神经网络的训练难度。 人类反馈强化学习(Reinforcement Learning from Human Feedback):保持输出与预期一致,这点对LLM的应用成熟至关重要。
大语言模型的局限性
大模型就像个压缩算法,参数的不断增加,可以让大模型存储更多的知识,能回答更宽泛的问题。但和其他机器学习算法一样,它仍然是在通过归纳的方式寻找输入和输出间的逻辑关系,也就是说,它不是在回答正确的答案,而是在回答最像正确答案的答案,这就是其幻觉(hallucination)产生的原因。
最简单的是直接使用基础模型,例如直接在www.chatgpt.com网页上和GPT-4对话,或者直接调用Llama的API。 指令工程(Prompt Engineer):类似ChatGPT提供的GPTs功能,通过指令条件,让LLM扮演某个角色,或向其提供上下文,提高其在特定场景下的表现能力。 检索增强生成(Retrieval Augmented Generation):总有模型训练时未采用的数据,特别是组织内部或者个人数据。数据的缺失是模型回答幻觉的重要原因,使用RAG可以将私有信息存入向量数据库,根据问题查询相关信息,将搜索结果一并加入prompt提交给模型作为输入,可以大大提高模型对特定问题的准确度。 微调模型(Fine-Tuning):RAG可以给模型新知识,但有些场景需要的不只是新知识,而是新能力,例如编写代码、总结文章、撰写邮件等。这时就可以用Low-Rank Adaptation(LoRA)等方法对基础模型进行微调,提高其在特定场景的能力。
综上所述,至少大语言模型(LLM)不会成为神。即使扩展法则(Scaling Law)依旧有效,LLM未来可能拥有更多参数和知识,在更多领域表现优于人类,但也不会发展成AGI。相反,与传统的指令性代码不同,深度学习和神经网络提供了一种全新的计算方式,在某些领域能够提供传统计算机无法实现的价值,例如特斯拉FSD V12版本相较于之前版本的显著进步。
在最新的这波AI 热潮中,几家科技巨头冲在了前列。
Nvidia 市值飙升:AI 热潮中的赢家
最近,Nvidia 的市值飙升至 3.3 万亿美元,成为全球市值最高的公司。五月下旬,其市值还只有 2.6 万亿美元,市值的暴涨反映了其业务的快速增长。根据2025财年第一季度财报(4 月结束),Nvidia 的季度收入达到了 204 亿美元,其中数据中心业务(即 AI 业务)比上季度增长了 23%,同比增长了 427%。公司毛利率高达 78%,净利率达到了惊人的 57%。6 月 23 日其市盈率(PE,2025年预估)为 48.9 倍。
在历史上,很少有基础硬件厂商的利润率能超过 50%,尤其是在 Nvidia 的营收规模接近 1000 亿美元的情况下。市场的激增吸引了大量投资者,AMD 的 Ryzen 和 Intel 的 Gaudi 正在奋力追赶,主要客户 Alphabet 和微软也在自研 TPU 和 Maia 来阻挡其势头。虽然 AI 仍在热潮高峰期,并且 AI 发展的瓶颈仍受制于算力,但以 IT 行业的过往历史来看,一个技术栈的利润很难长期由底层硬件厂商攫取。
巨头的 AI 战略:微软、谷歌和 AWS 的不同路径
近两个月,从微软的 Build 2024 大会,到 Google 的 I/O 2024 大会,再到最近的苹果 WWDC 2024 大会,几家巨头都发布了各自的 AI 战略。
微软的 AI 技术栈:底层芯片使用 Nvidia,云服务为自家的 Azure,模型依赖合作伙伴 OpenAI,LLM 平台是 Azure MaaS,应用有自家的 Copilot,同时依赖于第三方应用厂商。
AWS 的 AI 技术栈:芯片也是 Nvidia,云服务为自家的 AWS,模型依赖第三方,LLM 平台是 Bedrock,应用依赖于第三方。 Google 的 AI 技术栈:芯片为自家 TPUs,云服务为自家的 GCP,模型是自家的 Gemini,LLM 平台是 Vertex AI,应用是自己的全家桶。
Meta 和 AI 开源:社交网络的广告巨头
另外还有 AI 开源领域的最大贡献者 Meta,其核心业务是基于社交网络的广告业务。通过开源 Llama,将与其互补的底层 LLM 算法商品化,最有利于其商业目的,类似于早期 Wintel 联盟致力于将 PC 层商品化。
微软的 Copilot+PC 战略:重振 PC 市场
在 Build 2024 大会前,微软发布了 Copilot+PC 战略,试图一举扭转近几年 PC 不温不火的状态。先是发布了性能标准:40TOPS 以上的 NPU、内存 16GB 以上和 256GB 以上的 SSD。然后携手 Intel、AMD 和高通三套芯片方案,一举发布了几十款 AIPC。在随后的台北 Computex 2024 展会上,几乎成了 AIPC 的新品发布会合集。
微软计划用在 AIPC 上的模型 Phi-3 的起步版 Phi-3-mini是 38亿参数,Phi-3-small 和 Phi-3-medium 分别是70 亿 和 140 亿参数。
C:\Users\$USER\AppData\Local\CoreAIPlatform.00\UKP\{GUID}
图片都存储在下面这个子文件夹中
.\ImageStore\
下面是 SQLite 数据库 ukg.db 。
苹果的 Apple Intelligence:用户体验为先
在苹果 WWDC 2024 大会上,苹果如期发布了自己的 AI 战略,非常苹果范的又给起了个不一样的名字 Apple Intelligence。
与聊天形式的 ChatGPT 相反,Apple Intelligence 没有原始的 prompt 输入和结果输出,所有功能都被隐藏在原来的 UI 之下,严格限定了使用场景。体现了苹果用户体验第一的理念,在 LLM 的进展尚不能另人满意的情况下,通过限定场景来提高质量稳定性。
在架构上,终端设备上有两个 LLM,一个处理语言,一个处理图片。文字模型有 30 亿个参数,经过优化,在 iPhone 15 Pro 上 time-to-first-token 时延可以做到 0.6 毫秒,每秒钟能生成 30 个 tokens。本地算力不够时使用云端的 Private Cloud Compute,云端使用与设备上一致的 Apple silicon 硬件,既保证隐私,又提高能源效率。