每隔大约六个月,沃顿商学院教授 Ethan Molick 都会为 AI 的个人用户撰写一篇有观点的指南。1 月 26 日,他发布了最新指南Which AI to Use Now: An Updated Opinionated Guide(下文简称“指南”),并称撰写这篇文章变得越来越具有挑战性:
AI 模型的能力正在以越来越快的速度增长,新公司正在发布新的模型,而且没有什么很好的讲解文章。事实上,在我撰写这份草稿的几天里,我不得不因为新发布而添加一个全新的模型并多次更新自己的图表……虽然它非常新,但如果你想要一个 overall 非常好的模型,并且具有 excellent 的推理能力,你也可以考虑DeepSeek
Ethan Molick认为 DeepSeek 在许多方面都很不寻常:它是中国的一个优秀模型;它是开源的,任何人都可以下载和修改它;而且运行成本低(目前由其母公司 DeepSeek 免费提供):
DeepSeek-v3 r1 的思考过程真的值得一读,有点迷人,这是为数不多的公开推理模型之一。
图源:沃顿商学院
Ethan Mollick
伊桑·莫里克
宾夕法尼亚大学管理学副教授,沃顿商学院生成式AI实验室联席主任,麻省理工学院管理学博士。
这次Ethan Molick 在《指南》中给出最重要的建议是:对于大多数刚开始使用人工智能的人来说,最重要的目标是确保你能够访问一个拥有自己应用程序的前沿模型(而非 LLama 那种开发者级开源模型)。
前沿模型是最先进的人工智能,由于“规模定律”(更大的模型更智能),它们比旧版本强大得多。这意味着它们犯的错误更少,而且通常能提供更多有用的功能。
此外还探讨了AI模型的七大功能,即实时模式、推理能力、网络访问、图像生成、代码执行和数据分析、多模态,定制化,并讨论了隐私和其他因素对选择AI模型的影响。最后,作者建议用户尝试不同的AI模型,找到最适合自己的工具。
一、AI 的七大功能
(一)实时模式(Live Mode)
(二)推理能力(Reasoning)
对于关注人工智能领域的人来说,过去几个月里最重要的进步莫过于推理模型的发展。如果你让人工智能在回答之前“思考”一个问题,你会得到更好的结果。模型思考的时间越长,通常结果越好。在幕后,它会经历一个你从未见过的完整思考过程,只向你展示最终答案。有趣的是,当你窥视幕后时,你会发现这些人工智能的思考方式令人毛骨悚然地像人类。
推理模型不是健谈的助手——它们更像是学者。
你会提出一个问题,等待它们“思考”(有时需要几分钟!),然后得到答案。你需要确保你给它们的问题非常清晰,并且包含了它们需要的所有背景信息。对于非常困难的问题,特别是在学术研究、数学或计算机科学领域,你会想要使用推理模型。否则,标准的聊天模型就足够了。
(三)访问网络(Web Access)
并不是所有人工智能都能访问网络并进行搜索以获取超出其原始训练的新信息。目前,Gemini、Grok、DeepSeek、Copilot和ChatGPT可以主动搜索网络,而Claude则不能。当你需要最新信息或事实核查时,这种能力非常重要,但并不是所有模型都能充分利用它们的互联网连接,所以你仍然需要进行事实核查(DeepSeek 是首个可以在推理模式下访问网络的大模型)。
(四)图像生成(Generates Images)
大多数生成图像的大型语言模型实际上是使用一个单独的图像生成工具。它们无法直接控制该工具的运作,只是向其发送提示,然后向你展示生成的图像。多模态图像创作正在改变这一现状,它让人工智能能够直接控制生成的图像。
目前,Gemini的Imagen 3处于领先地位,但说实话?它们都能很好地处理你的基本需求。
比如“一只水獭举着一个牌子,上面写着‘This is____’,它坐在一个粉红色独角兽浮标上,位于泳池中间”(无需更多提示)。
(五)代码与数据处理(Executes Code and Does Data Analysis)
此外,当模型能够编写代码并使用外部文件时,它们能够进行数据分析。想要分析一个数据集?ChatGPT的代码解释器在统计分析方面做得最好,Claude在统计方面做得较少,但在解释方面通常更出色,而Gemini则倾向于图表制作。目前,它们在处理充满公式和标签的Excel文件方面还不太擅长,但它们在处理结构化数据方面表现良好。
(六)多模态(Reads documents, sees images, sees video)
让你的人工智能从外部世界获取数据是非常有用的。几乎所有的主要人工智能都具备处理图像的能力。这些模型通常可以从一张图片中推断出大量信息。相比之下,能够处理视频的模型要少得多(视频实际上是以每秒一到两帧的速度作为图像处理的)。目前,只有Google的Gemini能做到这一点,尽管ChatGPT在实时模式下可以看到视频。
尽管所有人工智能模型都能处理文档,但它们在处理所有格式方面并不 equally 擅长。Gemini、GPT-4o(但不包括o1)和Claude可以处理带有图像和图表的PDF文件,而DeepSeek只能读取文件的文本内容。目前,没有模型在处理Excel或PowerPoint方面特别出色(尽管Microsoft Copilot在这方面做得更好,正如你可能预期的那样),但这种情况很快就会改变。不同的模型还具有不同大小的内存(“上下文窗口”),其中Gemini的内存最大,能够一次性容纳多达200万字。
(七)定制化(customize the AI for your use cases)
每个平台都提供不同的方式来定制人工智能以满足你的使用场景。ChatGPT允许你创建针对特定任务的自定义GPT,并包含一个可选功能,可以记住之前对话中的事实;Gemini与你的Google工作空间集成;Claude则有自定义样式和项目(都类似于国内AI 应用中的“智能体广场”)。正如你所见,有很多功能可供选择,除此之外,还有“感觉”的问题——每个模型都有其 own 个性和工作方式,几乎像一个人。
如果你碰巧喜欢某个特定人工智能的个性,你可能会愿意忍受更少的功能或较低的能力。你可以尝试多个人工智能的免费版本来感受一下。
二、各大平台横向对比
三、结语
在你阅读这份指南的时间内,可能已经推出了一项新的人工智能功能,另外几项功能得到了重大升级。但不要因此而犹豫不决。秘诀不在于等待完美的人工智能,而在于投入其中,发现这些工具实际上能做什么。
亲自动手,找到适合你的。这将让你了解人工智能在哪些方面可以帮助你,在哪些方面不能,以及接下来会发生什么。