哪家 AI更好用?沃顿商学院教授谈 DeepSeek

文摘   2025-01-28 00:02   马来西亚  

每隔大约六个月,沃顿商学院教授 Ethan Molick 都会为 AI 的个人用户撰写一篇有观点的指南。1 月 26 日,他发布了最新指南Which AI to Use Now: An Updated Opinionated Guide(下文简称“指南”),并称撰写这篇文章变得越来越具有挑战性:

AI 模型的能力正在以越来越快的速度增长,新公司正在发布新的模型,而且没有什么很好的讲解文章。事实上,在我撰写这份草稿的几天里,我不得不因为新发布而添加一个全新的模型并多次更新自己的图表……虽然它非常新,但如果你想要一个 overall 非常好的模型,并且具有 excellent 的推理能力,你也可以考虑DeepSeek

Ethan Molick认为 DeepSeek 在许多方面都很不寻常:它是中国的一个优秀模型;它是开源的,任何人都可以下载和修改它;而且运行成本低(目前由其母公司 DeepSeek 免费提供):

DeepSeek-v3 r1 的思考过程真的值得一读,有点迷人,这是为数不多的公开推理模型之一。

埃森·莫利克是宾夕法尼亚大学沃顿商学院的副教授,在那里他研究并教授创业创新,并探讨人工智能对工作和教育的影响。除了研究和教学,埃森还领导了沃顿互动项目,该项目旨在通过游戏、模拟和人工智能实现教育公平
「教育学人AIED」之前介绍过他的 AI共同智能原则,以及他的教育智能体研究与实践

图源:沃顿商学院

Ethan Mollick

伊桑·莫里克

宾夕法尼亚大学管理学副教授,沃顿商学院生成式AI实验室联席主任,麻省理工学院管理学博士。


这次Ethan Molick 在《指南》中给出最重要的建议是:对于大多数刚开始使用人工智能的人来说,最重要的目标是确保你能够访问一个拥有自己应用程序的前沿模型(而非 LLama 那种开发者级开源模型)

前沿模型是最先进的人工智能,由于“规模定律”(更大的模型更智能),它们比旧版本强大得多。这意味着它们犯的错误更少,而且通常能提供更多有用的功能。

此外还探讨了AI模型的七大功能,即实时模式、推理能力、网络访问、图像生成、代码执行和数据分析、多模态,定制化,并讨论了隐私和其他因素对选择AI模型的影响。最后,作者建议用户尝试不同的AI模型,找到最适合自己的工具。

一、AI 的七大功能

(一)实时模式(Live Mode)

实时模式允许 AI 与用户进行实时互动,通过多模态输入(如语音、视频、文本等)实现即时的交流和反馈。例如,ChatGPT 的“高级语音模式”可以让用户通过语音与 AI 进行实时对话,AI 能够实时处理用户的语音输入并给出回应。这种模式在需要即时响应的场景中非常有用,如在线客服、实时翻译、虚拟助手等

在这个想功能里,你实际上看到了人工智能的三项进步共同作用:首先,多模态语音让人工智能能够原生处理语音,不像大多数人工智能模型那样使用单独的系统在文本和语音之间转换。这意味着它理论上可以生成任何声音。其次,多模态视觉让人工智能能够看到和分析实时视频。第三,互联网连接提供了访问当前信息的途径

(二)推理能力(Reasoning)

AI 的推理能力指的是其能够对复杂问题进行深入思考和分析,通过模拟人类的思维过程来逐步解决问题。推理模型在回答问题之前会进行一系列的内部思考,生成一个完整的思维链,从而提供更准确和深入的答案。

对于关注人工智能领域的人来说,过去几个月里最重要的进步莫过于推理模型的发展。如果你让人工智能在回答之前“思考”一个问题,你会得到更好的结果。模型思考的时间越长,通常结果越好。在幕后,它会经历一个你从未见过的完整思考过程,只向你展示最终答案。有趣的是,当你窥视幕后时,你会发现这些人工智能的思考方式令人毛骨悚然地像人类

推理模型不是健谈的助手——它们更像是学者。

你会提出一个问题,等待它们“思考”(有时需要几分钟!),然后得到答案。你需要确保你给它们的问题非常清晰,并且包含了它们需要的所有背景信息。对于非常困难的问题,特别是在学术研究、数学或计算机科学领域,你会想要使用推理模型。否则,标准的聊天模型就足够了

(三)访问网络(Web Access

并不是所有人工智能都能访问网络并进行搜索以获取超出其原始训练的新信息。目前,Gemini、Grok、DeepSeek、Copilot和ChatGPT可以主动搜索网络,而Claude则不能。当你需要最新信息或事实核查时,这种能力非常重要,但并不是所有模型都能充分利用它们的互联网连接,所以你仍然需要进行事实核查(DeepSeek 是首个可以在推理模式下访问网络的大模型)。

(四)图像生成(Generates Images)

大多数生成图像的大型语言模型实际上是使用一个单独的图像生成工具。它们无法直接控制该工具的运作,只是向其发送提示,然后向你展示生成的图像。多模态图像创作正在改变这一现状,它让人工智能能够直接控制生成的图像。

目前,Gemini的Imagen 3处于领先地位,但说实话?它们都能很好地处理你的基本需求。

比如“一只水獭举着一个牌子,上面写着‘This is____’,它坐在一个粉红色独角兽浮标上,位于泳池中间”(无需更多提示)

(五)代码与数据处理(Executes Code and Does Data Analysis)

所有人工智能在编写代码方面都相当出色,但只有少数模型(主要是Claude和ChatGPT,Gemini在较小程度上也包括在内)能够直接执行代码。这样做可以让你做很多令人兴奋的事情。

例如,这是通过Canvas功能(你需要通过输入/canvas来开启)告诉o1“创建一个交互式工具,直观地向我展示相关性如何工作,以及为什么相关性单独并不是描述底层数据的好方法。让它对非数学人士易于理解,并且高度交互和引人入胜。

此外,当模型能够编写代码并使用外部文件时,它们能够进行数据分析。想要分析一个数据集?ChatGPT的代码解释器在统计分析方面做得最好,Claude在统计方面做得较少,但在解释方面通常更出色,而Gemini则倾向于图表制作。目前,它们在处理充满公式和标签的Excel文件方面还不太擅长,但它们在处理结构化数据方面表现良好。

(六)多模态Reads documents, sees images, sees video

让你的人工智能从外部世界获取数据是非常有用的。几乎所有的主要人工智能都具备处理图像的能力。这些模型通常可以从一张图片中推断出大量信息。相比之下,能够处理视频的模型要少得多(视频实际上是以每秒一到两帧的速度作为图像处理的)。目前,只有Google的Gemini能做到这一点,尽管ChatGPT在实时模式下可以看到视频。

尽管所有人工智能模型都能处理文档,但它们在处理所有格式方面并不 equally 擅长。Gemini、GPT-4o(但不包括o1)和Claude可以处理带有图像和图表的PDF文件,而DeepSeek只能读取文件的文本内容。目前,没有模型在处理Excel或PowerPoint方面特别出色(尽管Microsoft Copilot在这方面做得更好,正如你可能预期的那样),但这种情况很快就会改变。不同的模型还具有不同大小的内存(“上下文窗口”),其中Gemini的内存最大,能够一次性容纳多达200万字。

(七)定制化customize the AI for your use cases

每个平台都提供不同的方式来定制人工智能以满足你的使用场景。ChatGPT允许你创建针对特定任务的自定义GPT,并包含一个可选功能,可以记住之前对话中的事实;Gemini与你的Google工作空间集成;Claude则有自定义样式和项目(都类似于国内AI 应用中的“智能体广场”)。正如你所见,有很多功能可供选择,除此之外,还有“感觉”的问题——每个模型都有其 own 个性和工作方式,几乎像一个人。

如果你碰巧喜欢某个特定人工智能的个性,你可能会愿意忍受更少的功能或较低的能力。你可以尝试多个人工智能的免费版本来感受一下。

二、各大平台横向对比

ChatGPT目前在其高级语音模式中拥有最好的实时模式。ChatGPT的另一个巨大优势是它几乎无所不能,尽管方式有时令人困惑——OpenAI有专门解决难题的AI模型(o1系列)和聊天模型(GPT-4o);有些模型可以编写和运行复杂的软件程序(尽管很难知道是哪些);有记住过去互动和调度系统的功能;电影制作工具和早期的软件代理。这可能很多,但它为你提供了尝试许多不同AI功能的机会。还值得注意的是,ChatGPT提供了一个每月200美元的层级,其主要优势是能够访问非常强大的推理模型。
Gemini目前还没有那么好的实时模式,但据说很快就会推出。目前,Gemini的优势在于其一系列强大的模型,包括推理模型,与搜索功能集成,以及一个易于使用的用户界面,正如你可能预期的那样,这是Google的产品。它还具有一流(top-flight)图像和视频生成能力。同样 excellent 是它的Deep Research,可以很快地为你形成报告文档。

Claude在这三个系统中功能最少,实际上你只关心一个模型——Claude 3.5 Sonnet。但Sonnet非常出色。它通常显得很聪明,也很有洞察力,这是其他模型所不具备的。因此,很多人最终将Claude作为他们的主要模型,尽管它没有那么丰富的功能。
虽然它非常新,但如果你想要一个 overall 非常好的模型,并且具有 excellent 的推理能力,你也可以考虑DeepSeek。如果你订阅了X,你会免费获得Grok,而X.ai的团队正在以令人难以置信的速度扩展其功能,即将发布的Grok 3新模型有望成为有史以来训练的最大模型。如果你有Copilot,你可以使用它,因为它包含了Microsoft和OpenAI的模型混合,尽管我对它在使用时缺乏透明度感到有些困惑。还有许多服务,如Poe,同时提供对多个模型的访问,如果你想尝试的话。

三、结语

在你阅读这份指南的时间内,可能已经推出了一项新的人工智能功能,另外几项功能得到了重大升级。但不要因此而犹豫不决。秘诀不在于等待完美的人工智能,而在于投入其中,发现这些工具实际上能做什么

亲自动手,找到适合你的。这将让你了解人工智能在哪些方面可以帮助你,在哪些方面不能,以及接下来会发生什么


教育学人AIED
课程与教学研究与分享,包括但不限于教育概念辨析,教育观念批判。
 最新文章