哪家 AI更好用？沃顿商学院教授谈 DeepSeek

文摘 2025-01-28 00:02 马来西亚

每隔大约六个月，沃顿商学院教授 Ethan Molick 都会为 AI 的个人用户撰写一篇有观点的指南。1 月 26 日，他发布了最新指南Which AI to Use Now: An Updated Opinionated Guide（下文简称“指南”），并称撰写这篇文章变得越来越具有挑战性：

AI 模型的能力正在以越来越快的速度增长，新公司正在发布新的模型，而且没有什么很好的讲解文章。事实上，在我撰写这份草稿的几天里，我不得不因为新发布而添加一个全新的模型并多次更新自己的图表……虽然它非常新，但如果你想要一个 overall 非常好的模型，并且具有 excellent 的推理能力，你也可以考虑DeepSeek

Ethan Molick认为 DeepSeek 在许多方面都很不寻常：它是中国的一个优秀模型；它是开源的，任何人都可以下载和修改它；而且运行成本低（目前由其母公司 DeepSeek 免费提供）：

DeepSeek-v3 r1 的思考过程真的值得一读，有点迷人，这是为数不多的公开推理模型之一。

埃森·莫利克是宾夕法尼亚大学沃顿商学院的副教授，在那里他研究并教授创业创新，并探讨人工智能对工作和教育的影响。除了研究和教学，埃森还领导了沃顿互动项目，该项目旨在通过游戏、模拟和人工智能实现教育公平。

「教育学人AIED」之前介绍过他的 AI共同智能原则，以及他的教育智能体研究与实践。

图源：沃顿商学院

Ethan Mollick

伊桑·莫里克

宾夕法尼亚大学管理学副教授，沃顿商学院生成式AI实验室联席主任，麻省理工学院管理学博士。

这次Ethan Molick 在《指南》中给出最重要的建议是：对于大多数刚开始使用人工智能的人来说，最重要的目标是确保你能够访问一个拥有自己应用程序的前沿模型（而非 LLama 那种开发者级开源模型）。

前沿模型是最先进的人工智能，由于“规模定律”（更大的模型更智能），它们比旧版本强大得多。这意味着它们犯的错误更少，而且通常能提供更多有用的功能。

此外还探讨了AI模型的七大功能，即实时模式、推理能力、网络访问、图像生成、代码执行和数据分析、多模态，定制化，并讨论了隐私和其他因素对选择AI模型的影响。最后，作者建议用户尝试不同的AI模型，找到最适合自己的工具。

一、AI 的七大功能

（一）实时模式（Live Mode）

实时模式允许 AI 与用户进行实时互动，通过多模态输入（如语音、视频、文本等）实现即时的交流和反馈。例如，ChatGPT 的“高级语音模式”可以让用户通过语音与 AI 进行实时对话，AI 能够实时处理用户的语音输入并给出回应。这种模式在需要即时响应的场景中非常有用，如在线客服、实时翻译、虚拟助手等。

在这个想功能里，你实际上看到了人工智能的三项进步共同作用：首先，多模态语音让人工智能能够原生处理语音，不像大多数人工智能模型那样使用单独的系统在文本和语音之间转换。这意味着它理论上可以生成任何声音。其次，多模态视觉让人工智能能够看到和分析实时视频。第三，互联网连接提供了访问当前信息的途径。

（二）推理能力（Reasoning）

AI 的推理能力指的是其能够对复杂问题进行深入思考和分析，通过模拟人类的思维过程来逐步解决问题。推理模型在回答问题之前会进行一系列的内部思考，生成一个完整的思维链，从而提供更准确和深入的答案。

对于关注人工智能领域的人来说，过去几个月里最重要的进步莫过于推理模型的发展。如果你让人工智能在回答之前“思考”一个问题，你会得到更好的结果。模型思考的时间越长，通常结果越好。在幕后，它会经历一个你从未见过的完整思考过程，只向你展示最终答案。有趣的是，当你窥视幕后时，你会发现这些人工智能的思考方式令人毛骨悚然地像人类。

推理模型不是健谈的助手——它们更像是学者。

你会提出一个问题，等待它们“思考”（有时需要几分钟！），然后得到答案。你需要确保你给它们的问题非常清晰，并且包含了它们需要的所有背景信息。对于非常困难的问题，特别是在学术研究、数学或计算机科学领域，你会想要使用推理模型。否则，标准的聊天模型就足够了。

（三）访问网络（Web Access）

并不是所有人工智能都能访问网络并进行搜索以获取超出其原始训练的新信息。目前，Gemini、Grok、DeepSeek、Copilot和ChatGPT可以主动搜索网络，而Claude则不能。当你需要最新信息或事实核查时，这种能力非常重要，但并不是所有模型都能充分利用它们的互联网连接，所以你仍然需要进行事实核查（DeepSeek 是首个可以在推理模式下访问网络的大模型）。

（四）图像生成（Generates Images）

大多数生成图像的大型语言模型实际上是使用一个单独的图像生成工具。它们无法直接控制该工具的运作，只是向其发送提示，然后向你展示生成的图像。多模态图像创作正在改变这一现状，它让人工智能能够直接控制生成的图像。

目前，Gemini的Imagen 3处于领先地位，但说实话？它们都能很好地处理你的基本需求。

比如“一只水獭举着一个牌子，上面写着‘This is____’，它坐在一个粉红色独角兽浮标上，位于泳池中间”（无需更多提示）。

（五）代码与数据处理（Executes Code and Does Data Analysis）

所有人工智能在编写代码方面都相当出色，但只有少数模型（主要是Claude和ChatGPT，Gemini在较小程度上也包括在内）能够直接执行代码。这样做可以让你做很多令人兴奋的事情。

例如，这是通过Canvas功能（你需要通过输入/canvas来开启）告诉o1“创建一个交互式工具，直观地向我展示相关性如何工作，以及为什么相关性单独并不是描述底层数据的好方法。让它对非数学人士易于理解，并且高度交互和引人入胜。

此外，当模型能够编写代码并使用外部文件时，它们能够进行数据分析。想要分析一个数据集？ChatGPT的代码解释器在统计分析方面做得最好，Claude在统计方面做得较少，但在解释方面通常更出色，而Gemini则倾向于图表制作。目前，它们在处理充满公式和标签的Excel文件方面还不太擅长，但它们在处理结构化数据方面表现良好。

（六）多模态（Reads documents, sees images, sees video）

让你的人工智能从外部世界获取数据是非常有用的。几乎所有的主要人工智能都具备处理图像的能力。这些模型通常可以从一张图片中推断出大量信息。相比之下，能够处理视频的模型要少得多（视频实际上是以每秒一到两帧的速度作为图像处理的）。目前，只有Google的Gemini能做到这一点，尽管ChatGPT在实时模式下可以看到视频。

尽管所有人工智能模型都能处理文档，但它们在处理所有格式方面并不 equally 擅长。Gemini、GPT-4o（但不包括o1）和Claude可以处理带有图像和图表的PDF文件，而DeepSeek只能读取文件的文本内容。目前，没有模型在处理Excel或PowerPoint方面特别出色（尽管Microsoft Copilot在这方面做得更好，正如你可能预期的那样），但这种情况很快就会改变。不同的模型还具有不同大小的内存（“上下文窗口”），其中Gemini的内存最大，能够一次性容纳多达200万字。

（七）定制化（customize the AI for your use cases）

每个平台都提供不同的方式来定制人工智能以满足你的使用场景。ChatGPT允许你创建针对特定任务的自定义GPT，并包含一个可选功能，可以记住之前对话中的事实；Gemini与你的Google工作空间集成；Claude则有自定义样式和项目（都类似于国内AI 应用中的“智能体广场”）。正如你所见，有很多功能可供选择，除此之外，还有“感觉”的问题——每个模型都有其 own 个性和工作方式，几乎像一个人。

如果你碰巧喜欢某个特定人工智能的个性，你可能会愿意忍受更少的功能或较低的能力。你可以尝试多个人工智能的免费版本来感受一下。

二、各大平台横向对比

ChatGPT目前在其高级语音模式中拥有最好的实时模式。ChatGPT的另一个巨大优势是它几乎无所不能，尽管方式有时令人困惑——OpenAI有专门解决难题的AI模型（o1系列）和聊天模型（GPT-4o）；有些模型可以编写和运行复杂的软件程序（尽管很难知道是哪些）；有记住过去互动和调度系统的功能；电影制作工具和早期的软件代理。这可能很多，但它为你提供了尝试许多不同AI功能的机会。还值得注意的是，ChatGPT提供了一个每月200美元的层级，其主要优势是能够访问非常强大的推理模型。

Gemini目前还没有那么好的实时模式，但据说很快就会推出。目前，Gemini的优势在于其一系列强大的模型，包括推理模型，与搜索功能集成，以及一个易于使用的用户界面，正如你可能预期的那样，这是Google的产品。它还具有一流（top-flight）图像和视频生成能力。同样 excellent 是它的Deep Research，可以很快地为你形成报告文档。

Claude在这三个系统中功能最少，实际上你只关心一个模型——Claude 3.5 Sonnet。但Sonnet非常出色。它通常显得很聪明，也很有洞察力，这是其他模型所不具备的。因此，很多人最终将Claude作为他们的主要模型，尽管它没有那么丰富的功能。

虽然它非常新，但如果你想要一个 overall 非常好的模型，并且具有 excellent 的推理能力，你也可以考虑DeepSeek。如果你订阅了X，你会免费获得Grok，而X.ai的团队正在以令人难以置信的速度扩展其功能，即将发布的Grok 3新模型有望成为有史以来训练的最大模型。如果你有Copilot，你可以使用它，因为它包含了Microsoft和OpenAI的模型混合，尽管我对它在使用时缺乏透明度感到有些困惑。还有许多服务，如Poe，同时提供对多个模型的访问，如果你想尝试的话。

三、结语

在你阅读这份指南的时间内，可能已经推出了一项新的人工智能功能，另外几项功能得到了重大升级。但不要因此而犹豫不决。秘诀不在于等待完美的人工智能，而在于投入其中，发现这些工具实际上能做什么。

亲自动手，找到适合你的。这将让你了解人工智能在哪些方面可以帮助你，在哪些方面不能，以及接下来会发生什么。

教育学人AIED

课程与教学研究与分享，包括但不限于教育概念辨析，教育观念批判。

最新文章

UNESCO发布：在教育系统中推广社会情感学习（SEL）

系统综述：例析文献综述的另一种写法

哪家 AI更好用？沃顿商学院教授谈 DeepSeek

DeepSeek 的成功与跨学科人才培养的重要性

「AIED 教育学人·知识库」社群最近在干什么？

GANs 教育研究的潜力与争议：用人工智能合成样本代替真实数据？

认知网络分析（ENA）：教材分析的前沿方法

通用学习设计（UDL）及其可视化指南

社群问答：AI在音乐教育中的研究方向

大作业观：五个理念和四个实践路径

美教育部发布人工智能教育应用五大建议和实证见解

教师言语表达与学生学业成绩的关系

领取教育学人AIED定制红包封面

从 STEM 到 STEAME：加入创业家精神的理科教育

教育学人·成长社群

学习笔记：教育强国建设规划纲要（2024－2035年）

如何判断一篇论文水平好坏

211博导教授：如何借助ChatGPT写教育学文献综述?【附指令】

AI在音乐教育中的应用研究

AIED 教育学人知识库社群

德国调查青少年STEM兴趣影响因素

教育中人工智能（AIED）文献的系统回顾：为未来研究指明方向

利用 LLM 开发AI学习反馈助手以促进自我调节学习

智能教学系统（ITS）的发展与前沿——从支架式教学到 AI 代理

生成式 AI 如何影响学生的创造性思维

发两篇C刊快把研究生逼疯！

「生きる力」——日本学校教育改革的 6 个要点

教育理念溯源：核心素养的哲学基础

什么样的知识值得学？——杜威和卢梭教育思想比较

趣读英语文学：David Almond 的《当天使坠落人间》

文献综述≠记流水账，论教育学综述的正确方式！

教育模式溯源：项目式学习的哲学基础

人工智能+教育的理论基础（附：常见教育方法的哲学基础）

脑科学与教育：三元学习力模型

世界平均智商出炉：中国第一，还拉高了各国均分

2025年未来就业报告：未来更需要哪些技能？

思维型课堂教学的理论与实践

AI越好用，人工越需要更多智能…

系统综述：近十年物理学教育中科学史的发展方向

AI 机器人教师“上岗”：首位在德国高中授课的人形机器人

山姆奥特曼：我希望有人告诉我这 17 句话

科学本质：一个很难但学术圈很流行的教学概念

人工智能时代教育的“道”，“法”，“术”

提升信息素养的 Big6 与 Super3 教学法

全球调查《如何像训练AI一样快速提升Z世代的技能？》

白宫发布人工智能报告：对教育和其他十四个行业的建议

布卢姆目标框架：知识类型与认知维度相关联

解锁教育新密码：人工智能赋能教育教学科研深度实践之旅

布卢姆教育目标分类学：把教育的目标层次说清

联合国教科文组织：利用学习科学解决全球学习危机

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉