都翻车了

财富财经 2024-07-19 22:29 上海

文字版本👇

大家好，我是很帅的狐狸🦊

今天稍微讲一些AI通识好了，说几个未来有可能成为常识的知识点。

如果点赞转发多的话，我就开个系列，免费的那种。

前几天《歌手》公布排名，孙楠13.8%排第三，香缇莫13.11%排第四。

截图/ 湖南卫视歌手

然而有网友觉得13.11%比13.8%大……

截图/ 光明网

甚至还闹上了热搜……

这个事情本身没啥，不过有记者拿着这个问题去问了下AI……

结果发现包括ChatGPT在内的大部分大语言模型，都翻车了。

截图/ ChatGPT

今天我打算聊聊，为什么AI不大懂数学，另外说说如何成功让它有能力回答类似的问题。

通识1：AI不懂数学

除了13.8和13.11这个bad case，最近AI圈还有个类似的案例：「9.11和9.9哪个大？」

很多人问了圈AI，也是几乎全军覆没。

截图/ Riley Goodside

这个涉及到大语言模型的工作原理——其实它是基于概率来工作的。

我以前曾经N次推荐过诺奖得主Daniel Kahneman的书《思考，快与慢》。

书里面提到说，人类的两种思考方式——系统1和系统2：

系统1为直觉或快速反应，系统2为理性思考或深度推理。

包括ChatGPT在内的生成式AI，它的工作原理会更像是「系统1」的工作模式。

这里我举个例子你就明白了——

假设我就是一个大语言模型，当我被问到「你是谁」这个问题时，基于之前受到的训练（人生阅历），我对第一个字的判断是——出现「我」的概率是100%。

而出现了「我」之后，接下来的可能性有三个，分别是「是」「叫」「的」，假设它们的概率分别是60%、35%、5%。

而基于「我是」「我叫」「我的」这三种情况，每种情况后续又会有更多的可能性出现，每种可能性都对应一个概率。

最后我们可能会有N种回答这个问题的可能性，每一种可能的回答都对应着一个出现概率（把前面每一步的概率相乘）。

包括ChatGPT在内的生成式AI，会对过去的大量文本、数据进行学习，从而建立起自己的概率分布表。

经过预先训练的这些大语言模型，会根据上下文来判断接下来会出现的文字，最大概率可能是哪个字，从而生成出来。

所以大语言模型并不是真的理解这个世界，它只是用了「系统1」，没办法像人类一样用「系统2」来进行深度推理。

所以，网络上才会有大量AI「一本正经地胡说八道」的笑话，也就是业内常常会提到的「AI幻觉」现象。

通识2：解决AI幻觉的方法

为了解决这个AI幻觉问题，业内有几种方法。

方法1：死记硬背

既然不懂推理，那我死记硬背总可以了吧？

所以只要给AI刷足够多的题库（无论是通过重新训练模型，还是微调），自然可以提高答对的概率。

然而，这种做法还是会有问题：即使它记住了13.11<13.8，也不见得它就明白了9.11<9.9呀。

遇到题库以外的问题，它不一定可以举一反三。

方法2：开卷考试

还有一种方法就是允许AI接入外部知识库（包括联网）。

在回答问题前，让AI先搜一下本地题库里有没有类似的问题（业界称为RAG，即「检索增强生成」），或是让AI在互联网上搜搜有没有现成的答案。

搜到类似的内容后，程序会把相关资料给提取出来。

然后程序会发送类似以下格式的文字给到AI，让AI进行回答：

已知：9.11小于9.9（题库里的相关内容）
请问：9.11和9.9哪个大？

开卷都答不出来的话，那这个AI确实也不合格了……

所以我们看到的测试结果中，腾讯元宝因为先搜了搜公号文章，所以成功避免了错误。

要搭建自己的本地知识库也不难啦，github上有无数的开源RAG程序，比如Langchain-Chatchat、MaxKB等等。

没有代码能力的话，也可以试试英伟达自己的官方应用ChatwithRTX。

或者更方便点的，就是问AI的时候加一句「请先联网搜索后回答」。

截图/ ChatGLM

方法3：用计算器

不少大语言模型都可以接入Code Interpreter（代码执行器），我在以前也介绍过这个bug级别的功能。

你可以在提示词后面加上一句，「请执行代码来回答」。

这样AI会写代码，并执行这个代码，从而去判断数学问题的答案。

截图/ Kimi，ChatGLM

当然，也不乏有一些嘴硬的AI——

截图/ ChatGPT

方法4：给点提示

你可能听说过「提示词工程」（Prompt engineering）这个词，简单说就是优化给到AI的问题的文案，让AI可以产出更符合我们要求的答案。

比如这道数学题，AI之所以会有错误，是因为它的断句（tokenization）有问题——

9.9被它看成了「9」「.」「9」三个部分，9.11被它看成了「9」「.」「11」三个部分。

然后它比较了整数部分发现都是9，比较小数部分发现11比9大，所以才会判断说9.11>9.9。

知道原理后，我们可以尝试把提问改为「9.9和9.11哪个大？请先拓展到小数点后两位再比较」。

截图/ ChatGPT

我试了下，GPT-4o中英文这么提问都OK，可以成功回答。

国内的大模型呢，大多还是不大行。

好了今天就聊到这。

对这个系列感兴趣的话，可以给我点赞转发，如果感兴趣的人多的话，我之后开个系列，免费的那种。

P.S. 更及时全面的资讯，可以看看我们的另一个公号——

🤑

「Greed is good.」

「很帅的投资客」的所有内容皆仅以传递知识与金融教育为目的，不构成任何投资建议。一切请以最新文章为准。

📖 相关阅读：

✍🏻 图文/ @狐狸君raphael，曾供职于麦肯锡金融机构组，也在 Google 和 VC 打过杂。华尔街见闻、36氪、新浪财经、南方周末、Linkedin等媒体专栏作者，著有畅销书《风口上的猪》《无现金时代》。

觉得对你有用的话，帮我点个在看吧 👇

http://mp.weixin.qq.com/s?__biz=MzAwODMyMTY0Ng==&mid=2650630949&idx=1&sn=f1cb0841adf5fe98c0ba4ffd01ba7e58

很帅的投资客

欢迎关注说人话的投资指南，这里有你需要知道的所有财经知识。主创狐狸，曾供职于麦肯锡金融机构组，华尔街见闻、36氪、新浪财经、南方周末、Linkedin等媒体专栏作者，著有畅销书《风口上的猪》、《无现金时代》。

最新文章