上周玩大模型,突发奇想希望让大模型控制一些实际的东西,正巧我的电脑下载了一个本地的模型,占用内存大小约4.2GB,这个确实是不大,但我真没想到能在我的笔记本电脑上跑起来,既然能在本地跑起来,私人电脑这么私密的环境单纯聊天那多没意思。我查了下到底该怎么让大模型做生成文本之外的其他事情,竟然让我学会了,我最开始想到的就是让它打开浏览器进入我想要访问的网站,这里我一定要解释一下并不是什么不良的网站。当你想要访问非法网站,你放心访问不了一点,AI会阻止你做这种有害的事情,我朋友已经尝试过了,大家就别试了。做这件事原理其实也不难,文本大模型是没有直接控制其他设备的能力的,文本大模型只能生成文本。程序可以有能力控制其他东西,所以需要在程序中调用大模型,同时对大模型响应的文本做检测,如果检测到是指令,程序就会把这文本指令转化为真正执行的程序指令。
当然,这可能需要你会一点编程基础,只需要基础,使用python很简单的,这里推荐一下python这门语言,想要玩AI人工智能的朋友,python是最适合的语言,语法简单美妙同时拥有很多人工智能的工具库,还没有这方面基础的朋友我推荐下面这本书。先给大家看一下效果啊,网页调用还是很简单的,我做的东西外行可能看热闹,但内行是真的看笑话,毕竟我不想把一些东西搞得很难理解,那会打击初学者的兴趣,更难更专业的技术我也很难表达,再说了太难的我也不会啊。在明白了这个原理之后,我们就可以让AI帮我们开门,但是没门。无所谓,没有门咱们就造一个假门试一试,使用网页渲染一个简单的3D门,没办法,这期文章的没预算无法支撑我去买个自动门回来,3D门会模拟真实的门接收到指令就能开关。我要求大模型在我需要开门的时候响应websocket_send:('open'),在我想关门的时候响应websocket_send:('close'),这样一来,python程序检测到“websocket_send:”这一串字就会提取open或close,然后给网页发送开关门的指令,实现我们看到的效果。
没想到这符合预期成功了,这个过程的技术栈可能比调用网页来得更难一点,需要用到网页实时通讯技术,不过那也很简单,他们通过大模型执行动作的原理是一样的。
如果你对计算机神经网络感兴趣,也可以点击查看我的神经网络构建教程,构建计算机神经网络比搞个开门的网页简单不少。