我的个人博客:www.moonkite.cn
各位好,我是风筝
目前国外 AI 大模型中,OpenAI 和 Claude 是公认最好的了,尤其是在编程方面,Claude 更是各种插件和 IDE 的首选大模型,例如 Cursor、Windsurf 。
Gemini 是 Google 的AI大模型,但是反响一直不佳,主要原因肯定体现在能力上。作为生产力工具,肯定是能者居之,也就有更多人买账。
最近 Google 终于发力了,前几天,发布了 Gemini 2.0。
Gemini 2.0 进一步发展了代理模型,能够更好地理解周围世界,提前思考,并在用户监督下代表用户采取行动。
目前无论是 Gemini 1.0还是 2.0 都差不是免费的,拿最新的 Gemini Experimental 1206 来说,每天有2097152免费 token,按照一次问答消耗1000个token算,一天能问2000次左右,是绝对用不完的。
OpenAI 和 Claude 的会员每个月都是几十刀,能力上现在几乎不相上下了。
使用地址: https://aistudio.google.com/prompts/new_chat
功能和能力
编码能力
作为程序员,首先肯定是看它的编码能力,有相关的测评显示,其编码能力几乎超过了目前公认最会写代码的 Claude Sonent 3.5。
但是,耳闻不如亲见。还得亲自试一下,之前1.0 的版本我是用过的,当时比 ChatGPT 免费版还要差很多,而且对中文的理解非常有限。让它改个bug都挺费劲的。
然后这次我想用它做一个小功能,就是一个 markdown 编辑器,左边是 markdown 源码区,右侧显示渲染后的结果,另外就是可以将渲染后的图片下载下来。
我用 Claude 和 ChatGPT 都做过这个功能,实话说,这功能没什么复杂度,用 Claude 是可以实现的,但是用 ChatGPT 免费版还是有些问题的。
下面是完整的 prompt,
我想要设计一个markdown 转图片的产品,要求如下:
用 React Nextjs 实现
左边是 markdown 编辑器,右侧是预览区;
不要使用markdown 默认的解析样式,可以只简单支持几个标签,例如 H1 、H2、引用、图片、代码标签;
要将 markdown 排版为美观大气的样式,可参考一些专业UI设计、广告设计等;
可将预览下载为无损图片,默认尺寸为1080×1350像素,可动态调整大小,样式要自适应
整体风格以天空蓝为主,要求简洁大气 好了,开始帮我实现吧
然后基本上是一次成型,只是图片下载有点问题,把问题告诉它,修复一下就好了,基本可用。
OCR 能力
OCR 是一个大众需求,如果用第三方服务的话,不是很便宜。我用一张发票试了一下,效果绝对是比 OpenAI 强的。
这张发票有横向文字还是纵向文字,用其他的大模型,识别横向文字都没什么问题,但是基本上没有识别出纵向的。而 Gemini 竟然纵向文字识别的也很准确。
逻辑能力
经典问题,就是 13.8和13.11哪个大,下图是 Gemini 2.0 的回答。
答对了。
而 ChatGPT 还是说 13.11大。
Claude 也同意 13.11 更大。
国内的 kimi 也表示赞同。
当然这一个回答可能不能说明什么问题,因为国内的一些大模型也能回答对。
实时对话
可以在 Gemini 中进行实时对话, 反应速度还是非常快的,但是不支持中文,能听懂中文,但是不会说中文,不知道是不是因为所在地区的问题。
入门应用程序
在 Gemini 上还有一个入门应用程序的功能,主要包含三大类功能。
1、上传照片并将 2D 或 3D 空间分析与推理相结合。让 Gemini 为您提供对象、文本等的位置。 2、一个交互式视频播放器,可让您汇总、描述场景、提取文本、搜索对象等。 3、使用 Gemini 和 Google Maps API 探索世界各地的地点。询问 Gemini 为您找到有趣的地方等等。
还可以看看风筝往期文章
用这个方法,免费、无限期使用 SSL(HTTPS)证书,从此实现证书自由了
为什么我每天都记笔记,主要是因为我用的这个笔记软件太强大了,强烈建议你也用起来
古时的风筝,一个程序员,一个写作者。