1K star!开源版 GPT-o1 就来啦?!

文摘   2024-09-17 22:02   江西  

* 戳上方蓝字“开源先锋”关注我


推荐阅读:

《36.8K star!开源免费的跨平台管理工具,再也不用怕密码丢失了!》


大家好,我是开源君!

最近OpenAI新推出了史上最强的GPT-o1模型,它在处理复杂推理任务时展现出了强大的能力,尤其在数学、物理、化学和生物学等领域的表现达到了非常高的水准,可以说把大语言AI模型又推向了一个新高度。

也就在差不多的时间,Github上面也出现了一个非常酷的开源项目——g1,在AI圈里引起了不小的轰动,甚至被认为是o1的首个开源版。

今天开源君就和大家来聊聊这个项目。

项目简介

g1(全称是不是可能叫“Genius 1”,哈哈,我猜的)使用了一个叫做Llama-3.1 70b的模型,运行在Groq硬件上。这个项目尝试用一种新的方法来提升大型语言模型(LLM)的推理能力,目标是通过一种特殊的提示策略,让AI能够像人类一样进行逻辑推理,解决一些复杂的逻辑问题。

想象一下,如果你的AI助手不仅能回答问题,还能像侦探一样一步步展示它的思考过程,如同o1一样,那岂不是很酷?

开源仅仅几天时间就收获了近 1K star!

工作原理

这个项目用到了一些非常酷的技术,让AI能够像人类一样进行逻辑推理。

1、使用Llama-3.1 70b模型

g1项目的核心是一个叫做Llama-3.1 70b的模型。这个模型在Groq硬件上运行,它能够创建动态的推理链,让AI能够“思考”并解决一些复杂的逻辑问题。

2、推理链

在g1中,每次推理都是一个步骤,AI可以选择继续进行下一个推理步骤,或者给出最终答案。每一步都有一个标题,描述这一步在做什么,并且对用户是可见的。

3、提示策略

g1使用了一系列特殊的提示来引导AI进行推理。这些提示可能包括:

  • 使用多个推理步骤:至少3个,确保AI有足够的时间进行思考。
  • 意识到自己的局限性:AI需要知道自己能做什么,不能做什么。
  • 探索替代答案:AI需要考虑自己可能是错误的,并尝试其他可能的解决方案。
  • 重新检查:如果AI认为自己可能错了,它需要真正地重新检查,并尝试不同的方法。
  • 使用至少3种方法得出答案:这有助于AI通过不同的方法来找到正确的答案。

4、JSON格式的响应

g1要求AI以JSON格式进行响应,包括“标题”、“内容”和“下一步行动”(继续或最终答案)。

5、可视化推理

g1的一个特点是它能够将AI的推理过程可视化。用户可以看到AI是如何一步步解决问题的,这不仅增加了透明度,也提高了用户对AI的信任。

快速使用

如果你想自己试试g1,可以按照下面的方法:

克隆项目后,使用Streamlit UI,按下面操作:

python3 -m venv venv
source venv/bin/activate
pip3 install -r requirements.txt
export GROQ_API_KEY=gsk...
streamlit run app.py

使用Gradio UI

cd gradio
pip3 install -r requirements.txt
python3 app.py

项目展示

g1的体验可以说是非常直观的,和o1看起来有点类似,每一步都会有一个标题,描述这一步在做什么,以及内容。最后,它会告诉你它是要继续推理,还是要给出最终答案。

下面是之前测试模型大家都最喜欢问的2个问题,

1、strawberry中有多少个r
2、x.9和x.11哪个大

结合完整的思考之后,g1都能回答正确!

据说在没有提示的情况下,Llama-3.1-70b 的准确率为 0%,ChatGPT-4o 的准确率为 30%。而g1在无需任何训练,就足以在strawberry问题上达到 ~70% 的准确率。

官方给出的提示词如下:

You are an expert AI assistant that explains your reasoning step by step. For each step, provide a title that describes what you're doing in that step, along with the content. Decide if you need another step or if you're ready to give the final answer. Respond in JSON format with 'title''content', and 'next_action' (either 'continue' or 'final_answer') keys. USE AS MANY REASONING STEPS AS POSSIBLE. AT LEAST 3. BE AWARE OF YOUR LIMITATIONS AS AN LLM AND WHAT YOU CAN AND CANNOT DO. IN YOUR REASONING, INCLUDE EXPLORATION OF ALTERNATIVE ANSWERS. CONSIDER YOU MAY BE WRONG, AND IF YOU ARE WRONG IN YOUR REASONING, WHERE IT WOULD BE. FULLY TEST ALL OTHER POSSIBILITIES. YOU CAN BE WRONG. WHEN YOU SAY YOU ARE RE-EXAMINING, ACTUALLY RE-EXAMINE, AND USE ANOTHER APPROACH TO DO SO. DO NOT JUST SAY YOU ARE RE-EXAMINING. USE AT LEAST 3 METHODS TO DERIVE THE ANSWER. USE BEST PRACTICES.

Example of a valid JSON response:
json
{
    "title""Identifying Key Information",
    "content""To begin solving this problem, we need to carefully examine the given information and identify the crucial elements that will guide our solution process. This involves...",
    "next_action""continue"
}

当然,g1项目虽然很酷,但它还在实验阶段,所以并不完美。它的推理准确性还没有经过大规模的正式评估,尽管在一些测试中表现不错,但可能在更复杂或不同类型的问题上还有待提高。

另外,g1目前主要依赖于特定的提示策略来引导AI进行推理,这意味着如果问题没有被很好地格式化或者提示不够明确,AI可能就无法正确理解问题或给出准确的答案。

还有,g1的性能也受限于它所使用的模型Llama-3.1 70b的能力,以及Groq硬件的性能。随着AI技术的发展,未来可能需要进一步优化和升级这些组件来满足更高的性能要求。

不管怎样,g1依然是一个非常有趣的项目,它展示了通过提示策略提升AI推理能力的潜力。虽然它现在还不完美,但已经能够解决60%到80%的常见逻辑问题,这已经是一个很大的进步了。

更多细节功能,感兴趣的可以到项目地址查看:

项目地址:
https://github.com/bklieger-groq/g1

开源先锋
分享Github上最有趣的开源项目
 最新文章