文|庞德公
编辑|郭嘉
这是4月份版本的评测指标
在昨天泄露的版本中,有好事者做了一些评测,Llama3 405B在多项测试中优于GPT-4o,包括BoolQ、GSM8K、Hellaswag、MMLU-humanities、MMLU-other、MMLU-stem 和Winograd。这些结果基于Llama3 405B的基础模型,也代表着未来进一步的调整和优化的空间,届时模型的潜力可以被更加优雅的释放。
具体等官方正式发布,不过效果还是值得期待!
虽然GPT-5可能会挑战Llama 3.1的新兴主导地位,但Llama 3.1对 GPT-4的出色表现还是突显了开源 AI日益增长的影响力和能力。