LiveBench作为由图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun)联合Abacus.AI、纽约大学(NYU)、英伟达等多家机构共同推出的大型语言模型(LLM)评测基准,被行业广泛认可,更被誉为“全球首个无法作弊的LLM基准测试”。该榜单专为大模型设计,从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估,包含6个类别的17个不同任务,每月更新新问题。
据榜单显示,Step-2在IF Average(Instruction Following 指令跟随)这一项上表现突出,超越了包括o1-preview-2024-09-12在内的所有测试语言大模型,获得了最高分86.85分。
在IF Average这一项进行测试中,测评团队为模型提供了一篇来自《卫报》的文章,要求模型遵循多个随机抽取的指令,并完成与文章相关的四个任务之一:释义、简化、故事生成和总结。评测结果显示,Step-2在这一测试中获得了86.57的平均分,而gemini-1.5-flash-002得分84.55,是唯二超过80分的模型。
这表明,Step-2在语言生成上对细节的控制力非常强,尤其是在理解模糊指令、处理特定领域或边缘分布中的复杂问题、根据指令对文本进行精确调整和优化等方面,表现出色。
打造出如此强大的大模型背后的公司——阶跃星辰,究竟是家怎样的公司呢?
信息显示,阶跃星辰成立于2023年4月,至今不过一年多的时间,是一家相对低调的创业公司。不过其创始人姜大昕却是一位行业内重量级人物,曾担任微软全球副总裁,在机器学习、数据挖掘、自然语言处理和生物信息学等方面拥有十多年的研究和工程经验。特别是在数据挖掘和行业自然语言处理方面有深厚的研究,发表过近200篇相关论文。
阶跃星辰可以说是“含着金汤匙”出生的公司,不仅创始团队实力雄厚,还受到资本市场的一路追捧。早在成立初期,阶跃星辰就就获得多家VC的青睐,其中包括启明创投、五源资本等一线风投,均参与该公司早前几轮融资。今年上半年,有消息称阶跃星辰正在进行一轮估值20亿美元的新融资,阿里巴巴也在投资者名单之列。如果此轮融资成功,阶跃星辰将直接晋升为头部AI独角兽企业。
虽然成立时间不长,但阶跃星辰的发展速度却很快。今年3月,阶跃星辰推出了首个版本的千亿参数多模态大模型Step-1V。7月,又在世界人工智能大会(WAIC)期间,一口气发布了三款Step系列通用大模型新品。其中,除Step-2万亿参数语言大模型正式版之外,还包括Step-1V的迭代版本Step-1.5V多模态理解大模型,以及Step-1X图像生成大模型。凭借优秀的研发能力,阶跃星辰也获得了国内“大模型六小虎”之一的赞誉。
在C端,阶跃星辰推出的智能助手“跃问”和AI开放世界平台“冒泡鸭”,也均获得了不俗的市场反响。目前,“跃问”已经接入Step-2万亿参数语言大模型,用户在跃问App和跃问网页端都可以体验到这款大模型的强大功能。
当前,大模型技术的发展正逐渐趋于理性,在技术革新步伐放缓的背景下,越来越多像阶跃星辰,或许能给行业带来新的灵感与创意。