在生成式人工智能应用中,搜索是一个备受关注的市场,无论是对消费者还是对企业都很有吸引力。这个市场规模超过2000亿美元,十多年来,搜索用户体验和行业格局几乎没有发生重大变化或颠覆。在今天的AI浪潮下,创业公司试图优化和改变搜索方式,并占据市场份额。
而在学术研究这个垂直领域,除了我们之前介绍过的年入千万的AI写作助手之外,还有一家AI搜索公司正在崛起,那就是Consensus。
Consensus 是一款旨在简化学术研究的创新搜索引擎,类似于“AI版的Google Scholar ”。它能够根据用户提出的具体问题,找到相关的经过同行评审的学术论文。该平台利用了一系列大型语言模型(LLM)来自动化研究过程中的关键步骤,使其成为研究人员、学生和专业人士的强大工具。如今,该平台拥有超过 200 万注册用户 和 40 万月活跃用户,包括来自斯坦福大学、辉瑞公司和美国国家科学院等知名机构的学者和 AI 研究人员。目前公司ARR达到 150 万美元。
该初创公司累计完成1525万美元融资,投资方包括Union Square Ventures、Draper Associates、Path Ventures、Alumni Ventures、Nat Friedman、Daniel Gross。
根据硅谷科技评论(SVTR)AI数据库,在AI搜索赛道上,包括我们之前介绍过的Glean ,帮助企业员工在整个组织中查找信息;Perplexity ,旨在与谷歌的搜索引擎竞争;Constructor,帮助电商扩展品类的搜索平台。在国内,这个赛道的初创公司也在涌现,包括深势科技投资的催化剂加(天慧蓝)。
Christian Salem,Consensus联合创始人兼首席产品官(CPO)。曾任职于美国国家橄榄球联盟(NFL),担任产品经理,负责从前端Web和移动产品到后端发布和用户管理平台的多个团队领导工作,并领导了所有NFL团队和产品的个性化定制。在此之前,他是TicketManager的B2B产品经理,这开启了他在科技领域的职业生涯。他毕业于西北大学,获得经济学学士学位,并在校期间担任橄榄球运动员。Christian 和他的西北大学校友 Eric Olson 于 2021 年联合创立公司。
这次访谈中,Christian 介绍了 Consensus 的创立故事、为什么 LLMs 非常适合学术研究,以及未来 12 个月的目标。
介绍一下您自己以及是什么促使您共同创立 Consensus?
我是Christian,Consensus的联合创始人。我职业生涯的起点是在一家名为TicketManager的B2B初创公司担任产品经理,在那里我学到了如何打造产品以及在初创环境中工作。不过,我一直对面向消费者的产品更感兴趣,所以后来加入了NFL(美国国家橄榄球联盟)的产品团队。作为一个橄榄球迷,这对我来说是一个梦寐以求的机会。在NFL工作的三年里,我领导了多个团队,为联盟、32支球队及其数百万用户开发了各种产品。
Consensus的创意其实可以追溯到我在西北大学读书的时候。我和我的联合创始人一起打大学橄榄球,我们因为家里都有学术背景而成为好朋友。我家里除了我以外,其他人都是博士;Eric,我的联合创始人,他的家人也都从事教学或学术工作。我们因为这种共同的背景成为了好朋友,也对科学、研究以及AI产生了浓厚的兴趣。
在大学快毕业时,Eric有一天打电话给我,提了个疯狂的想法:“我们能不能用AI让科学变得更容易理解,让更多人受益?”当时我觉得这个想法很疯狂,并没有太在意。但几年后,我们在科技领域积累了更多的经验,尤其是随着疫情的爆发,对更好研究工具的需求激增。我一直在密切关注AI的发展,特别是GPT-3的发布。当我第一次使用它时,我立刻打电话给Eric,说:“你在大学时提的那个疯狂想法,现在我们可以真正实现了。”
这就是Consensus的起点。我们最终在2021年底辞去了工作,全职投入到这个项目中,并于2022年底推出了产品,就在ChatGPT问世前不久。
您如何向不熟悉该平台的人介绍Consensus?
Consensus 是一个旨在简化和自动化研究流程的搜索引擎。你可以把它想象成Google Scholar和GPT的结合体。当你在Consensus上提问时,它会搜索与你的问题相关的经过同行评审的学术论文。但它不仅仅是提供搜索结果,还会利用大语言模型(LLM)来自动化研究工作流程中的各个环节。
例如,Consensus可以帮助你总结研究论文,提取关键信息如样本量和研究人群,分类研究类型,甚至将最严谨的研究排在搜索结果的前列。我们构建这个平台时,是以一个专家(如医生或研究人员)的工作流程为蓝本,想象他们是如何通过文献查找来得出结论的。然后,我们将这些步骤分解开来,并训练LLM来优化和自动化每个步骤,从而使研究过程变得更加快捷高效。
今天,您的目标用户是谁?您认为Consensus对哪一类用户最具价值?
目前,我们的用户群非常多样化,甚至超出了我们的预期。学生是我们最大的用户群之一,这并不意外。现在,几乎世界上每一所主要研究型大学都有学生在使用Consensus。对学生来说,最常见的使用场景是写论文,他们需要进行文献综述,并为论文提供引用。我们的用户包括本科生和研究生,他们都在使用Consensus并从中获益。
另一个让我们感到意外但又非常重要的用户群是实际的医生。我们最初并不是专门为医生打造一个医疗工具,而是希望让从科学文献中获取答案变得更容易。结果是那些每天都在查阅文献的人,包括医生,开始发现了我们产品的价值。医生们使用Consensus来查询患者提出的问题,特别是那些他们自己并不专精的领域,或者快速了解最新的研究进展。
能否介绍一下公司核心平台?以及您如何看待 RAG、链接(chaining)和编排(orchestration)来呈现正确的结果?
Consensus 的核心平台运作就像一条由超过 25 个大型语言模型(LLM)组成的生产线,每个模型都负责处理流程中的不同部分。我们使用经典的“检索增强生成”(RAG)技术,首先从搜索引擎中检索相关论文,然后使用 LLM 生成基于这些论文的输出,如答案或综合分析。不过,我们不仅仅停留在传统的 RAG 上,还引入了我称之为“GAR”的概念,即“生成增强检索”。这意味着我们在检索之前生成关于论文的大量有价值的元数据,以增强整个检索过程。
例如,用户在评估和排序论文时通常关心的一些因素包括研究设计、样本量以及研究是否在人体上进行。这些因素对于判断一项研究的可信度至关重要。我们通过在检索前利用语言模型生成并提取这些信息,然后在对数百万篇论文进行排序时,使用这些预先生成的元数据,确保最相关和最可靠的论文出现在最前面。
我们的平台是多层次的,不同的模型负责不同的任务。对于最终的输出,我们通常依赖 OpenAI 的大型综合模型,但我们也使用更小的模型——比如 30 亿参数模型,甚至更小的模型来处理一些更为专业的任务。这种模型的协调与配合使我们能够高效地管理广泛的任务,确保用户获得最准确和相关的信息。
迄今为止,您认为建立Consensus的最大技术挑战是什么?
构建Consensus至今,最大的技术挑战在于搜索功能。RAG(检索增强生成)中的检索部分对我们的领域来说是一个非常技术性的难题。如果你是一家只有几千个文档的小公司,想要在上面使用向量数据库并生成一些内容,这并不难实现。但如果你需要搜索数亿份极其密集的技术文档,如学术论文,而且每次都要将最优质的研究排在最前面,构建一个能够实现这一目标的搜索引擎就变得极其困难。
为了解决这个问题,我们专门招聘了有搜索引擎经验的人才。我们的搜索工程师曾在亚马逊搜索团队工作了五年,随后又在谷歌搜索团队工作。因此,确保检索和排序系统能够在每次搜索中将最合适的论文排在最前面,一直是最大的挑战,这也将继续是我们面临的主要挑战之一。
随着语言模型在任务处理上变得越来越强大,比如总结、提取答案和分类等,它们在这些方面只会越来越好。因此,我们的重点必须放在如何更好地提供最优质的文档,让语言模型在这些文档上执行其任务。
从技术角度来看,能否分享下你们的技术方法有何独特之处?
我们在构建Consensus时采取了一些独特的技术方法,有几项值得特别强调。
首先,我们在搜索引擎上的投入非常大。我们不仅依赖现代向量数据库提供的语义相似性,还构建了一个真正端到端的搜索引擎。这个搜索引擎不仅要包括传统的关键词匹配,还要为文档的不同字段赋予不同的权重。比如,当用户使用引号时,他们期望的是精确匹配。此外,我们还需要具备过滤功能,而这通常是向量数据库无法完全解决的。例如,如果用户只想要2020年以后发表、且引用次数超过50次的随机对照试验,仅依靠向量数据库很难实现这些需求。因此,我们构建了一个更传统的搜索引擎,同时融入了现代向量数据库的语言模型驱动的语义相关性。这种方法使我们能够处理复杂查询,并提供用户期望的精确结果。
另一个有趣的方法是我们之前提到的“RAG的逆向操作”,即在检索之前进行生成。这是一片尚未被广泛探索的领域,通过在用户检索之前使用语言模型处理文档,生成更多相关的元数据。这些元数据可以被反馈到搜索引擎或向量数据库中,从而改善最佳文档的检索和排序。
我们还在产品中加入了大量的安全防护措施,因为使用场景的风险较高。研究人员和医生是我们的用户群体之一,他们对准确性有着非常高的期望。虽然我不会声称我们在任何情况下都能100%准确,但我们在产品中加入了很多免责声明,鼓励用户阅读论文并查阅其他来源。举例来说,在我们的RAG流程结束时,如果我们认为没有找到足够相关的论文,我们甚至不会开始总结过程。我们有一个专门的模型,其唯一职责就是确定是否有足够相关的研究可供总结,以及这些研究是否与用户的问题足够相关。
通过这种方法,在测试中,我们通过关闭那些相关文献较少的查询的最终RAG功能,大幅减少了“幻觉”现象。语言模型往往会试图给出答案,即使面对无关内容时也会填补信息空白,这可能导致不准确的信息。通过确保在处理之前内容的相关性,我们有效地降低了这一问题的发生率。
分享下您对公司未来 6-12 个月的规划以及您重点关注领域是什么?
在接下来的6到12个月里,我们的工作重点主要集中在三个方面。
首先是对搜索引擎的持续投资。这需要大量的工作和资源,我们致力于不断提高论文的相关性,确保用户能够找到最准确和最有价值的研究文献。
其次是增加更多的AI分析功能。我们目前已经可以从研究论文中提取很多有用的信息,但用户总是希望能够获得更多功能。他们想知道研究中是否存在利益冲突,了解研究的资助来源,并希望能够以更灵活的方式总结内容。此外,用户还希望能够与论文进行交互式对话,这是我们希望很快能够推出的功能。
第三个重点是围绕团队协作和工作流程的改进。我们发现来自各行各业的团队对Consensus表现出了极大的兴趣,无论是大学、医生办公室还是生物技术公司,他们都希望能够在Consensus上进行研究并与团队成员协作。我们刚刚推出了一个初步版本的“Consensus for Teams”功能,接下来我们计划进一步扩展这个功能,帮助更多人能够在Consensus平台上协作研究。
总的来说,我们的三个主要关注点是:改进搜索功能,增加更多AI驱动的分析功能,以及支持团队协作。
最后,介绍下公司团队以及您如何描述公司文化?
我们现在有10个人,团队文化主要是尽可能保持灵活和高效。我们是一个小团队,但面对的是一个巨大的挑战,要想成功,我们必须成为最快、最节约成本、最灵活的团队之一。这体现在产品上,就是我们尽可能快地推出新功能。如果你感兴趣,我可以给你发一份我们最近的更新日志,你就能看到我们今年推出的所有新功能!我们最关心的就是能多快为用户带来改进,无论是面向用户的新功能,还是改进搜索基础设施以提升论文的质量。我们每周都在推出新改进,这也是我们团队文化中最明显的特征。
另一个重要方面是,我们的团队对这个问题充满热情。我们的目标是将科学知识普及给所有人。目前,有很多极具价值的知识被锁在晦涩难懂的PDF文件和学术研究中,普通人难以理解。我们相信,通过AI的力量,不仅可以让专业研究人员或医疗行业和工业领域的专业人士更容易获取这些知识,也可以帮助普通大众理解科学,从而加速科学进步和世界对科学的理解。
我们的团队从这个使命中获得动力,这驱使我们快速行动,不断迭代,努力工作。团队里的每个人对这一使命都充满激情,这也是我们快速前进的重要推动力。
AI周报:
AI创投
+
AI行业
+
全球 Gen AI 独角兽大盘点,中国4家大模型上榜 | |
大模型系列:海外 | 数学 | 性价比 | 编程 | 医疗 | 评估 | 训练成本 | 小模型 | |
AI 公司创始人 | 华裔创始人 | 北美科技人才中心地图 | |
AI 公司地理和行业分布 | 以色列 | 德国 | 旧金山湾区 | 欧洲 | |
福布斯AI 50 | 斯坦福AI指数 | 企业科技AI 30 | 高增长AI 50 | C端AI 50 | 工具AI 50 | SVTR AI 100 | 自力更生AI 25 | |
AI+编程 | 医疗 | 企服 | 电商 | 设计 | 勘探 | 教育 | 写作 | 客服 | 法律 | 视频 | 3D | 音乐 | 搜索 | 心理精神 | 消费者科技 | 安全 | 生产力工具 | 浏览器 | 游戏 | 会计 | 数据分析 | 销售 | Scribe | 金融投资 | |
人工智能能做什么? | LLMOps |
AI是否会被垄断 | AI未解之谜 |
开源AI,开发者工具 | AI域名 |
生成式 AI 六大趋势 | 巨头的AI战争 |
AI Agent,自动化 | 具身智能 |
AI专利 | 2023年AI总结和展望 |
AI公司
+