最近,初创公司Together成为硅谷风险投资基金和天使投资人的新宠,成功获得了2000万美元的种子基金。Together致力于提供开源大语言模型和去中心化的云服务。
通过与学校、开源组织和其他公司的合作,Together已经在RedPajama(红色睡衣)项目中成功还原并开源了用于训练LLaMA大语言模型的1.2万亿令牌数据集。这个数据集使得任何组织都能够进行模型的预训练。基于此,Together还将进行大语言模型的训练,并通过开源向公众提供使用和微调。
与去年11月ChatGPT推出几乎同时,Together也发布了开源大模型GPT-JT(6B)。今年四月,Together推出了开源模型OpenChatKit,作为通用聊天机器人的基础模型和工具。
新获得的投资将用于云平台的开发。Together的研究可使模型训练或微调期间的网络流量减少200倍。这意味着客户可以通过网络使用GPU参与大型模型的训练或微调,而不会影响生成模型的质量。这样一来,可以构建更具可扩展性的基础架构,并为客户提供不同性能和成本水平的各种计算选项。这也使得更多人能够访问该平台。此外,该公司还开发了能够提高推理吞吐量一个数量级的技术。
Together的产品创始副总裁de Guerre表示:“基础模型是一种新的通用技术,适用于各行各业和各种应用。我们相信,这些模型的开源生态系统将真正释放它们的潜力,为创造巨大的价值做出贡献。此外,当企业定义生成人工智能战略时,他们追求隐私、透明度、定制性和易于部署。通过在开放数据集上进行预训练的开源模型,组织能够全面检查、理解和定制模型以适应其应用程序的需求。“
VentureBeat:RedPajama replicates LLaMA dataset to build open source, state-of-the-art LLMs
Venture Beat:AI startup Together raises funding for open-source AI and cloud platform
Together Blog: RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens
Together Blog: Announcing OpenChatKit
Together Blog: Releasing GPT-JT powered by open-source AI