01
背景
02
Cosmopedia数据集介绍
数据集链接:https://www.modelscope.cn/datasets/swift/cosmopedia
03
Chinese Cosmopedia 数据集
数据集简介
数据来源与种类
中文维基百科:提供了大量精确、权威的知识性文章。 百度百科:作为国内最具影响力的百科平台之一,百度百科为数据集提供了广泛的中文知识资源。 知乎问答:从互动式问答平台中提取的内容,涵盖了多个领域的讨论与见解。 技术博客:来自技术社区的文章,涵盖了从编程到人工智能等多个技术方向的深入讨论。
大学教科书:内容结构严谨,深入探讨各类大学学科的核心概念。 中学教科书:适合中学生的教学内容,简洁易懂,注重基本知识的传达。 幼儿故事:面向5岁儿童,语言简洁易懂,帮助幼儿理解世界和人际关系。 普通故事:通过引人入胜的情节和人物对话,展开对某一概念的生动描述。 WikiHow风格教程:详细的步骤指导,帮助用户完成特定任务。
数据生成与模型
Chinese Cosmopedia的数据生成基于OpenCSG团队自主开发的OpenCSG-Wukong-Enterprise-Long模型。该模型通过强大的长文本生成能力,确保了生成数据的连贯性和内容深度。在数据生成过程中,OpenCSG团队为每种文体和内容类型设计了专门的prompt(提示词),以确保数据生成的风格与内容准确匹配。例如,对于教科书类型的内容,prompt会引导模型生成严谨且具有深度的学术文本,而对于故事类内容,则引导模型创造生动、引人入胜的情节。
我们用于生成各种格式的数据的prompt如下
大学教科书
这是一段来自网页的摘录:“{}”。
请编写一个针对大学生的足够详细的教科书课程单元,该单元与给定的摘录中的某个概念或多个概念相关。
不需要包含摘录中的所有内容,只需要发掘其中适合作为教科书内容的部分。你可以自由补充其他相关知识。
不能仅仅列出概念,而是要深入发展和详细探讨每个概念,因为我们优先考虑深入理解主题内容,而不是广度。
要求:1. 严谨性:确保对概念/章节的深入覆盖。
2. 吸引性:用学术、专业且引人入胜的语气撰写,以吸引兴趣。
3. 应用:融入具体的实践例子,例如微积分中要给出公式、严格证明,历史中要给出关键日期和人物,计算机操作中要给出代码。
4.不需要给出参考文献。内容中不应包含广告或涉及隐私的信息。
请记住,要针对大学生制作内容,他们可能拥有一些基础知识,但不是该领域的专家。内容应该详细且发人深省。
请立即开始撰写教科书,不要使用图片,不要输出除了教科书以外的内容。
中学教科书
网页摘录:“{}”。创建一个与上述网页摘录中的某个概念相关的具有教育意义的内容,针对中学生,尽量长而详细。你可以自由补充其他相关知识。不能仅仅列出概念,而是要深入发展和详细探讨每个概念,因为我们优先考虑深入理解主题内容,而不是广度,不需要包含摘录中的所有内容。不应该使用像微积分这样的复杂大学级主题,因为这些通常不是中学的内容。如果主题是关于这些的,寻找一个更简单的科学替代内容来解释,并使用日常例子。例如,如果主题是“线性代数”,你可能会讨论如何通过将物体排列成行和列来解决谜题。避免使用技术术语和LaTeX,只讨论中学级别的主题。内容中不应包含广告或涉及隐私的信息。请直接开始撰写教育内容,不要输出除了教育内容以外的内容。
普通故事
写一个与以下文本片段相关的引人入胜的故事:“{}”。
故事不需要提及片段中的所有内容,只需使用它来获得灵感并发挥创意!可以加入其它知识。
故事应包括:1.小众概念或兴趣:深入研究特定的概念、爱好、兴趣或幽默情况
2.意想不到的情节转折或引人入胜的冲突,引入具有挑战性的情况或困境。
3.对话:故事必须至少包含一个有意义的对话,以揭示人物深度、推进情节或揭开谜团的关键部分
4.反思和洞察:以具有教育意义的新理解、启示的结论结束。
5.故事中的人物应使用中国式的名字。请勿包含广告或涉及隐私的信息。
请马上开始讲故事,不要输出除了故事以外的内容。
幼儿故事
网页摘录:“{}”
创建一个与上述网页摘录中的某个概念相关的具有教育意义的儿童故事,重点针对对世界和人际交往零知识的5岁儿童。
故事不需要提及片段中的所有内容,只需使用它来获得灵感并发挥创意。
故事应该使用简单的术语。你可以补充额外的知识来帮助理解。
使用易于理解的示例,并将 5 岁儿童可能提出的问题及其答案纳入故事中。故事应涵盖日常行为和常见物品的使用。
不应该使用像微积分这样的复杂大学级主题,因为这些通常不是幼儿能理解的内容。如果主题是关于这些的,寻找一个更简单的科学替代内容来解释,并使用日常例子。例如,如果主题是“线性代数”,你可能会讨论如何通过将物体排列成行和列来解决谜题。
请直接开始撰写故事,不要输出除了故事以外的内容。
网页摘录:“{}”。
以 WikiHow 的风格写一篇长而非常详细的教程,教程与此网页摘录有相关性。教程中需要包括对每个步骤的深入解释以及它如何帮助实现预期结果。
你可以自由补充其他相关知识。确保清晰性和实用性,让读者能够轻松遵循教程完成任务。
内容中不应包含广告或涉及隐私的信息。不要使用图像。请直接开始撰写教程。
作者及单位
单位:OpenCSG LLM Research Team
点击阅读原文,直达数据集