12月29日,Aitomatic 及其“AI联盟”(AI Alliance)合作伙伴推出了全球首个专为半导体业需求而设计的开源大型语言模型(LLM)—— SemiKong。
SemiKong 旨在通过将领域特定的知识融入模型中,解决半导体行业面临的独特挑战,如半导体器件和工艺的物理和化学问题,充当该领域的“数字专家”,从而显著加快新芯片的上市速度。
SemiKong 目前拥有 700 亿参数版本,并宣称可以将新芯片设计的上市时间缩短 20-30%,并将首次投产成功率提高 20%。此外,其还声称可以将新工程师的学习曲线缩短高达 50%。
SemiKong 系列模型是双语语言模型,训练于 3T 多语言语料库,展示了在语言理解、常识推理、阅读理解等方面的强大能力。
SemiKong 由 Aitomatic 的 DXA 系统提供支持。DXA 是一种“领域专家代理”,可根据客户公司的特定需求进行定制,并可自动化开发任务或与工程师和工人进行类似聊天机器人的通信。
论文地址:https://arxiv.org/abs/2412.17743
模型地址:https://hf.co/yulan-team/YuLan-Mini
主页链接:https://github.com/RUC-GSAI/YuLan-Mini
近期,人大高瓴人工智能学院发布了 YuLan-Mini, 这是一个拥有 2.4B 参数的轻量级语言模型,仅在 1.08T Tokens 上预训练,展现出优异的训练高效性:性能表现与业界同规模的模型相当,尤其是『数学』和『代码』两个领域。
图:八个开源榜单平均值:数学(GSM8K、MATH-500)、代码(HumanEval、MBPP)、推理(ARC-C、MMLU)和语言(HellaSwag、CEval)
YuLan-Mini 的预训练方法包括:
精心设计的数据流程,将数据清理与数据调度策略相结合;
强大的优化方法,有效缓解了训练不稳定性;
有效的退火方法,结合了有针对性的数据选择和长上下文训练。
评测结果显示 YuLan-Mini:
在显著小的语料库(1.08T Tokens)上训练,表现仍具竞争力,
数学推理和编程生成表现领先,有效扩展推理数据,
通用基准上表现较强,平衡不同能力。
论文链接:https://arxiv.org/abs/2412.15265
项目主页:https://openstellarteam.github.io/ChineseSafetyQA
数据集下载:https://huggingface.co/datasets/OpenStellarTeam/Chinese-SafetyQA
代码仓库:https://github.com/OpenStellarTeam/ChineseSafetyQA
图:Chinese SafetyQA数据集涵盖的三级风险类目
为了更好地评估 LLMs 在回复简短的事实性安全问题上的能力,中国信息通信研究院联合淘天集团算法技术 - 未来生活实验室推出了 Chinese SafetyQA,这是全球第一个针对中文安全领域的系统性评估模型安全事实性知识的高质量评测集,主要包含以下 7 个特征:
中文:使用中文并且聚焦于中国相关的安全知识,特别是中国法律框架、道德标准和文化环境相关的安全问题。
高质量:我们评测了 OpenAI o1-preview、OpenAI GPT-4、LLaMA、Claude-3.5、Qwen、Doubao 等国内外 38 个开源和闭源大模型。从评测结果看,只有三个模型达到及格线(60 分)以上,最高得分也仅为 73 分。
全面性:我们的数据集包含 7 个一级类目、27 个二级类目和 103 个子类目。涵盖了包括中国违法违规,伦理道德,偏见歧视,辱骂仇恨,身心健康,谣言错误,网络安全理论知识等方面的安全知识。这在国际上第一个全面的覆盖中国内容安全类目的知识类评测数据集。
易评估:和 OpenAI 的 SimpleQA 以及阿里巴巴的 Chinese SimpleQA 相比,我们除了聚集安全以外,还同时提供了 QA 和 MCQ 两种问题形式。问题和回答都保证简短、清晰,降低了评测的难度。
定期迭代:中国信通院 & 阿里巴巴团队会定期对该数据集进行周期性的迭代,以保证其对于最新法律法规的适应性。
稳定:在现有版本数据中,所有问题的知识都是截止于 23 年底且答案不随时间变化而改变的。
无害化:虽然该数据集都是安全相关的评测问题,但是所有问题都是合法合规的无害化内容。
图:Chinese SafetyQA 数据集生成与质检流程
Chinese SafetyQA 的推出,为业界提供了一个更为全面客观公正的评测数据集,用于帮助研发人员持续提升大语言模型安全性水平。