最新开源：全球首个半导体专用大模型SemiKong 70B发布！全球首个中文安全领域事实性基准评测集！

文摘 2024-12-30 21:06 广东

SemiKong：全球首个半导体行业大模型，芯片研发可提速30%

12月29日，Aitomatic 及其“AI联盟”（AI Alliance）合作伙伴推出了全球首个专为半导体业需求而设计的开源大型语言模型（LLM）—— SemiKong。

SemiKong 旨在通过将领域特定的知识融入模型中，解决半导体行业面临的独特挑战，如半导体器件和工艺的物理和化学问题，充当该领域的“数字专家”，从而显著加快新芯片的上市速度。

SemiKong 目前拥有 700 亿参数版本，并宣称可以将新芯片设计的上市时间缩短 20-30%，并将首次投产成功率提高 20%。此外，其还声称可以将新工程师的学习曲线缩短高达 50%。

SemiKong 系列模型是双语语言模型，训练于 3T 多语言语料库，展示了在语言理解、常识推理、阅读理解等方面的强大能力。

SemiKong 由 Aitomatic 的 DXA 系统提供支持。DXA 是一种“领域专家代理”，可根据客户公司的特定需求进行定制，并可自动化开发任务或与工程师和工人进行类似聊天机器人的通信。

人大开源 YuLan-Mini 高效基座模型

论文地址：https://arxiv.org/abs/2412.17743
模型地址：https://hf.co/yulan-team/YuLan-Mini
主页链接：https://github.com/RUC-GSAI/YuLan-Mini

近期，人大高瓴人工智能学院发布了 YuLan-Mini，这是一个拥有 2.4B 参数的轻量级语言模型，仅在 1.08T Tokens 上预训练，展现出优异的训练高效性：性能表现与业界同规模的模型相当，尤其是『数学』和『代码』两个领域。

图：八个开源榜单平均值：数学（GSM8K、MATH-500）、代码（HumanEval、MBPP）、推理（ARC-C、MMLU）和语言（HellaSwag、CEval）

YuLan-Mini 的预训练方法包括：

精心设计的数据流程，将数据清理与数据调度策略相结合；
强大的优化方法，有效缓解了训练不稳定性；
有效的退火方法，结合了有针对性的数据选择和长上下文训练。

评测结果显示 YuLan-Mini：

在显著小的语料库（1.08T Tokens）上训练，表现仍具竞争力，
数学推理和编程生成表现领先，有效扩展推理数据，
通用基准上表现较强，平衡不同能力。

Chinese SafetyQA：全球首个中文安全领域事实性基准评测集

论文链接：https://arxiv.org/abs/2412.15265
项目主页：https://openstellarteam.github.io/ChineseSafetyQA
数据集下载：https://huggingface.co/datasets/OpenStellarTeam/Chinese-SafetyQA
代码仓库：https://github.com/OpenStellarTeam/ChineseSafetyQA

图：Chinese SafetyQA数据集涵盖的三级风险类目

为了更好地评估 LLMs 在回复简短的事实性安全问题上的能力，中国信息通信研究院联合淘天集团算法技术 - 未来生活实验室推出了 Chinese SafetyQA，这是全球第一个针对中文安全领域的系统性评估模型安全事实性知识的高质量评测集，主要包含以下 7 个特征：

中文：使用中文并且聚焦于中国相关的安全知识，特别是中国法律框架、道德标准和文化环境相关的安全问题。
高质量：我们评测了 OpenAI o1-preview、OpenAI GPT-4、LLaMA、Claude-3.5、Qwen、Doubao 等国内外 38 个开源和闭源大模型。从评测结果看，只有三个模型达到及格线（60 分）以上，最高得分也仅为 73 分。
全面性：我们的数据集包含 7 个一级类目、27 个二级类目和 103 个子类目。涵盖了包括中国违法违规，伦理道德，偏见歧视，辱骂仇恨，身心健康，谣言错误，网络安全理论知识等方面的安全知识。这在国际上第一个全面的覆盖中国内容安全类目的知识类评测数据集。
易评估：和 OpenAI 的 SimpleQA 以及阿里巴巴的 Chinese SimpleQA 相比，我们除了聚集安全以外，还同时提供了 QA 和 MCQ 两种问题形式。问题和回答都保证简短、清晰，降低了评测的难度。
定期迭代：中国信通院 & 阿里巴巴团队会定期对该数据集进行周期性的迭代，以保证其对于最新法律法规的适应性。
稳定：在现有版本数据中，所有问题的知识都是截止于 23 年底且答案不随时间变化而改变的。
无害化：虽然该数据集都是安全相关的评测问题，但是所有问题都是合法合规的无害化内容。

图：Chinese SafetyQA 数据集生成与质检流程

Chinese SafetyQA 的推出，为业界提供了一个更为全面客观公正的评测数据集，用于帮助研发人员持续提升大语言模型安全性水平。

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉