顶会卷到中学了！人大附中高中生入选NeurIPS

科技 2024-10-04 10:00 上海

转自 | 量子位

AI人才，从娃娃抓起！

培养 AI 人才，要从娃娃抓起，这句话似乎越来越不像开玩笑了。

今年，NeurIPS率先把AI顶会卷到了高中里。现在结果终于出炉，北京大学计算机学院的张铭教授分享了一则入围消息：

人大附中吴悠，有一篇一作论文入选该赛道，还被选为了Spotlight Project。

NeurIPS 开设高中生赛道引爆AI社区

NeurIPS 在 AI 领域里的重要性是毋庸置疑的。

它与 ICML、ICLR 并称为机器学习领域难度最大，水平最高的会议。若论学术影响力则与 CVPR、ICLR 一起长期处于 Google Scholar 全球所有学科中期刊、顶会的前十名。

今年的 4 月 12 日，NeurIPS 开设高中生论文 Track 的消息引爆了人工智能社区。

NeurIPS 2024 邀请高中生提交有关机器学习社会影响主题的研究论文。同时参赛要求强调每份提交的作品必须完全由高中生作者独立完成。

中稿论文详情：端到端中文盲文图像到文本翻译工具

中稿的论文题为《Vision-Braille：An End-to-End Tool for Chinese Braille Image-to-Text Translation》，提出了一种中文盲文图像到文本的端到端翻译工具。

据张铭教授介绍，吴悠在2022年高一加入她的课题组时，就提出了这个项目的想法。

具体来说，该项目基于谷歌的mT5模型，采用Curriculum Learning（课程学习）方法微调出了一个盲文翻译模型。

其中的难点主要包括几个方面：

缺少数据集：中文盲文翻译数据集非常稀缺，数据的采集也比较困难，需要耗费大量人力。
盲文数据的特殊性：盲文通过最多三个单元格来表示每个汉字的发音，即声母、韵母和音调。但在实际使用中，盲文使用者通常会省略大部分声调符号，这给盲文翻译带来了挑战。
同音字混淆：中文中存在大量同音字，并且由于声调符号经常被省略，同音字的区分变得更加困难。

为此，论文作者们首先构建了一组中文-盲文数据集，包括Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone和Chinese-Braille-10per-Tone。

作者从莱比锡数据集中收集了100万个不同的中文句子，使用中文盲文在线平台提供的工具，将收集到的中文句子转换为“全音”盲文。

而后，为了模拟真实世界中盲文使用者省略声调的情况，作者识别出这些盲文中代表声调的部分，并随机去除了其中90%的声调，创建Chinese-Braille-10per-Tone以反映现实世界中中文盲文的使用情况。

数据按照8:1:1的比例被划分为训练集、验证集和测试集。

训练方法方面，作者使用RetinaNet来执行盲文OCR任务，将盲文图像转换为数字盲文字符。

接着，采用课程学习策略——即从简单到复杂地安排训练任务，分三个阶段微调了多语言Transformer模型mT5：

第一阶段：使用Chinese-Braille-Full-Tone数据集作为训练的简单部分，让模型学习基本的翻译规则。这个数据集中的盲文包含完整的声调信息。

第二阶段：使用Chinese-Braille-No-Tone数据集，让模型在没有声调信息的情况下，学会根据上下文猜测正确的中文字符。

第三阶段：使用Chinese-Braille-10per-Tone数据集，让模型更好地适应实际应用场景。

实验结果显示，在验证集和测试集上，该模型的BLEU得分分别达到了62.4和62.3，显著提高了盲文翻译的准确度。

论文作者已经放出了项目Demo，效果是酱婶的，感兴趣的小伙伴们可以戳文末链接自行测试：

（正确答案：不过，对于自己外向的性格，埃托奥说，“这就是真实的我，我不会为此改变。）

该项目是在吴悠高三时完成。张铭教授透露，他目前已进入康奈尔大学就读计算机和生物医药工程专业。

论文致谢中提到，吴悠主要是在张铭教授博士生、论文第二作者袁野的指导下完成了这项研究。

张铭，北京大学计算机学院教授，博士生导师，研究领域包括文本挖掘、知识图谱、图神经网络和计算机教育研究等。她合作发表的科研学术论文曾获ICML 2014最佳论文、ICDM 2022最佳论文提名等荣誉。Google Scholar显示，她的论文引用量接近2万，h指数为48。

论文地址：
https://arxiv.org/abs/2407.06048
Demo地址：
https://vision-braille.com/

后台回复关键词【进群】

加入大模型/CV/NLP/推荐/算法求职交流群

后台回复关键词【大模型】

获取118篇『2024最新大模型』

代码+论文最全整理！

往期推荐

上交所P0故障

好好聊一聊做Pretrain的经验

山寨版 OpenAI o1 实验记录

突发！高通拟全盘收购 intel 。。。

Qwen2.5感觉成了，热泪眼眶

你好，我是对白，硕士毕业于清华，大厂算法工程师，拿过8家大厂算法岗SSP offer

创业做过无人机、机器人和互联网+教育，保研清华后开始系统接触AI。

我每周至少更新一篇原创，分享AI算法、技术干货和职场感悟。下方关注可加我私信交流，点击蓝字查看我的算法学习之路。

期待你关注我的公众号，我们一起前行。

您的“点赞/在看/分享”是我坚持的最大动力！

坚持不易，卖萌打滚求鼓励 (ฅ>ω<*ฅ)

在看

对白的算法屋

清华大学硕士，大厂算法工程师。写过书，创过业，做过产品，分享技术、快乐、财富与职场。

最新文章

腾讯开源宇宙最强MoE大模型Hunyuan

LLaMA系列一直在假装开源...

姜萍造假实锤！阿里数赛出结果。。。

KAG开源了，知识增强掀翻RAG，性能翻倍

复现 OpenAI o1 的一小步：Steiner 开源模型解析

字节大模型搞推荐，有业务收益了

OpenAI-O1之下，我们技术该何去何从

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

万字长文梳理LLM+RLHF的脉络

Google DeepMind最新研究成果来了！模拟人类的思考

大模型算法岗，Kaggle金牌和CCF A一作哪个更有用？

OpenAI终于open了，开源多智能体框架Swarm~

谷歌科学家万字长文：《改变你职业生涯的一篇文章，我如何运用人工智能完成工作》

字节用大模型做推荐了！！

微调大模型前，重写SFT数据？

国产AI大模型登顶全球TOP 1！

现代LLM基本技术整理

红杉专访OpenAI O1团队全文记录

多模态大模型技术点总结

清华微软最新力作：用物理学革新Transformer注意力，精度暴涨30%！

诺尔贝物理学奖，为何授予Hinton？

和Boson李沐等大佬们进行了一场对话！

算法工程师修炼之路

30 天 52% 回报：GPT-4o 量化交易机器人

顶会卷到中学了！人大附中高中生入选NeurIPS

成人站 OnlyFans，42 名员工，创造 66 亿美元营收，超过所有 AI 公司

上交所P0故障

好好聊一聊做Pretrain的经验

山寨版 OpenAI o1 实验记录

突发！高通拟全盘收购 intel 。。。

OpenAI o1 self-play RL 技术路线推演

Qwen2.5感觉成了，热泪眼眶

大模型千卡训练-经验指北

聊一聊大模型六小虎生存现状

字节三面被问 RAG 原理了，要凉…

2024大模型面试八股（含100道答案）

2024年大模型Alignment偏好优化技术PPO,DPO, SimPO,KTO,Step-DPO, MCTS-DPO,SPO

浅谈Role Play：从当红炸子鸡到无人问津

关于 GPT5 训练失败的思考

Yann LeCun：建议学生不要在大模型方向工作？

2024大模型秋招面试被锤大赏！

大模型是一场泡沫？

入坑大模型18个月的反思与贩私

这段时间搞大模型的血和泪

大模型SFT的局限性

天呐! AI 之王 GPT-6 猎户座来了！

大模型的基本功

李沐：大模型发展趋势与个人职业选择

《黑神话·悟空》是用什么编程语言开发的？

黑神话悟空，电脑与 PS5 的画质差别有多大？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉