首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

被字节起诉的田某，拿下今年AI最佳论文奖，戏剧拉满！附论文分析。。。

科技 2024-12-04 19:02 美国

你好，我是郭震！

NeurIPS，全球最顶级的AI会议，代表当今最顶尖的AI最新研究技术。

能录得一篇这样级别的会议，难度不小。如果再在其中荣获最佳论文，那就相当于登顶珠穆朗玛峰。

今年NeurIPS的最佳论文属于中国研究者，属于北大、字节，其中第一作者是田某：

他或许对大家有些陌生，不过，一提他在今年攻击了字节大模型，他就变得被人所熟知了。

好吧，搞科学的研究员，要想被被普罗大众所知晓，好像得另辟蹊径，比如像田某走的路子。

玩笑了。千万别学！

前段时间被字节索赔800万：

在顶会，获得最佳论文奖，本来如此美好的事情，却被一时冲动，而变得...，令人唏嘘不已。

可谓戏剧拉满！

此文顺便分析下这篇最佳论文，其最大创新在哪里？high-level idea是什么？

光看摘要的前半部分，就知道这篇论文不一般，它提出了一种新的图像生成范式，VAR：

VAR是自回归生图模型，通过“下一尺度预测”，这种多尺度的生成方式更贴合人类感知图像的层次性。

而传统的扩散模型都基于“下一像素预测”，进行图像生成。

光凭这点，就知道此论文不一般，具有开创意义，基于下一尺度预测的VAR带来了哪些图像生成效果的优势呢？

优势同样无比明显，可以说相当amazing! 基于ImageNet，低像素向上生成高像素的图像，是有难度的，但VAR生图的清晰度优秀：

优势1：在ImageNet 256×256数据集上的实验显示，VAR的FID达到1.73，远好于基线模型，将近11倍的提升，相当惊艳。

优势2：VAR展示了类似于大模型的Scaling Laws，Zero-shot的泛化能力。如此霸气的泛化能力，所带来的好处也显而易见，为图像修复、扩展和编辑等多任务，带来飞跃。如下，能对图像一顿魔改：

文本：LLM；视觉：VAR，做到与LLM平起平坐，足够见得VAR的举足轻重。

优势3：VAR通过并行生成显著降低了时间复杂度，相比传统自回归模型，生成速度提升了约20倍，也是相当amazing！

能拿到这样的大结果，基于的灵感，也是简单朴素：

不再逐像素预测，

而是逐尺度预测！

如下论文的用词，next-scale prediction 或者 next-resolution prediction:

总结来说：

论文的核心idea，一个词：从粗到细（coarse to fine）

为什么从粗到细，就能取得这样好的结果？？？

想想人类在感知或创作图像时，是怎样的？

通常是，先把握整体结构（粗略尺度），然后再填充细节（精细尺度）。

VAR就是效仿了这个特点，通过从低分辨率到高分辨率逐步生成图像，与这一感知过程一致，从而提升了生成的自然性和一致性。

先生成整体布局，再在局部进行细化。如下图所示，r1,r2,r3,像素粗糙到看不出是什么，直到细化到rk：

这种是明显区别于（b) AR，下一图像token的自回归方式：

论文展示了VAR 的 scaling laws，如下一共9个子块，每个子块的最右下角块学习的最充分，所以图像最清晰。比如，中间正弦波子块，最右小角的正弦波图像最清晰：

原因就是每个子块的x维度是训练阶段（代表模型训练阶段），y维度是训练层数（代表模型复杂程度，16层，30层等等）

另一个VAR的重要优势，类似于大模型的zero-shot泛化能力，在其身上也能看到展示：

泛化能力强大了后，图像修改起来就易如反掌，可以一顿魔改：

继续一顿魔改：

结论：本是人才，可一个魔改后，成了鬼才！

大家要想更好进入这些公司，可以多积累技能，对AI感兴趣的，可以去「AI免费学习网」，访问地址如下，160门相关教程，算是比较全面了，全部免费：

https://zglg.work

网站最近上新《大模型开发LangChain》的教程，下面其中一个截图：

我还写了一个40+页的《普通人学AI》.PDF，只需在下面我的公众号回复：AI，即可免费领取：

为了方便学习，我把学习入口也直接放到下面的「阅读原文」那里了，希望这些教程和资料，能帮助到你！

如果觉得对你有用，可以点赞、转发和在看。谢谢你看我的文章，我们下篇再见！

郭震，工作8年后到美读AI博士，努力分享一些最新且有料的AI。

最新文章

自己电脑搭建AI大模型详细教程，支持通义千问、Llama3、接口调用等。

彻底爆了！阿里再次拿下第一！

腾讯版Sora开源，大模型继续狂飙。

天工AI彩页编辑器，让我体验了一把0帧起手

2024年中国AI初创公司，前30强榜单发布。

字节再送神助攻，大模型继续狂飙。

2024年国产大模型最强前10榜单发布。

团队准备解散了。

被字节起诉的田某，拿下今年AI最佳论文奖，戏剧拉满！附论文分析。。。

2024年值得去的50家互联网公司名单。。。

双非计算机硕士，投了109份简历，目前2个offer。。。

字节要求攻击大模型的实习生赔偿800万。。。

最强代码生成大模型前10榜单，国产占据2席。。。

大模型算法岗工资都是4开头了吗！。。。

国内12家主流大模型，谁是地表最强？亲测后发现是它！。。。

985计算机硕士，拿了10个offer。。。

字节2024年不同岗位的薪资表，差别蛮大。。。

终于可以这样在线刷题、在线编程了，好用到爆！。。。

文字转图表，这个AI工具秒杀PPT。。。

字节不同职级薪资待遇一览表。。。

他偷瞄的AI神器，竟是百度网盘的隐藏功能。。。

AI“底裤“被扒，百度文库上榜。。。

值得去的16家IT公司及待遇（西安篇）。。。

现在大专生年薪都35万了吗！。。。

飞行员薪资曝光，程序员看完后傻眼了。。。

值得去的20家国企名单（北京篇）。。。

值得去的15家IT公司及待遇（苏州篇）。。。

爆了！这个AI 应用开发。。。

值得去的25家IT公司及薪资（成都篇）。。。

值得去的20家央国企名单。。。

清华硕士8面字节，最后被拒。。。

爆了！阿里再次第一。。。

快手不同职级薪资待遇一览表。。。

程序员炒股亏了48万。。。

比亚迪在越南员工的薪资曝光。。。

值得去的20家IT公司及薪资（杭州篇）。。。

他19天副业收入过千。。。

拼多多不同职级薪资待遇一览表。。。

80w起！零成本快速入门大模型指南

来了！GPT4.0接入个人微信！！

全球顶尖AI人工智能大集合：ChatGPT、Midjourney、Suno、Luma等等

2024年民企前35强榜单一览表。。。

美团不同职级薪资待遇一览表。。。

纽约街头偶遇马云。。。

值得去的20家IT公司及薪资待遇（广州篇）

一条短视频赚了2154元（附教程）。。。

华为不同职级薪资待遇一览表。。。

值得去的30家IT公司（深圳篇）。。。

哇，OpenAI又一重磅功能来袭。。。

百度不同职级薪资一览表

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉