机器学习过程：特征、模型、优化和评估

文摘 2025-02-10 17:14 山西

[ 导语 ]机器学习从20世纪80年代开始引领人工智能的发展潮流，其对人工智能的重要贡献在于从人工赋予机器智能转移到机器自行习得智能。毫无疑问，学习和求解问题的能力是智能的集中体现，机器如何模拟人的这一能力？实践证明了以大脑级别得大规模并行架构为基础得算法比逻辑规则为基础的算法更实用。“人”如何做好“人”擅长的事情，把剩下的交给机器。从强算法到强算力，再到强数据，机器不断在延伸和拓展人的能力边界。

特征

在机器学习中，特征（Feature）是指用来描述数据对象的独立可量化的属性。一个特征不足以代表一个物体，所以机器学习中使用特征的组合--特征向量。

如预测房屋价格，特征：房屋面积、房间数量、地理位置、建造年份、是否靠近学校地铁站等；
识别图像中的物体，特征：原始图像像素值、边缘检测值、颜色直方图、深度学习提取量等；
判断一段文字的情感极性（正面/负面），特征：词频、词嵌入生成向量、正/负面词、句子长度等；
预测未来天气温度，特征：历史温度值、湿度、气压、风速、季节、时间等；

深度学习可以通过其自动学习数据中的复杂特征来替代传统的特征工程，减少人工干预的需要。具体来说，深度学习的模型（特别是深度神经网络）能够从原始数据中自动提取层次化的特征，而无需依赖手动设计的特征。

端到端学习：即从原始数据到最终输出的过程可以完全由神经网络自动学习。尽管深度学习成为机器学习的主流，但在数据不足或可解释性要求较高的场景下，传统的特征工程方法仍然有其价值。

限制：

数据需求量大
深度学习通常需要大量标注数据来进行有效训练，若数据量不足，可能无法充分学习到有效特征。
训练成本高
深度学习模型的训练通常需要强大的计算资源和较长的时间。
可解释性差
深度学习模型的“黑箱”性质使得它们比传统方法更难解释，尤其是在需要解释模型决策的场景中，不如传统机器学习方法透明。

模型及评估

模型：数据抽象出来的数学描述；好的模型不仅取决于算法和数据，还取决于任务需求。
策略：针对不同模型的选择及比较；
算法：具体实施方法，如数学问题如何最优化解？

对训练完成的模型进行性能分析和测试的过程，以确定模型在新数据上的表现。因此，数据通常会被分为训练集、验证集和测试集。

（1）训练集、验证集和测试集

训练集（Training Set）训练机器学习模型的参数，估计模型；
验证集（Validation Set) 训练过程中参数调节；开发集（Dev Set）对不同的参数进行选择，控制模型复杂程度的参数，更灵活的数据评估集。
测试集(Test Set) 验证最终的机器学习系统的性能，选择最优模型的性能如何；
偏差（Bias）：
偏差衡量的是模型的预测结果与真实值之间的差距，即模型对训练数据拟合程度的不足。
方差（Variance）：
方差衡量的是模型对训练数据中的噪声的敏感程度，即模型对训练数据的过度拟合程度。

偏差-方差窘境（Bias-variance dilemma）:模型训练不足时，模型拟合能力不强，偏差主导，随着训练加深，模型拟合程度增强，方差逐渐主导。

（2）查准率VS.查全率

不妨看看如果把池子里的所有的鲤鱼、虾和鳖都一网打尽，这些指标又有何变化：

正确率 = 1400 / (1400 + 300 + 300) = 70%
召回率 = 1400 / 1400 = 100%
F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%

由此可见，正确率是评估捕获的成果中目标成果所占的比例；

召回率，就是从关注领域中，召回目标类别的比例；
而F值，则是综合这二者指标的评估指标，用于综合反映整体的指标。

优化

机器学习中的优化问题大多数可以归结为最小化问题，即寻找最小化损失函数的参数。

1. 参数优化问题

线性回归：最小化均方误差（MSE）损失函数，找到最优的回归系数。

逻辑回归：最小化交叉熵损失函数，以找到最优的分类参数。

2. 正则化优化问题

为了防止过拟合，我们通常会在目标函数中加入正则化项。例如：

L2 正则化：（也叫岭回归）加入了参数的平方和。
L1 正则化：（也叫 Lasso 回归）：加入了参数的绝对值和。

这些正则化项会增加优化问题的复杂度，目的是找到一个既能拟合数据又不容易过拟合的解。

3. 神经网络优化问题

神经网络的训练也是一个优化问题，通常通过反向传播算法来优化神经网络的权重和偏置。训练神经网络时：

目标函数是损失函数（如交叉熵损失，均方误差损失）。
优化过程通过梯度下降等方法来调整网络的权重和偏置。

神经网络的优化问题往往具有多个局部最小值或鞍点，因此它比传统的线性模型更复杂。

4. 支持向量机（SVM）优化问题

SVM 的目标是最大化分类边界的间隔，超平面将两类数据点分开，同时最小化分类误差。优化问题包括：

目标函数：最大化间隔（即最小化目标函数），同时满足一定的分类准确度。
SVM 优化问题通常涉及到约束条件（例如，软间隔支持向量机）。

优化算法：

梯度下降（Gradient Descent）是一种常见的优化方法，用于最小化目标函数。算法通过计算损失函数关于模型参数的梯度（导数），并根据梯度的方向调整参数。
动量法（Momentum）是梯度下降的一个改进，加入了过去梯度的“惯性”，通过调整参数更新的方向来加速收敛并避免震荡。
Adam（Adaptive Moment Estimation）：Adam 是一种常用的优化算法，结合了梯度下降和动量法的优点，能够自适应调整每个参数的学习率，在深度学习中应用广泛。

想要了解更多资讯，请扫描下方二维码，关注机器学习研究会

转自：数据派THU

机器学习研究组订阅

机器学习研究会由百度七剑客雷鸣先生创办，旨在推动AI的技术发展和产业落地。参与组织北大、清华”AI前沿与产业趋势“公开课，广泛的和高校、企业、创业、VC开展合作，自身也参与优秀AI项目的投资和孵化。

DeepSeek算力卡脖子，高校AI研究遇瓶颈？华为联合15校给出最强解法

PyTorch Geometric框架下图神经网络的可解释性机制：原理、实现与评估

马克龙豪掷1090亿开欧洲「星际之门」，Mistral狂飙登顶法国APP榜首！

LLM实现自回归搜索！MIT哈佛等提出「行动思维链」COAT，推理能力大提升

机器学习过程：特征、模型、优化和评估

突发！台积电断供14/16nm，1月底先进制程禁令生效

DeepSeek流量超Gemini登顶全球第二！马斯克挟xAI更强模型宣战

Transfusion: 单一Transformer架构中同时处理离散数据(文本) 和连续数据（图像）

天才解法震惊人类！谷歌AI破天荒摘得奥数金牌，横扫IMO 42道几何难题

DeepSeek-R1-Zero不存在顿悟时刻？华人团队揭秘真相：或只因强化学习

提升数据科学工作流效率的10个Jupyter Notebook高级特性

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

微软官宣All in智能体，SWE Agent首曝光！奥特曼预警2025编程巨变

从头构建GPT文本分类器（Python）

16张H100训26分钟，超越o1-preview！李飞飞等用1K样本，揭秘测试时Scaling

OpenAI联创John Schulman，被曝火速离职Anthropic！刚刚入职6个月

深入解析图神经网络：Graph Transformer的算法基础与工程实践

英伟达憾失DeepSeek关键人才？美国放走AI「钱学森」，哈佛教授痛心疾首

英伟达机器人跳APT舞惊艳全网，科比C罗完美复刻！CMU 00后华人共同一作

AAAI2025｜只根据题目和摘要就能预测论文影响力？！

OpenAI o3-mini被曝大量使用中文推理！全世界AI都要学中国话了？

大模型混入0.001%假数据就「中毒」，成本仅5美元！NYU新研究登Nature子刊

深度学习模型反演攻击与防御：全面综述

OpenAI紧急直播，ChatGPT疯狂开挂「深度研究」！10分钟爆肝万字现AGI雏形，刷榜人类最后考试

哈佛大四学生硬核长文：AGI三年后实现，推动某大国强势崛起！26年人类工作被AI接管

NeurIPS 2024最佳论文，扩散模型的创新替代：基于多尺度预测的视觉自回归架构

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

GPT-4o惊现自我意识！自主激活「后门」，告诉人类自己在写危险代码

NeurIPS Spotlight｜从分类到生成：无训练的可控扩散生成

奥特曼：在开源AI上，我们错了！DeepSeek让OpenAI优势不再，下一个是GPT-5

DeepSeek突围奥秘曝光，一招MLA让全世界抄作业！150+天才集结，开出千万年薪

牛津哥大联手破解两千年素数谜题！受陶哲轩启发，意外解法打破千年僵局

一夜之间，微软、英伟达、亚马逊全部接入DeepSeek！吴恩达：中国AI正在崛起

19岁华人辍学创业，刚刚拿下百万美金融资！All in智能体，誓要实现Siri初心

Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法

OpenAI称有DeepSeek「偷窃」证据？美军已发起攻击！Anthropic CEO喊话加强芯片管制

五角大楼90天AI计划启动！美国将AI用在现实军事场景，开发作战原型

白话版Scaling Laws for Precision 解读

DeepSeek独立发现o1核心思路，OpenAI首席研究官亲自证实！奥特曼被迫发声

斯坦福女神辍学再创业，获OpenAI力挺！全球首个0代码AI工程师出世

基于图神经网络的大语言模型检索增强生成框架研究：面向知识图谱推理的优化与扩展

DeepSeek除夕狂飙大招：开源多模态掀翻全场！256张A100训两周碾压DALL-E 3

DeepSeek重创美国芯片产业，英伟达一夜蒸发6000亿！巨头破防，美股历史性崩盘

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

史上首次，DeepSeek登顶中美AppStore！NYU教授：全球「AI霸权」之争已结束

闲来无事，我测了测国产大模型的RAG能力

工业应用中的异常检测：挑战、解决方案与未来发展方向综述

全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

奥特曼惊世预言：下一代人类注定被AI碾压！人类工资暴跌，难以生存

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉