10分钟了解AI开发的基本过程

文摘 2024-11-10 21:20 江苏

1、AI开发究竟在开发什么？

一个硬件开发者的工作成果是一个布满集成电路的服务器，开机就可以运行某种软件。

一个移动端开发者的工作成果可以是一个手机APP，包括了大量二进制数据，可被麒麟芯片直接运行。

一个AI开发者的工作成果则是一个模型，模型本质上是一个函数：

复制

1.f(图片) = "How are you" 
2.f(猫图片) = "Cat"

无论这个函数有多么复杂，有多少个变量或者参数，AI开发都是试图找出这个函数的表达式。

2、AI模型（函数）是怎么开发出来的？

AI模型本质是一个函数，想要找到这个函数准确的的表达式，仅凭逻辑是无法推导出来的，而是训练出来的，我们喂给机器目前已有的数据，机器就会从这些数据里去找出一个最能满足（专业术语称为拟合）这些数据的函数，当有新的数据需要预测的时候，机器就可以通过这个函数去预测出这个新数据对应的结果是什么。

对于一个具备某种智能能力而言，一般具备以下要素：数据+算法+模型，开发的过程，就是不断地用数据和算法使得模型越来越逼近真实情况，注意是逼近而非推导，这个过程称为训练。

3、AI模型的训练过程是怎么样的？

我们来用一个能够区分猫和狗图片的模型来帮助理解训练的过程：“数据”就是我们需要准备大量标注过是“猫”还是“狗”的图片；“算法”指的是构建模型时我们打算用浅层的网络还是深层的，如果是深层的话我们要用多少层，每层有多少神经元、功能是什么等等，也就是网络架构的设计，相当于我们确定了我们的预测函数应该大致结构是什么样的。

我们用Y=f(W，X，b)来表示这一函数，X是已有的用来训练的数据（猫和狗的图片），Y是已有的图片数据的标签（该图片是猫还是狗）, W和b是什么意思呢？一开始，我们确实不知道，这两个参数是需要机器学习后自己找出来的，找的过程也就是训练的过程。

“模型”指的我们把数据带入到算法中进行训练，机器就会去不断地学习，当机器找到最优W和b后，我们就说这个模型是训练成功了，这个时候我们的函数Y=f(W，X，b)就完全确定下来了

然后我们就可以在已有的数据集外给模型一张新的猫或狗的图片，那模型就能通过函数Y=f(W，X，b)算出来这张图的标签究竟是猫还是狗，这就是推理。

简单总结下：不管是最简单的线性回归模型、还是较复杂的拥有一亿个参数的深度神经网络模型，本质都是寻找一个能够良好拟合目前已有数据的函数Y=f(W，X，b)，并且我们希望这个函数在新的未知数据上也能够表现良好。

4、AI为什么要强调大量数据？

因为只有数据量足够大，模型才能够学习到足够多且准确的区分猫和狗的特征，才能在区分猫狗这个任务上，表现出足够高的准确性；当然数据量不大的情况下，我们也可以训练模型，不过在新数据集上预测出来的结果往往就会差很多。

假设识别猫的模型要非常准确，就需要各种光照条件、各种背景、各种花色的猫的照片，不仅要有波斯猫，还要有加菲猫，直到模型包含了我们能想到的各种猫的特征，一个人脸识别模型，大约需要几百万张照片，才能达到可用，著名的Imagenet数据集，大约包含了1400万张图片，极大地方便了开发者。

5、在AI开发过程中一个好的开发工具可以帮助开发者做什么？

假设没有一个现成的开发平台，首先你需要学会常用的AI开发语言python，python是整个过程并不耗精力的环节，其次你需要学习传统机器学习和深度学习相关算法，这块算是花费最多精力和时间的环节，然后尽可能去理解和推导算法，然后用python代码去实现算法再训练模型，代码能力很重要，不然你的模型都建不起来。

然后你发现了一个开发框架，华为MindSpore或者谷歌Tensorflow，你会发现并不需要那么高的数学门槛，不是说要深刻理解算法才能更好训练出好模型，模型损失函数优化方法MindSpore/Tensorflow都内置好了，而且只需要简单的调用就好了，如果说MindSpore/Tensorflow是可以把一个模型代码量大大减少的框架，那么Keras就是让模型代码量可以少到惊人的框架，例如上面的猫狗分类器，15行代码就可以搞定，几十行代码就把一个拥有着卷积层、池化层和全连接层的较高级优化方法的深度学习网络架构写出来。

一个开发框架就像安卓框架为手机APP开发者提供的很多基础功能，如果没有这个框架，一个简单的给好友发送图片的功能，你需要直接和操作系统的各个底层功能模块打交道了。

6、AI开发，有了开发框架就够了吗？

当然不是，一个开发框架，只是帮开发者做了一些开发者没必要实现的部分，或者实现起来代价太大的部分，一个完整的AI开发过程，从准备数据、数据预处理、数据标注、选择算法、训练、调参、部署，这和一个普通的APP开发的过程差不多。如同生产一辆汽车，一个自动化、高科技的总装车间是必不可少的，但冲压、涂装车间也制约着汽车的生产效率，那么制约AI开发效率最头痛的是什么，请看下一个问题。AI开发过程中最大的困难是什么？

7、AI开发过程中最大的困难是什么？

要准备大量的数据，前面已经提过，更可怕的是数据标注，据统计，数据处理和标注环节大约占整个开发周期的70%。所谓标注，就是给数据打标签，告诉机器一张图片究竟是猫还是狗，标注是一件在AI开发者看来技术含量非常低的工作，已经属于劳动密集型产业，业界有大量的第三方公司，专门从事数据标注工作。以自动驾驶为例，车头上的摄像机在实时拍摄车前的所有画面，自动驾驶标注的过程要标注前车、障碍物、行人、信号灯、指示牌、指示线等等，这个过程如果完全依赖人工标注，自动驾驶将永远难以商用。

要反复迭代训练，训练并不是一蹴而就，要反复修改各种参数，使得模型的准确度逐步提升，这个过程，目前需要丰富的经验，如果没有充足的算力，训练一次，等待三天，然后调参，再等待三天，如果要迭代20次，这个过程是很消耗人的意志。所以，即使不考虑成本因素，算力也是制约AI普及最大的问题。

8、怎么解决AI开发者的问题？

正如开发一个office软件，不可能费事到用记事本敲代码，你需要一个像visual studio一样的集成开发环境，需要一个像Git一样的代码管理工具，同理，开发一个AI模型，你也需要一个集成开发环境，而且需要一个版本管理工具。

提供给开发者代码编辑环境、语法检查、编译器等功能，一个AI的开发平台，同样也要能帮开发者标注数据、创建模型训练作业、部署模型等功能，有了开发平台，开发平台要帮助开发者把所有苦活累活都干完，让开发者聚焦在最核心的代码和算法上。

当然，要提供给开发者易获取、性能强、价格低的算力，提高模型训练的迭代速度。

9、有没有更快地提升AI开发速度的办法？

当然有。从根本上提升开发效率，挖掘到最本质，只有两个办法：重用和自动化，否则只能一行一行代码干起。

开发一个APP，可以从最基本的代码写起，可以复用开发者共享的开发包、函数等，华为云开源镜像站有大量的java开发包，就是这个意思，也可以复用一个完整的APP，修改下界面配色，就变成了自己的APP，这是复用。要保障APP的质量，可以手工测试，也可以用自动化测试工具。如果这些都不想做，可以也可以用一个现成的工具，用可视化的方法生成一个APP，当然APP的风格只能从工具已有的模板中选取。开发者一直在试图用各种办法，降低开发的工作量。

AI开发也是一样的。可以找现成的数据集、找现成的标注好的数据集，现成的算法和模型，用自动部署工具将模型部署到端边云。当然，也可用自动学习功能，只要提供原始数据，由系统帮助开发者完成模型构建、算法选择和自动训练，开发者可以直接看到结果。最简单的办法，就是寻找一个已经训练好的模型，在软件中直接调用。

基于此，一个好的AI开发平台，要从各个维度去提升开发效率，这些功能往往都是很多小细节，算力强、训练快，只是完成了必须的最基本的功能。

来源：https://bbs.huaweicloud.com/blogs/286044
作者：华为云社区-简单坚持

本文仅做学术分享，如有侵权，请联系删文。

http://mp.weixin.qq.com/s?__biz=MzAxNTc4MTc1Ng==&mid=2649472025&idx=3&sn=834a1820ac59a85c8350ea55150ac521

新机器视觉

一个值得关注的AI视觉技术公众号，主要涉及人工智能领域机器视觉、计算机视觉、机器学习、深度学习等前沿知识干货和资源！致力于为您提供切实可行的AI学习线路。

最新文章

万字长文，搞懂 AI 大模型的技术原理！

什么是传感器 MTF？

从科幻到现实：简单更换镜头将普通相机变身高光谱设备

什么是机器学习？通过机器学习方法能解决哪些问题？

今天面试了一个字节女生，当场想给她 offer！

机器视觉常用的三种目标识别方法解析

一种深度学习方法---迁移学习了解下

注意力引导的标志检测与识别

2024年图像匹配挑战赛：银牌解决方案！

使用 YOLO 加速实时应用程序中的对象检测 !

常见的图像处理技术

一学术达人 TikZ 学术绘图库 - 机器学习方法图好全好看，速来！

显微镜分辨率与相机分辨率

【深度学习】PyTorch训练一个CNN分类器

机器学习 | LangChain框架快速入门

基于迁移学习的车辆目标识别

图像配准的前世今生：从人工设计特征到深度学习

不谈高级原理，只用简单的语言来聊聊机器学习

10分钟了解AI开发的基本过程

OCR文字识别原理及应用

Halcon和Opencv 的区别

高光谱图像数据？——What & How

计算机视觉、计算机图形学和数字图像处理三者的区别与联系。

一种新型光学快速自动聚焦系统

机器学习 | 强化学习如何让机器自主决策并优化行为

YOLO 11 安装与使用指南

一文了解 | 物方远心、像方远心及双远心镜头的特点、区别及其应用场景

一种轻量级深度学习模型，在IoT设备上的实时行人检测！

Nature打破质疑！视觉成像发展的“新风口”！全新技术将颠覆传统研究！

计算机视觉中的传统特征提取方法总结

入门 | 研究自动驾驶技术的算法需要哪些知识？

定位算法—MCL蒙特卡洛滤波

第一次接触FPGA至今，总结的宝贵经验~

速刷人工智能算法 | 基本遗传算法

基于MIMU与Wi-Fi的普适室内定位方法综述

多传感器时空标定

一文带你了解机器人是如何通过视觉实现目标跟踪的！

一文详解基于先验地图的视觉定位

图像分割：超像素(Superpixel)分割的大致原理

工业相机中的工作模式设定的使用方法

深入浅出Batch Size，对模型训练的影响分析

一文看完多模态：从视觉表征到多模态大模型

DINOv2！计算机视觉领域的基础模型终于出现

YOLO 系列目标检测大合集

行人搜索算法综述

用python写一个图像文字识别OCR工具

视觉基础之相机标定

机器学习和深度学习的区别到底是什么?

实操教程｜怎样制作目标检测的训练样本图像？

3D 激光雷达 SLAM 算法综述

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉