从零开始搭建机器学习开发环境:PyCharm与Anaconda教程

教育   2024-10-22 12:10   安徽  

引言

今天,我将带你一步步完成 PyCharm 和 Anaconda 的安装与配置。

Anaconda 是一个开源的Python发行版,带有丰富的数据科学工具集(包括NumPy、Pandas、Matplotlib、SciPy等),并且可以轻松管理虚拟环境。

PyCharm 是一个功能强大的Python集成开发环境(IDE),支持代码调试、版本控制、代码补全等功能,极大地提高了开发效率。

一、为什么选择Anaconda和PyCharm

Anaconda的优势

1. 丰富的数据科学工具:Anaconda预装了大量数据科学和机器学习库,如TensorFlow、Scikit-learn、Keras、Matplotlib等。

2. 环境管理方便:Anaconda通过conda命令,轻松管理多个虚拟环境,避免了不同项目的库冲突问题。

3. Jupyter Notebook:Anaconda内置Jupyter Notebook,是一个交互式的Python环境,非常适合数据分析和实验。

PyCharm的优势

1. 智能代码补全:PyCharm通过分析代码自动提示变量、函数、类等,大大提高了编程效率。

2. 调试功能强大:可以设置断点、逐步调试、查看变量值,方便排查代码中的错误。

三、安装Anaconda

3.1 下载与安装

1. 打开Anaconda官网

https://www.anaconda.com/products/individual

2. 选择适合你操作系统的版本(Windows、macOS或Linux)。

3. 点击下载后,运行安装程序,按照提示操作。

安装时,你可以选择将Anaconda添加到系统PATH变量中(Windows用户可选),这将允许你在命令行直接使用conda命令。

3.2 配置虚拟环境

安装好Anaconda后,我们就可以创建和管理虚拟环境了。虚拟环境的好处是每个项目可以有独立的库和依赖,互不干扰。

打开 Anaconda Prompt(或在Terminal中使用conda命令),输入以下命令来创建一个新环境:

conda create --name my_ml_env python=3.9

这条命令将创建一个名为 my_ml_env 的Python 3.9虚拟环境。接下来,激活这个环境:

conda activate my_ml_env


3.3 安装常用的机器学习库

在虚拟环境中,你可以轻松地安装你需要的Python库。例如,我们可以安装 numpy、pandas、matplotlib、scikit-learn 等常用机器学习库:

conda install numpy pandas matplotlib scikit-learn

Anaconda会自动管理库之间的依赖问题,确保版本的兼容性。

四、安装PyCharm

4.1 下载与安装

1. 前往PyCharm官网

https://www.jetbrains.com/pycharm/download/

2. 下载社区版(免费)或专业版(付费,有更多功能,如数据库支持)。

3. 安装后,打开PyCharm,进入欢迎界面。

4.2 创建一个新项目

1. 在PyCharm主界面,点击 "Create New Project"。

2. 在 Location 中选择项目路径。

3. 重要:在 Interpreter 部分,选择你刚刚通过Anaconda创建的虚拟环境。点击 Add Interpreter,选择 Conda Environment,然后选择已经创建的 my_ml_env 环境。

4.3 配置机器学习项目

现在,我们已经完成了PyCharm和Anaconda的基本配置。接下来,我们将创建一个简单的机器学习项目,加载数据并绘制图表。

示例:简单的线性回归模型

1. 在PyCharm中新建一个Python文件,比如 linear_regression.py。

2. 在文件中编写以下代码:

import matplotlib.pyplot as pltimport numpy as npfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_split
# 设置中文字体plt.rcParams['font.family'] = 'SimHei' # 使用黑体字体plt.rcParams['axes.unicode_minus'] = False # 解决负号显示问题
# 生成数据X = np.random.rand(100, 1) * 10 # 生成100个随机点,作为自变量y = 2.5 * X + np.random.randn(100, 1) * 2 # 因变量有点噪声
# 将数据分为训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建线性回归模型model = LinearRegression()model.fit(X_train, y_train)
# 预测y_pred = model.predict(X_test)
# 绘制结果plt.scatter(X_test, y_test, color='blue', label='真实数据')plt.plot(X_test, y_pred, color='red', linewidth=2, label='预测线')plt.title('线性回归示例')plt.xlabel('自变量 X')plt.ylabel('因变量 y')plt.legend()plt.show()

代码解析:

数据生成:我们生成了一组随机数据,模拟一个简单的线性关系 y = 2.5X + 噪声。

模型训练:使用scikit-learn中的 LinearRegression 模型拟合训练集。

预测和绘图:模型训练完成后,我们在测试集上进行预测,并绘制出预测结果与真实值的对比图。

4.4 在PyCharm中运行代码

在PyCharm中,点击上方的 绿色三角形(运行按钮),你将看到一个漂亮的回归曲线绘图。这说明你的机器学习开发环境已经配置成功,可以开始愉快地写代码了!

五、使用Jupyter Notebook(可选)

Jupyter Notebook是Anaconda内置的另一个非常受欢迎的工具,它允许你以交互式方式编写Python代码,非常适合数据探索和可视化。你可以在Anaconda的环境中安装并启动Jupyter Notebook。

5.1 安装并启动Jupyter

首先,确保你已经激活了Anaconda的虚拟环境:

conda activate my_ml_env

然后,安装并启动Jupyter Notebook:

conda install jupyterjupyter notebook

这将打开一个浏览器窗口,你可以在其中创建新的Notebook,编写和运行Python代码。

5.2 在Jupyter中运行线性回归

你可以将刚才在PyCharm中编写的线性回归代码复制到Notebook单元格中,然后按下 Shift + Enter 运行代码。你会发现,Jupyter可以一步一步运行代码,并即时看到结果,非常方便!

总结

通过本文,你已经学会了如何搭建机器学习开发环境,并使用Anaconda和PyCharm创建、管理虚拟环境,编写机器学习代码。



机器学习100天计划!


视频讲解 + 实战代码 + 社群交流 + 直播答疑


如果你想获得系统性的机器学习理论、代码、实战指导,可以购买我们的《机器学习100天》课程。

《机器学习100天》总共包含 100 个机器学习知识点视频讲解!我会提供所有的教学视频、实战代码,并提供社群一对一交流和直播答疑!

扫描下方二维码,加入学习!


点击阅读原文即刻报名,一顿午饭钱,值了。

深度学习专栏
终于等到你!欢迎来到人工智能、机器学习、深度学习干货集中营!
 最新文章