更新一下你的Conda吧

文摘 2024-07-25 08:30 浙江

做生信分析时有时候要安装很多软件，软件之间的版本依赖关系复杂，这时候就需要用到Conda来安装软件。我一年前下载的conda，最近感觉安装软件越来越慢了，有试过一段时间的mamba（一个快速、强大、跨平台的包管理器），但是某个版本开始不兼容我已有的conda，会报错，我也没有仔细去解决。就一直在忍受着conda的慢。。。

终于在前几天，在安装测试几个大型pipeline时受不了了，准备整理一下自己的环境，想试试最新的mamba。结果发现conda在去年十月份有一个重大更新，在这个 23.10.0 版本中，将 conda 的默认求解器更改为 conda-libmamba-solver！以前的“经典”求解器基于 pycosat/Picosat，并且在可预见的将来仍将是 conda 的一部分，并且可以使用后备方案。

conda 更新日志：https://docs.conda.io/projects/conda/en/stable/release-notes.html

conda慢就慢在计算环境中包之间的依赖关系，那换成mamba求解器，岂不是快很多而且不破坏原有的环境？（我不喜欢有个conda目录又一个mamba目录，两者的config也不太一样），赶紧试试：

conda -V #看看你的conda版本，是不是在23.10.0以前
conda clean -a #注意，我的环境积压了太多东西，conda更新几个小时都没成功，于是清理了一下
conda update conda
conda -V #再看看你的conda版本

亲身体验，更新后的conda在solve environment这一步快了非常多，几分钟左右（之前可能花上几个小时😭，因为我的一些环境已经安装了不少软件）。

下面是conda的一些相关介绍：

Introduction

Conda是一个开源的包管理和环境管理工具，主要用于数据科学和机器学习领域。它允许轻松地创建、安装、管理和切换不同版本的软件包和依赖项，以及创建和管理不同的虚拟环境。Conda最常用于Python环境，但也可用于其他编程语言的环境管理。(conda, mamba, python 都是蛇🐍的名字)

以下是一些与Conda相关的基本概念和用法：

1. 环境（Environment）： 在Conda中，环境是一个独立的工作区，其中包含特定版本的软件包和其依赖项。可以创建多个环境，每个环境可以有不同的软件包配置，以满足不同项目的需求。
2. 软件包（Package）： 软件包是在Conda环境中安装的软件组件，可以包括Python库、工具和其他程序。Conda具有大量的预构建软件包，也支持创建自定义软件包。
3. 频道（Channel）： Conda软件包通常存储在称为"频道"的仓库中。默认情况下，Conda会从Anaconda仓库下载软件包，但也可以添加其他频道（镜像源，保证网络通畅），以获取更多软件包。

基础使用：

1. 安装Conda： 首先，需要安装Conda。可以选择安装Anaconda或Miniconda，它们是Conda的不同发行版。Anaconda包含大量的预安装软件包，而Miniconda只包含Conda本身和一些基本工具，允许自定义环境，服务器上的话上从miniconda上手就行。
```
# 使用Miniconda安装
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
```
2. 创建环境： 使用Conda可以轻松地创建新环境，例如：
```
conda create --name myenv python=3.8
```
这将创建一个名为myenv的新环境，并在其中安装Python 3.8。
3. 激活环境： 要进入或激活一个环境，可以使用以下命令：
```
conda activate myenv
```
激活环境后，将在其中运行软件包和Python。
4. 安装软件包： 使用Conda可以安装所需的软件包，例如：
```
conda install numpy
```
这将在当前激活的环境中安装NumPy。

5. 管理环境： 可以列出已创建的环境、复制环境、删除环境等，以管理的工作环境。

 $ conda info -e
 
 #导出环境
 conda env export > environment.yml
 #删除环境
 conda remove --name myenv --all

6. 卸载软件包： 如果不再需要某个软件包，可以使用以下命令卸载：
```
conda remove numpy
```
pip安装的包最好用pip来卸载，conda卸载也需要处理依赖关系，好慢的。

我的浅薄理解：conda关键在把不同的软件放在不同文件夹下，切换环境时更新环境变量，让某些版本优先使用。

所以有些不太依赖环境的软件可以直接用绝对路径使用，不需要激活环境：

~/miniconda3/envs/waste/bin/bowtie2 -h

有时候也可以通过软链接给某个环境“安装”软件。注意首先要清楚自己的环境以及该软件的性质，有的软件会有相对路径的依赖，简单的把bin文件移过去是不行的：

ln -s ~/miniconda3/envs/waste/bin/bowtie2 ~/miniconda3/envs/new_env/bin/

我觉得不能太过于依赖conda，自己必须也要有一定的安装软件和管理环境能力，才可以更好地面对未来各种环境问题😂。

现在好多软件都要求新建一个环境安装，做着做着就有好多个环境了，但可能大部分通用包是冗余的，硬盘占用也大。有时候自己观察某个软件的本体和依赖项，说不定大部分依赖项我们已经装过了（我喜欢把目标类似的软件放一起，一般他们的依赖项也比较一致），我们可以手动处理。

这里有一个简单的python脚本，用于将所有Conda环境中安装的包整理成表格，方便查看：

import subprocess
import pandas as pd
import os

# 获取所有conda环境的名称
def get_conda_envs():
    result = subprocess.run(['conda', 'env', 'list'], stdout=subprocess.PIPE, text=True)
    envs = [line.split()[0] for line in result.stdout.split('\n') if line and not line.startswith('#') and 'envs' in line]
    envs.append('base')
    return envs

# 获取指定环境中的包
def get_packages(env):
    result = subprocess.run(['conda', 'list', '-n', env], stdout=subprocess.PIPE, text=True)
    packages = []
    for line in result.stdout.split('\n')[3:]:  # 跳过头几行
        if line:
            parts = line.split()
            if len(parts) >= 4:
                packages.append((parts[0], parts[1], parts[2], parts[3], env))
    return packages

# 获取所有环境的包信息
all_packages = []
envs = get_conda_envs()
for env in envs:
    all_packages.extend(get_packages(env))

# 转换为DataFrame并保存为CSV
df = pd.DataFrame(all_packages, columns=['Package', 'Version', 'Build', 'Channel', 'Environment'])
df.to_csv('conda_packages.csv', index=False)
print("Packages list saved to conda_packages.csv")

一些问题

1. shell脚本中切换环境

常用的conda activate切换conda环境的方法只能在命令行中使用，放在脚本中会报错，该如何解决呢？

必须要先在脚本里source ~/conda.sh，shell脚本里source一次就行，就可以切换多次了

source ~/miniconda3/etc/profile.d/conda.sh
conda activate waste

2. 安装速度慢怎么办？

可以使用国内镜像源：

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes

3. 为什么不建议将所有内容安装到base环境中？

随着时间的推移，Python 打包系统很容易出现不兼容性；在一个 conda 环境中安装的包越多，依赖关系图就越复杂，这使得默认的基本环境在每次安装另一个包时容易出现问题和损坏。

因此，强烈建议为每个项目/目的使用单独的 conda 环境，以减轻 Python 打包系统的依赖关系管理问题，并使项目依赖关系尽可能独立和简单。

关注公众号 'bio llbug',获取最新推送。点击阅读原文，阅读体验更佳。

http://mp.weixin.qq.com/s?__biz=MzkwMjQxODQ5MA==&mid=2247486673&idx=1&sn=e9079352273fa5dc6b3ba712cd97f778

bio llbug

博士生一枚，主攻生物信息学，微生物组，暴露组。分享自己科研道路上的经验方法。

最新文章

微生物的低温适应/抗寒机制研究

Science正刊！AI+R 语言Meta分析与生物群落数据统计绘图

R绘制降维图及其变换（PCA/RDA/t-SNE...）

物种多样性研究的理论和方法

一些有趣的绘图R包

R整理和分析文献信息

炸裂来袭！Nature大动作，生信领域迎来“史无前例”的“风暴”！

R绘制优美的进化树（基础）

R绘制优美的进化树（进阶）

R调用Taxonkit展示系统发育信息

ggh4x包拓展ggplot2绘图

蒋超实验室在Nature Communications发文揭示ICU患者下呼吸道微生物基因组功能动态及其在感染防控中的潜在应用

Nature重磅！机器学习和深度学习的相结合，在生物信息学中缺一不可！

功能基因预测/注释通用工具

使用InStrain进行宏基因组群体分析

功能基因预测/注释通用工具

病毒相关内容学习

使用Orthofinder进行系统发育直系同源推断

太强了！发完Nature又发Science科研界“白热化”状态将被打破！

宏基因组分析流程202408｜持续更新

使用PhaGCN2/vConTACT2进行病毒分类注释

浙江大学蒋超实验室在JHM发文揭示日常使用量的一次性纸杯释放的微塑料或可能影响孕期健康

Zotero 7.0正式版，大更新！

Anti-CRISPR 相关内容学习

CRISPR 相关内容学习

METABOLIC：微生物基因组群落规模功能网络分析

从宏基因组构建基因组规模代谢模型（GEM）

从宏基因组量化细菌生长动态

R绘制降维图及其变换（PCA/RDA/t-SNE...）

全球沸腾！难道说生信行业破局的关键已被公布?那再不出手我可能真的就要out了！

更新一下你的Conda吧

R绘制Venn图及其变换

R绘制箱形图及其变换

R绘制柱形图及其变换

R展示层级数据（桑基/旭日/珠包/Treemap图等）

News | 常微分方程R包ecode用户手册上线

R绘制Venn图及其变换

还在用破解版snapgene？这个神器才是“天花板”！（文末领取粉丝福利）

R展示层级数据（桑基/旭日/珠包/Treemap图等）

公众号长期数据统计（笨方法）

VirRep: 人类肠道微生物组识别病毒新方法

从宏基因组中鉴定病毒序列（1）鉴定方法

从宏基因组中鉴定病毒序列（2）质量评估与应用

R绘制箱形图及其变换

R绘制柱形图及其变换

Positron，新一代数据科学IDE（R+Python+...）

开发一个Rshiny应用（基础）

蒋超实验室在iMeta联合发文揭示构建重症肺炎微生物组千人队列

研究成果 | 常微分方程群生态模拟R包

从宏基因组中鉴定病毒序列（2）质量评估与应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉