您的位置:首页 > 科技 > IT业 > Linux服务器配置Python+PyTorch+CUDA深度学习环境

Linux服务器配置Python+PyTorch+CUDA深度学习环境

2024/10/14 10:16:54 来源:https://blog.csdn.net/weixin_45840973/article/details/140422769  浏览:    关键词:Linux服务器配置Python+PyTorch+CUDA深度学习环境

参考博主 Linux服务器配置Python+PyTorch+CUDA深度学习环境_linux cuda环境配置-CSDN博客

https://blog.csdn.net/NSJim/article/details/115386936?ops_request_misc=&request_id=&biz_id=102&utm_term=linux%E8%99%9A%E6%8B%9F%E7%8E%AF%E5%A2%83%E6%8C%89pytorch%20cuda&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-3-115386936.142^v100^pc_search_result_base3&spm=1018.2226.3001.4187

sx4 服务器服务器已安装上Anaconda

1. 创建Python虚拟环境(这是针对某服务器特有的命令)

conda create -n name python=3.10 --offline -yconda activate nameconda deactivate(回到base 环境)

-------如果创建python 3.10环境,命令到这里结束---------

anaconda 的虚拟环境很好!开辟一个新的虚拟环境,很多环境、版本不兼容的问题都不复存在,尤其对复现别人代码的同学很有用。

如果创建别的python版本(python3.6 3.7 3.8),需要输入以下命令

cd ~/python-package/py37
conda install python-3.7.12-hf930737_100_cpython.tar.bz2 certifi-2022.9.14-py37h06a4308_0.tar.bz2 setuptools-65.6.3-py37h06a4308_0.tar.bz2 pip-22.3.1-py37h06a4308_0.tar.bz2

2. 配置PyTorch+CUDA环境

安装显卡驱动

可以通过命令

nvidia-smi

查看是否安装显卡驱动,若安装,则效果如下图:

安装CUDA驱动

检测CUDA驱动是否安装,在服务器命令行中输入命令: 也就是查看服务器CUDA版本cuda toolkit的版本

nvcc -V

Cuda compilation tools, release11.7(说明cuda已安装)

nvidia-smi

 若没有安装的话,参考这个链接下载(Linux的虚拟环境下安装GPU版本的torch、torchaudio、torchvision详细过程_linux安装torch-CSDN博客

https://blog.csdn.net/Miss_croal/article/details/128087921)

此命令可以查看当前显卡驱动允许的最高CUDA版本(cuda driver),效果如下图:

cuda驱动版本(12.1)

pytorch在使用GPU的时候需要用到cuda toolkit,该工具是软件与硬件的桥梁。
cuda有两个意思,一个是运行时cuda(cuda toolkit),一个是驱动器cuda(cuda driver)。通常我们的服务器上已经安装过了cuda driver,一般不需要再重新安装,所以本文所安装的cuda指的是安装运行时cuda,即cuda toolkit。还有一个重要的点是安装的cuda toolkit版本不能超过cuda driver的版本
                        参考自链接:https://blog.csdn.net/qq_46699596/article/details/134552021

3. 安装PyTorch

PyTorch官网:链接 。
早期版本的安装命令:链接 。

 一定要安装对应CUDA版本的PyTorch,安装命令点击官网的Get started查看。

 安装 PyTorch,稳定好用的版本更重要,推荐使用 CUDA 版本 11.1 到 11.7。版本查看网站如下:

https://download.pytorch.org/whl/torch_stable.html

服务器使用教程

4. 查看GPU使用状态

通过nvidia命令查看
系统已安装Nvidia显卡驱动后,可使用以下命令查看GPU状态

nvidia-smi

       当前已经有运行时cuda了,根据项目环境要求,可以在配置环境中进行cuda版本切换

命令

cd ~/显示隐藏文件
ls -a

root用户,cd ~ 相当于 cd /root

ls -a 部分结果:

   cuda-11.1 anaconda3     .bashrc      cuda-11.7  
Anaconda3-2023.03-1-Linux-x86_64.sh     cuda-12.1

复制隐藏文件中的 原始 bashrc 文件 成为 bashrc.backup

cp ~/.bashrc ~/.bashrc.backup

然后后续对bashrc 文件进行cuda版本切换

在激活环境下进行如下操作:

Cuda 11.7兼容 :11.1 11.3比较稳定 11.7  11.8也行

bashrc 文件中 环境变量

export PATH=/home/shuxue4/cuda/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda/lib64:$LD_LIBRARY_PATH

找到 .bashrc 文件后,用 nano 编辑它

nano ~/.bashrcexport PATH=/home/shuxue4/cuda-11.7/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda-11.7/lib64:$LD_LIBRARY_PATH

保存并退出

  • Ctrl + X 退出编辑模式。
  • Y 确认保存更改。
  • Enter 确认文件名并退出。

使修改生效

source ~/.bashrc

验证一下

nvcc -V

然后就可以接着安装pytorch了

3.安装pytorch

Torch sssx推荐1.13的 eg: 1.13.1 1.13.2

所以只用官网前一半的内容,后边用-f +后边的网址。

Python 一般用3.8    3.10

# CUDA 11.7
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f
https://download.pytorch.org/whl/torch_stable.html

@$ pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f https://download.pytorch.org/whl /torch_stable.html

下载过程会有如下结果,记得打开实验室服务器啊!!!!!!!!!!!!!!!!!!!!!

Looking in indexes: http://1/root/pypi, http://172./torch/torch Looking in links: https://download.pytorch.org/whl/torch_stable.html WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f9fdffe3070>: Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html WARNING: Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError( redirect=None, statu 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at : Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html Collecting torch==1.13.1+cu117 Downloading http://172.2/torch/torch/%2Bf/14c/5c9db09df8cf1/torch-1.13.1%2Bcu117-cp310-cp310-linux_x86_64.whl (1801.8 MB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.8/1.8 GB 26.4 MB/s eta 0:00:00 WARNING:

处理“网络不可达”的警告

这些警告可能是由于尝试访问某些外部源失败引起的,但因为你的系统已经在本地缓存或镜像了这些包,所以安装仍然成功了。