海南网站备案,域名购买 万网,两学一做教育考试网站,网络营销成功案例有哪些2022买了两块3090卡闲置很长时间了#xff0c;之前tf 1.12.0版本用习惯了不想转工具。这段时间闲下来转了之后有些环境不适配#xff0c;在雷神帮助下安装完毕#xff0c;虽然出了点怪东西#xff0c;整体还好。
原环境CUDA为11.4 其他配置如下 之前conda install的pytorch实为…买了两块3090卡闲置很长时间了之前tf 1.12.0版本用习惯了不想转工具。这段时间闲下来转了之后有些环境不适配在雷神帮助下安装完毕虽然出了点怪东西整体还好。
原环境CUDA为11.4 其他配置如下 之前conda install的pytorch实为cpu版本查看gpu等信息时会显示
最开始是想着先把pytorch直接替换为CUDA 11.4版本直接安装即可在pytorch官网上目前为2.4.1版本CUDA最低11.8torch 2.0版本以上的最低也是11.7安装方式为 conda install pytorch torchvision torchaudio pytorch-cuda11.8 -c pytorch -c nvidia
可尝试将11.8改为11.4未尝试到这里就尝试用11.8或则12或找寻前续对应版本LLM等相关方向建议直接换最近CUDA 12.4。 11.4在装时测试机找不到资源11.3安装后寻找不到GPU资源。
到目前为止就需要考虑先升级CUDA Section 1 CUDA 升级11.4 - 11.8
先查看下系统信息
cat /etc/os-release
lsb_release -a CUDA 官网直接进入后选择即可(地址)本机打算升级到CUDA 11.8地址 在安装 CUDA 11.8 时deb 和 runfile 是两种不同的安装方式 deb 适用于基于 Debian 的系统如 Ubuntu。这种安装方式可以通过包管理器轻松安装和管理方便更新和卸载。使用命令如 sudo dpkg -i package.deb 来安装。 runfile 适用于更广泛的 Linux 发行版。这种方式提供了更大的灵活性可以选择安装哪些组件例如只安装驱动或工具包。需要在命令行中执行例如 sudo sh cuda_11.8.0_XXX_linux.run。
通常如果你使用的是 Ubuntu 等 Debian 系统推荐使用 deb 方式如果你需要更多的控制或使用其他 Linux 发行版可以选择 runfile。
这边安装时选择的deb (local) wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb sudo dpkg -i cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb sudo cp /var/cuda-repo-ubuntu2004-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda
照着安装即可。
安完可能有报错 可参照下文尝试是否能够解决解决apt-get安装中的E: Sub-process /usr/bin/dpkg returned an error code (1)问题 - 焦距 - 博客园 把这个进行之后尝试
sudo apt-get update sudo apt-get -y install cuda
完了之后因为CUDA重装需要重启电脑直接reboot
有概率可能就没问题了但是本机安装时重启后nvidia-smi后还是报错
NVIDIA-SMI has failed because it couldnt communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running. 表明驱动未安装或则启动。 Section2 解决NVIDIA驱动问题
参考文章如下
NVIDIA驱动失效简单解决方案NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. - nannandbk - 博客园
nvidia-smi出不来已经显示报错了那么就直接进行第二步
使用nvcc -V检查驱动和cuda。 显示找不到nvcc,可以进目录查看下是否有装
cd /usr/local/cuda/bin 这个表明安装过的那就是路径没对
在bashrc中最后添加以下两行
export PATH/usr/local/cuda/bin:$PATH export LD_LIBRARY_PATH/usr/local/cuda/lib64:$LD_LIBRARY_PATH
结束后source ~/.bashrc即可。非管理员的话在自己账户下操作即可需要sudo权限。自己的电脑建议都添加上root的bashrc位置为/root/。 完了之后nvcc -V 这个时候就已经完成。按之前博客文章给出的教程继续查看已安装驱动的版本信息
ls /usr/src | grep nvidia 这个nvidia后面的版本记下而后接着输入以下命令
sudo apt-get install dkms
sudo dkms install -m nvidia -v 520.61.05
等待安装完成 正常情况操作完之后能够恢复但本机安装完之后接着遇到怪东西 所以直接按照之前教程后续步骤接着安装驱动。期间会更新一些包会耗时一段时间。 在 Ubuntu 中prime-select query 命令显示 on-demand 表示系统当前使用的是 NVIDIA的 on-demand 模式。这种模式下系统会在需要时自动切换到 NVIDIA GPU而在其他时间则使用集成显卡 (通常是 Intel GPU)以节省电池电量和减少热量产生 具体说明: On-demand 模式: 只有在运行需要 GPU 的程序时NVIDIA GPU 才会被激活。这有助于提高能效。 NVIDIA 模式: 系统始终使用 NVIDIA GPU适合需要持续高性能的场合。 Intel 模式: 只使用集成的 Intel GPU不使用 NVIDIA GPU适合低功耗需求。 如果希望在运行需要 GPU 的程序时使用 NVIDIA GPUon-demand 模式是一个不错的选择
本机安装时直接sudo prime-select nvidia切N卡然后因为更新驱动随后reboot
装完之后又来了怪东西CUDA版本变成12.2了。 Section 3 Pytorch对应安装
网上目前暂时没有发现太多RTX 3090和CUDA 12是否适配的说法。
打算直接将pytorch官网环境选择指定为12.1考虑CUDA同12大版本可兼容。 conda install pytorch torchvision torchaudio pytorch-cuda12.1 -c pytorch-c nvidia
本机安装时又出怪东西 这个一直转后面挂了个screen过了很久回来看还在转最后切pip安装发现的速度只有10多kb/s添加了清华镜像试了段时间也不出来。考虑直接换pip install了。
这边需要查看下python和pip位置 这里解释一下因为这里显示的虚拟环境时conda自己建的设置的python版本为3.8.xpip对应的应该是系统自带的python安装时先试了pip install 来安装pytorch安装后import torch找不到module(这些环境我也很小白)后面直接切conda环境下的pip 这个涉及较多依赖需要较长时间补个清华镜像也有可能超时
再敲一遍安装重新安就好。
完成之后测试一下 目前看来正常后续是否出问题待验证...