电子商务网站开发常用工具,wordpress 标题换行,长宁区网站建设网页,牛网站建设情况描述
服务器使用docker启动容器。启动以后一切正常也能跑程序。但是#xff0c;在运行一段时间#xff08;2天左右不等#xff09;#xff0c;会发现gpu掉了。输入nvidia-smi提示
Failed to initialize NVML: Unknown Error
主要发生条件是#xff0c;docker启动的…情况描述
服务器使用docker启动容器。启动以后一切正常也能跑程序。但是在运行一段时间2天左右不等会发现gpu掉了。输入nvidia-smi提示
Failed to initialize NVML: Unknown Error
主要发生条件是docker启动的时候指定的部分卡。譬如4卡指定2卡在容器中使用。
当前发现情况基本都是代码运行完准备下一次跑的时候提示这个问题。
解决方案记录
1、如果是容器使用本机所有卡在启动容器时候添加“--privileged”参数能够避免上述问题。但是如果只使用部分卡则不能添加此参数。
2、【测试中】根据链接所述发生原因如下详情见链接。https://github.com/NVIDIA/nvidia-container-toolkit/issues/48 主要首先要确定docker是否使用systemd cgroup进行管理如果不是这问题导致大概率后续解决方案无效。运行docker info| grep Cgroup。确认一下。 $ docker info ... Cgroup Driver: systemd Cgroup Version: 1
如果如上图所示在/etc/docker/daemon.json里面添加参数重启docker。
exec-opts: [native.cgroupdriversystemd]