dockerが急に動かなくなった件

dockerが急に動かなくなった事があったので、ここにその詳細と解決法を記載しておく。

 

コンテナを起動しようとすると以下のようなエラーをはくようになった。

docker: Error response from daemon: OCI runtime create failed: container_linux.go:346: starting container process caused "process_linux.go:449: container init caused \"process_linux.go:432: running prestart hook 0 caused \\\"error running hook: exit status 1, stdout: , stderr: nvidia-container-cli: initialization error: cuda error: forward compatibility was attempted on non supported hw\\\\n\\\"\"": unknown.

 

突然のことで原因はわからなかった。

nvidia-smiとうってもCUDAの情報などが表示されなくなった。

docker ps -aでコンテナは確認でき、幸いコンテナ自体はまだ残っているようだった。

 

この問題はマシン自体をrebootすることによって元に戻った。

$ sudo reboot

 

不思議だが、ネットを調べると他にもこのようなケースが報告されていて、rebootでなおると書いてあった。