dockerが急に動かなくなった件
dockerが急に動かなくなった事があったので、ここにその詳細と解決法を記載しておく。
コンテナを起動しようとすると以下のようなエラーをはくようになった。
docker: Error response from daemon: OCI runtime create failed: container_linux.go:346: starting container process caused "process_linux.go:449: container init caused \"process_linux.go:432: running prestart hook 0 caused \\\"error running hook: exit status 1, stdout: , stderr: nvidia-container-cli: initialization error: cuda error: forward compatibility was attempted on non supported hw\\\\n\\\"\"": unknown.
突然のことで原因はわからなかった。
nvidia-smiとうってもCUDAの情報などが表示されなくなった。
docker ps -aでコンテナは確認でき、幸いコンテナ自体はまだ残っているようだった。
この問題はマシン自体をrebootすることによって元に戻った。
$ sudo reboot
不思議だが、ネットを調べると他にもこのようなケースが報告されていて、rebootでなおると書いてあった。