何かと問題が多いPCクラスタですが、今度は制限時間以内で勝手に落ちる現象が…
何も悪いことしてないのに何かなぁ…と思っていたら…
Feb 12 00:03:17 2008 4115 4 6.1 PAM: pjl_rwait: Didn't get all TS to report status.
Feb 12 00:03:17 2008 4115 3 6.1 PAM: pWaitRtask(): ls_rwait/pjl_rwait() failed, Communication time out.
Feb 12 00:03:17 2008 4115 3 6.1 pWaitAll(): NIOS is dead
PAMってなんだろう?ってLogをみてみると、どうやらファイルを書いているところで落ちている感じです。そう、これはStorageの問題…
最近、/scratchというstorageの調子がホントに悪くて、そのせいで本体が止まることが多々あります。今回もそれが原因で止まっている様子。
それでついてないことに、なぜかrestartファイルがdomain1は書かれてもdomain2は書かれない意味不明な現象が起こっております。そのため、restartができないんですねにゃんと。
さて困った。あと数時間ぐらい実際はほしいところですが。
何も悪いことしてないのに何かなぁ…と思っていたら…
Feb 12 00:03:17 2008 4115 4 6.1 PAM: pjl_rwait: Didn't get all TS to report status.
Feb 12 00:03:17 2008 4115 3 6.1 PAM: pWaitRtask(): ls_rwait/pjl_rwait() failed, Communication time out.
Feb 12 00:03:17 2008 4115 3 6.1 pWaitAll(): NIOS is dead
PAMってなんだろう?ってLogをみてみると、どうやらファイルを書いているところで落ちている感じです。そう、これはStorageの問題…
最近、/scratchというstorageの調子がホントに悪くて、そのせいで本体が止まることが多々あります。今回もそれが原因で止まっている様子。
それでついてないことに、なぜかrestartファイルがdomain1は書かれてもdomain2は書かれない意味不明な現象が起こっております。そのため、restartができないんですねにゃんと。
さて困った。あと数時間ぐらい実際はほしいところですが。
- めげずにもう一度かける。もちろん、また落ちるかもしれない。
- 1wayで確実にrestartファイルを吐きつつやる。いやまぁいいんだけど、全部やり直しだぁ!
コメントする