トップページ最近の動向

PCクラスタ

何かと問題が多いPCクラスタですが、今度は制限時間以内で勝手に落ちる現象が…
何も悪いことしてないのに何かなぁ…と思っていたら…
Feb 12 00:03:17 2008 4115 4 6.1 PAM: pjl_rwait: Didn't get all TS to report status.
Feb 12 00:03:17 2008 4115 3 6.1 PAM: pWaitRtask(): ls_rwait/pjl_rwait() failed, Communication time out.
Feb 12 00:03:17 2008 4115 3 6.1 pWaitAll(): NIOS is dead

PAMってなんだろう?ってLogをみてみると、どうやらファイルを書いているところで落ちている感じです。そう、これはStorageの問題…
最近、/scratchというstorageの調子がホントに悪くて、そのせいで本体が止まることが多々あります。今回もそれが原因で止まっている様子。
それでついてないことに、なぜかrestartファイルがdomain1は書かれてもdomain2は書かれない意味不明な現象が起こっております。そのため、restartができないんですねにゃんと。

さて困った。あと数時間ぐらい実際はほしいところですが。
  1. めげずにもう一度かける。もちろん、また落ちるかもしれない。
  2. 1wayで確実にrestartファイルを吐きつつやる。いやまぁいいんだけど、全部やり直しだぁ!
1wayでやり直したいけど、時間がにゃいな。

トラックバック(0)

このブログ記事を参照しているブログ一覧: PCクラスタ

このブログ記事に対するトラックバックURL: http://www.so-nans.com/blog4/mt-tb.cgi/1515

コメントする

2008年2月

           1   2 
 
 3   4   5   6   7   8   9 
 
 10   11   12   13   14   15   16 
 
 17   18   19   20   21   22   23 
 
 24   25   26   27   28   29   
 

Norman, OK

Tokyo, Japan

アーカイブ