失敗したのを書いておこう。
設定してしばらくは動いてたんですが…。Raid のチェックで突然エラー。
出たエラーは『 Socket timeout after 10 seconds. 』タイムアウトエラーですね。
結果的には認証サーバ(LDAP)に作ったユーザと、ローカルに作ったユーザが重複していました。
以下、トラブルシューティング。
リモートのホストをチェックしてるので試しに Nagios サーバ側から Version を確認する。
$ /usr/local/nagios/libexec/check_nrpe -H 192.168.0.XXX
NRPE v2.12
基本的なところは大丈夫。
$ /usr/local/nagios/libexec/check_nrpe -H 192.168.0.XXX -c check_raid
Socket timeout after 10 seconds.
とするとタイムアウト。
ダメになっているホストで同じように試す。
$ /usr/local/nagios/libexec/check_nrpe -H localhost
NRPE v2.12
$ /usr/local/nagios/libexec/check_nrpe -H localhost -c check_raid
Socket timeout after 10 seconds.
同じくエラー。nrpe は問題なさそう。
nagios ユーザに 『 su – nagios 』
同じようにコマンド。
$ /usr/local/nagios/libexec/check_nrpe -H localhost
NRPE v2.12
$ /usr/local/nagios/libexec/check_nrpe -H localhost -c check_raid
Socket timeout after 10 seconds.
同じくダメ…。
『 -c check_raid 』の引数に関しては『 /usr/local/nagios/etc/nrpe.cfg 』に
command[check_raid]=sudo /usr/local/nagios/libexec/check_3ware3
設定してあるので。
$ /usr/local/nagios/libexec/check_3ware3
Arrays OK.
あれ?直接なら OK。
いろいろして悩んで。
…。…。(rya
nagios のパスワード設定してないなぁ。と passwd コマンド入力したら、『!!!』
違うユーザのパスワードを変更しますといわれる…。これだ…。(RPG で謎が解けたときの感じ。最近さっぱりやってないけど…。)
ここまでトラブルシューティング
LDAP で運用中のサーバ群に( Nagios の)nrpe をインストール。(ローカルユーザ 『nagios』を『useradd コマンド』で追加。)
このとき LDAP サーバに登録された uid の次の uid でローカルユーザが登録された。(ローカルユーザはほとんどいないので 500 番台で uid がつくと錯覚してた。LDAP サーバは1000番以降で登録されるように設定してある。)
その後、LDAP サーバに『 smbldap-useradd 』コマンドで samba ユーザを追加。
このとき追加された uid はシステム上で重複チェックされないので、重複発生…。
nagios ユーザの uid が重複してたため『 sudo コマンド』が動かなかったようでした。
ぬぅ。
6 台中 2 台だけ発生してたのは、samba 経由で先にログインされたサーバだけエラーになっていました。
nrpe.conf で『command[check_raid]=sudo /usr/local/nagios/libexec/check_3ware3』 の sudo のコマンドの path が通ってなかったのはまた別な話です。><
nagios の uid を空いてる(若い) uid に変更しました。
groupmod -g 502 nagios
usermod -u 501 nagios
usermod nagios -g nagios
chgrp -R nagios /home/nagios/
chown -R nagios.nagios /usr/local/nagios/
わかる人にもわかりにくいエントリだなぁ。
技術系と日記系をわけたほうがいいのかしらと最近思ってます。MT 使おうかな…。仕事でも応用効きそうだし…。