nagiosを使ってみました・参考になるリソース
最近、弊社で運用しているWebサイトで、「サイトが表示されない」「SSHログインできない」などの問題が起こるようになったので、監視ツールのNagiosを利用することにしました。
導入に当たり一番参考になった資料は、Software Design 10月号に載っていた特集の、「システムの稼動状態を見える化!~Nagios活用術」です。
Nagiosは設定ファイルでの設定項目が多いので、紙の資料があるのが、作業する上でありがたかったです。
Nagiosで何ができるか
Nagiosは、インターネット経由で、httpdやsshdなどのサービスにアクセスできるかの、死活監視ができます。
Nagiosを導入する前は、httpdがいつ頃サービス提供不能になったのかを正確に把握するのが困難だったのですが、Nagiosを使って数分毎にサービスを監視することで、数分の精度で、サービスの状態の変化を知ることができます。(状態が変化したときにメールを送る設定ができます)
それがわかれば、サーバーの各種ログの、該当の時間を調べれば原因が発見できる可能性があります。実際、Nagiosでログを取り始めてから、2,3回メールが送られてきたので、Apacheのログを調べて対処することができました。
Nagiosの導入で難しいところ
Nagiosは設定ファイルが多いです。今回Fedora Core 5のパッケージから導入しましたが、/etc/nagios/の中の設定ファイルを多く編集する必要がありました。
今回編集したファイルをあげてみると、
- checkcommands.cfg
- commands.cfg
- contactgroup.cfg
- contacts.cfg
- hostgroups.cfg
- hosts.cfg
- misccommands.cfg
- nagios.cfg
- services.cfg
- timeperiods.cfg
の10個です。
種類別に分割してあると、管理がしやすいので、うれしいですが、この設定ファイルの相互の関係の理解と編集に一番時間がかかると思っていいでしょう。
Webで参考になるリンク集
- 【特選フリーソフト】サーバーを多彩な手法で監視 Nagios:ITpro
- 概要と導入を画面つきで説明しているので、導入前に感じをつかみたい方には良い資料だと思います。
- Nagios - cubic9.com
- プラグインの設定例が、豊富に掲載されています。
- FrontPage - Nagios Informations Ja
- 今回は参考にしませんでしたが、改めてWeb検索していて見つけました。
- ウノウラボ Unoh Labs: WEBサービス運用における監視体制
- Software Designの特集を書いた佐藤大樹さん(エントリーではsatoさんであるとしか分かりませんがおそらく)による監視に使うツールとその目的の紹介