11月26日、無事サーバーが完全復旧しました。
8日間掛かりましたが再インストール用にスタンバイしていたDell Power Edge T410 E5640 (ntel(R) Xeon(R) CPU E5640 @ 2.67GHz)機をプライマリーサーバーとして再インストールを完了し稼働にこぎつけました。
障害の原因
なんてことは無い、完全に人為的なミスです。
余計なことをしてしまいました。
今回はホットスワップに失敗してしまい3台のHHDの全てに障害を与えてしまい、一度は何とか修復することができましたが数分もしないうちにシャットダウンしてそれ以降起動することはありませんでした。
HDD内のデーターを修復しようとするもおそらくRAIDの設定を変えたりしてしまったので一切読み込めず新規インストールコースとなってしまいました。
すべての設定が終わるまでは自室に置いていつもの如く念のため掃除から始まり作業していました。
ピンチはチャンス
1998年に自宅サーバーを開設して独自ドメインの運用を始めてからWindows NT Server 4.0に始まり今年の4月にWindows Server 2008 R2からCentOS7に切り替えるまで久しくWindows Server系を利用してきました。
今年の4月はサーバーマシーンの不調からダウンする前に急遽CentOSのインストールに着手。
Linux系に乗り換えた理由はもちろん経費節約の為です。
しかしながら、時間はかかりましたので何度となくお金で解決(Windoesに戻して)しそうになりました。
初めてのCentOSでしたので都合1カ月ほどかけて完成しましたが、ここ最近動作が遅くなって帰途様な印象が・・・ おそらく設定が甘いところがあったと思われます。
折角なのでクリーンインストールをしたうえで、ここ7カ月ほどの運用で気になった部分やバックアップの強化、セキュリティーの再考を行いインストールの内容を改善することにしました。
勿論Windowsアガリの私は使えるGUIは最大限活用しました。
18日未明のトラブル発生からその土日と仕事から帰宅後、そしてまた週末にすべての時間を費やし3回目のクリーンインストールで今の自分の知識ではなんとか納得の行く状態にできました。 幸い今週は木曜日から今日まで4連休でしたので4日間集中して作業出来たのは不幸中の幸いでした。
この後セカンダリーサーバーのインストールが待っていますので今回の作業の簡単なメニュを・・・
- RAID
- OSインストールとアップデート
- SSHとVNC
- Webmin
- Samba
これで、コマンドラインでの操作を最小限にしながら作業ができます。(笑)
- DHCP
- BIND
- Apacheの基本設定
- MySQL+My PhpAdmin
- Postfix+Postfixadmin
- Dovecot
- SSL
- ApacheのVirtual Domainsの設置
- サーバー認証局とサーバー証明書
- ApacheのSSL設定
- Webmailサイト
- Bacula+Baculam API
- Mondo Rescue
- Dell OpenManage Server Administrator
- Zabbixサーバー監視
- Munin
無事isoイメージの取得も完了したのでこれで一段落です。
いつもの事なんですが、切迫した作業をしている時に限ってネットワークプリンターが不調になったりするんですよね。
今回もカラーレーザーのドラムメンテが入ったり、複合機の異常があったりで・・・
普段のメンテナンスをしているつもりでしたが、ワークロードが上がった瞬間に一気にFalling apartです。
作業も終盤・・・
ほぼ設定が落ち着いたのでカバーを取り付けて、取り間違いのないように必要な情報を見えるようにシールを貼っときました。
いぜんはネットワークの設定がすべて頭の中に入っていましたが、20年ぐらいやっていると新しい変更を忘れがちに・・・昔の設定はよく覚えているんですが。
屋内用の積車で自室からサーバールームに陸送です。
サーバールーム到着!
と言っても10mも移動してませんがうっかり落としてしまいそうな大きさと重量なので安全第一です。
メンテしやすいように奥まったところから手前に移設したラックに収めてます。
無事収まりました。
フレームに挟まってカバーを開けるのは取り出さないといけませんが地震の時は落ちずに済みます。
念のためタイダウンベルトで固定することにします。
2系統あるパワーシステムは1つを電源から、もう一方をUPS経由で取っています。
前回のUPSのトラブルでは両方UPS経由になっていたのでUPSがトラブ荷になった際に障害の原因になってしまいましたので今回はちょっと対策。 まあ、元は同じアウトレットなので気休め程度なんですが。 ちなみにこの部屋のサーバー用の電源は他の回路とは別に専用回路としていますので宅内全体が落ちない限りは他の部屋の影響を受けずに済みます。
今回の障害でクラウドのサーバーデータはすべて失いましたが手元のPCと同期していたので問題なし。 ただし同期していない分(奥のiPad)は消滅しました。
ブログの情報は直近の記事3件は消滅しました。
それ以外のデーターはSQLのバックアップで復元できましたが画像データーが1ヶ月分消滅しました。
10月にずいぶんと頑張って書いたランクルの納車時分からのメンテナンスレポートの本文は復旧できましたが画像ファイルを喪失してので一件ずつ当たって手元のデータから再度画像のみアップロードして復旧しています。
何故かサクッと作って編集して手元にない画像もあるので少々省略もありかもしれません・・・
BMWの3件分の記事は改めて作り直す予定です。
スポンサーリンク