自宅サーバが飛んだ記念

やっぱバックアップ重要だよね。
1日前まで巻き戻っちゃったけど、それ以上の頻度で取るのは難しい。

障害発生から復旧まで

6/16(月) 03:50頃 障害発生
03:52 Site Alertからのメール発報で障害に気付く
03:55 LAN内のDHCP/DNSサービスが落ちたので、とりあえず作業マシンのIPを固定で振って、DNSはルータのアドレスを指定して作業開始
04:00 サーバの画面が全く映らないし、再起動しても状況変わらず(ハードウェアRAIDボックスのリビルドが走ったので完走するまでは放置しておく)
04:05 遊びで使ってたVMware ESXサーバ上のCentOS4マシンを流用して復旧作業を開始
04:10 NASサーバ上のバックアップからDNSDHCP用の設定をサルベージして内部ネットワークが使える状態にする
04:15 念のため最新版までupdateをかけてから、外部公開用のアドレスをip aliasで足す
04:30 ssh/http仮復旧(コンテンツはさておき、とりあえずサーバダウンした事を伝えるページ)
04:55 sshトンネル復旧(known_hosts編集、ユーザ作成、鍵設置、etc..)
05:00 コンテンツサルベージ開始(優先度高いものから)
06:30 一部の不具合を除き復旧、力尽きて寝る…
09:30 出社