-オープンソースのSNSエンジン OpenPNEプロジェクト-

今回のサーバ障害のまとめ

04 / 01 水曜日 2009

今回のサーバ障害の経緯をまとめました。

【障害原因】
3/26(木)OpenPNEプロジェクト関連サイトをホスティングしているAmazon EC2の該当サーバにディスク障害が発生し、仮想サーバがハングアップした。EC2サポート担当によるデータの復旧作業にも失敗し、サーバのデータは失われた。別サーバに保存しているサイトのバックアップデータも、設定ミスにより正しく保存できていないため、OpenPNEプロジェクトサイトの一部データが、完全に失われた。

【障害内容】
OpenPNEプロジェクトに関連するサーバの障害状況
・3/26~3/30までのOpenPNE公式サイト(http://www.openpne.jp)、OpenPNE公式SNS(http://sns.openpne.jp)の一部停止
・OpenPNE公式サイトのブログデータ2週間分消失
・OpenPNE公式SNSのユーザー情報、書き込み情報2ヶ月分消失

【今後の対策】
今回の障害の直接原因はサーバのディスク障害であるが、バックアップデータが正しく保存されていないことが、データの消失を招き、障害を拡大させた原因である。今後のサーバ運営にあたっては、下記のバックアップ対策を強化し、貴重なサーバデータの保全に努める。

・サーバWEBファイルの定期的(日次)バックアップ
・サーバDBデータの外部サーバへのリアルタイム複製
・サーバDBデータの定期的(日次)バックアップ

※OpenPNEホスティングminiプラン(http://mini.openpne.jp)、マンションプラン、占有サーバプランなどの商用サービスは別サーバ、別体系で運用しているため、障害は発生していません。

コメント:2

fukasawa 09-04-02 (木) 14:15

該当サーバというのは、どういうスペックのサーバを使っていて、なぜ障害が起こって、データのバックアップはどのようにしていて、どういう設定ミスをしたのか、明らかにしていただけませんか?

Mamoru Tejima 09-04-07 (火) 20:38

http://aws.amazon.com/ec2/instance-types/
Small Instance (default)*

1.7 GB memory
1 EC2 Compute Unit (1 virtual core with 1 EC2 Compute Unit)
160 GB instance storage (150 GB plus 10 GB root partition)
32-bit platform
I/O Performance: Moderate
Price: $0.10 per instance hour

なぜ起こったかは不明です。サポートはディスク障害だと言っていました。

バックアップの取り方
・深夜にmysqldumpコマンドによるデイリーバックアップ三世代を同一サーバに保管
・バックアップデータをrsyncでバックアップサーバに毎日転送

どういう設定ミスをしたのか?
・EC2のインスタンス(VPS)のデータの保全性が低いことを詳しく調べていなかった
・データベースのパスワード変更を行っていたが、バックアップスクリプト側に設定を反映していなかった
・そのため、デイリーバックアップ、バックアップ側サーバのデータ共に、保存できない状況がおき三日分のバックアップデータすべてが利用できなくなった。

というところです。

ページの先頭に戻る