オンプレサーバーのリプレイスを担当する5年後の君へ

--

5年後に誰が42 Tokyoのオンプレサーバーのリプレイスを実施するかまだわからない、もしくは誰もしないかもしれないが、この記録を届けたい。

Photo by U. Storsberg on Unsplash

オンプレサーバーのリプレイスの背景として、42 TokyoのカリキュラムはオンプレミスのDELLサーバー4台が問題なく稼働することで提供が可能となっている。どれも耐用年数が5年のため、買い替えるタイミングが5年ごとにくる。

このリプレイス作業はかかっている費用の規模感や42 Tokyoのインフラが停止し42 Tokyo終了の可能性も含め、42 Tokyoのインフラ系の仕事で一番タフな仕事である。

少しでも負担を軽減するためにやっておいて良かったことや改善点などを記録する。

① リプレイス中はリプレイス以外の仕事はしないこと

このリプレイス作業は、物理層(DACケーブルなどの接続)からアプリケーション層(postfixサービスの稼働)などを網羅的に含めた作業なので、どこかしらで必ず問題が発生する。これらの問題は放置すればするほど、他の作業が遅れてしまうので、絶対にリプレイス以外の仕事はしないこと。

自分の場合、Piscineの合格者選定、その他の大事なミーティングなどが重なり、リプレイス作業の対応が遅れてしまい、課題解決が間に合わず寝れない。

② 復旧プランを計画しておく

リプレイスの細かいタスクはどこかしらで必ず失敗する。インフラを元に戻せず、新たに設置もできない場合、バッドエンドになる。バッドエンドを迎えたくない場合、適度にチェックポイントを作成し、次のチェックポイントまで行けなかった場合、どのように戻すかを計画すること。

③全てのサーバをvcenterに繋げておく

全てのサーバをvcenter上で管理できる移行方法を取ること。switch/routerの設定やケーブルなどをケチって、一台ずつサーバーをシャットダウンリプレイスする方式で実施したが、余計手間が増える。vcenterの移行、esxiの設定のレプリケーションなどのトラブルが多発し、リプレイスが難航化した。②の対策も含めてvcenterで全てのesxiを管理できている状態に持っていた方がトラブルが減りスムーズに移行できた。

④ vmの再配置の時間を計測すること

これは事前にやっていたため、休校を延期せずにすんだナイスムーブ。事前にvmの「コンピューティング リソースとストレージの両方を変更します」移行を実施して、移行にかかる時間を計測すること。

10TBのストレージがあるサーバの移行は~30時間かかる。1TB 3時間ほどである。この情報がある状態で移行スケジュールを計画しないと余裕で延期。もし誰かがケーブルを引っこ抜いてvmの移行が99%で停止することを想像したらゾッとする。

ちなみに、一台ずつサーバーをシャットダウンリプレイスする方式で実施した場合、二回移行しないといけなかったので、合計60時間費やした。③のプランで実施した場合、30時間で済むので③がやはりおすすめ。

⑤ 休校期間の判断

順調にいけば2日で終わるスケジュールが出てきた場合、その3倍で見積もること。今回は2倍で実施したが、全タスクは完了できず、復旧プランもちゃんとタスクとして考慮した場合、3倍がちょうど良い。

他にも細かいことはあるが、5年後の君ならなんとかできる。

これは記事とは一切関係ない雑談なのですが、role++ が実行され、42 TokyoのCTOになりました。やることは変わらないのですが、引き続きどうぞよろしくお願いいたします。

Mediumで記事を書くメリットをもう感じていないのでMediumから移行したい… おすすめあれば、教えてください。

--

--