カイゼンのヒント

ITインフラの可視化とその効能

ビジネスの世界で最近良く耳にするトヨタ式「カイゼン」。その改善に欠かすことの出来ないキーワードが実は「見える化」です。可視化することで問題が顕在化され、よって何をどのように改善すべきかに挑戦する。この飽くなき改善スパイラルをITインフラ環境においてどのように実現するか?また実現することで得られる多くの効能。当サイトではITインフラ性能分析からサービスレベル測定に至るまで、具体的に分かりやすく役に立つ情報を提供して参ります。

(担当:株式会社ビーエスピー プロダクト推進部 菅原 潔明)
[2005年11月30日]

オープン系環境運用における問題点

ビーコンユーザ会の研究グループの一つに「オープン系の業務運用」をテーマにメインフレームの運用とオープン系運用の違いを洗い出し、スムーズにオープン系運用に移行する手法を研究しているグループがあります。本年度の活動の最初に取り上げられた問題点として、オープン系に運用シフトして明らかに運用管理の負担が大きくなったことがあげられました 。

その理由として、
第一にシステムを構成する機器が明らかに増加したこと。それに伴いシステム構成が複雑化したことがあげられます。
今まで1台のメインフレームで行ってきたサービスが、オープンでは数十台のサーバおよび、ネットワーク機器、各種アプリケーションに分散されることになり、システム構成機器数で言えば数十倍になっています。

第二に障害の発生する確率が高いことがあげられます。
オープン系技術はメインフレーム技術と比べて新しいものが多く、そのことが多くの技術革新を生んできたのですが、反面そのデメリットとして技術が枯れていない、いわゆる不安定なものが多くなりました。仮にメインフレームとサーバの可用性を比較してみても、メインフレームの信頼性はオープン系の数倍から数十倍もたかく、さらにオープン系は可用性が低い何十もの機器が複雑に絡み合って構成されているわけですから、確率論的に言っても障害の発生する確率は相当高くなります。

第三にオープン系における障害発生時の対応時間が増加傾向にあることがあげられます。 これは当ホームページに寄稿いただいている札幌スパークル株式会社システムコーデイネータ 桑原里恵氏の第一回の記事「障害復旧の早さは探知能力が鍵を握る」でも指摘されていることですが、オープン系における障害発生時の対応時間が増加傾向にあることです。その最大の問題点はログの分散になります。システム障害の原因調査の段階で、メインフレームにおいてはコンソール画面にすべてのエラー情報が表示され、いわゆるログは統合化されていたので、コンソールを見れば原因が何かはすぐに突き止めることができます。また、エラーメッセージも規格統一されているため、そのエラーが何を意味しているかも簡単に調べることができました。しかしオープン系では様々なメーカのハードウエア、ソフトウエアによって構成されており当然ログの所在、ログの形式、メッセージ内容もばらばらであり、どこで障害が発生しているかを突き止めるまでも大変であり、さらに、それぞれ各社のエラーメッセージを元に調査し、場合によってはそれぞれ各社問合せする必要もあり、非常に対応に時間を要することは明らかです。

このようにダウンサイジングの号令の元にオープン化を実施し、結果確かに各種経費の削減の効果を得ることになりましたが、システム運用の現場を見ると、システムの品質、運用の品質は劣化している傾向にあります。
上記にご紹介したビーコンユーザ会研究グループのメンバーの一致した見解として、オープン系業務運用においては、いかにログを統合的に管理し、業務に必要な情報を的確に通知・提供してくれる仕組みづくりを早急に行うことを目指すことでした。

次回以降、ログデータ収集の具体的方法、収集項目、性能分析例、トレンド分析、キャパシティープランニング等について順次ご紹介していきます。

Copyright(C)BSP Solutions Inc. All Rights Reserved