インフィニティソリューションズ株式会社ブログ

「クラウドでビッグデータ」は要注意

ビッグデータが盛んに話題に上がっているが、どこに構築するかを注意深く検討しないと、目が飛び出るような請求額に驚くことになるかもしれない、とZDNetが警告している。様々なクラウドベンダーはビックデータ向けのツールを提供しており、処理能力もストレージもオンデマンドで拡大可能であり、表面的にはクラウド上でビックデータを扱うのが妥当なように見える。しかしながら、大量のデータをアップロード、ダウンロードするために要するコストと時間が予測しえないほどのものになりかねないという。

‘Hadoop is representative of a problem facing the big data industry as a whole: where you locate your data storage and analysis engine will determine where the data ultimately resides. And it’s for that reason that choosing to locate your big data in the cloud, or in your own datacentre, could have huge ramifications down the line.’

「Hadoopは、ビッグデータ業界全体が直面する問題の代表だ。すなわちデータストレージと分析エンジンをどこに配置するかによって、究極的にデータがどこに置くかが決まる。さらに、ビッグデータをクラウドに配置するか、はたまた自社のデータセンターに配置するかを選択することが、非常に大きな影響をおよぼす理由だ。」

Spikes by Craig Jewell Photography, on Flickr

‘For example, if a company wants to analyse its customer data, it could buy in several low-cost servers with large amounts of storage based on chassis designs from companies like Supermicro and run a Hadoop cluster on top. That would give the company control over its infrastructure, where its data resides and the cost of its kit.’

「例えば、ある企業が顧客データを分析したい場合、Supermicroなどの企業のシャーシ設計に基づき、低コストのサーバ数台と大容量のストレージを買い、その上でHadoopを動作させる。これで、企業はインフラ自体、どこにデータがあるか、そのキットのコストをコントロール下におさめるこことになる。」

‘However, if the business gets a sudden spike in data that it doesn’t have the capacity to process in a timely manner, it will need to kick this data up into the cloud to process and analyse it as an entire set.’

「しかしながら、業務上のデータが急増し、タイムリーに処理する能力が足らなくなった場合、セット全体として処理し分析するために、データをクラウドに上げる必要が出てくる。」

‘For that, it will pay the typical charges to your ISP, along with the fees for renting the associated storage and compute in Amazon, Google, Microsoft or other vendors’ public clouds. Upon completing the processing, it may even have to pay additional charges to get data out of the cloud and back into its datacentre.’

「そのために、IPSへの支払いに加えて、Amazon、Google、Microsoft、あるいはその他のパブリッククラウドのの処理能力とストレージのレンタル料を払わねばならなくなる。処理が完了するば、クラウドからデータを引き出しデータセンターに戻すためにさらに追加料金が発生する。」

‘This is an example of an effect known as “data gravity“, which has been outlined by researcher and former EMC employee Dave McCrory. Put simply, data gravity means that the infrastructure where you perform actions upon a dataset will attract more and more data over time and get more and more difficult to drastically change.’

「これは『データ引力』として知られる効果の例で、研究者で前EMC社員のDave McCrory氏が明らかにしたもの。単純にいえばm、データ引力とは、データセットに対して何かアクションを起こすと、時間が経つにつれますますデータがひきつけられ、大幅に変更することが困難になるようなインフラのことを意味する。」

‘For some web applications it will make sense for data analysis to be done in the cloud, but for others the value is doubtful. This example illustrates why data location can have a big impact on companies’ bottom line.’

「ウェブアプリケーションによっては、クラウドでデータ分析をするのが理にかなっているものもある。しかし、他の分野ではその価値は疑わしい。この例はデータのありかが企業の利益に大きな影響を与えるの理由を表すいい例だ。」

‘”Where public cloud shines is the more moderate amounts of data, where you care about bursting and care about expandability,” Zedlewski says.’

「『パブリッククラウドが輝くのは、データ量が中程度のばあいで、急増や拡張性を気にする場合だ』とZedlewski氏(HadoopベンダーCloudera社の製品担当副社長)。

‘Workloads that should be kept in the datacentre are those that generate a huge amount of information that will need to be repeatedly worked on and enlarged, such as those that convert information from the physical world into digital information, like genetic sequencing.’

「データセンター内で維持すべき負荷は、大規模なデータを繰り返し生成するもので、物理世界からデジタル情報へと情報を変換させるような遺伝子解析などだ。」

‘For example, a small sequencing machine can generate a minimum of a terabyte of information for each operation. This data then needs to be fed through the network and into Hadoop, where it is stored then worked upon. Companies that do this kind of work have many of these machines running in parallel. Uploading, processing and downloading terabytes of information from a remote public cloud is not a trivial matter, and the costs and time expenses can be great. ‘

「例えば、小さなシーケンスマシンは各操作ごとに最低テラバイトの情報を生成する。このデータはネットワークを経由してHadoopに送り込む必要がある。そこにストアして処理するためだ。この種の処理を行う企業は並列に動作するマシンを多数所有している。リモートのパブリッククラウドに対し、アップロード、処理、ダウンロードを行うのは、ささいなことではなく、、そこに費やすコストと時間は大量になる。」

‘”The rental fees you’re paying in public cloud are five-10 times higher” than on-premise, Zedlewski says. (Cloudera’s distribution of Hadoop is run both in public clouds and on premise.)’

「社内システムに比べて『パブリッククラウドに支払うレンタル料は5倍から10倍になるかもしれない。』とZedlewski氏。(ClouderaのHadoopディストリビューションはパブリックおよびオンプレミスで動作可能)」

 

‘It all goes to show that although the economics of rentable technology are clear in some cases, such as for scaling websites or one-time number crunching, in others they can be rather cloudy.’