インフィニティソリューションズ株式会社ブログ

ビッグデータにより従来型データウェアハウスは終焉するのか?

企業にとって、分析の元ネタはリレーショナルデータベースに保持されているのが通常だ。何しろそれなりの歴史があって、知見がある程度蓄積されているはずだし、社外で人材を探すにしてもさほど苦労しないはず。一方、ガチガチに作られるため、ひとたび変更が必要となると大変。コストも時間もかかる。一方リレーショナルデータベースの限界を打破すべき登場したNo SQL型では、変化への対応力に富むが、まだ人材は少ないし、性能的に満足できない恐れもある。

InformationWeekでは、Hadoopがデータウェアハウスの役割を担い、リレーショナルデータベースはデータマート用に成り下がるのかどうかのディベートを掲載している。エンタープライズ・データウェアハウスは遺物だとする肯定派は、Platfora社の創設者兼CEO、Ben Werther氏、生きながらえるとする否定派は、Teradata Labs社の社長、Scott Gnau氏だ。

warehouses, Butler's Wharf, SE1 by victorianlondon, on Flickr

肯定派:エンタープライズ・データウェアハウスは遺物だ

‘The proposition of the enterprise data warehouse seems tantalizing — unifying all the data in your enterprise into one perfect database.’

「エンタープライズ・データウェアハウス案にはなかなかそそるものがあるかもしれない。企業の全てのデータを1つのパーフェクトなデータベースに統合するというのだから。」

‘So you start an 18-month journey to find important data sources, agree on the important business questions, map the business processes, and architect and implement it into the one database to rule them all.’

「そこで、18ヶ月にわたる旅が始まる。重要なデータソースの探索、業務上重要な疑問への合意、ビジネスプロセスのマッピング、これら全てに対応した1つのデータベースを設計し、実装する。」

‘And when you are done, if you ever finish, you have a calcified relic of the world 18 months prior. If your world hasn’t changed much in 18 months, then that might be ok. But that isn’t the reality in any large business I’ve encountered.’

「で、完成したところで(完成すればだが)18ヶ月前の世界の石灰化した遺物を手に入れることになる。18ヶ月にわたって世の中が変わらなければそれでもいいかもしれない。しかし、今までみた大手のビジネスでは、そんなことはありえない。」

‘Why is Hadoop was gaining so much momentum? Clearly it’s cost-effective and scalable, and it’s intimately linked in people’s minds to companies like Google, Yahoo and Facebook. But there’s more to it. Everywhere I looked, companies are generating more and more data — interactions, logs, views, purchases, clicks, etc. These were being linked with increasing numbers of new and interesting datasets — location data, purchased user demographics, Twitter sentiment, etc. The questions that these swirling data sets could one day support can’t be known. And yet to build a data warehouse, I’d be expected to perfectly predict what data would be important and how I’d want to question it, years in advance, or spend months rearchitecting every time I was wrong. This is actually considered “best practice.”‘

「何故Hadoopがそれほど注目されているか。明らかにコストパフォーマンスが良く、スケーラブルで、Google、Yahoo、Facebookなどの企業の人々の考えと密接に結びついたものだ。しかし、それだけではない。どこでも企業はますます多くのデータを生成している。操作、ログ、参照、購入、クリックなどなど。これらはますます多くの新しく興味深いデータセットと結びついてきている。ロケーションデータ、購入ユーザの属性、Twitterで表している感情などだ。このぐるぐる回っているデータセットに関する問題はある日わかるものではない。しかしデータウェアハウスは構築しなければならない。どのデータが重要でどのように回答を見出したいかを何年も前に完璧に予測するか、間違っているたびに何ヶ月も要して再構築することを期待されている。実際これは『ベストプラクティス』だと思われている。」

‘The brilliance of what Hadoop does differently is that it doesn’t ask for any of these decisions up front. You can land raw data, in any format and at any size, in Hadoop with virtually no friction. You don’t have to think twice about how you are going to use the data when you write it. No more throwing away data because of cost, friction or politics.’

「Hadoopが全く異なる形で実現する素晴らしいところは、予めこのような決断を必要としないことだ。あらゆる形式のあらゆるサイズの生データを持ってこれる。Hadoopでは事実上制約がない。書いている時にどのようにデータを使うかをよく考える必要もない。コスト、制約、規約が理由でデータを捨てることもない。」

‘And yet, in the view of the status-quo players, Hadoop is just another data source. It is a dumping ground, and from there you can pull chunks into their carefully architected data warehouses — their system of record.” They’ll even provide you a ‘connector’ to make the medicine go down sweet. Sure, you are back in the land of consultants and 12-18 month IT projects.’

「それでも現状のプレーヤの観点では、Hadoopは単にもう1つのデータソースに過ぎない。そこはゴミ捨て場で、そこからかけらを拾って注意深く設計されたデータウェアハウスに入れる。『レコードのシステム』だ。薬を甘くしてくれる『コネクター』すら提供してくれる。絶対に、コンサルタントと12ヶ月から18ヶ月のITプロジェクトの世界に逆戻りだ。」

‘But let’s go through the looking glass. The database isn’t the “system of record” — it is just a shadow of the data in Hadoop. In fact there is nothing more authentic than all of that raw data sitting in Hadoop. But machinery has been missing to complete the story, namely a way to do interactive business intelligence, exploration and analysis against the data in Hadoop. Platfora is among the vendors working on this need.’

「しかし、鏡を通してみてみよう。データベースは『レコードのシステム』ではない。Hadoopではデータのシャドーだ。事実、Hadoop内にある生データ全てより信ずべきものはない。しかしストーリーを完結させるには、機械が足らない。すなわち、Hadoop内のデータに対してビジネス・インテリジェンス、探求、分析をインタラクティブに行う手段だ。Platforaはこのニーズに応えるベンダに1つだ。」

‘Imagine what this means. Raw data of any kind or type lands in Hadoop with no friction. And without building a data warehouse, without the pain of ETL integration, and without any other IT project, everyday business users can put that data to work immediately. The machinery to support this is now appearing, and users’ ability to harness data is undergoing a generational shift.’

「これが何を意味するのか。あらゆる種類とタイプの生データがHadoop内に制約なく収まる。データウェアハウスを構築せず、ETL(Extract/Transform/Load)統合の手間もなく、他のITプロジェクトも不要で、日々の業務ユーザがデータを即座に活用できる。これをサポートする機械も出現してきており、ユーザがデータを活用できる能力については世代的シフトが起こっている。」

‘There is no longer a need for a traditional data warehouse. It is an inflexible, expensive relic of a bygone age. It is time to leave the dark ages.’

「従来型のデータウェアハウスはもはや必要ない。柔軟性がなく、高価な過去の遺物だ。暗黒の時代を抜け出す時だ。」

否定派:エンタープライズ・データウェアハウスは生きながらえる

‘Some people suggest that relational database management systems (RDBMS), and data warehouse built on top of them, are no longer needed. In fact, some argue that new technologies like Hadoop can do the job of the Data Warehouse at a fraction of the time and cost — and, by the way, Hadoop is “free.”‘

「リレーショナル・データベース・マネージメントシステム(RDBMS)とその上で構築されるデータウェアハウスはもはや必要ないとする人もいる。事実、Hadoopのような新しい技術は、少しの時間とコストでデータウェアハウスの仕事をこなすことができると論じる人もいる。ところで、Hadoopは『無料』だ。」

‘We can’t blame some for wanting to believe the argument.’

「この議論を信じたい人を非難することができない。」

‘Before hitting the arguments, let me say that Hadoop has an important part in the future analytics environment because it provides a big data refinery, which can bring in massive amounts of raw material (data) — and more importantly the corresponding analytics. One of the great features of Hadoop is that you can pile information into it without deciding in advance what you need to save or how you intend to use it. As businesses require more precise analytics, Hadoop as a source of new fuel is critical.’

「議論に相対する前に、大量の原材料(生データ)、さらに重要なことに、対応する分析を可能とするビッグデータの精錬所になりえるため、今後の分析環境においてHadoopは重要なパーツであるといっておきたい。Hadoopの素晴らしい機能の1つは、何を保存し、どう使うつもりかを予め決めることなく情報を溜め込むことができることだ。ビジネス側でより正確な分析が必要であれば、新しい燃料のソースとしてHadoopは必須だ。」

‘The core argument really comes down to a couple of points: 1. Data Warehouses are too “rigid and inflexible,” and 2. The “community” will fix all of the limitations of Hadoop.’

「議論で最も重要な点は数えるほどしかない。第1にデータウェアハウスは極めて『堅牢で柔軟性がない』という点、第2に『コミュニティ』がHadoopの全ての制約を解決するという点だ。」

‘On the surface, these points sound very compelling. But with a deeper look they are misleading and self-contradictory.’

「表面的には、これらの点は無理やりに聞こえるかもしれないが、良く見えれば、ミスリーディングで自己矛盾だということがわかる。」

‘Starting with the point about inflexibility of data warehouses, it’s important to distinguish the technology, RDBMS, from the practice, data warehousing. Rigid schemas attributed to EDWs — where the users have to define what they are looking for before starting the search, and where some of the misconceptions stem — are often the result of rigid IT policy, and sometimes the result of dated or inadequate data warehouse architecture. Rigid structures are not an inherent problem in today’s best data warehouse architectures that are designed for analytics.’

「データウェアハウスが柔軟性がないという点から始めよう。技術としてのRDBMSと、プラクティス、データウェアハウジング、エンタープライズ・データウェアハウス(EDW)の属性である堅牢なスキーマとは区別することが重要だ。すなわち、ユーザは検索を始める前に何を探しているかを定義する必要があり、誤った概念が起こりえる部分でもあるが、それはたいてい堅牢なITポリシーの産物であり、時には古い、あるいは不適切なデータウェアハウス・アーキテクチャによるものだ。堅牢な構造は、今日の分析向けに設計された最善のデータウェアハウス・アーキテクチャにつきものの問題ではない。」

‘Is structure bad in analytic environments? No! Imagine what would happen if you ran a public company and every quarter an analyst had to go through piles of un-modeled data, whether in Hadoop or otherwise, to come up with your financial quarterly results. The chance that something would go wrong in this process is too high to allow that uncertainty — sometimes structure is really good to have!’

「分析環境として構造がダメなのか?いいや!公的企業を運営していて、Hadoopかどうかにかかわらず、四半期の財務報告書を作るために四半期ごとにアナリストがモデル化されていないデータの山をかき分けなければならないとしたらどうなるのか?このプロセスでは何かおかしくなる可能性は極めて高く、時として、構造は実に都合がいいのだ!」

‘So, do all these successful enterprises use structure and data models because it is the only way to go in an RDBMS or a Data Warehouse? Of course not. This is not about what a data warehouse can do; this is about what the business needs. Claiming that customers will stop requiring data quality and accurate data models across all their data infrastructure is misleading.’

「そこで、成功しているあらゆる企業は、RDBMSやデータウェアハウスにするしかないから構造やデータモデルを使っているのか?もちろんちがう。これはデータウェアハウスが出来ることではない。ビジネスニーズなのだ。顧客はデータインフラ全般にわたってデータクオリティや精度高いデータモデルを必要としなくなると主張するのはミスリーディングだ。」

‘Let’s move to the second question. Why would you need a data warehouse if Hadoop is going to support everything from SQL to BI in a year or two?’

「第2の問題にいこう。Hadoopが1年や2年の間にSQLからBIまでサポートするのであれば、何故データウェアハウスが必要になるのか?」

‘This claim ignores a simple fact: it took decades of work from some of the most brilliant computer scientists to build databases. Can Hadoop provide and implement the same functionality in a couple of years?’

「この主張は単純な事実を見逃している。最も聡明なコンピュータサイエンティストがデータベースを構築するのに何十年もかかった。Hadoopは、数年の間に同じ機能を実装できるのか?」

‘The answer is obviously, no, and it would be a real shame to waste the community’s efforts to rebuild existing functionality vs. inventing newer and more extraordinary use cases. And some of the early deliverables in the Hadoop world that purport to eliminate RDBMS’s require schemas and have physical design constraints that go against the “flexibility” argument of Hadoop. What’s more, these claims leave out the fact that Hadoop was originally not developed for BI or SQL execution. It’s like using a hammer when you really want a screwdriver — let’s free Hadoop to be the great tool it was designed to be!’

「答えは明瞭だ。無理だ。既存の機能をコミュニティで再構築するのか、より新しく並外れたユースケースを発明するかで労力を浪費するのは実に恥ずべきことだ。RDBMSの世界をなくすと主張するHadoopの世界が当初もたらしものはスキーマがひつ賞で、Hadoopが主張する『柔軟性』とは相反し、物理設計の制約があった。さらに、これらの主張は、Hadoopが元々BIやSQL実行のために開発されたものではないという事実を脇にやっている。ドライバーが必要な時にかなづちを使うようなものだ。Hadoopを開放して、元々設計で意図したとおりの素晴らしいツールとするべきだ。」

‘History teaches us that the impact of new technologies is over-estimated in the short-term and underestimated in the long run. Hadoop is not and will not become a data warehouse. RDBMs and data warehouses will thrive, not die, because of Hadoop. We think Hadoop will be an integral part of future analytic data infrastructure solutions, but not the only part!’

「歴史は、新しい技術のインパクトは短期的に過大評価され、長期的には過小評価される。Hadoopはデータウェアハウスにはならないし、今後もならないだろう。RDBMSやデータウェアハウスは、生存し続け、Hadoopのせいで死ぬことはない。Hadoopは将来の分析データインフラ・ソリューションの一部になるだろうが、それだけではない。」