インフィニティソリューションズ株式会社ブログ

データサイエンティストを競争させるアウトソースサービスKaggle

ビッグデータの勘所はデータサイエンティストにあり、と思うが、優秀なデータサイエンティストがそうそう居るものでもないし、かといって、ビッグデータの成果はデータサイエンティストにかかっている。ではどうすれば、いいのか。データサイエンティストが競っていいものを提案してくれるので、その中から一番いいと思うものをチョイスすればいい。そんなアウトソースサービスを展開しているのがサンフランシスコを拠点とするKaggle社だ。1100万ドル以上の資金と94000人の世界中のデータサイエンティストが参加しているらしい。SD Timesの記事より。

The premise is simple: Organizations present problems to the Kaggle community, outline the rules that must be followed, and back it with a cash prize ranging from several hundred to $10,000 to $250,000 for commercial competitions. Then there’s the ongoing big jackpot: a $3 million Heritage Health Prize to create an algorithm to help people avoid unnecessary hospitalization.

前提はシンプル。企業は問題や守るべきルールの概要をKaggleコミュニティに提示し、数百ドルから、商用のコンペなら1万ドルから25万ドルまでの範囲の賞金をつける。現在多額の賞金ものが進行中だ。不必要な入院を避けることができるようにするアルゴリズムを作るというもので300万ドルのHeritage Health Prizeだ。

kaggle

Once a competition has been created, the problem is crowdsourced with users of all types (scientists, engineers, developers, marketers or mathematicians) divvying up tasks and submitting a working model as a potential solution. Along with the cash and a cool new tag for their resumes, the winning team also generally gets a chance to speak with the engineering and/or management ends of the company sponsoring the competition. And the sponsor usually enjoys the fresh perspective brought to them by the winning team.

コンペを作成すれば、その問題は、タスクを分け、可能性のあるソリューションとしてのワーキングモデルを提示すべく、あらゆるタイプ(科学者、エンジニア、開発者、マーケッター、数学者)のユーザにアウトソースされる。現金とレジメにカッコいいタグをつけられるとともに、勝利チームには、コンペをスポンサーした企業のエンジニアやマネージメントの人と話する機会が与えられるのが一般的。またスポンサーは、通常、勝利チームが出してきたフレッシュな見方を喜んでいる。

After a competition is finished, the winning team is tasked with writing up a performance report, and the competition’s sponsor chooses whether to make the winning solution’s code exclusive, open-source, or shared in any way.

コンペが終わると、勝利チームはパフォーマンスレポートを書き上げることになっており、コンペのスポンサーは、勝利チームのソリューションのコードの独占、オープンソース化、あるいは共有を選択することができる。

In some of the site’s more unusual competitions, data-analysis teams are working on the best model for identifying bird species from continuous audio recordings, while others are working on a means of keeping whales from colliding with transatlantic ships. More real-world problems are reflected in the $250,000 competition for an algorithm to help better predict airline flight delays.

もっと普通ではないコンペでは、データアナリストチームが、音声の連続記録から、鳥の種別を識別するベストなモデルを作成している一方、鯨が大西洋横断船と衝突しないようにする方法を作成中だ。より現実世界の問題としては、航空フライトの遅延をより正確に予測するアルゴリズムで25万ドルのコンペが行なわれている。

The idea of gathering talented minds to take on complex, Big Data problems is as old as the notion of the think tank, but Kaggle seems to have taken a different, almost social-networking approach to it. Kaggle was founded by Anthony Goldbloom, a University of Melbourne graduate with a degree in economics and econometrics. He spent time in the economic modeling unit for Australia’s Department of the Treasury before working for the Reserve Bank of Australia. During an internship with “The Economist” magazine, he found that a number of large-company CIOs stated that while access to data was undeniably critical, the challenge was in finding talent to produce and work with the numbers to find the best solutions for large-scale problems.

複雑なビッグデータ問題に取り組むのに才能ある頭脳を集めるというアイデアでは、シンクタンクと同じぐらい歴史があるが、Kaggleは今までとはソーシャルネットワーク的手法を使っている点で違っている。Kaggleはメルボルン大学の卒業生で、経済学と計量経済学の学位を持つAnthony Goldbloom氏によって設立されたもの。Reseve Bank of Australiaで働く前に、オーストラリアの財務省の経済モデルユニットいいた。雑誌「エコノミスト」でのインターンシップ中に、多くの大企業のCIOがデータにアクセスするのは間違いなく必須だが、大規模問題に対するベストソリューションを見つけるために、数字と格闘する才能ある人材を見つけ出すのが課題だといっていることに気づいたとのこと。

— なかなか面白いアプローチだ。こんなコンペに参加しなくても、十分生活していける人でも、コンペに参加してくるらしい。今まで取り組んだことがない問題に取り組めるなど、刺激があるかららしい。