Databricksの概要
Databricksは、
2013年に創立され、
Apache Sparkの発明者であるマテイ・ザハリアとともにアリ・ゴディシが設立した企業です。この
会社は、AIや機械学習を含む
ビッグデータを効率的に扱うためのクラウドベースの統合データ分析基盤である「レイクハウス・プラットフォーム」を提供しています。このプラットフォームは、データエンジニアリング、データサイエンス、機械学習、データ分析といった領域に特化しており、特に企業のデータ活用を促進する役割を担っています。
市場での位置付け
2022年には上場が予定されており、既にユニコーン企業となっているDatabricksは、2021年8月に実施したシリーズHの資金調達により、市場価値が約4兆円に達しています。2021年12月時点で、世界で7,000社以上の企業に利用されており、450社以上のテクノロジー販売パートナーと提携しています。また、同年の
ガートナーの「マジッククアドラント」においては、データサイエンスおよび機械学習プラットフォーム部門のリーダーとして評価されています。特に、同社の「レイクハウス」は
ガートナーのTechnology Hype Cycleにおいて「Innovation Trigger」として位置づけられています。
プラットフォームの特徴
Databricksは、自社開発または創業メンバーが過去に手がけた
ソフトウェアで構成されており、
Apache Spark、Delta Lake、MLflow、Redashといったツールを統合しています。これにより、大規模なデータエンジニアリングやコラボレーション型データサイエンスを実現するクラウドプラットフォームを構築しています。また、彼らの多くの
ソフトウェアはオープンソース化され、オープンソースコミュニティとしても活発に維持されています。
創業メンバーと沿革
創業者は、Ali Ghodsi(CEO、カリフォルニア大学バークレー校非常勤教授)、Andy Konwinski(元バークレー大学博士課程の学生で
Apache Sparkのコミッター)、Scott Shenker(取締役、カリフォルニア大学バークレー校教授)、Ion Stoica(カリフォルニア大学バークレー校教授)、Patrick Wendell、Reynold Xin(共に元バークレー校博士課程の学生で
Apache Sparkのコミッター)、Matei Zaharia(
Apache Sparkの創設者、スタンフォード大学教授)などがいます。彼らはそれぞれのバックグラウンドを持ち寄り、高度な技術力をもって企業を発展させています。
2013年9月には、Andreessen Horowitzから1390万ドルを調達し、GoogleのMapReduceに代わるサービスを目指してスタートしました。その後も資金調達を重ね、2019年には2億5000万ドル、また2021年にはシリーズGとして10億ドルの資金を調達しました。この過程を通じて、Databricksは市場価値を大きく拡大させてきました。
1.
Apache Spark: 高速なオープンソースのクラスタコンピューティングフレームワーク。データ分析や機械学習に関して豊富な機能を提供。
2.
Delta Lake: 様々な形式のデータを効率的に保存・管理するためのオープンソースのストレージレイヤー。
3.
MLflow: 機械学習のライフサイクルを管理するためのオープンソースプラットフォーム。
4.
Koalas:
Apache Spark上でpandasの機能を実装し、大規模データの扱いを容易にするオープンソースプロジェクト。
5.
Pandas: Pythonによるデータ解析を支援する機能を持つライブラリ。
これらの
ソフトウェアはDatabricksが展開するクラウドプラットフォームの中心的な役割を果たしており、データフローの最適化に寄与しています。