ブースティングとは
ブースティング(英: Boosting)は、
教師あり学習において用いられる機械学習のメタアルゴリズムです。この手法では、一連の弱い学習器(すなわち、正確さが50%を少し上回るような簡素な分類器)を組み合わせることで、より高い性能を持つ強い学習器を生成することを目指します。この概念は、Michael Kearnsが提唱した「複数の弱い学習器を統合することで強力な学習器が作れるか?」という問いに基づいています。
ブースティングの基本概念
一般的に、弱い学習器は真の分類とはそれほど相関がないとされており、強い学習器は逆に高い相関を持つ分類器です。Kearnsの問いへの肯定的な回答は、機械学習や
統計学において重要な影響を与えました。
ブースティングのアルゴリズム
ブースティングのアルゴリズムには、特定の制約は存在しませんが、一般的には逐次的に弱い分類器を学習させ、その際にデータポイントの重み付けを行う方法が用いられます。新しい弱い学習器が加わると、データ内の誤分類されたケースの重みが増加し、正しく分類されたケースの重みが減少します。これにより新たに追加された弱い学習器は、前の学習器が誤って分類したデータに注目し精度を向上させることが期待されます。
このように、各種ブースティングアルゴリズムの中で、弱い分類器への重みの与え方が主要な相違点となります。たとえば、AdaBoostは、弱い学習器の適応作成が初めて行われたアルゴリズムとして知られています。最近のアルゴリズムには、LPBoost、BrownBoost、LogitBoostなどが存在し、これらはそれぞれ異なるアプローチが取られています。また、AnyBoostフレームワークは、凸コスト関数に基づいた
最急降下法を用いて、さまざまなブースティングアルゴリズムに適用できるよう設計されています。
PAC学習との関係
ブースティングアルゴリズムはPAC学習(probably approximately correct learning)理論に基づいている必要があり、これに従う手法だけが真のブースティングアルゴリズムと見なされます。他の類似した手法も「ブースティング」と名付けられることがありますが、これを区別するために「leveraging algorithm」と呼ばれることもあります。
関連技術
さらに、ブースティングはその他の機械学習技術とも関連しており、
ロジスティック回帰や
最大エントロピー原理、
ニューラルネットワーク、
サポートベクターマシン、LightGBMなどさまざまな手法と共に活用されることが多いです。
参考文献
ブースティングに関する研究は多岐にわたります。Yoav FreundとRobert E. Schapireによる「A decision-theoretic generalization of on-line learning and an application to boosting」や、Robert E. SchapireとYoram Singerによる「Improved Boosting Algorithms Using Confidence-Rated Predictions」など、さまざまな文献が存在します。これらの研究は機械学習の進展に寄与し、実際の適用領域への影響を与えています。