XGBoost
Ever wonder why one algorithm dominates almost every Kaggle competition?
.
Most data scientists know XGBoost.
.
Few know why it’s a beast.
.
We all learn to tune n_estimators and learning_rate on Gradient Boosting models
XGBoost (Extreme Gradient Boosting)
A GBM optimalizált és kibővített változata.
Célja: gyorsabb, hatékonyabb és pontosabb legyen nagy adathalmazokon is.
Fő fejlesztések:
Regulárizáció: L1 (lasszó) és L2 (ridge) büntetés a túlilleszkedés csökkentésére. A klasszikus GBM-ben ez hiányzik.
Hiányzó értékek kezelése: automatikusan megtanulja a legjobb elágazást, ha egy érték hiányzik.
Párhuzamosítás: több magot is képes használni a tanítás gyorsítására.
Out-of-core computing: nagyon nagy adathalmazok esetén diszkről is tud dolgozni.
Tree pruning: a faépítést mélyítés után metszi vissza („max depth”), míg a sima GBM inkrementálisan épít („depth-wise” vs. „level-wise” stratégia).
Különböző booster típusok: pl. gbtree (döntési fák), gblinear (lineáris modellek), dart (Dropout-alapú boosting).