XGBoost

Ever wonder why one algorithm dominates almost every Kaggle competition?
.
Most data scientists know XGBoost.
.
Few know why it’s a beast.
.
We all learn to tune n_estimators and learning_rate on Gradient Boosting models

XGBoost (Extreme Gradient Boosting)

A GBM optimalizált és kibővített változata.

Célja: gyorsabb, hatékonyabb és pontosabb legyen nagy adathalmazokon is.

Fő fejlesztések:

Regulárizáció: L1 (lasszó) és L2 (ridge) büntetés a túlilleszkedés csökkentésére. A klasszikus GBM-ben ez hiányzik.

Hiányzó értékek kezelése: automatikusan megtanulja a legjobb elágazást, ha egy érték hiányzik.

Párhuzamosítás: több magot is képes használni a tanítás gyorsítására.

Out-of-core computing: nagyon nagy adathalmazok esetén diszkről is tud dolgozni.

Tree pruning: a faépítést mélyítés után metszi vissza („max depth”), míg a sima GBM inkrementálisan épít („depth-wise” vs. „level-wise” stratégia).

Különböző booster típusok: pl. gbtree (döntési fák), gblinear (lineáris modellek), dart (Dropout-alapú boosting).

Blogbook : PHP | Javascript | Laravel | VueJs | Python | TensorFlow