A bizonyítéksúly és az információérték alkalmazása prediktív modellekben a folytonos változók kategorizálására
Kulcsszavak:
bizonyítéksúly, információérték, uplift modell, logisztikus regresszióAbsztrakt
A TANULMÁNY CÉLJA
A tanulmány elsődleges célja, hogy megismertesse a bizonyítéksúly (weight of evidence), és az információérték (information value) fogalmát, elméleti hátterét, alkalmazásának lehetőségeit, emellett népszerűsítse az R program használatát.
ALKALMAZOTT MÓDSZERTAN
A tanulmány elsődlegesen a bizonyítéksúlynak és az információértéknek a folytonos változók kategorizálására történő alkalmazásával foglalkozik. A bizonyítéksúly elméleti hátteréről, illetve az alkalmazási lehetőségekről a rendelkezésre álló szakirodalom alapján ad áttekintést a szerző. A változók kategorizálásának hatását égj' olyan logisztikus regressziós modellben vizsgálja a tanulmány, amely a tőzsdei árfolyamok alakulásának trendjét jelzi előre.
LEGFONTOSABB EREDMÉNYEK
A WOE alapján történő kategorizálás viszonylag stabil, viszont a változók információértéke, illetve az információérték alapján meghatározott sorrendje a minta nagyságától függően eltérő. Az ún. információs kritériumok értékére is hatással van a kategorizálás, de nem minden esetben az a kategória változó eredményezi a legjobb AIC vagy BIC értéket, amelyik a WOE és az IV alapján optimális.
GYAKORLATI JAVASLATOK
A módszer nemcsak a folytonos változók kategorizálására alkalmazható, hanem exploratív eszközként is használható. Akkor is érdemes kiszámítani a bizonyítéksúlyokat és az információértéket, ha nem az optimális megoldást keressük, hanem az üzleti logika alapján szeretnénk kategorizálni, de nem egyértelmű, hogy két kategorizálás közül melyik a jobb. Emellett a WOE olyan esetekben is segítségünkre van, ha egy változó alapján szeretnénk szegmentálni az állományt. A logisztikus regressziós modellek kiértékelésénél mindenképpen több szempontot kell figyelembe venni, mivel nem minden esetben egyértelmű a változtatások hatása. Érdemes lenne alaposabban vizsgálni az információs kritériumok közötti összefüggéseket.