Data mining ako nástroj business intelligence
V prostredí veľkej konkurencie a v dnešnej informačnej dobe, keď spoločnosti majú množstvo údajov o svojich klientoch aj konkurentoch, každé rozhodovanie predstavuje proces, ktorého výsledok môže znamenať rozdiel medzi úspechom a neúspechom.
Do tohto procesu môže vniesť svetlo štatistická analýza dát. Prediktívna analytika umožňuje odpovedať na otázky biznisu, ktoré sú pri určovaní vhodnej stratégie kľúčové. Správne vybraný model je schopný predpovedať pravdepodobnosť spáchania poistného podvodu, splatenia úveru či záujmu rôznych kategórií zákazníkov o kúpu rôzneho druhu tovaru.
Asociačné pravidlá napríklad segmentujú zákazníkov najmä podľa ich preferencií. Ak sme mali 5000 klientov, ktorí si kúpili tovary A aj B, a 4000 klientov, ktorí si kúpili okrem tovarov A a B ešte aj tovar C, potom môžeme tvrdiť, že zo všetkých klientov, ktorí mali záujem o tovary A a B, ich 80 % malo záujem aj o tovar C. Môžeme teda zostaviť asociačné pravidlo, že zo záujmu o tovary A aj B vyplýva záujem o tovar C, ktoré má úspešnosť 80 %. Jeho aplikácia na nového zákazníka so záujmom o tovary A aj B spočívajúca v tom, že sa postaráme, aby mu bol ponúknutý tovar C, bude teda asi v 80 % prípadov odmenená predajom tohto tovaru. Pridaním ďalších údajov o zákazníkoch získame ich podrobnejšiu kategorizáciu, čím môžeme zvýšiť naše šance na zvýšenie celkového predaja a znížiť počet neúspešných ponúk, čo je dôležité pri cielenej reklame. Ak sme mali 20 000 klientov a tovar C si z nich kúpilo 5000, keby boli tovary A, B a C nezávislé, čakali by sme, že asi 25 % * 25 % = 6,25 % klientov si kúpi všetky tri tovary, lebo 25 % si kúpilo A aj B a 25 % si kúpilo C. Spoločný záujem o všetky tri tovary však prejavilo 20 % klientov, čo je viac ako trojnásobok. To indikuje, že v očiach zákazníkov tieto tovary nie sú nezávislé, a preto je výhodné ponúkať ich spoločne s cieľom zvýšiť predaj na základe princípu predaja väčších balení.
Ďalšia metóda, ktorá skúma pravdepodobnosť správania sa klientov, je logistická regresia. Na rozdiel od asociačných pravidiel nemá tvar implikácie, ale odhaduje parametre v rovnici, ktorá opisuje správanie sa zákazníkov. Ak máme napríklad 10 000 klientov, z ktorých 6000 sa stalo pravidelnými zákazníkmi, pričom poznáme ich pohlavie a pravidelný príjem, mohli by sme sa pokúsiť odhaliť vplyv týchto faktorov na pravdepodobnosť, že sa klient stane pravidelným zákazníkom. Odhadneme tri parametre P, R a S, ktoré interpretujeme takto: Zvolíme si referenčné - „základné" - pohlavie. Parameter P udáva šance, že „základný" zákazník, teda zákazník s nulovým pravidelným príjmom referenčného pohlavia sa stane pravidelným zákazníkom. Parameter R udáva, koľkonásobne sa zvýšia či znížia šance, že sa zákazník stane pravidelným, ak sa pri ľubovoľnej príjmovej úrovni jeho pohlavie zmení z referenčného na opačné. Posledný parameter S udáva, koľkonásobne sa zvýšia šance, že nás zákazník bude navštevovať pravidelne, ak sa jeho príjem pri ľubovoľnom pohlaví zvýši o jednu jednotku príjmu. Dôležité je však pre nás najmä to, že na základe týchto odhadnutých parametrov vieme z pôvodnej rovnice pre každého klienta odhadnúť pravdepodobnosť, že sa stane naším pravidelným zákazníkom, a vieme, ktoré faktory na to majú najväčší vplyv. Ak do modelu navyše zahrnieme faktory, ktoré sme schopní ovplyvniť, napríklad dĺžku čakacej doby zákazníka, potom ich zmenou vieme zvýšiť naše šance na zvýšenie počtu pravidelných klientov, pričom opäť platí, že ak zoberieme do úvahy viac faktorov, získame presnejšie odhady. Naše poznanie potom bude lepšie a rozhodnutia úspešnejšie.
Príklad logistickej regresie
Samozrejme, existuje mnoho ďalších štatistických techník, ako napríklad neurónové siete, rozhodovacie stromy, lineárna a nelineárna regresia, časové rady, diskriminačná analýza a pod., ktoré môžu zvýšiť zisk z využitia dostupných informácií. Keďže naše rozhodnutia môžu byť len také dobré ako informácie, z ktorých vychádzajú, mnoho firiem dnes vlastní dátové sklady. V nich majú vo forme relačných databáz uložené nielen súčasné hodnoty faktorov a premenných, ktoré sa vyskytujú v ich biznise, ale umožňujú im vidieť aj ich predchádzajúce pozorovania. Tie môžu byť cenným zdrojom poznania pre spomenuté dataminingové techniky. Prepojenie dátového skladu s prediktívnou analytikou a s reportingovým systémom umožňuje sledovať stav biznisu v reálnom čase spolu s aktuálnymi optimálnymi rozhodnutiami vychádzajúcimi z modelovania. Hoci aj bez analýzy môžeme z dát niečo vyčítať letmým pohľadom, prečo nemaximalizovať svoj zisk jej použitím?
Ivan Justus
DWH analytik MAIND s. r. o., ijustus@maind.sk