Jak znaleźć złotą rybę w oceanie danych? Czy ich analiza zawsze przynosi korzyści? O wykorzystaniu Big data w biznesie opowiada Marcin Borowiecki, Dyrektor Zarządzający wonga.com.

Proszę powiedzieć jakie korzyści przynosi big data w firmie?

Big data w usługach finansowych przynosi przede wszystkim korzyści dla klienta, które wynikają z tego, że zleceniobiorca jest w stanie podjąć decyzję w sposób automatyczny, obiektywny i natychmiastowy. Sprawia to, że w sektorze, w którym klient poszukuje finansowania i zależy mu na tym, żeby fundusze otrzymać w ciągu kilku minut, dzięki analizie dużych zbiorów danych jesteśmy w stanie szybciej ocenić jego zdolność kredytową. Fakt, że korzystamy z kilku tysięcy punktów danych, pomaga podejmować lepsze decyzje.

Wonga.com dawniej korzystała w Wielkiej Brytanii ze scoringu [wyznaczników - przyp. red.] FICO, który jest udostępniany przez biura kredytowe. Okazało się, że w naszym sektorze system ten nie jest tak przewidujący, jak własne modele oparte o analizę danych z różnych źródeł. Dlatego Wonga zaczęła dołączać coraz szerszy zakres danych do analizy, co pozwoliło na podejmowanie dużo lepszych decyzji. Dzięki temu też spłacalność pożyczek w wonga.com jest lepsza od bankowych kredytów konsumenckich.

Jak od strony firmy big data pomaga w rozwoju?

W naszym konkretnym przypadku dzieje się to na dwa sposoby. Pierwszy to używanie różnych danych z wielu źródeł. Dzięki temu częściej pożyczamy pieniądze osobom, które są w stanie je spłacić, co oznacza, że efektywnie wykorzystujemy własny kapitał. Drugi element dotyczy automatyzacji procesu, na który możemy sobie pozwolić. Wonga nie zatrudnia analityków kredytowych – zatrudniamy informatyków i analityków danych. Nasz polski zespół składający się z kilkunastu osób udziela prawie tylu samych pożyczek, co średniej wielkości bank. To pokazuje zupełnie inny i bardziej efektywny model biznesowy oparty o pełną automatyzację. W Anglii w ciągu ostatnich lat Wonga udzieliła dzięki temu około ośmiu milionów pożyczek, przy zespole liczącym łącznie sto osób.

System popełnia mniej błędów niż człowiek? Co gdyby Wonga, zamiast systemu analiz, zatrudniła analityków, którzy mieliby “ręcznie” analizować pozyskane dane?

To byłoby wręcz niemożliwie. Analizowanie tak różnorodnych danych z wielu źródeł byłoby trudne do zrobienia, nawet przez duży zespół analityków. Wykorzystanie tych wszystkich danych ze źródeł (np. biura informacji gospodarczej i kredytowej) i innych tradycyjnych danych oraz sprawdzanie, jak się klient na stronie zachowuje, ma spore znaczenie. Na tej podstawie budujemy profil konsumenta złożony z kilku tysięcy punktów danych, który automatycznie jest przepuszczany przez nasz algorytm.

Czy istnieją jakieś zagrożenia korzystania z big data?

Istnieje cała seria regulacji dotycząca ochrony danych osobowych, odpowiednich zgód. To ważny aspekt, który trzeba mieć zawsze na względzie, gdy chcemy zbierać w internecie jakiekolwiek dane.

Dużym ryzykiem przy analizach big data jest coś, co nazywa się „overfitem”. Polega ono na tym, że jakieś dane nam się sprawdzają i wydaje się, że jakieś czynniki są w stanie przewidzieć pewne zdarzenie. Prawda jest jednak taka, że jeżeli wpuszcza się kilka tysięcy tych czynników, to coś na pewno się skoreluje, natomiast niekoniecznie będzie to przydatne do prognozowania. Ważne żeby mieć stały dopływ tych obserwacji, czyli w naszym przypadku klientów, by te hipotezy i modele nieustannie testować.

Podobno w Stanach Zjednoczonych odkryto, że poziom wody w którymś z jezior jest skorelowany z indeksem giełdy nowojorskiej. Jeśli dostatecznie dużo danych objaśniających weźmie się pod uwagę, to na pewno jakieś dane skorelują się. Pytanie tylko, czy taki model jest w ogóle przydatny biznesowo i czy można go używać do przewidywania przyszłości?

Czy zawsze big data przynosi korzyści?

Big data służy jako pomocnik w podejmowaniu decyzji. Takie decyzje mogą dotyczyć kredytów, ale też kierunku budżetów marketingowych, prognozy pogody, inwestycji na giełdzie czy diagnozy medycznej. Te wszystkie decyzje można podjąć wyłącznie opierając się na analizie dużych zbiorów danych. To taki trochę suwak, gdzie na jednej stronie jest podejmowanie decyzji wyłącznie w oparciu o analizie danych, a na drugiej ocena ekspercka. Analiza danych pozwala na automatyzację i obniżenie jednostkowego kosztu decyzji, ale nie wszędzie sprawdzi się lepiej od decyzji eksperckiej. W medycynie np. potrzebna jest dodatkowa, pogłębiona opinia eksperta.

Są jednak takie obszary, jak fundusze inwestycyjne, którymi wyłącznie komputer steruje i podejmuje decyzje o inwestowaniu w dane akcje. Często nawet, w naszym sektorze, w 100% oddajemy decyzję algorytmowi, ale te algorytmy cały czas doskonalimy. Są firmy, które mają mocne podejście do analityki kredytowej. To, co daje big data, to możliwość skalowania tych decyzji.

Jeśli coś, co w segmencie mikropożyczek ma duże znaczenie, to to, że koszt pojedynczej decyzji jest mikroskopijny. Jeśli ktoś daje kredyt na budowanie nowego statku w stoczni, to nie potrzebna będzie mu analiza big data, tylko osoba, która zna się na tym i podejmie dobrą decyzję w sprawie powierzenia pieniędzy. Big data to jest taki młotek, który trzeba do dobrego gwoździa przyłożyć.

Wspomniał pan, że na tę chwilę, w medycynie nie przyda się big data…

… myślę, że dużo zmieni się w medycynie jeśli chodzi o analizę danych – np. wraz z coraz niższym kosztem sekwencjonowania DNA i popularyzacją przenośnych urządzeń pomiarowych – zbiory łatwo dostępnych danych bardzo szybko się powiększają. Pracownicy szpitala mogliby zbierać informacje o pacjentach i analizować je, jeszcze przed pojawieniem się go w budynku. Lekarze mogliby testować hipotezy, które w długim okresie mogłyby być przydatne w diagnozach.

Obecnie w jakich sektorach, oprócz tego finansowego, najbardziej przydaje się analiza danych big data?

Myślę, że coraz większe zastosowanie ma w reklamie i w sprzedaży. W wykorzystywaniu danych o użytkownikach do lepszego targetowania reklamy. Tworzeniu programów lojalnościowych obejmujących wiele marek. Prognozy pogody są obierane za pomocą big data, inwestycje również. To przykłady, które przychodzą mi pierwsze na myśl.

Pracował pan wcześniej m.in. w eBay’u i dużo czasu spędził w Dolinie Krzemowej. Od kiedy wykorzystuje się tam big data?

Myślę, że w marketingu i reklamie zawsze próbowano konsumenta śledzić łącząc dane z wielu źródeł. Nie jestem w stanie powiedzieć, że istniał taki jeden moment, który można określić jako początek wykorzystywania big data. Analitykę danych stosowano jednak i 10 lat temu, zanim hasło „big data” zaistniało w sferze publicznej. W tym czasie możliwości pozyskiwania danych rosły, a wraz z nimi rozwijały się algorytmy i pomysły na ich wykorzystanie.

Big data bada dane zawarte w internecie, banki to robią i Wonga też. Nie zawsze jednak te dane zamieszczane w internecie są prawdziwe. Czy pana zdaniem niebawem jeszcze łatwiej będzie oszukać instytucje, czy wręcz przeciwnie?

To jest kwestia testowania tych modeli. Oczywiście, można próbować te dane fałszować w internecie, dlatego one są często porównywane z innymi źródłami. Nigdy też nie jest tak, że jakaś dana w izolacji jest decydująca w podjęciu decyzji. O ile sama decyzja jest podejmowania automatycznie, o tyle stworzenie modelu jej podejmowania w oparciu o wiedzę ekspercką i pracę wielu analityków. Oni zastanawiają się nad każdą zmienną i nad tym, na ile można na niej polegać. Skąd się te zmienne bierze?

Na poziomie każdej zmiennej, która wchodzi do modelu, zadajemy sobie pytanie: jakie jest to źródło informacji? Zakładamy również, że ono może nie być prawdziwe. Oprócz modelowania zjawiska tego czy klient poradzi sobie ze spłatą pożyczki, staramy się modelować, czy klient jest tym, za kogo się podaje. Zjawisko wyłudzania czy kradzieży tożsamości w internecie niestety istnieje i tego typu modele pozwalają się zabezpieczać przed nim.

Może pan podać przykład porównywania takich danych? Jak to wygląda w wonga.com?

Są różne sposoby. Większość z nich to taki nasz przepis na coca-colę, którego nie zdradzamy. Często ta sama informacja pojawia się w różnych miejscach. To, co użytkownik podaje to jedno, a drugie to to, co pojawia się w publicznie dostępnych bazach danych. Badamy, jak podane informacje mają się względem rozkładu czy segmentu klientów, który jest przewidziany w modelu. Trochę to bazuje na prawdopodobieństwach, ale jest to skuteczne.

Wysokie koszty, niedocenienie analiz i brak czasu - to trzy powody, dla których nie warto analizować big data w naszej firmie. Czy na przykładzie wonga.com można stwierdzić, że analiza danych użytkownika opłaca się?

To jest kwestia modelu, jaki się wybiera: można oprzeć go o decyzje algorytmiczne albo o decyzje ludzi. Na samym początku może warto opierać je na decyzjach ludzi i dopiero, gdy produkt się przyjmie, zacząć opierać je bardziej na analizie danych.

W fazie startupu, żeby zacząć analizować duże ilości danych, trzeba najpierw mieć ich zbiór. Na początku, zazwyczaj, nie ma się użytkowników i nie ma jak weryfikować naszych tez czy modeli. Bez danych i użytkowników to jest trudne. Kilka lat temu wonga.com również zaczynała jako startup i też polegała na zewnętrznym scoringu, a nie na własnym algorytmie big data.

Przydatność big data zależy od tego, gdzie chcemy to narzędzie przełożyć, jakie decyzje chcemy wspierać w oparciu o analizę danych. Nie sztuką jest zebrać pięć tysięcy zmiennych na temat użytkownika, który do mnie przychodzi, jak tych użytkowników jest tylko stu. Przy tak małej liczbie nie sposób zbudować poprawnego modelu decyzyjnego.

Pierwszą trudnością po podjęciu decyzji o analizie big data jest właśnie zebranie danych?

Tak, big data to narzędzie do podejmowania decyzji. Dla młodej organizacji lepszym rozwiązaniem będzie podejmowanie decyzji przez człowieka, uczenie się danych, które przychodzą i tego jak je zastosować oraz zaczęcie budowania skali. Dopiero później warto, aby ta organizacja zaczęła bardziej przesuwać się w stronę zautomatyzowania procesu decyzji.

Co jest potrzebne do analizy takich danych?

Może to oczywiste, ale przede wszystkim dane. Dlatego ważna jest możliwość zbierania i przechowywania danych – zarówno techniczna jak i prawna. Ostatni element to analitycy danych, a także cały proces ciągłego budowania modeli i ich testowania – rzadko jest to jednorazowe zadanie

Jakie dane na przykładzie Wonga.com nie sprawdziły się i nie są potrzebne do uwiarygodnienia potencjalnego klienta?

Bardzo wiele zmiennych, które analizujemy w danym momencie „nie sprawdza się”. Ale na tym polega właśnie proces ciągłej analizy – im więcej mamy klientów, im bardziej zmienia się istniejąca populacja – te same zmienne mogą okazać się istotne.

Komentarze (0)