Blog > Komentarze do wpisu

Duże dane – duży kłopot

Uważnie śledzę rozwijająca się modę na Big Data – robię to z zainteresowaniem, bo mam wrażenie, że mamy tu do czynienia nie tylko z kolejną modą biznesową, ale też całkiem nowym polem do rozważań na temat wykorzystania analiz, etyki tego procesu. Oraz do zabawy w futurologię.

Będąc kilka tygodni temu na Big Data Forum miałem wrażenie, że o ile wszyscy rozumieją, że chodzi o dużo, różnorodnych danych, z których możemy wydobyć nowe, cenne (i nieznane nam wcześniej) informacje i zależności, o tyle każdy z prelegentów inaczej rozumiał co tak naprawdę da się znaleźć. I jaka będzie wartość (i ograniczenia) takich znalezisk. Każdy rozumiał to inaczej i każde z prezentowanych rozumień miało swoje mocniejsze i słabsze strony.

Krótko mówiąc, przypomniał się mi przełom lat 90. i pierwszej dekady trzeciego tysiąclecia i dyskusje na temat CRM. Wtedy też mało kto wiedział czym to całe CRM jest – jakie ma możliwości, ale też jakie ograniczenia i słabe strony – ale każdy chciał je mieć. W konsekwencji na setki wdrożeń rozwiązań Customer Relationship Management może 10% zakończyło się sukcesem. Reszta była sukcesem tylko dla firm, które dostarczały rozwiązania tego typu – a i to jedynie krótkoterminowym sukcesem, bo rozczarowanego inwestora trudno potem przekonań do kolejnych inwestycji.

Pozwólcie, że dorzucę tez kilka kamyczków od siebie. Zarówno jako zwolennik metod analitycznych, jak i jako fantasta-futurysta. Będą one miały postać luźnych przemyśleń.

  1. Największym wyzwaniem jakie widzę przed big data jest to co moja koleżanka nazwała „większość analityków biznesowych tak długo szuka w danych, aż znajdzie potwierdzenie swoich hipotez”. Posiadając odpowiednio dużą liczbę zmiennych , zaczynamy wpadać w prawa wielkich liczb. Znajdziemy tu nie tylko istniejące zależności, ale też wiele przypadkowych korelacjo. Takich jak np. te pokazywane tu. Oznacza to, że w zespole musimy mieć osobę potrafiąca myśleć w naukowy sposób, czyli taki jaki, niestety, stosuje zbyt mało naukowców – polega on na szukaniu argumentów obalających przyjęte hipotezy, a nie je potwierdzających. Jak trudne jest takie myślenie możecie odkryć sami – np. próbując znaleźć i obiektywnie przemyśleć argumenty obalające Wasz światopogląd. Ludzki mózg nie jest stworzony do takich rzeczy. Lubi stereotypy w myśleniu.

Inaczej będziemy zawieszać się na przypadkowych korelacjach – przykładowo, czy lepiej „szczęśliwość” Duńczyków tłumaczy system polityczny, czy to, że mają największą konsumpcję antydepresantów? A może jeszcze coś innego?

  1. Z drugiej strony, czy w biznesie zawsze chcemy znać przyczyny? Czy nie wystarczy nam to, że system działa i pomaga nam lepiej zarządzać ryzykiem (zwiększać przychody)? Trochę jak bohater opowiadania „Czas życia”, które dawno temu napisałem jako Jan Atmański, który nie rozumiał jak system który uruchomił działa.

  2. Zwróćmy jednak uwagę, że w przypadku większości zastosowań big data będziemy mieli do czynienia z opisem opartym o prawdopodobieństwie. Duża liczba danych pozwoli nam lepiej oszacować prawdopodobieństwo wystąpienia jakiegoś zdarzenia. Na przykład, odkryjemy, że klienci spełniający określone kryteria i składający wniosek o kredyt w deszczowe/słonczne dni mają odpowiednio większe ryzyko, że tego kredytu nie spłacą. Wniosek, kalkulujemy im to większe ryzyko we wniosek – lub odrzucamy go. Oznacza to, że (załóżmy, że skuteczność jest identyczna w przypadku wykluczania/wliczania klientów nawet jak zbudowany model będzie skuteczny w 99,9%[1], to (statystycznie) raz na 1 000 klientów ukażemy (odrzuceniem wniosku/wyższym kosztem kredytu) osobę, która obiektywnie nie powinna zostać przez nas dodanego segmentu ryzykownych klientów zaliczona.

  3. Czy to oznacza, że za kilka-kilkanaście lat pojawią się eksperci od manipulowania danymi źródłowymi? Tacy, którzy (za odpowiednim wynagrodzeniem) podpowiedzą nam co mamy ze swoją aktywnością zrobić (przykładowo kogo dodać do znajomych na Facebook, a kogo wyciąć) by zwiększyć szanse na pozytywne rozpatrzenie naszego wniosku?
    Czy tylko mi kojarzy się to z lifterami z Limes Inferior?

  4. Oczywiście, big data może tez przynieść tez pozytywne dane – może już za kilka lat komputer/dostawca usług poleci nam wizytę u lekarza, kiedy analiza naszego słownictwa, tempa pisania i liczby błędów pokaże początki Alzheimera. Gorzej jak przekaże te dane do naszego ubezpieczyciela i banku, w którym mamy hipotekę…

  5. W konsekwencji takich dylematów pojawią się (na pewno w Europie) regulacje określające co z danymi można zrobić. Może to – w wielu obszarach – uniemożliwić praktyczne jej zastosowanie. Inne (np. wykorzystanie danych do optymalizacji transportu, logistyki, zarządzania serwerami) raczej zagrożone nie będą.

  6. A może jest tu też miejsce na rozwiązania prokonsumenckie? Np. baza zbierająca wszystkie leki jakie przepisuje nam lekarz, nasze choroby (w czasie), kłopoty z prawem i powód zgonu pozwoliłaby z wyprzedzeniem wykrywać leki mające odłożone w czasie skutki uboczne (np. wpływające na funkcjonowanie mózgu i osobowość). I to z uwzględnieniem zmiennych zakłócających takich jak płeć, miejsce zamieszkania, wiek i inne.

Pytanie tylko kto chciałby takie analizy sponsorować?

Jak myślicie?

WS



[1] Dla uproszczenia załóżmy, że skuteczność jest identyczna w przypadku wykluczania, jak i wliczania klientów do segmentu



poniedziałek, 22 grudnia 2014, shaman2
-- Polub blog i otrzymuj powiadomienie o nowościach: https://www.facebook.com/SzamanieMamrotanie

Polecane wpisy

TrackBack
TrackBack w tym blogu jest moderowany. TrackBack URL do wpisu: