Analizy predykcyjne — Predictive analytics

Analityka predykcyjna obejmuje różne techniki statystyczne , takie jak eksploracja danych , modelowanie predykcyjne i uczenie maszynowe, które analizują bieżące i historyczne fakty w celu przewidywania przyszłych lub nieznanych w inny sposób zdarzeń.

W biznesie modele predykcyjne wykorzystują wzorce znalezione w danych historycznych i transakcyjnych w celu identyfikacji ryzyka i szans. Modele wychwytują relacje między wieloma czynnikami, aby umożliwić ocenę ryzyka lub potencjału związanego z określonym zestawem warunków, kierując podejmowaniem decyzji dotyczących transakcji kandydujących.

Funkcjonalnym efektem tych podejść technicznych jest to, że analiza predykcyjna zapewnia predykcyjny wynik (prawdopodobieństwo) dla każdej osoby (klienta, pracownika, pacjenta opieki zdrowotnej, SKU produktu, pojazdu, komponentu, maszyny lub innej jednostki organizacyjnej) w celu określenia, poinformowania lub wpływać na procesy organizacyjne dotyczące dużej liczby osób, takie jak marketing, ocena ryzyka kredytowego, wykrywanie oszustw, produkcja, opieka zdrowotna i operacje rządowe, w tym organy ścigania.

Analityka predykcyjna jest wykorzystywana w naukach aktuarialnych , marketingu , zarządzaniu przedsiębiorstwem , sportach sportowych / fantasy , ubezpieczeniach , policji , telekomunikacji , handlu detalicznym , podróżach , mobilności , opiece zdrowotnej , ochronie dzieci , farmaceutykach , planowaniu wydajności , sieciach społecznościowych i innych dziedzinach.

Jedną z najbardziej znanych aplikacji jest scoring kredytowy , który jest wykorzystywany w całym zarządzaniu przedsiębiorstwem . Modeli scoringowych przetworzyć klientów historii kredytowej , wniosek kredytowy , dane klientów, etc., w celu osoby ranga rzędu przez ich prawdopodobieństwo dokonywania płatności kredytowych na czas przyszły.

Definicja

Analityka predykcyjna to obszar statystyk, który zajmuje się wydobywaniem informacji z danych i wykorzystywaniem ich do przewidywania trendów i wzorców zachowań. Ulepszenie predykcyjnej analityki internetowej oblicza statystyczne prawdopodobieństwa przyszłych zdarzeń online. Techniki statystyczne analizy predykcyjnej obejmują modelowanie danych , uczenie maszynowe , sztuczną inteligencję , algorytmy głębokiego uczenia i eksplorację danych . Często nieznane zdarzenie będące przedmiotem zainteresowania dotyczy przyszłości, ale analitykę predykcyjną można zastosować do każdego rodzaju nieznanego, niezależnie od tego, czy jest to przeszłość, teraźniejszość czy przyszłość. Na przykład identyfikacja podejrzanych po popełnieniu przestępstwa lub oszustwo związane z kartą kredytową. Sedno analizy predykcyjnej polega na uchwyceniu relacji między zmiennymi objaśniającymi a zmiennymi przewidywanymi z przeszłych wydarzeń i wykorzystaniu ich do przewidywania nieznanego wyniku. Należy jednak zauważyć, że dokładność i użyteczność wyników będzie w dużej mierze zależeć od poziomu analizy danych i jakości założeń.

Analityka predykcyjna jest często definiowana jako przewidywanie na bardziej szczegółowym poziomie szczegółowości, tj. generowanie wyników predykcyjnych (prawdopodobieństw) dla każdego indywidualnego elementu organizacyjnego. To odróżnia ją od prognozowania . Na przykład „Analiza predykcyjna — technologia, która uczy się na podstawie doświadczenia (danych) w celu przewidywania przyszłych zachowań jednostek w celu podejmowania lepszych decyzji”. W przyszłych systemach przemysłowych wartością analityki predykcyjnej będzie przewidywanie potencjalnych problemów i zapobieganie im w celu osiągnięcia niemal zerowej awarii i dalsza integracja z analizą preskrypcyjną w celu optymalizacji decyzji.

Rodzaje

Ogólnie termin analityka predykcyjna oznacza modelowanie predykcyjne , „ocenianie” danych za pomocą modeli predykcyjnych oraz prognozowanie . Jednak ludzie coraz częściej używają tego terminu w odniesieniu do powiązanych dyscyplin analitycznych, takich jak modelowanie opisowe i modelowanie decyzji lub optymalizacja. Dyscypliny te wiążą się również z rygorystyczną analizą danych i są szeroko stosowane w biznesie do segmentacji i podejmowania decyzji, ale mają różne cele, a techniki statystyczne leżące u ich podstaw są różne.

Modele predykcyjne

Modelowanie predykcyjne wykorzystuje modele predykcyjne do analizy związku między określoną wydajnością jednostki w próbce a co najmniej jednym znanym atrybutem lub cechą tej jednostki. Celem modelu jest ocena prawdopodobieństwa, że ​​podobna jednostka w innej próbie wykaże określoną wydajność. Ta kategoria obejmuje modele w wielu obszarach, takich jak marketing, w których wyszukują subtelne wzorce danych, aby odpowiedzieć na pytania dotyczące wydajności klientów lub modele wykrywania oszustw. Modele predykcyjne często dokonują obliczeń podczas transakcji na żywo, na przykład w celu oceny ryzyka lub możliwości danego klienta lub transakcji, w celu ukierunkowania decyzji. Wraz z postępem w szybkości obliczeniowej systemy modelowania poszczególnych agentów stały się zdolne do symulowania ludzkich zachowań lub reakcji na określone bodźce lub scenariusze.

Dostępne jednostki próbne o znanych atrybutach i znanych osiągach są określane jako „próbka szkoleniowa”. Jednostki w innych próbkach, ze znanymi atrybutami, ale nieznanymi osiągami, są określane jako jednostki „poza [treningową] próbką”. Jednostki poza próbą niekoniecznie są w relacji chronologicznej z uczącymi się jednostkami próby. Na przykład próbka szkoleniowa może składać się z atrybutów literackich pism autorów wiktoriańskich, o znanym przypisaniu, a jednostką poza próbą może być nowo odnaleziony tekst o nieznanym autorstwie; model predykcyjny może pomóc w przypisaniu pracy znanemu autorowi. Innym przykładem jest analiza rozprysków krwi w symulowanych miejscach zbrodni, w których jednostką bez próbki jest rzeczywisty wzór rozprysków krwi z miejsca zbrodni. Jednostka poza próbą może pochodzić z tego samego czasu co jednostki treningowe, z poprzedniego czasu lub z czasu przyszłego.

Modele opisowe

Modele opisowe określają ilościowo relacje w danych w sposób, który jest często używany do klasyfikacji klientów lub potencjalnych klientów na grupy. W przeciwieństwie do modeli predykcyjnych, które koncentrują się na przewidywaniu zachowania pojedynczego klienta (takiego jak ryzyko kredytowe), modele opisowe identyfikują wiele różnych relacji między klientami lub produktami. Modele opisowe nie porządkują klientów według prawdopodobieństwa podjęcia określonego działania, tak jak robią to modele predykcyjne. Zamiast tego można wykorzystać modele opisowe, na przykład do kategoryzacji klientów według ich preferencji produktowych i etapu życia. Narzędzia do modelowania opisowego można wykorzystać do opracowania dalszych modeli, które mogą symulować dużą liczbę zindywidualizowanych agentów i dokonywać prognoz.

Modele decyzyjne

Modele decyzyjne opisują związek między wszystkimi elementami decyzji — znanymi danymi (w tym wynikami modeli predykcyjnych), decyzją i prognozowanymi wynikami decyzji — w celu przewidzenia wyników decyzji obejmujących wiele zmiennych. Modele te można wykorzystać w optymalizacji, maksymalizując niektóre wyniki przy jednoczesnym minimalizowaniu innych. Modele decyzyjne są zwykle używane do opracowywania logiki decyzyjnej lub zestawu reguł biznesowych, które zapewnią pożądane działanie dla każdego klienta lub okoliczności.

Aplikacje

Chociaż analitykę predykcyjną można wykorzystać w wielu aplikacjach, przedstawiamy kilka przykładów, w których analityka predykcyjna wykazała pozytywny wpływ w ostatnich latach.

Biznes

Analityczne zarządzanie relacjami z klientami (CRM) to częste komercyjne zastosowanie analizy predykcyjnej. Metody analizy predykcyjnej są stosowane do danych o klientach w celu skonstruowania holistycznego spojrzenia na klienta. CRM wykorzystuje analizę predykcyjną w aplikacjach do kampanii marketingowych, sprzedaży i obsługi klienta. Analityczny CRM może być stosowany w całym cyklu życia klienta ( pozyskiwanie , rozwój relacji , utrzymanie i odzyskiwanie).

Często organizacje korporacyjne gromadzą i przechowują obfite dane, takie jak rekordy klientów lub transakcje sprzedaży. W takich przypadkach analityka predykcyjna może pomóc w analizie wydatków, użytkowania i innych zachowań klientów, prowadząc do skutecznej sprzedaży krzyżowej lub sprzedaży dodatkowych produktów obecnym klientom.

Właściwe zastosowanie analiz predykcyjnych może prowadzić do bardziej proaktywnych i skutecznych strategii retencji. Poprzez częste badanie dotychczasowego korzystania przez klienta z usług, wydajności usług, wydatków i innych wzorców zachowań, modele predykcyjne mogą określić prawdopodobieństwo, że klient wkrótce zakończy usługę. Interwencja z ofertami o wysokiej postrzeganej wartości może zwiększyć szansę na konwersję lub utrzymanie klienta. Analityka predykcyjna może również przewidywać ciche zużycie, czyli zachowanie klienta w celu powolnego, ale systematycznego ograniczania użycia.

Ochrona dziecka

Niektóre agencje opieki nad dziećmi zaczęły używać analiz predykcyjnych do oznaczania przypadków wysokiego ryzyka. Na przykład w hrabstwie Hillsborough na Florydzie zastosowanie przez agencję ds. opieki nad dziećmi narzędzia do modelowania predykcyjnego zapobiegło zgonom dzieci w populacji docelowej w związku z wykorzystywaniem.

Systemy wspomagania decyzji klinicznych

Analiza predykcyjna znalazła zastosowanie w opiece zdrowotnej przede wszystkim w celu określenia, którzy pacjenci są narażeni na ryzyko rozwoju chorób, takich jak cukrzyca, astma czy choroby serca. Ponadto wyrafinowane systemy wspomagania decyzji klinicznych zawierają analizy predykcyjne, które wspomagają podejmowanie decyzji medycznych.

Badanie zaburzeń neurodegeneracyjnych z 2016 roku stanowi potężny przykład platformy CDS do diagnozowania, śledzenia, przewidywania i monitorowania postępu choroby Parkinsona .

Przewidywanie skutków decyzji prawnych

Programy sztucznej inteligencji umożliwiają przewidywanie wyniku decyzji prawnych . Programy te mogą być wykorzystywane jako narzędzia pomocnicze dla zawodów w tej branży.

Prognoza na poziomie portfela, produktu lub gospodarki

Często przedmiotem analizy nie jest konsument, ale produkt, portfolio, firma, branża, a nawet gospodarka. Na przykład sprzedawca detaliczny może być zainteresowany przewidywaniem popytu na poziomie sklepu na potrzeby zarządzania zapasami. Albo Zarząd Rezerwy Federalnej może być zainteresowany prognozą stopy bezrobocia na przyszły rok. Tego typu problemy można rozwiązać za pomocą analityki predykcyjnej przy użyciu technik szeregów czasowych (patrz poniżej). Można je również rozwiązać za pomocą metod uczenia maszynowego, które przekształcają oryginalne szeregi czasowe w przestrzeń wektorów cech, w której algorytm uczenia znajduje wzorce, które mają moc predykcyjną.

Ubezpieczenie

Wiele firm musi uwzględnić ekspozycję na ryzyko ze względu na różne usługi i określić koszty niezbędne do pokrycia ryzyka. Analityka predykcyjna może pomóc w zabezpieczeniu tych ilości, przewidując ryzyko choroby, niewypłacalności , bankructwa itp. Analityka predykcyjna może usprawnić proces pozyskiwania klientów poprzez przewidywanie przyszłych zachowań ryzykownych klienta przy użyciu danych na poziomie aplikacji. Analizy predykcyjne w postaci ocen kredytowych skróciły czas potrzebny na zatwierdzenie kredytu, zwłaszcza na rynku kredytów hipotecznych. Właściwa analityka predykcyjna może prowadzić do właściwych decyzji cenowych, co może pomóc złagodzić przyszłe ryzyko niewypłacalności.

Wpływ technologii i big data

Big data to zbiór zbiorów danych, które są tak duże i złożone, że trudno jest z nimi pracować przy użyciu tradycyjnych narzędzi do zarządzania bazami danych . Objętość, różnorodność i szybkość dużych zbiorów danych stawiają wyzwania we wszystkich dziedzinach związanych z przechwytywaniem, przechowywaniem, wyszukiwaniem, udostępnianiem, analizą i wizualizacją. Przykłady dużych źródeł danych obejmują dzienniki internetowe , RFID , dane z czujników , sieci społecznościowe , indeksowanie wyszukiwania w Internecie, rejestry szczegółów połączeń, nadzór wojskowy oraz złożone dane z dziedziny astronomii, biogeochemii, genomiki i nauk o atmosferze. Big Data to rdzeń większości usług analizy predykcyjnej oferowanych przez organizacje IT. Dzięki postępom technologicznym w sprzęcie komputerowym — szybszym procesorom, tańszej pamięci i architekturze MPP — oraz nowym technologiom, takim jak Hadoop , MapReduce , a także analizie wewnętrznej bazy danych i tekstu do przetwarzania dużych zbiorów danych, możliwe jest teraz zbieranie, analizowanie i wydobywanie ogromne ilości uporządkowanych i nieustrukturyzowanych danych w celu uzyskania nowych informacji. Możliwe jest również uruchomienie algorytmów predykcyjnych na danych strumieniowych. Obecnie eksploracja big data i korzystanie z analiz predykcyjnych jest w zasięgu większej liczby organizacji niż kiedykolwiek wcześniej, dlatego proponowane są nowe metody, które są w stanie obsługiwać takie zestawy danych.

Techniki analityczne

Podejścia i techniki stosowane do prowadzenia analiz predykcyjnych można ogólnie podzielić na techniki regresji i techniki uczenia maszynowego.

Techniki regresji

Modele regresji są podstawą analizy predykcyjnej. Nacisk kładziony jest na ustalenie równania matematycznego jako modelu do reprezentowania interakcji między różnymi rozważanymi zmiennymi. W zależności od sytuacji istnieje wiele różnych modeli, które można zastosować podczas wykonywania analiz predykcyjnych. Niektóre z nich zostały krótko omówione poniżej.

Model regresji liniowej

Model regresji liniowej przewiduje zmienną odpowiedzi jako liniową funkcję parametrów o nieznanych współczynnikach. Parametry te są dostosowywane tak, aby zoptymalizować miarę dopasowania. Wiele wysiłku w dopasowywaniu modelu skupia się na minimalizowaniu rozmiaru reszty, a także na zapewnieniu jej losowego rozkładu w odniesieniu do przewidywań modelu.

Celem regresji jest taki dobór parametrów modelu, aby zminimalizować sumę kwadratów reszt. Nazywa się to zwykłym estymacją metodą najmniejszych kwadratów (OLS).

Dyskretny wybór modeli

Regresja wielokrotna (powyżej) jest zwykle stosowana, gdy zmienna odpowiedzi jest ciągła i ma nieograniczony zakres. Często zmienna odpowiedzi może nie być ciągła, ale raczej dyskretna. Chociaż matematycznie możliwe jest zastosowanie regresji wielokrotnej do dyskretnych uporządkowanych zmiennych zależnych, niektóre założenia teorii wielokrotnej regresji liniowej już się nie sprawdzają i istnieją inne techniki, takie jak modele wyboru dyskretnego, które lepiej nadają się do tego typu analizy. Jeśli zmienna zależna jest dyskretna, niektóre z tych nadrzędnych metod to regresja logistyczna , wielomianowe modele logitowe i probitowe . Modele regresji logistycznej i modele probitowe są używane, gdy zmienna zależna jest binarna .

Regresja logistyczna

W ustawieniu klasyfikacji przypisanie prawdopodobieństw wyników do obserwacji można osiągnąć za pomocą modelu logistycznego (zwanego również modelem logicznym), który przekształca informacje o binarnej zmiennej zależnej w nieograniczoną zmienną ciągłą i szacuje regularny model wielowymiarowy.

Do testowania istotności statystycznej każdego współczynnika b w modelu stosuje się test Walda i ilorazu wiarygodności (analogicznie do testów t stosowanych w regresji OLS; patrz powyżej). Testem oceniającym dopasowanie modelu klasyfikacyjnego jest „procent prawidłowo przewidywany”.

Regresja probitowa

Modele probitowe stanowią alternatywę dla regresji logistycznej do modelowania jakościowych zmiennych zależnych.

Wielomianowa regresja logistyczna

Rozszerzeniem binarnego modelu logitowego do przypadków, w których zmienna zależna ma więcej niż 2 kategorie, jest wielomianowy model logitowy . W takich przypadkach dzielenie danych na dwie kategorie może nie mieć sensu lub może prowadzić do utraty bogactwa danych. Wielomianowy model logitowy jest odpowiednią techniką w tych przypadkach, zwłaszcza gdy kategorie zmiennych zależnych nie są uporządkowane (na przykład kolory takie jak czerwony, niebieski, zielony). Niektórzy autorzy rozszerzyli regresję wielomianową, aby uwzględnić metody selekcji cech/ważności, takie jak losowy logit wielomianowy .

Logit kontra probit

Obie regresje zachowują się podobnie, z wyjątkiem tego, że rozkład logistyczny jest nieco bardziej płaski. Współczynniki uzyskane z modelu logitowego i probitowego są zwykle blisko siebie. Jednak iloraz szans jest łatwiejszy do interpretacji w modelu logitowym.

Praktyczne powody wyboru modelu probitowego zamiast logistycznego mogą obejmować:

  • Istnieje silne przekonanie, że rozkład podstawowy jest normalny
  • Faktyczne zdarzenie nie jest wynikiem binarnym ( np. stan upadłości), ale proporcją ( np. proporcją ludności na różnych poziomach zadłużenia).

Modele szeregów czasowych

Modele szeregów czasowych służą do przewidywania lub prognozowania przyszłego zachowania zmiennych. Modele te uwzględniają fakt, że punkty danych zbierane w czasie mogą mieć wewnętrzną strukturę (taką jak autokorelacja, trend lub zmienność sezonowa), którą należy uwzględnić. W rezultacie standardowe techniki regresji nie mogą być stosowane do danych szeregów czasowych i opracowano metodologię dekompozycji trendu, składnika sezonowego i cyklicznego szeregu.

Modele szeregów czasowych szacują równania różnicowe zawierające składowe stochastyczne. Dwie powszechnie stosowane formy tych modeli to modele autoregresyjne (AR) i modele ze średnią ruchomą (MA). The Box-Jenkins metodologia kombajny Modele AR i MA produkowania ARMA (autoregresji średniej ruchomej) Model, który jest podstawą analizy stacjonarnych szeregów czasowych. Z kolei ARIMA (autoregresywne zintegrowane modele średniej ruchomej) służą do opisu niestacjonarnych szeregów czasowych.

W ostatnich latach modele szeregów czasowych stały się bardziej wyrafinowane i próbują modelować warunkową heteroskedastyczność. Do takich modeli należą model ARCH ( autoregresywna warunkowa heteroskedastyczność ) oraz GARCH (uogólniona autoregresyjna warunkowa heteroskedastyczność), oba często stosowane w finansowych szeregach czasowych.

Analiza przeżycia lub czasu trwania

Analiza przeżycia to inna nazwa analizy czasu do zdarzenia. Techniki te zostały opracowane przede wszystkim w naukach medycznych i biologicznych, ale są również szeroko stosowane w naukach społecznych, takich jak ekonomia, a także w inżynierii.

Cenzurowanie i nienormalność, które są charakterystyczne dla danych dotyczących przeżycia, powodują trudności podczas próby analizy danych przy użyciu konwencjonalnych modeli statystycznych, takich jak wielokrotna regresja liniowa . Rozkład normalny , będący rozkładem symetrycznym, przyjmuje zarówno wartości dodatnie, jak i ujemne, ale czas trwania ze swej natury nie może być ujemny i dlatego nie można zakładać normalności w przypadku danych dotyczących czasu trwania/przeżycia.

Modele czasu trwania mogą być parametryczne, nieparametryczne lub półparametryczne. Niektóre z powszechnie stosowanych modeli to model proporcjonalnego hazardu Kaplana-Meiera i Coxa (nieparametryczny).

Drzewa klasyfikacyjne i regresyjne (CART)

Drzewa klasyfikacji i regresji (CART) to nieparametryczna technika uczenia drzew decyzyjnych , która tworzy drzewa klasyfikacyjne lub regresyjne, w zależności od tego, czy zmienna zależna jest odpowiednio jakościowa czy liczbowa.

Drzewa decyzyjne są tworzone przez zbiór reguł opartych na zmiennych w zbiorze danych modelowania:

  • Reguły oparte na wartościach zmiennych są wybierane tak, aby uzyskać najlepszy podział w celu zróżnicowania obserwacji na podstawie zmiennej zależnej
  • Po wybraniu reguły i podzieleniu węzła na dwa, ten sam proces jest stosowany do każdego węzła „podrzędnego” (tj. jest to procedura rekurencyjna)
  • Dzielenie zatrzymuje się, gdy CART wykryje, że nie można uzyskać dalszego wzmocnienia lub spełnione są pewne wstępnie ustawione reguły zatrzymania. (Alternatywnie dane są dzielone tak bardzo, jak to możliwe, a następnie drzewo jest później przycinane .)

Każda gałąź drzewa kończy się węzłem końcowym. Każda obserwacja należy do jednego i dokładnie jednego węzła końcowego, a każdy węzeł końcowy jest jednoznacznie zdefiniowany przez zestaw reguł.

Bardzo popularną metodą analizy predykcyjnej są lasy losowe .

Wielowymiarowe adaptacyjne splajny regresji

Wielowymiarowe krzywe regresji adaptacyjnej (MARS) to nieparametryczna technika, która tworzy elastyczne modele przez dopasowanie odcinkowych regresji liniowych .

Podejście splajnu wielowymiarowego i adaptacyjnej regresji celowo dopasowuje model, a następnie przycina, aby uzyskać optymalny model. Algorytm jest bardzo intensywny obliczeniowo iw praktyce określony jest górny limit liczby funkcji bazowych.

Techniki uczenia maszynowego

Uczenie maszynowe obejmuje szereg zaawansowanych metod statystycznych do regresji i klasyfikacji oraz znajduje zastosowanie w wielu różnych dziedzinach, w tym w diagnostyce medycznej , wykrywaniu oszustw związanych z kartami kredytowymi, rozpoznawaniu twarzy i mowy oraz analizie rynku akcji .

Narzędzia

W przeszłości korzystanie z narzędzi do analizy predykcyjnej — a także zrozumienie uzyskanych wyników — wymagało zaawansowanych umiejętności. Jednak nowoczesne narzędzia do analityki predykcyjnej nie są już ograniczone do specjalistów IT. Ponieważ coraz więcej organizacji przyjmuje analitykę predykcyjną w procesach decyzyjnych i integruje ją ze swoimi działaniami, powoduje to przesunięcie rynku w kierunku użytkowników biznesowych jako głównych konsumentów informacji. Użytkownicy biznesowi chcą narzędzi, z których mogą korzystać samodzielnie. Sprzedawcy reagują, tworząc nowe oprogramowanie, które usuwa złożoność matematyczną, zapewnia przyjazne dla użytkownika interfejsy graficzne i/lub buduje skróty, które mogą na przykład rozpoznać rodzaj dostępnych danych i zasugerować odpowiedni model predykcyjny. Narzędzia do analizy predykcyjnej stały się wystarczająco wyrafinowane, aby odpowiednio prezentować i analizować problemy z danymi, dzięki czemu każdy pracownik zajmujący się informacjami może je wykorzystać do analizy danych i uzyskania znaczących, użytecznych wyników. Na przykład nowoczesne narzędzia prezentują wyniki za pomocą prostych wykresów, wykresów i wyników, które wskazują prawdopodobieństwo możliwych wyników.

Na rynku dostępnych jest wiele narzędzi, które pomagają w realizacji analiz predykcyjnych. Obejmują one od tych, które wymagają bardzo małego wyrafinowania użytkownika, po te, które są przeznaczone dla eksperta-praktyka. Różnica między tymi narzędziami często polega na poziomie dostosowania i dozwolonym podnoszeniu dużych ilości danych.

PMML

Predictive modelu Markup Language (PMML) został zaproponowany dla standardowego języka do wyrażania modeli predykcyjnych. Taki język oparty na XML umożliwia różnym narzędziom definiowanie modeli predykcyjnych i udostępnianie ich. PMML 4.0 został wydany w czerwcu 2009 roku.

Krytyka

Jest wielu sceptyków, jeśli chodzi o zdolności komputerów i algorytmów do przewidywania przyszłości, w tym Gary King , profesor z Uniwersytetu Harvarda i dyrektor Instytutu Ilościowych Nauk Społecznych. Otoczenie wpływa na ludzi na niezliczone sposoby. Perfekcyjne przewidywanie tego, co ludzie będą dalej robić, wymaga, aby wszystkie wpływające zmienne były znane i dokładnie zmierzone. „Środowisko ludzi zmienia się nawet szybciej niż oni sami. Wszystko, od pogody po relacje z matką, może zmienić sposób, w jaki ludzie myślą i działają. Wszystkie te zmienne są nieprzewidywalne. Ich wpływ na człowieka jest jeszcze mniej przewidywalny. jutro w dokładnie takiej samej sytuacji mogą podjąć zupełnie inną decyzję. Oznacza to, że prognoza statystyczna jest ważna tylko w sterylnych warunkach laboratoryjnych, co nagle nie jest tak przydatne, jak się wydawało”.

W badaniu 1072 artykułów opublikowanych w Information Systems Research i MIS Quarterly w latach 1990-2006, tylko 52 artykuły empiryczne podjęły próbę twierdzeń predykcyjnych, z których tylko 7 przeprowadziło właściwe modelowanie lub testowanie prognostyczne.

Zobacz też

Bibliografia

Dalsza lektura