Braki danych, Informatyka SGGW, Semestr 4, Metody analizy danych

Artykuły

Dane niekompletne w analizie rynku i szacowaniu (cz. I.)

autor: Tomasz Kotrasiński, RealExperts S.K.A.

Zagadnienie możliwości wykorzystania w analizie rynku, analizach marketingowych i wycenie nieruchomości danych niepełnych czy niekompletnych jest poważnym i trudnym zagadnieniem z zakresu eksploracyjnej analizy danych. Istnienie danych niekompletnych, których nie można już uzupełnić bądź to ze względu na niemożność techniczno-organizacyjną bądź na zbyt wysokie koszty, czy też po prostu ze względu na fizyczny brak dostępu do nich, towarzyszy analizie danych od zawsze, jest nieuniknione, niestety nieuniknione i trzeba sobie z tym jakoś radzić.

Jest kilka sposobów radzenia sobie z tym problemem różniących się zaawansowaniem procedury. W niniejszym artykule przedstawiam kilka z nich.

Najprostszym sposobem, i zarazem najpowszechniej stosowanym, jest usunięcie z dalszej analizy danych niekompletnych.
Procedura ta, jeżeli tylko nie dotyczy zbyt dużej frakcji danych, zazwyczaj sprawdza się zupełnie dobrze. Podstawowym testem możliwości zastosowania tej najprostszej procedury jest fakt, że przy jej zastosowaniu trzeba uważać czy dane niekompletne występują ze względu na analizowane cechy losowo, czy też związane są w jakiś szczególny sposób z pewną cechą (np. dane niekompletne dotyczą domów położonych zwłaszcza w pewnej okolicy albo nowszych itp.). Niespełnienie warunku losowości rozkładu danych niekompletnych zmusza nas oczywiście do przemodelowania naszej analizy w taki sposób, aby zawęzić jej zastosowanie do tych obszarów zmienności danych, które spełniają warunek losowości rozkładu danych niekompletnych. Jeżeli ten warunek jest spełniony, to można te dane niekompletne po prostu pominąć. Dane pozostałe, kompletne, stanowić będą próbę na której będziemy dokonywać naszej analizy.
Należy przypuszczać, że w 90% przypadków, ten najprostszy sposób, przy zachowaniu wyżej przedstawionych środków ostrożności, jest sposobem w zupełności wystarczającym.

Sposób ten ma jedną wadę. Jest sposobem „rozrzutnym”. Po prostu marnuje pewną część danych, które mogłyby jednak być wykorzystana w analizie. Np. zmniejsza liczbę danych poniżej progu wystarczającego do stwierdzenia istotności statystycznej pewnych prawidłowości.

W związku z tym wymyślono pewne bardziej lub mniej wyrafinowane sposoby uzupełniania danych brakujących, tak, żeby wycisnąć z nich maksimum zawartości informacyjnej.

Najprostszym sposobem, jest wstawienie w miejsce brakujących danych wartością "typową". Zazwyczaj średnią, czasem dominantą lub medianą (w zależności od charakterystyki rozkładu analizowanych danych). Ta procedura sprawdza się zazwyczaj nie najgorzej. Zwłaszcza wtedy, gdy liczba danych do uzupełnienia jest niewielka. Wadą takiego postępowania z danymi, polegającego na uzupełnieniu ich wartościami „typowymi” jest ich pewne „podrasowanie” istniejących zależności poprzez zmniejszenie wariancji danych. W niektórych zastosowaniach, zwłaszcza tam, gdzie wariancja zmiennej dla której uzupełniane są dane wg tej procedury jest mała może się ona sprawdzać bardzo dobrze. W innych przypadkach może być przyczyną znacznych obciążeń estymacji szacowanych parametrów. Wady tej procedury prowadzą nas ku następnej, która próbuje te problemy wyeliminować.

Innym, bardziej zaawansowanym, sposobem walidacji danych niekompletnych jest uzupełnienie brakujących danych danymi losowymi z zakresu zmienności danej cechy, której wartości musimy uzupełnić. Sposób ten może być doskonalony poprzez, w miarę możności zbliżenie parametrów statystycznych danych uzupełnianych do parametrów danych posiadanych. W najczęstszym wariancie przyjmie to postać uzupełnienia danych brakujących danymi losowymi o średniej i wariancji takimi samymi jak dane posiadane. W wersji bardziej zaawansowanej odtworzyć można dokładniej parametry zaobserwowanego rozkładu zmiennej uzupełnianej.

Ten sposób też jest niezły i może się sprawdzać w niektórych sytuacjach dość dobrze. Wprowadzenie danych losowych (szumu) wprawdzie osłabia prawidłowość (sygnał) ale uwzględniając jego losowość (albo znany rozkład/charakterystykę) nie zniekształca samej tej prawidłowości, którą za pomącą analizy można łatwo oddzielić od dodanego szumu. Uzupełnienie danych za pomocą dopasowanego rozkładu nie powinno też mieć istotnego wpływu na średnią i wariancję uzupełnionego zestawu danych. Wadą procedury, wynikającą z losowego charakteru uzupełniania danych jest, przy zachowaniu zalet analizy na poziomie zbiorowości, możliwość powstawania zestawów kombinacji danych, które mogą nie mieć w niektórych przypadkach uchwytnego sensu realnego (powstać może np. kombinacja, tworząca dom jednorodzinny, parterowy, niepodpiwniczony o powierzchni większej niż powierzchnia działki, na której jest posadowiony). Wady tej procedury prowadzą nas ku następnej, która próbuje te problemy wyeliminować.

Najbardziej zaawansowanym sposobem, choć oczywiście zarazem najtrudniejszym do przeprowadzenia, jest uzupełnienie brakujących danych na podstawie specjalnie skonstruowanego modelu kształtowania się i rozkładu danej zmiennej w jej powiązaniu z innymi zmiennymi.

Można oczywiście konstruować na tę okoliczność różne modele prostsze albo bardziej skomplikowane. Np. prostszym będzie użycie odpowiednich prawdopodobieństw warunkowych albo prostych korelacji pomiędzy różnymi zmiennymi. Przeprowadzona analiza pozwoli nam na stwierdzenie jaka wartość brakującej cechy jest najbardziej prawdopodobna ze względu na wartości pozostałych, znanych nam, wartości cech innych cech. Unikamy w ten sposób sytuacji, która mogła się przydarzyć przy losowym uzupełnianiu danych brakujących, zgodnych na poziomie globalnego rozkładu, w której kojarzyły się ze sobą dane „niedopasowane”. W tej procedurze mamy do czynienia z sytuacją, w której właśnie kojarzy się dane najlepiej do siebie dopasowane ze względu na ich wzajemne skorelowanie.
W procedurze tej, mówiąc najprościej, dokonujemy pewnego pomysłowego odwrócenia toku analizy i budujemy model przewidujący wartość pewnej zmiennej niezależnej (cechy) na podstawie znajomości innych cech i zmiennej zależnej. Nic nie stoi na przeszkodzie aby wykorzystany model był po prostu odpowiednim przekształceniem (być może uproszczonym do zastosowania tylko najistotniejszych zmiennych) zastosowanego modelu szacowania zmiennej zależnej (wartości). Na podstawie tego modelu uzupełniamy brakujące dane.
Ten sposób jest najdoskonalszy i badania symulacyjne pokazują, że można na nim polegać z dość dużą pewnością, zwłaszcza jeżeli zbudowany model wartości brakującej cechy cechuje się dobrymi parametrami prognostycznymi.

Oczywiście wszystkie metody uzupełniania brakujących danych mają swoje wady i zalety, ale sam fakt że istnieją i dają czasem zadowalające, a czasem nawet bardzo dobre rezultaty, pokazuje że zastosowanie bardziej zaawansowanych metod analizy danych, które już istnieją i możliwe są do zastosowania jest celowe, sensowne i pomocne.
Oczywistym jest też, że zastosowanie wyżej zarysowanych procedur walidacji danych niekompletnych musi zostać odpowiednio zasygnalizowane przy omówieniu zastosowanych procedur metodologicznych doboru i obróbki danych.
(c.d.n.)

***

Zainteresowanym zagadnieniem polecam książkę Daniela T. Larose'a

Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych.

Wyszukiwarka