1
Uniwersytet Warszawski
Wydział Nauk Ekonomicznych
MICHAŁ
CHARON
JAKUB
ŚWINIARSKI
NR
INDEKSU:
NR
INDEKSU:
211456
ESTYMACJA GEOGRAFICZNEJ GĘSTOŚCI
WYSTĘPOWANIA KLIENTÓW PLACÓWEK
MEDYCZNYCH PRZY ZASTOSOWANIU
PRZESTRZENNYCH MODELI
NIEPARAMETRYCZNYCH Z ESTYMATORAMI
JĄDROWYMI (KERNEL FUNCTION)
Praca
zaliczeniowa
konwersatorium
z
przedmiotu
Ekonometria
II
pod
kierunkiem
Dr J. Mycielskiego
w Katedrze IiE
2
SPIS TREŚCI:
1. Problematyka Badania
..................................................................... 3
2. Implementacja Modelu
..................................................................... 8
3. Wnioski Końcowe
..................................................................... 12
4.
Bibliografia
..................................................................... 13
3
1. PROBLEMATYKA BADANIA
Bardzo
często dzieje się tak, że jesteśmy zmuszeni do podjęcia decyzji o lokalizacji
jakiegoś strategicznego budynku (szpital, szkoła, nowy sklep), billboard’u reklamowego itp..
W takich sytuacjach zazwyczaj posługujemy się zdrowym rozsądkiem, a na naszą decyzję w
dużym stopniu wpływa koszt wybranej lokalizacji. Istnieją jednak przypadki, kiedy
kierowanie się zwykłą logiką jest niewystarczające i trzeba posłużyć się bardziej
wyrafinowanymi metodami analizy. W takich sytuacjach najczęściej stosuje się analizę
związaną z modelami przestrzennymi.
Istnieje wiele metod modelowania przestrzennego. W artykule „Estimating
Geographic Customer Desities Using Kernel Density Estimation” zamieszczonym w
czasopiśmie „Marketing Science, Vol. 8 No. 2 Spring 1989” autorzy skupiają się na
zaprezentowaniu metody nieparametrycznej i wykazaniu jej przewagi nad innymi metodami.
Ponadto, w artykułu znajduje się również przykład zastosowania metod nieparametrycznych
w modelach przestrzennych. Przykład ten dotyczy problematyki znajdowania optymalnego
miejsca dla nowej placówki służby zdrowia, przy założeniu, że na badanym obszarze znajdują
się już podobne placówki.
Jak już wspomniano istnieje wiele metod stosowanych w modelowaniu przestrzennym. Każda
z nich jest w pewnym sensie związana ze sposobem tworzenia próby losowej. Do metod
takich należą:
- metoda histogramu trójwymiarowego – wybrany przez nasz obszar dzieli się na
kwadraty (tzw. podobszary) a następnie każdemu z tych podobszarów przypisuje się
jednostki
występujące w jego obrębie; podobszary najczęściej tworzone są przy użyciu
takich informacji jak np. kody pocztowe, numery kierunkowe itp. – osoby posiadające
ten sam kod pocztowy kwalifikowane są do tego samego obszaru
- metoda przydzielania każdej jednostce z próby koordynatów X, Y – najczęściej jest
to
związane z adresem zamieszkania
Obie
metody
są często stosowane jednak metoda histogramu trójwymiarowego ma
pewne wady. Przede wszystkim w metodzie tej musimy wyznaczyć granice badanego
obszaru. Najczęściej robi się to w ten sposób, że badany przez nas obszar obejmuje zadany
procent jednostek (np. jeśli badamy gęstość występowania klientów danego sklepu to badany
przez nas obszar będzie obejmował np. 80% klientów). W tej metodzie zakłada się również,
że gęstość w obszarze granic (w każdym podobszarze) ma charakter jednostajny, a w samych
granicach obszarów następuje ucięcie. Aby uzyskać histogram trójwymiarowy należy również
wygładzić dane zagregowane. Gęstość w każdym podobszarze jest wprost proporcjonalna do
ilości jednostek występujących w danym podobszarze oraz odwrotnie proporcjonalna do
wielkości podobszaru. Ilość punktów, do których będziemy dopasowywać naszą gęstość jest
równa ilości podobszarów. Na rysunku nr 1 ukazany jest prosty histogram trójwymiarowy dla
9 podobszarów, przy założeniu że każdy podobszar ma taki sam kształt i powierzchnię.
4
Rysunek nr 1 – histogram trójwymiarowy gęstości występowania jednostek
Druga metoda, związana z nadawaniem koordynatów każdej jednostce znacznie lepiej
oddaje rzeczywistość.
Tutaj coś napisać o tych histogramach Kornel function (jak to się robi)
Metoda nieparametryczna najczęściej stosowana do estymacji gęstości zaludnienia to
metoda SSDA (Squared Surface Density Analysis – Rust i Bron 1986) jednak i ona nie daje
tak dobrych wyników jak zastosowana przez autorów artykułu metoda nieparametryczna
związana z tzw. estymatorami jądrowymi (Kernel Function). Czym zatem jest nasza Kernel
Function? Można powiedzieć, że jest to praktycznie każdy rodzaj funkcji, który spełnia
następujące własności:
1. 0 < K(x) < C
2. K(x) = K(-x)
- funkcja jest symetryczna
3. ∫ K(x) dx = 1
- funkcja całkuje się do jedynki
4. ∫ K(x) x dx = 0 - funkcja symetryczna
5. h → 0 gdy n → ∞
Gdzie:
K(x) – Kernel Function
C – pewna stała
h – parametr wygładzający
n – liczba obserwacji (jednostek)
5
Jak
widać wiele funkcje wielu rozkładów spełniają te warunki (rozkład normalny,
rozkład jednostajny itp.). Sam wybór Kernel Function nie jest zbyt ważny ponieważ algorytm
wyznaczania gęstości występowania jednostek na danym obszarze jest w dużym stopniu
odporny na rodzaj zastosowanej funkcji. Istotnym natomiast parametrem jest parametr
wygładzający h. Od jego wielkości w znacznym stopniu zależy kształt naszej estymowanej
gęstości. W przypadku zastosowania dużego h otrzymujemy funkcję gęstości znacznie
wygładzoną (niewielkie nierówności są wyrównywane). Wraz ze spadkiem wielkości h nasza
funkcja gęstości staje się coraz bardziej poszarpana. Poniższe wykresy (rysunek nr 2, 3, 4)
przedstawiają estymowaną gęstość przy różnych wielkościach parametru wygładzającego h.
Rysunek nr 2 (dla małego h) – linia przerywana to rzeczywista gęstość linia ciągła to
wyestymowana gęstość
Rysunek nr 3 (dla optymalnego h) – linia przerywana to rzeczywista gęstość linia ciągła to
wyestymowana gęstość
6
Rysunek nr 4 (dla dużego h) – linia przerywana to rzeczywista gęstość linia ciągła to
wyestymowana gęstość
Przykładową postać estymacji funkcji gęstości przy pomocy Kernel Function
przedstawia poniższy wzór (zaproponowany przez Rosenblatt’a - 1956)
• d – ilość wymiarów
• K – kernel function
• h – parametr wygładzający
• n – liczba obserwacji
• x
i
– i ta obserwacja
Podane
powyżej metody często stosowane są wymiennie. Pytanie jednak jakie
musimy sobie postawić to pytanie o przewagę jednych metod nad innymi. Odpowiedzi na
takie pytanie próbowali znaleźć autorzy artykułu. Do swojego badania wybrali oni 100
obserwacji wygenerowanych z dwuwymiarowego rozkładu normalnego. Jako funkcję Kernel
użyli oni również funkcji dwuwymiarowego rozkładu normalnego, a parametr h został
dobrany jako optymalny dla takiego typu funkcji (Silvarman 1986). Następnie autorzy
przetestowali cztery metody estymacji gęstości:
- histogram trójwymiarowy (przy zastosowaniu 2, 4, 8, 16, 32 okien / wymiarów /
podobszarów)
-
estymacja
bezpośrednio z funkcji dwuwymiarowego rozkładu normalnego
-
estymacja
metodą SSDA
- estymacja przy wykorzystaniu estymatorów jądrowych (Kernel Function)
7
Ponadto autorzy wzbogacili badanie o możliwość występowania lokalnych maksimów
(mod). Zdefiniowali oni cztery możliwe warianty:
- zero mod – rozkład jednostajny
- jedna moda – w punkcie (0.5; 0.5)
- dwie mody – w punktach (0.25; 0.75) i (0.75; 0.25)
- trzy mody – w punktach (0.25; 0.75), (0.75; 0.25) i (0.25; 0.25)
Po przeprowadzeniu estymacji uzyskano następujące wyniki (tabela nr 1)
Tabela nr 1 – średnia suma całkowitych błędów i średni maksymalny błąd całkowity ze
względu na opcję (ilość mod) i na rodzaj metody estymacji
Jak
widać w każdym przypadku metoda nieparametryczna z zastosowaniem Kernel
Function dawała najmniejsze wielkości błędów. Oczywiście niskie wielkości błędów dawała
również metoda estymacji bezpośrednio z rozkładu dwuwymiarowego normalnego jednak jest
to zrozumiałe ponieważ próba losowa pochodziła właśnie z tego rozkładu.
Wniosek jaki się nam nasuwa wobec otrzymanych wyników jest następujący: jeśli nie wiemy
z jakiego rozkładu pochodzi nasza próba losowa to powinniśmy stosować metodę estymacji
gęstości wykorzystującą estymatory jądrowe (Kernel Function) gdyż daje ona najlepsze
wyniki (lepsze nawet od metody bezpośredniej estymacji z funkcji rzeczywistego rozkładu).
8
2. IMPLEMENTACJA MODELU
Wiedząc już, że metoda nieparametryczna estymacji gęstości przy zastosowaniu
Kernel Function daje praktycznie najlepsze rezultaty, autorzy artykułu postanowili
wykorzystać ją w konkretnym badaniu. Badanie dotyczy wyznaczania najlepszej lokalizacji
nowej placówki medycznej na danym obszarze. Próbę losową wykorzystaną w badaniu
stanowią osoby potencjalnie zainteresowane korzystaniem z usług nowej placówki – jest to
100 mieszkańców losowo wybranych z obszaru jednego z południowo wschodnich miast
Stanów Zjednoczonych Ameryki Północnej (100 adresów wybranych z książki telefonicznej).
Na badanym obszarze znajduje się 6 powstałych wcześniej placówek medycznych.
Istotną kwestią w badaniu jest zdefiniowanie funkcji prawdopodobieństwa opisującej
wystąpienie sytuacji, w której i-ta osoba trafia do j-tej placówki. Zaproponowana przez
autorów funkcji wygląda w następujący sposób:
Gdzie:
• K – całkowita ilość placówek na rynku lokalnym
• xi, yi – współrzędne miejsca zamieszkania osoby i
• Uij – można traktować jako użyteczność osoby i z korzystania z placówki j
Natomiast zastosowana funkcja Uij to:
Gdzie:
• dij – dystans między miejscem zamieszkania osoby i-tej a placówką j-tą
• C - stała brana z estymacji modelu na już istniejącym rynku (placówkach) – w tym
badaniu C = 1
• Założenie upraszczające – każdy mieszkaniec miasta ma takie samo
prawdopodobieństwo zostania pacjentem
Jak
widać funkcja prawdopodobieństwa jest przede wszystkim zależna od dystansu
między miejscem zamieszkania osoby i-tej a placówką j-tą. Im większa odległość od j-tej
placówki tym mniejsze prawdopodobieństwo, że osoba i-ta do niej trafi. Wzrost odległości
powoduje mniejszy niż proporcjonalny spadek prawdopodobieństwa – dzięki temu funkcja
uwzględnia również osoby z obrzeży badanego obszaru (prawdopodobieństwo, że skorzystają
z usługi nawet najdalej oddalonej placówki nie może być zerowe).
Podany
poniżej wykres (rysunek nr 5) przedstawia miejsca zamieszkania jednostek z
próby oraz lokalizację sześciu istniejących placówek i siódmej nowej.
9
Rysunek nr 5 - wykres próby – miejsca zamieszkania i lokalizacje 6 placówek
Kolejnym krokiem po stworzeniu odpowiedniej funkcji prawdopodobieństwa jest
estymacja gęstości. Autorzy artykułu posłużyli się metodą nieparametryczną wykorzystującą
estymatory jądrowe (Kernel Function). Funkcja gęstości przybrała formę taką samą jak
funkcja przedstawiona w poprzedniej części artykułu, a oszacowania gęstości dokonano na
próbie składającej się z losowych punktów (miejsc zamieszkania), do których kierowały się
karetki w przeciągu ostatnich kilku miesięcy. Wykres gęstości zaludnienia losowych
pacjentów przedstawia rysunek nr 6 (trójwymiarowy) oraz rysunek nr 7 (dwuwymiarowy,
konturowy)
Rysunek nr 6 – wyestymowana gęstość zaludnienia losowo wybranych pacjentów istniejących
na rynku placówek medycznych (placówki o numerach od 1 do 6)
10
Rysunek nr 7 - wykres gęstości zaludnienia na zadanym obszarze – konturowy.
Po oszacowaniu gęstości można wyliczyć udział w rynku każdej z istniejących
placówek. Do tego celu stosujemy następujący wzór:
Gdzie:
• MSj – udział placówki j-tej w rynku
• g(x,y) –gęstość występowania pacjentow
• Pj(x,y) - prawdopodobieństwo ze osoba mieszkająca w lokalizacji (x; y) trafi do
placówki j-tej
Optymalną lokalizację naszej nowej placówki (nr 7 na mapie – rysunek nr 5)
uzyskujemy przez rozwiązanie równań:
Gdzie:
11
Oraz:
• m, n –współrzędne początkowe, od których rozpoczynamy estymację
• xj*, yj* - optymalne współrzędna lokalizacji naszej nowej placówki
Przedstawiony
powyżej algorytm działa w sposób iteracyjny. Wynikiem są
współrzędne w których ulokowana placówka maksymalizuje swój udział w istniejącym
rynku.
Po zastosowaniu powyższego algorytmu i po wykonaniu obliczeń autorzy artykułu
otrzymali następujące wyniki (tabela nr 2)
Tabela nr 2 – wyniki modelu – procentowy udział w rynku sześciu placówek przed
pojawieniem się placówki nr 7 oraz procentowy udział w rynku po pojawieniu się siódmej
placówki
Jak
widać, dzięki zastosowaniu nieparametrycznej metody estymacji gęstości (z
Kernel Function) uzyskaliśmy odpowiedź na pytanie, w którym miejscu najlepiej ulokować
nową placówkę medyczną. Z rabeli nr 2 wynika, że wyznaczone xj* i yj* są rzeczywiście
optymalne dla placówki nr 7 i zapewniają jej największy udział w rynku.
12
3. WNIOSKI KOŃCOWE
Przedstawiony przez autorów model jest świetnym narzędziem służącym do
wyznaczania najlepszej lokalizacji dla budynków, kampanii reklamowych itp.. Wiele osób
może jednak zarzucić, że przedstawiona implementacja jest zbyt ograniczona i nie
uwzględnia wielu czynników (takich jak np. czas trwania dojazdu do placówki, estetyka
placówki itp.) wpływających na decyzje potencjalnych klientów określonego rodzaju
placówek. Należy jednak pamiętać, że modele przestrzenne nie zastępują całkowitej analizy
rynku/zjawiska, a jedynie stanowią jej uzupełnienie. Oczywistym jest fakt, że niemożliwe jest
wybudowanie pożądanego budynku w dowolnym miejscu na badanym obszarze – barierą
będą tu chociażby zajęcie wybranego obszaru przez inne budynki czy problemy prawne
(wybudowanie obiektu na terenie parku). Analizę taką jednakże można wykorzystać do
wyznaczenia, która z n możliwych do wybrania lokalizacji jest dla nas najkorzystniejsza. Jak
zatem widać, tworzenie modeli przestrzennych może dostarczyć nam wielu informacji a
często także ostatecznych argumentów w momencie wybierania optymalnego miejsca dla
nowych budynków / kampanii reklamowych / sklepów itp..
13
4. BIBLIOGRAFIA
1.
Ait – Sahalia Yacine, Lo Andrew W., „Nonparametric Estimation of State-Price
Densities Implicit in Financial Asset Prices”, “The Journal of Finance”, Vol. 53, No.
2. (April 1998), str. 499 – 597
2.
Donthu Naven, Rust Ronald T., „Estimating Geographic Customer Densities Using
Kernel Density Estimation”, “Marketing Science”, Vol. 8, No. 2. (Spring 1989), str.
191 – 203
3.
Kornmal R. A., Tarter M. E., “An Introduction to the Implementation and Theory of
Nonparametric Density Estimation”, The American Statistician”, Vol. 30, No. 3.
(August 1976), str. 105 - 112