Microsoft Word - ekonometria

Uniwersytet Warszawski

Wydział Nauk Ekonomicznych

MICHAŁ

CHARON

JAKUB

ŚWINIARSKI

INDEKSU:

211456

ESTYMACJA GEOGRAFICZNEJ GĘSTOŚCI

WYSTĘPOWANIA KLIENTÓW PLACÓWEK

MEDYCZNYCH PRZY ZASTOSOWANIU

PRZESTRZENNYCH MODELI

NIEPARAMETRYCZNYCH Z ESTYMATORAMI

JĄDROWYMI (KERNEL FUNCTION)

Praca

zaliczeniowa

konwersatorium

przedmiotu

Ekonometria

pod

kierunkiem

Dr J. Mycielskiego

w Katedrze IiE

SPIS TREŚCI:

1. Problematyka Badania

..................................................................... 3

2. Implementacja Modelu

..................................................................... 8

3. Wnioski Końcowe

..................................................................... 12

Bibliografia

..................................................................... 13

1. PROBLEMATYKA BADANIA

Bardzo

często dzieje się tak, że jesteśmy zmuszeni do podjęcia decyzji o lokalizacji

jakiegoś strategicznego budynku (szpital, szkoła, nowy sklep), billboard’u reklamowego itp..
W takich sytuacjach zazwyczaj posługujemy się zdrowym rozsądkiem, a na naszą decyzję w
dużym stopniu wpływa koszt wybranej lokalizacji. Istnieją jednak przypadki, kiedy
kierowanie się zwykłą logiką jest niewystarczające i trzeba posłużyć się bardziej
wyrafinowanymi metodami analizy. W takich sytuacjach najczęściej stosuje się analizę
związaną z modelami przestrzennymi.

Istnieje wiele metod modelowania przestrzennego. W artykule „Estimating

Geographic Customer Desities Using Kernel Density Estimation” zamieszczonym w
czasopiśmie „Marketing Science, Vol. 8 No. 2 Spring 1989” autorzy skupiają się na
zaprezentowaniu metody nieparametrycznej i wykazaniu jej przewagi nad innymi metodami.
Ponadto, w artykułu znajduje się również przykład zastosowania metod nieparametrycznych
w modelach przestrzennych. Przykład ten dotyczy problematyki znajdowania optymalnego
miejsca dla nowej placówki służby zdrowia, przy założeniu, że na badanym obszarze znajdują
się już podobne placówki.
Jak już wspomniano istnieje wiele metod stosowanych w modelowaniu przestrzennym. Każda
z nich jest w pewnym sensie związana ze sposobem tworzenia próby losowej. Do metod
takich należą:

- metoda histogramu trójwymiarowego – wybrany przez nasz obszar dzieli się na

kwadraty (tzw. podobszary) a następnie każdemu z tych podobszarów przypisuje się

jednostki

występujące w jego obrębie; podobszary najczęściej tworzone są przy użyciu

takich informacji jak np. kody pocztowe, numery kierunkowe itp. – osoby posiadające

ten sam kod pocztowy kwalifikowane są do tego samego obszaru

- metoda przydzielania każdej jednostce z próby koordynatów X, Y – najczęściej jest

związane z adresem zamieszkania

Obie

metody

są często stosowane jednak metoda histogramu trójwymiarowego ma

pewne wady. Przede wszystkim w metodzie tej musimy wyznaczyć granice badanego
obszaru. Najczęściej robi się to w ten sposób, że badany przez nas obszar obejmuje zadany
procent jednostek (np. jeśli badamy gęstość występowania klientów danego sklepu to badany
przez nas obszar będzie obejmował np. 80% klientów). W tej metodzie zakłada się również,
że gęstość w obszarze granic (w każdym podobszarze) ma charakter jednostajny, a w samych
granicach obszarów następuje ucięcie. Aby uzyskać histogram trójwymiarowy należy również
wygładzić dane zagregowane. Gęstość w każdym podobszarze jest wprost proporcjonalna do
ilości jednostek występujących w danym podobszarze oraz odwrotnie proporcjonalna do
wielkości podobszaru. Ilość punktów, do których będziemy dopasowywać naszą gęstość jest
równa ilości podobszarów. Na rysunku nr 1 ukazany jest prosty histogram trójwymiarowy dla
9 podobszarów, przy założeniu że każdy podobszar ma taki sam kształt i powierzchnię.

Rysunek nr 1 – histogram trójwymiarowy gęstości występowania jednostek

Druga metoda, związana z nadawaniem koordynatów każdej jednostce znacznie lepiej

oddaje rzeczywistość.

Tutaj coś napisać o tych histogramach Kornel function (jak to się robi)

Metoda nieparametryczna najczęściej stosowana do estymacji gęstości zaludnienia to

metoda SSDA (Squared Surface Density Analysis – Rust i Bron 1986) jednak i ona nie daje
tak dobrych wyników jak zastosowana przez autorów artykułu metoda nieparametryczna
związana z tzw. estymatorami jądrowymi (Kernel Function). Czym zatem jest nasza Kernel
Function? Można powiedzieć, że jest to praktycznie każdy rodzaj funkcji, który spełnia
następujące własności:

1. 0 < K(x) < C
2. K(x) = K(-x)

- funkcja jest symetryczna

3. ∫ K(x) dx = 1

- funkcja całkuje się do jedynki

4. ∫ K(x) x dx = 0 - funkcja symetryczna
5. h → 0 gdy n → ∞

Gdzie:

K(x) – Kernel Function

C – pewna stała

h – parametr wygładzający

n – liczba obserwacji (jednostek)

Jak

widać wiele funkcje wielu rozkładów spełniają te warunki (rozkład normalny,

rozkład jednostajny itp.). Sam wybór Kernel Function nie jest zbyt ważny ponieważ algorytm
wyznaczania gęstości występowania jednostek na danym obszarze jest w dużym stopniu
odporny na rodzaj zastosowanej funkcji. Istotnym natomiast parametrem jest parametr
wygładzający h. Od jego wielkości w znacznym stopniu zależy kształt naszej estymowanej
gęstości. W przypadku zastosowania dużego h otrzymujemy funkcję gęstości znacznie
wygładzoną (niewielkie nierówności są wyrównywane). Wraz ze spadkiem wielkości h nasza
funkcja gęstości staje się coraz bardziej poszarpana. Poniższe wykresy (rysunek nr 2, 3, 4)
przedstawiają estymowaną gęstość przy różnych wielkościach parametru wygładzającego h.

Rysunek nr 2 (dla małego h) – linia przerywana to rzeczywista gęstość linia ciągła to
wyestymowana gęstość

Rysunek nr 3 (dla optymalnego h) – linia przerywana to rzeczywista gęstość linia ciągła to
wyestymowana gęstość

Rysunek nr 4 (dla dużego h) – linia przerywana to rzeczywista gęstość linia ciągła to
wyestymowana gęstość

Przykładową postać estymacji funkcji gęstości przy pomocy Kernel Function
przedstawia poniższy wzór (zaproponowany przez Rosenblatt’a - 1956)

•  d – ilość wymiarów
•  K – kernel function
•  h – parametr wygładzający
•  n – liczba obserwacji
•  x

– i ta obserwacja

Podane

powyżej metody często stosowane są wymiennie. Pytanie jednak jakie

musimy sobie postawić to pytanie o przewagę jednych metod nad innymi. Odpowiedzi na
takie pytanie próbowali znaleźć autorzy artykułu. Do swojego badania wybrali oni 100
obserwacji wygenerowanych z dwuwymiarowego rozkładu normalnego. Jako funkcję Kernel
użyli oni również funkcji dwuwymiarowego rozkładu normalnego, a parametr h został
dobrany jako optymalny dla takiego typu funkcji (Silvarman 1986). Następnie autorzy
przetestowali cztery metody estymacji gęstości:

- histogram trójwymiarowy (przy zastosowaniu 2, 4, 8, 16, 32 okien / wymiarów /

podobszarów)
-

estymacja

bezpośrednio z funkcji dwuwymiarowego rozkładu normalnego

estymacja

metodą SSDA

- estymacja przy wykorzystaniu estymatorów jądrowych (Kernel Function)

Ponadto autorzy wzbogacili badanie o możliwość występowania lokalnych maksimów

(mod). Zdefiniowali oni cztery możliwe warianty:

- zero mod – rozkład jednostajny

- jedna moda – w punkcie (0.5; 0.5)

- dwie mody – w punktach (0.25; 0.75) i (0.75; 0.25)

- trzy mody – w punktach (0.25; 0.75), (0.75; 0.25) i (0.25; 0.25)

Po przeprowadzeniu estymacji uzyskano następujące wyniki (tabela nr 1)

Tabela nr 1 – średnia suma całkowitych błędów i średni maksymalny błąd całkowity ze
względu na opcję (ilość mod) i na rodzaj metody estymacji

Jak

widać w każdym przypadku metoda nieparametryczna z zastosowaniem Kernel

Function dawała najmniejsze wielkości błędów. Oczywiście niskie wielkości błędów dawała
również metoda estymacji bezpośrednio z rozkładu dwuwymiarowego normalnego jednak jest
to zrozumiałe ponieważ próba losowa pochodziła właśnie z tego rozkładu.
Wniosek jaki się nam nasuwa wobec otrzymanych wyników jest następujący: jeśli nie wiemy
z jakiego rozkładu pochodzi nasza próba losowa to powinniśmy stosować metodę estymacji
gęstości wykorzystującą estymatory jądrowe (Kernel Function) gdyż daje ona najlepsze
wyniki (lepsze nawet od metody bezpośredniej estymacji z funkcji rzeczywistego rozkładu).

2. IMPLEMENTACJA MODELU

Wiedząc już, że metoda nieparametryczna estymacji gęstości przy zastosowaniu
Kernel Function daje praktycznie najlepsze rezultaty, autorzy artykułu postanowili
wykorzystać ją w konkretnym badaniu. Badanie dotyczy wyznaczania najlepszej lokalizacji
nowej placówki medycznej na danym obszarze. Próbę losową wykorzystaną w badaniu
stanowią osoby potencjalnie zainteresowane korzystaniem z usług nowej placówki – jest to
100 mieszkańców losowo wybranych z obszaru jednego z południowo wschodnich miast
Stanów Zjednoczonych Ameryki Północnej (100 adresów wybranych z książki telefonicznej).
Na badanym obszarze znajduje się 6 powstałych wcześniej placówek medycznych.
Istotną kwestią w badaniu jest zdefiniowanie funkcji prawdopodobieństwa opisującej
wystąpienie sytuacji, w której i-ta osoba trafia do j-tej placówki. Zaproponowana przez
autorów funkcji wygląda w następujący sposób:

Gdzie:

•  K – całkowita ilość placówek na rynku lokalnym
•  xi, yi – współrzędne miejsca zamieszkania osoby i
•  Uij – można traktować jako użyteczność osoby i z korzystania z placówki j

Natomiast zastosowana funkcja Uij to:

Gdzie:

• dij – dystans między miejscem zamieszkania osoby i-tej a placówką j-tą
• C - stała brana z estymacji modelu na już istniejącym rynku (placówkach) – w tym

badaniu C = 1

• Założenie upraszczające – każdy mieszkaniec miasta ma takie samo

prawdopodobieństwo zostania pacjentem

Jak

widać funkcja prawdopodobieństwa jest przede wszystkim zależna od dystansu

między miejscem zamieszkania osoby i-tej a placówką j-tą. Im większa odległość od j-tej
placówki tym mniejsze prawdopodobieństwo, że osoba i-ta do niej trafi. Wzrost odległości
powoduje mniejszy niż proporcjonalny spadek prawdopodobieństwa – dzięki temu funkcja
uwzględnia również osoby z obrzeży badanego obszaru (prawdopodobieństwo, że skorzystają
z usługi nawet najdalej oddalonej placówki nie może być zerowe).
Podany

poniżej wykres (rysunek nr 5) przedstawia miejsca zamieszkania jednostek z

próby oraz lokalizację sześciu istniejących placówek i siódmej nowej.

Rysunek nr 5 - wykres próby – miejsca zamieszkania i lokalizacje 6 placówek

Kolejnym krokiem po stworzeniu odpowiedniej funkcji prawdopodobieństwa jest

estymacja gęstości. Autorzy artykułu posłużyli się metodą nieparametryczną wykorzystującą
estymatory jądrowe (Kernel Function). Funkcja gęstości przybrała formę taką samą jak
funkcja przedstawiona w poprzedniej części artykułu, a oszacowania gęstości dokonano na
próbie składającej się z losowych punktów (miejsc zamieszkania), do których kierowały się
karetki w przeciągu ostatnich kilku miesięcy. Wykres gęstości zaludnienia losowych
pacjentów przedstawia rysunek nr 6 (trójwymiarowy) oraz rysunek nr 7 (dwuwymiarowy,
konturowy)

Rysunek nr 6 – wyestymowana gęstość zaludnienia losowo wybranych pacjentów istniejących
na rynku placówek medycznych (placówki o numerach od 1 do 6)

Rysunek nr 7 - wykres gęstości zaludnienia na zadanym obszarze – konturowy.

Po oszacowaniu gęstości można wyliczyć udział w rynku każdej z istniejących

placówek. Do tego celu stosujemy następujący wzór:

Gdzie:

•  MSj – udział placówki j-tej w rynku
•  g(x,y) –gęstość występowania pacjentow
•  Pj(x,y) - prawdopodobieństwo ze osoba mieszkająca w lokalizacji (x; y) trafi do

placówki j-tej

Optymalną lokalizację naszej nowej placówki (nr 7 na mapie – rysunek nr 5)
uzyskujemy przez rozwiązanie równań:

Gdzie:

Oraz:

• m, n –współrzędne początkowe, od których rozpoczynamy estymację
• xj*, yj* - optymalne współrzędna lokalizacji naszej nowej placówki

Przedstawiony

powyżej algorytm działa w sposób iteracyjny. Wynikiem są

współrzędne w których ulokowana placówka maksymalizuje swój udział w istniejącym
rynku.

Po zastosowaniu powyższego algorytmu i po wykonaniu obliczeń autorzy artykułu

otrzymali następujące wyniki (tabela nr 2)

Tabela nr 2 – wyniki modelu – procentowy udział w rynku sześciu placówek przed
pojawieniem się placówki nr 7 oraz procentowy udział w rynku po pojawieniu się siódmej
placówki

Jak

widać, dzięki zastosowaniu nieparametrycznej metody estymacji gęstości (z

Kernel Function) uzyskaliśmy odpowiedź na pytanie, w którym miejscu najlepiej ulokować
nową placówkę medyczną. Z rabeli nr 2 wynika, że wyznaczone xj* i yj* są rzeczywiście
optymalne dla placówki nr 7 i zapewniają jej największy udział w rynku.

3. WNIOSKI KOŃCOWE

Przedstawiony przez autorów model jest świetnym narzędziem służącym do

wyznaczania najlepszej lokalizacji dla budynków, kampanii reklamowych itp.. Wiele osób
może jednak zarzucić, że przedstawiona implementacja jest zbyt ograniczona i nie
uwzględnia wielu czynników (takich jak np. czas trwania dojazdu do placówki, estetyka
placówki itp.) wpływających na decyzje potencjalnych klientów określonego rodzaju
placówek. Należy jednak pamiętać, że modele przestrzenne nie zastępują całkowitej analizy
rynku/zjawiska, a jedynie stanowią jej uzupełnienie. Oczywistym jest fakt, że niemożliwe jest
wybudowanie pożądanego budynku w dowolnym miejscu na badanym obszarze – barierą
będą tu chociażby zajęcie wybranego obszaru przez inne budynki czy problemy prawne
(wybudowanie obiektu na terenie parku). Analizę taką jednakże można wykorzystać do
wyznaczenia, która z n możliwych do wybrania lokalizacji jest dla nas najkorzystniejsza. Jak
zatem widać, tworzenie modeli przestrzennych może dostarczyć nam wielu informacji a
często także ostatecznych argumentów w momencie wybierania optymalnego miejsca dla
nowych budynków / kampanii reklamowych / sklepów itp..

4. BIBLIOGRAFIA

Ait – Sahalia Yacine, Lo Andrew W., „Nonparametric Estimation of State-Price

Densities Implicit in Financial Asset Prices”, “The Journal of Finance”, Vol. 53, No.

2. (April 1998), str. 499 – 597

Donthu Naven, Rust Ronald T., „Estimating Geographic Customer Densities Using

Kernel Density Estimation”, “Marketing Science”, Vol. 8, No. 2. (Spring 1989), str.

191 – 203

Kornmal R. A., Tarter M. E., “An Introduction to the Implementation and Theory of

Nonparametric Density Estimation”, The American Statistician”, Vol. 30, No. 3.

(August 1976), str. 105 - 112