background image

 

1

 
 

Uniwersytet Warszawski 

Wydział Nauk Ekonomicznych 

 

 

MICHAŁ 

CHARON 

    JAKUB 

ŚWINIARSKI 

NR 

INDEKSU: 

 

     NR 

INDEKSU: 

211456 

 

ESTYMACJA GEOGRAFICZNEJ GĘSTOŚCI 

WYSTĘPOWANIA KLIENTÓW PLACÓWEK 

MEDYCZNYCH PRZY ZASTOSOWANIU 

PRZESTRZENNYCH MODELI 

NIEPARAMETRYCZNYCH Z ESTYMATORAMI 

JĄDROWYMI (KERNEL FUNCTION) 

 

 

 

 

 

 

 

 

 

 

         Praca 

zaliczeniowa 

         konwersatorium 

przedmiotu 

         Ekonometria 

II 

         pod 

kierunkiem 

 

 

 

 

 

 

 

 

 

Dr J. Mycielskiego 

 

 

 

 

 

 

 

 

 

w Katedrze IiE 

 

 

 

 

 

 

 

 

 

 

 

background image

 

2

 
 
 
 
 
 

SPIS TREŚCI: 
 
 
1. Problematyka Badania  

..................................................................... 3 

2. Implementacja Modelu  

..................................................................... 8 

3. Wnioski Końcowe  

 

..................................................................... 12 

4. 

Bibliografia 

 

  ..................................................................... 13 

 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

background image

 

3

 
 
 
 
 
 
 
 
 
 

 
1. PROBLEMATYKA BADANIA

 

 
 
 Bardzo 

często dzieje się tak, że jesteśmy zmuszeni do podjęcia decyzji o lokalizacji 

jakiegoś strategicznego budynku (szpital, szkoła, nowy sklep), billboard’u reklamowego itp.. 
W  takich sytuacjach zazwyczaj posługujemy się zdrowym rozsądkiem, a na naszą decyzję w 
dużym stopniu wpływa koszt wybranej lokalizacji. Istnieją jednak przypadki, kiedy 
kierowanie się zwykłą logiką jest niewystarczające i trzeba posłużyć się bardziej 
wyrafinowanymi metodami analizy. W takich sytuacjach najczęściej stosuje się analizę 
związaną z modelami przestrzennymi.  
 

Istnieje wiele metod modelowania przestrzennego. W artykule „Estimating 

Geographic Customer Desities Using Kernel Density Estimation” zamieszczonym w 
czasopiśmie „Marketing Science, Vol. 8 No. 2 Spring 1989” autorzy skupiają się na 
zaprezentowaniu metody nieparametrycznej i wykazaniu jej przewagi nad innymi metodami. 
Ponadto, w artykułu znajduje się również przykład zastosowania metod nieparametrycznych 
w modelach przestrzennych. Przykład ten dotyczy problematyki znajdowania optymalnego 
miejsca dla nowej placówki służby zdrowia, przy założeniu, że na badanym obszarze znajdują 
się już podobne placówki. 
Jak już wspomniano istnieje wiele metod stosowanych w modelowaniu przestrzennym. Każda 
z nich jest w pewnym sensie związana ze sposobem tworzenia próby losowej. Do metod 
takich należą: 
 
 

 - metoda histogramu trójwymiarowego – wybrany przez nasz obszar dzieli się na 

 

kwadraty (tzw. podobszary) a następnie każdemu z tych podobszarów przypisuje się 

 jednostki 

występujące w jego obrębie; podobszary najczęściej tworzone są przy użyciu 

 

takich informacji jak np. kody pocztowe, numery kierunkowe itp. – osoby posiadające 

 

ten sam kod pocztowy kwalifikowane są do tego samego obszaru 

 

 - metoda przydzielania każdej jednostce z próby koordynatów X, Y – najczęściej jest 

 to 

związane z adresem zamieszkania 

 
 Obie 

metody 

są często stosowane jednak metoda histogramu trójwymiarowego ma 

pewne wady. Przede wszystkim w metodzie tej musimy wyznaczyć granice badanego 
obszaru. Najczęściej robi się to w ten sposób, że badany przez nas obszar obejmuje zadany 
procent jednostek (np. jeśli badamy gęstość występowania klientów danego sklepu to badany 
przez nas obszar będzie obejmował np. 80% klientów). W tej metodzie zakłada się również, 
że gęstość w obszarze granic (w każdym podobszarze) ma charakter jednostajny, a w samych 
granicach obszarów następuje ucięcie. Aby uzyskać histogram trójwymiarowy należy również 
wygładzić dane zagregowane. Gęstość w każdym podobszarze jest wprost proporcjonalna do 
ilości jednostek występujących w danym podobszarze oraz odwrotnie proporcjonalna do 
wielkości podobszaru. Ilość punktów, do których będziemy dopasowywać naszą gęstość jest 
równa ilości podobszarów. Na rysunku nr 1 ukazany jest prosty histogram trójwymiarowy dla 
9 podobszarów, przy założeniu że każdy podobszar ma taki sam kształt i powierzchnię. 

background image

 

4

 

 

Rysunek nr 1 – histogram trójwymiarowy gęstości występowania jednostek 
 
 

 

 

Druga metoda, związana z nadawaniem koordynatów każdej jednostce znacznie lepiej 

oddaje rzeczywistość. 
 

Tutaj coś napisać o tych histogramach Kornel function (jak to się robi) 

 
 

Metoda nieparametryczna najczęściej stosowana do estymacji gęstości zaludnienia to 

metoda SSDA  (Squared Surface Density Analysis – Rust i Bron 1986) jednak i ona nie daje 
tak dobrych wyników jak zastosowana przez autorów artykułu metoda nieparametryczna 
związana z tzw. estymatorami jądrowymi (Kernel Function). Czym zatem jest nasza Kernel 
Function? Można powiedzieć,  że jest to praktycznie każdy rodzaj funkcji, który spełnia 
następujące własności: 
 

1. 0 < K(x) < C 
2. K(x) = K(-x) 

- funkcja jest symetryczna 

3. ∫ K(x) dx = 1 

- funkcja całkuje się do jedynki 

4. ∫ K(x) x dx = 0  - funkcja symetryczna 
5. h → 0 gdy n → ∞ 

  
Gdzie:   

K(x) – Kernel Function 

 

 

C – pewna stała 

 

 

h – parametr wygładzający 

 

 

n – liczba obserwacji (jednostek) 

background image

 

5

 
 Jak 

widać wiele funkcje wielu rozkładów spełniają te warunki (rozkład normalny, 

rozkład jednostajny itp.). Sam wybór Kernel Function nie jest zbyt ważny ponieważ algorytm 
wyznaczania gęstości występowania jednostek na danym obszarze jest w dużym stopniu 
odporny na rodzaj zastosowanej funkcji. Istotnym natomiast parametrem jest parametr 
wygładzający h. Od jego wielkości w znacznym stopniu zależy kształt naszej estymowanej 
gęstości. W przypadku zastosowania dużego h otrzymujemy funkcję  gęstości znacznie 
wygładzoną (niewielkie nierówności są wyrównywane). Wraz ze spadkiem wielkości h nasza 
funkcja gęstości staje się coraz bardziej poszarpana. Poniższe wykresy (rysunek nr 2, 3, 4) 
przedstawiają estymowaną gęstość przy różnych wielkościach parametru wygładzającego h. 

 

Rysunek nr 2 (dla małego h) – linia przerywana to rzeczywista gęstość linia ciągła to 
wyestymowana gęstość 

 

Rysunek nr 3 (dla optymalnego h) – linia przerywana to rzeczywista gęstość linia ciągła to 
wyestymowana gęstość 

 

background image

 

6

 

Rysunek nr 4 (dla dużego h) – linia przerywana to rzeczywista gęstość linia ciągła to 
wyestymowana gęstość 
 
 Przykładową postać estymacji funkcji gęstości przy pomocy Kernel Function 
przedstawia poniższy wzór (zaproponowany przez Rosenblatt’a  - 1956) 

 

•  d – ilość wymiarów 
•  K – kernel function 
•  h – parametr wygładzający 
•  n – liczba obserwacji 
•  x

i

 – i ta obserwacja  

 
 Podane 

powyżej metody często stosowane są wymiennie. Pytanie jednak jakie 

musimy sobie postawić to pytanie o przewagę jednych metod nad innymi. Odpowiedzi na 
takie pytanie próbowali znaleźć autorzy artykułu. Do swojego badania wybrali oni 100 
obserwacji wygenerowanych z dwuwymiarowego rozkładu normalnego. Jako funkcję Kernel 
użyli oni również funkcji dwuwymiarowego rozkładu normalnego, a parametr h został 
dobrany jako optymalny dla takiego typu funkcji (Silvarman 1986). Następnie autorzy 
przetestowali cztery metody estymacji gęstości: 
 
 

- histogram trójwymiarowy (przy zastosowaniu 2, 4, 8, 16, 32 okien / wymiarów / 

 podobszarów) 
 - 

estymacja 

bezpośrednio z funkcji dwuwymiarowego rozkładu normalnego 

 - 

estymacja 

metodą SSDA 

 

- estymacja przy wykorzystaniu estymatorów jądrowych (Kernel Function) 

 
 

 

 
 
 
 

background image

 

7

 

Ponadto autorzy wzbogacili badanie o możliwość występowania lokalnych maksimów 

(mod). Zdefiniowali oni cztery możliwe warianty: 
 
 

- zero mod – rozkład jednostajny 

 

- jedna moda – w punkcie (0.5; 0.5) 

 

- dwie mody – w punktach (0.25; 0.75) i (0.75; 0.25) 

 

- trzy mody – w punktach (0.25; 0.75), (0.75; 0.25) i (0.25; 0.25) 

 
 

Po przeprowadzeniu estymacji uzyskano następujące wyniki (tabela nr 1) 

 

 

Tabela nr 1 – średnia suma całkowitych błędów i średni maksymalny błąd całkowity ze 
względu na opcję (ilość mod) i na rodzaj metody estymacji 
 
 
 Jak 

widać w każdym przypadku metoda nieparametryczna z zastosowaniem Kernel 

Function dawała najmniejsze wielkości błędów. Oczywiście niskie wielkości błędów dawała 
również metoda estymacji bezpośrednio z rozkładu dwuwymiarowego normalnego jednak jest 
to zrozumiałe ponieważ próba losowa pochodziła właśnie z tego rozkładu. 
Wniosek jaki się nam nasuwa wobec otrzymanych wyników jest następujący: jeśli nie wiemy 
z jakiego rozkładu pochodzi nasza próba losowa to powinniśmy stosować metodę estymacji 
gęstości wykorzystującą estymatory jądrowe (Kernel Function) gdyż daje ona najlepsze 
wyniki (lepsze nawet od metody bezpośredniej estymacji z funkcji rzeczywistego rozkładu). 
 

 
 
 
 
 
 
 

background image

 

8

2. IMPLEMENTACJA MODELU 

 
 
 Wiedząc już,  że metoda nieparametryczna estymacji gęstości przy zastosowaniu 
Kernel Function daje praktycznie najlepsze rezultaty, autorzy artykułu postanowili 
wykorzystać  ją w konkretnym badaniu. Badanie dotyczy wyznaczania najlepszej lokalizacji 
nowej placówki medycznej na danym obszarze. Próbę losową wykorzystaną w badaniu 
stanowią osoby potencjalnie zainteresowane korzystaniem z usług nowej placówki – jest to 
100 mieszkańców losowo wybranych z obszaru jednego z południowo wschodnich miast 
Stanów Zjednoczonych Ameryki Północnej (100 adresów wybranych z książki telefonicznej). 
Na badanym obszarze znajduje się 6 powstałych wcześniej placówek medycznych. 
 Istotną kwestią w badaniu jest zdefiniowanie funkcji prawdopodobieństwa opisującej 
wystąpienie sytuacji, w której i-ta osoba trafia do j-tej placówki. Zaproponowana przez 
autorów funkcji wygląda w następujący sposób: 
 

 

Gdzie: 

•  K – całkowita ilość placówek na rynku lokalnym 
•  xi, yi – współrzędne miejsca zamieszkania osoby i 
•  Uij – można traktować jako użyteczność osoby i z korzystania z placówki j  

 
Natomiast zastosowana funkcja Uij to: 
 

 

Gdzie: 

•  dij – dystans między miejscem zamieszkania osoby i-tej a placówką j-tą 
•  C - stała brana z estymacji modelu na już istniejącym rynku (placówkach) – w tym 

badaniu C = 1 

•  Założenie upraszczające – każdy mieszkaniec miasta ma takie samo 

prawdopodobieństwo zostania pacjentem 

 
 Jak 

widać funkcja prawdopodobieństwa jest przede wszystkim zależna od dystansu 

między miejscem zamieszkania osoby i-tej a placówką j-tą. Im większa odległość od j-tej 
placówki tym mniejsze prawdopodobieństwo,  że osoba i-ta do niej trafi. Wzrost odległości 
powoduje mniejszy niż proporcjonalny spadek prawdopodobieństwa – dzięki temu funkcja 
uwzględnia również osoby z obrzeży badanego obszaru (prawdopodobieństwo, że skorzystają 
z usługi nawet najdalej oddalonej placówki nie może być zerowe). 
 Podany 

poniżej wykres (rysunek nr 5) przedstawia miejsca zamieszkania jednostek z 

próby oraz lokalizację sześciu istniejących placówek i siódmej nowej. 

background image

 

9

 

Rysunek nr 5 - wykres próby – miejsca zamieszkania i lokalizacje 6 placówek 
 
 

Kolejnym krokiem po stworzeniu odpowiedniej funkcji prawdopodobieństwa jest 

estymacja gęstości. Autorzy artykułu posłużyli się metodą nieparametryczną wykorzystującą 
estymatory jądrowe (Kernel Function). Funkcja gęstości przybrała formę taką samą jak 
funkcja przedstawiona w poprzedniej części artykułu, a oszacowania gęstości dokonano na 
próbie składającej się z losowych punktów (miejsc zamieszkania), do których kierowały się 
karetki w przeciągu ostatnich kilku miesięcy. Wykres gęstości zaludnienia losowych 
pacjentów przedstawia rysunek nr 6 (trójwymiarowy) oraz rysunek nr 7 (dwuwymiarowy, 
konturowy) 

 

Rysunek nr 6 – wyestymowana gęstość zaludnienia losowo wybranych pacjentów istniejących 
na rynku placówek medycznych (placówki o numerach od 1 do 6) 

background image

 

10

 

 

Rysunek nr 7 - wykres gęstości zaludnienia na zadanym obszarze – konturowy. 
 
 
 

Po oszacowaniu gęstości można wyliczyć udział w rynku każdej z istniejących 

placówek. Do tego celu stosujemy następujący wzór: 
 

 

Gdzie: 

•  MSj – udział placówki j-tej w rynku 
•  g(x,y) –gęstość występowania pacjentow  
•  Pj(x,y) - prawdopodobieństwo ze osoba mieszkająca w lokalizacji (x; y) trafi do  

placówki j-tej 

 

 Optymalną lokalizację naszej nowej placówki (nr 7 na mapie – rysunek nr 5) 
uzyskujemy przez rozwiązanie równań: 
 

 

Gdzie: 

 

background image

 

11

 

Oraz: 

•  m, n –współrzędne początkowe, od których rozpoczynamy estymację 
•  xj*, yj* - optymalne współrzędna lokalizacji naszej nowej placówki 
 
 

 Przedstawiony 

powyżej algorytm działa w sposób iteracyjny. Wynikiem są 

współrzędne w których ulokowana placówka maksymalizuje swój udział w istniejącym 
rynku. 
 

Po zastosowaniu powyższego algorytmu i po wykonaniu obliczeń autorzy artykułu 

otrzymali następujące wyniki (tabela nr 2) 
 

 

Tabela nr 2 – wyniki modelu – procentowy udział w rynku sześciu placówek przed 
pojawieniem się placówki nr 7 oraz procentowy udział w rynku po pojawieniu się siódmej 
placówki  
 
 

 

 Jak 

widać, dzięki zastosowaniu nieparametrycznej metody estymacji gęstości (z 

Kernel Function) uzyskaliśmy odpowiedź na pytanie, w którym miejscu najlepiej ulokować 
nową placówkę medyczną. Z rabeli nr 2 wynika, że wyznaczone xj* i yj* są rzeczywiście 
optymalne dla placówki nr 7 i zapewniają jej największy udział w rynku. 
 
 
 
 
 
 
 

background image

 

12

3. WNIOSKI KOŃCOWE 

 
 
 

Przedstawiony przez autorów model jest świetnym narzędziem służącym do 

wyznaczania najlepszej lokalizacji dla budynków, kampanii reklamowych itp.. Wiele osób 
może jednak zarzucić,  że przedstawiona implementacja jest zbyt ograniczona i nie 
uwzględnia wielu czynników (takich jak np. czas trwania dojazdu do placówki, estetyka 
placówki itp.) wpływających na decyzje potencjalnych klientów określonego rodzaju 
placówek. Należy jednak pamiętać,  że modele przestrzenne nie zastępują całkowitej analizy 
rynku/zjawiska, a jedynie stanowią jej uzupełnienie. Oczywistym jest fakt, że niemożliwe jest 
wybudowanie pożądanego budynku w dowolnym miejscu na badanym obszarze – barierą 
będą tu chociażby zajęcie wybranego obszaru przez inne budynki czy problemy prawne 
(wybudowanie obiektu na terenie parku). Analizę taką jednakże można wykorzystać do 
wyznaczenia, która z n możliwych do wybrania lokalizacji jest dla nas najkorzystniejsza. Jak 
zatem widać, tworzenie modeli przestrzennych może dostarczyć nam wielu informacji a 
często także ostatecznych argumentów w momencie wybierania optymalnego miejsca dla 
nowych budynków / kampanii reklamowych / sklepów itp.. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

background image

 

13

4. BIBLIOGRAFIA 
 
 
 
 

1.  

Ait – Sahalia Yacine, Lo Andrew W., „Nonparametric Estimation of State-Price 

 

Densities Implicit in Financial Asset Prices”, “The Journal of Finance”, Vol. 53, No. 

 

2. (April 1998), str. 499 – 597 

 

 

2.  

Donthu Naven, Rust Ronald T., „Estimating Geographic Customer Densities Using 

 

Kernel Density Estimation”, “Marketing Science”, Vol. 8, No. 2. (Spring 1989), str. 

 

191 – 203 

 
3.  

Kornmal R. A., Tarter M. E., “An Introduction to the Implementation and Theory of 

 

Nonparametric Density Estimation”, The American Statistician”, Vol. 30, No. 3. 

 

(August 1976), str. 105 - 112