1. Na czym polega i do czego służy kriging danych kodowanych (ang. Indicator Kriging - IK)?
• Określany także jako kriging wskaźnikowy (indykatorowy)
• Ma zastosowanie przy oszacowaniu lokalnej niepewności
• Metoda nieparametryczna, wykorzystująca do estymacji funkcję warunkowego skumulowanego rozkładu prawdopodobieństwa (ccdf), określoną przez sąsiadujące dane.
• Algorytm może być stosowany zarówno z danymi jakościowymi jak i ilościowymi.
• IK nie dostarcza bezpośrednio wartości estymacji nieznanej wartości; dostarcza zbiór K prawdopodobieństw, że dana wartość będzie mniejsza niż wartość progowa.
• Podstawowym założeniem IK jest dyskretyzacja zakresu zmienności danych przez wartości progowe i przetransformowanie każdej wartości obserwacji na wektor binarny. Kriging jest stosowany do zbioru wartości kodowanych, a estymowane wartości tworzą ccdf.
2. Omów wady i zalety kriging danych kodowanych (IK) w stosunku do innych metod służących do budowy lokalnego rozkładu prawdopodobieństwa?
Kriging danych kodowanych może doprowadzić do sytuacji, gdy prawdopodobieństwo wystąpienia danej wartości cechy (lub w przypadku danych jakościowych wystąpienia danej klasy) jest mniejsze od 0, lub większe niż 1. Wynika to z braku warunku sumowania się wag do jedności, który to warunek występuje w przypadku OK.
•Podstawową wadą krigingu wartości kodowanych (IK) jest występowanie błędów relacji porządkowych. W dowolnej lokalizacji u, każde estymowane posteriori prawdopodobieństwo [F(u;zk½(n))]* musi należeć do przedziału [0,1], a seria K takich szacunków musi być niemalejącą funkcją wielkości wartości progowej zk:
WADY:
•utrata części informacji ze względu dyskredytyzację ciągłej dystrybuanty empirycznej,
•pracochłonność - konieczność czasochłonnego budowania modelu semiwariancji dla każdej wartości progowej; często występujące trudności w określeniu modeli dla wartości bardzo niskich i bardzo wysokich zmuszają do subiektywnych decyzji, a te rodzą wątpliwości co do optymalności uzyskanych estymacji,
•wykraczanie estymowanych prawdopodobieństw poza dopuszczalny zakres (0, 1), oraz błędy w ich relacjach porządkowych,
•arbitralnie przyjmowana metoda interpolacji/ekstrapolacji uzyskanej warunkowej dystrybuanty.
ZALETY:
•potwierdzona w dziesiątkach zastosowań i testów metodycznych skuteczność,
•brak trudnych do weryfikacji założeń dotyczących rozkładu statystycznego populacji (metoda nieparametryczna),
•żadna z alternatywnych metod nie jest wyraźnie lepsza,
•alternatywne metody są bardziej skomplikowane = bardziej „podatne” na błędy metodyczne,
•łatwa możliwość uwzględnienia danych uzupełniających („twardych” i „miękkich”).
•powszechna dostępność oprogramowania
3. Co to są błędy relacji porządkowych (ang. order relations errors / deviations)? W jakiej metodzie geostatystycznej występują, i jakie są ich przyczyny?
•Występowanie błędów relacji porządkowych pierwszego rodzaju wynika z samej natury algorytmu krigingu, który jest liniową, nie wypukłą, kombinacją danych pomiarowych.
•Pociąga to za sobą możliwość obliczenia ujemnych wag dla poszczególnych danych pomiarowych znajdujących się w zasięgu sąsiedztwa szukania.
•Sytuacja taka ma miejsce jeśli zachodzi zjawisko ekranowania, tj. zlokalizowany bliżej punktu estymacji u0 punkt danych u2 częściowo „niweluje” wpływ leżącego dalej na tym samym kierunku punktu u1.
•Ta cecha algorytmu ma zarówno zalety, jak i wady. Z jednej strony umożliwia uzyskanie estymacji, które wykraczają poza zakres danych pomiarowych, z drugiej mogą być to czasami wyniki nierealistyczne, takie jak ujemne stężenia, czy proporcje większe od 1.
•Błędy tego rodzaju występują częściej, i ich rozmiary są większe, w zwykłym krigingu (OK) niż w prostym krigingu (SK), oraz w wielozmiennym kokrigingu niż w krigingu. Jest to efektem występujących w owych algorytmach (OK, SCK, OCK) ograniczeń wielkości wag (wymuszających ich sumowanie do 1 lub do 0)
•Wartość ujemna różnicy pociąga za sobą naruszenie relacji porządkowej. W sytuacji kiedy oba modele semiwariogramów gI(h, z7) i gI(h, z8) są identyczne, także oba zbiory wag IK będą takie same, ponieważ dla obu wartości progowych w obliczeniach zostaną wykorzystane te same lokalizacje danych pomiarowych:
•Różnica wynosi wówczas zero, stąd nie ma naruszenia relacji porządkowej. W przeciwnym wypadku, istotnej różnicy dwóch kolejnych modeli semiwariogramów wartości kodowanych, w tym przypadku między progami z7 i z8, powstają dwa odmienne zbiory wag IK pociągając za sobą ryzyko wystąpienia błędów relacji porządkowych.
4. W jaki sposób można ograniczyć występowanie błędów relacji porządkowych (ang. order relations errors / deviations) w metodzie krigingu danych kodowanych (IK)?
•Błędy relacji porządkowych są w estymacjach IK stosunkowo częste, ale ich rozmiar jest zazwyczaj niewielki - około 0,01. Aby ograniczyć ich ilość i rozmiar stosuje się dwie strategie:
•Błędy drugiego rodzaju w zasadzie są łatwe do wyeliminowania jeśli dla wszystkich wartości progowych użyje się tego samego modelu struktury przestrzennej - semiwariogramu.
•To dość radykalne podejście jest często stosowane pod nazwą median Indicator Kriging (mIK). Nazwa sugeruje, i rzeczywiście tak bywa najczęściej, że w algorytmie tym stosuje się model struktury przestrzennej danych kodowanych w stosunku do wartości mediany (50 percentyla). Nie jest jednakże jakaś ścisła reguła.
•Zalety mIK związane są nie tylko z eliminacją większości naruszeń relacji porządkowych. Jest to przede wszystkim metoda mniej pracochłonna - modelowanie jednego semiwariogramu zamiast kilku, czy kilkunastu, ale przede wszystkim znacznie szybsza w obliczeniach. Dla każdej lokalizacji (węzła siatki interpolacyjnej) obliczany jest bowiem tylko jeden układ równań krigingu.
•Popularność mIK wynika również z faktu, że mimo tak znacznego uproszczenia procedury, uzyskiwane wyniki są zazwyczaj tylko nieznacznie gorsze od uzyskanych za pomocą „pełnego” krigingu wartości kodowanych.
•W sytuacji kiedy nie można zastosować metody mIK zaleca się takie modelowanie struktury przestrzennej dla kolejnych wartości progowych, aby unikać gwałtownych zmian parametrów modeli. Można to osiągnąć na przykład poprzez użycie dla wszystkich wartości progowych różnych kombinacji liniowych tych samych elementarnych struktur.
•Parametry modeli semiwariogramów danych kodowanych (wariancja progowa, zasięg, kierunek i proporcja anizotropii) powinny zmieniać się stopniowo od jednej wartości progowej do następnej. Nie jest to zazwyczaj żadne istotne ograniczenie, ponieważ w „naturze” zmiany struktury przestrzennej dla różnych klas wielkości analizowanego parametru zazwyczaj zachodzą w sposób stopniowy - płynny.
•Zupełnie inne podejście do problemu redukcji błędów relacji porządkowych zakłada nie „sztywne” ustalenie jednej serii wartości progowych zk, ale ich dynamiczną modyfikację osobno dla każdego sąsiedztwa szukania w zależności od zakresu wartości tam występujących. Unika się w ten sposób, często w tradycyjnym IK występującej sytuacji, że w pewnych klasach wielkości nie ma danych pomiarowych. Potrzebne odpowiednie modele semiwariogramów dla zmiennych wartości progowych są interpolowane z podanych wcześniej przez „operatora”.
5. Jak często występują i jaką wielkość mają błędy relacji porządkowych (ang. order relations errors / deviations) w metodzie krigingu danych kodowanych (IK)? W jaki sposób się je usuwa?
•Wymienione procedury redukują, ale całkowicie nie eliminują problemu naruszeń relacji porządkowych. Dlatego też konieczna jest dodatkowa, finalna operacja korekty uzyskanych za pomocą algorytmu IK wartości ccdf.
•Najczęściej stosuje się prostą procedurę uśredniana korekt wartości rosnących i malejących:
Błędy relacji porządkowych uzyskanych z obliczeń IK wartości ccdf i ich korekta.
Objaśnienia:
a - „niezależne” wartości ccdf wyliczone algorytmem IK,
b - korekta wartości rosnących (upward correction),
c - korekta wartości malejących (downward correction),
d - wynikowe ccdf uzyskane z uśrednienia obu wartości skorygowanych.
6. W jaki sposób z nieciągłych (punktowych) wartości charakteryzujących prawdopodobieństwo wartości progowych uzyskiwanych metodą IK otrzymuje się ciągła skumulowaną warunkową funkcję prawdopodobieństwa (ang. ccdf = conditional cumulative distribution function)
•Działanie algorytmu IK można porównać do korekty, czy też modyfikacji, na podstawie informacji lokalnych, globalnego dyskretnego cdf.
•Otrzymujemy w efekcie punktową, dyskretną, warunkową funkcję rozkładu prawdopodobieństwa (ccdf).
•Aby móc ją w pełni wykorzystać do różnorodnych zastosowań, musimy w ostatnim etapie obliczeń dokonać operacji odwrotnej do tej która rozpoczynała całą procedurę - z dyskretnej, nieciągłej ccdf uzyskać z powrotem rozkład ciągły.
•Praktycznie rzecz biorąc pociąga to za sobą konieczność ustalenia sposobu za pomocą którego można oszacować dowolną wartość ccdf, a nie tylko dla K wybranych progów.
Problem ten zazwyczaj „rozbija się” na dwa cząstkowe: (1) interpolację ccdf w obrębie klas wyznaczonych przez kolejne wartości progowe, (2) ekstrapolację poza progami skrajnymi, tj. minimalnym i maksymalnym
Budowa ciągłego ccdf dla lokalizacji u1 z jednowymiarowego przykładu obliczeń krigingu wartości kodowanych. Objaśnienia: A - ciągły cdf dla całego zbioru danych (a) i dyskretny ccdf uzyskany z obliczeń IK dla lokalizacji u1, B - to samo co w A plus: d - ekstrapolacja potęgowa dolnego ogona rozkładu (w = 4,0), c - interpolacja liniowa pomiędzy granicami klas i, b - ekstrapolacja hiperboliczna górnego ogona rozkładu (w = 2,5).
•Do interpolacji ccdf pomiędzy wartościami progowymi (zk-1, zk) wykorzystywany jest zazwyczaj model liniowy. Używając tego modelu zakładamy istnienie w klasach rozkładu równomiernego
•Do ekstrapolacji dolnego ogona rozkładu używany jest najczęściej model potęgowy
•Do ekstrapolacji górnego ogona używany jest model potęgowy lub hiperboliczny
Potęgowa (a) i hiperboliczna (b) interpolacja / ekstrapolacja skumulowanego rozkładu zmiennej
7. Co oznacza przymiotnik „warunkowa” (ang. conditional) dla symulacji przestrzennych. Czy istnieją symulacje i na czym polegają symulacje „bezwarunkowe” (ang. unconditional)?
Oznacza, że spełniając określone warunki symulacja podaje wiele równie prawdopodobnych obrazów zmienności przestrzennej zjawiska na badanym terenie. (Nie jestem pewien - Szaman)
Conditional simulating w przeciwienstwie do krigingu odtwarza globalną charakterystykę danych źródłowych oraz tworzy wile map, które zapewniają ocenę lokalnej jak i globalnej niepewnosci. Odzwierciedla również bardziej lokalną zmienność.
Ideą con simulation jest odtworzenie danych w punktach poboru i nie wygładzanie danych pomiędzy punktami poboru. (dopisek - Brooklyn)
8. Ze względu ja jakie kryteria klasyfikujemy symulacje przestrzenne?
•Ze względu na rodzaj reprezentacji: pikselowe i obiektowe
•Ze względu na rodzaj danych: dla zmiennych ciągłych (ilościowych) i dyskretnych (katogoryzowanych, jakościowych)
•Ze względu na przyjęty model zjawiska: parametryczne (gaussowskie), nieparametryczne (danych kodowanych i pola-p) oraz fraktalne.
•Wykorzystywanie wiedzy uprzedniej (prawdopodobieństw Bayesa, łańcuchów Markowa) i korelacji między zmiennymi - symulacje wielozmienne (kosymulacje)
•Coraz szersze zastosowanie do przetwarzania obrazów symulowanych metod optymalizacyjnych (kombinatoryjnych) takich jak symulowane wyrzażanie.
9. Podaj i omów kroki algorytmu Sekwencyjnej Symulacji Gaussowskiej (SGS).
1.Transformacja danych do rozkładu normalnego (normalizacja danych).
2.Modelowanie semiwariogramu danych znormalizowanych.
3.Wybór losowy jednego węzła siatki interpolacyjnej. Kriging (kokriging) wartości i wariancji krigingowej na podstawie obok ległych danych pomiarowych.
4.Wylosowanie (metodą Monte Carlo) wartości symulowanej z rozkładu normalnego o wariancji równej wariancji krigingowej i średniej równej wyinterpolowanej wartości. Przypisanie wylosowanej wartości do węzła.
5.Wybór losowy następnego węzła i powtórzenie opisanej wyżej procedury z uwzględnieniem wszystkich poprzednio wysymulowanych węzłów dla zachowania struktury przestrzennej zgodnie z przyjętym modelem semiwariogramu.
6.Po przeprowadzeniu powyższej procedury dla wszystkich węzłów siatki przeprowadzenie transformacji „powrotnej” do oryginalnej przestrzeni danych. W ten sposób powstaje pierwsza realizacja symulacji.
7.Powtórzenie wszystkich kroków od 3 przy użyciu innej sekwencji liczb losowych dla utworzenia kolejnych realizacji.
10. Podaj i omów kroki algorytmu Sekwencyjnej Symulacji Danych Kodowanych (SIS). Jakie są jej zalety i wady w stosunku do Sekwencyjnej Symulacji Gaussowskiej (SGS). - nie ma w wykładach
11. Jakie typy danych charakteryzuje się metodami statystyki przestrzennej danych punktowych? Podaj przykłady takich danych. Jakie grupy analiz (metod) można wyróżnić?
•Typy danych:
-jedna zmienna:
•tylko lokalizacje
•lokalizacje + cecha/y (ilościowe, jakościowe)
-dwie/wiele zmiennych:
•tylko lokalizacje
•lokalizacje + cechy (ilościowe, jakościowe)
-dane punktowe i inne:
•zmienna punktowa i ciągła
•zmienna punktowa i obszarowa
•zmienna punktowa i sieć
- dane czaso-przestrzenne
Działy analizy przestrzennej danych punktowych
•Rozkład przestrzenny
•Autokorelacja przestrzenna
•Statystyki odległości
•Identyfikacja skupień
•Interpolacja gęstości
•Analiza czasoprzestrzenna
12. Co to są miary centrograficzne? Jakie wskaźniki do nich należą? Co to jest średnie centrum rozkładu danych punktowych?
Miary centrograficzne charakteryzują rozkład punktów w przestrzeni.
•Statystyki centrograficzne są podstawowymi charakterystykami rozkładu przestrzennego danych punktowych
•Ich nazwa bierze się z tego, że są odpowiednikami statystyk opisowych rozkładu pojedynczej zmiennej - średniej, odchylenia standardowego, skośności i kurtozy - dla danych dwuwymiarowych
•Przestrzeń wprowadza dodatkową złożoność, która musi być uwzględniona w obliczeniach
Wskaźniki:
• Średnie centrum
•Mediana centrum
•Centrum minimalnych odległości
•Odchylenie standardowe współrzędnych X i Y
•Odchylenie standardowe odległości
Elipsa odchylenia standardowego
Średnie centrum
•Najprostszym wskaźnikiem rozkładu jest średnie centrum. Jest to tylko średnia arytmetyczna współrzędnych X i Y.
•Czasami nazywane jest środkiem grawitacji z tego względu, że reprezentuje położenie w którym trzeba by umieścić punkt podparcia (zawieszenia) żeby płaszczyzna ze zbiorem analizowanych punktów znajdowała się w równowadze
•Dla pojedynczej zmiennej średnia to taka wartość dla której suma różnic w stosunku do wszystkich pozostałych wartości jest równa zero. Niestety w przypadku dwóch zmiennych, tak jak współrzędnych w dwuwymiarowej przestrzeni, średnie centrum to niekoniecznie takie położenie dla którego suma wszystkich odległości do pozostałych punktów jest minimalna. Taką właściwość ma inny wskaźnik - centrum minimalnych odległości
•Średnie centrum jest w tym przypadku miejscem gdzie zarówno suma różnic średniej współrzędnych X oraz współrzędnych X wszystkich punktów danych jest równa zero i suma różnic średniej współrzędnych Y ……
Wzór na średnie centrum jest następujący:
gdzie: Xi i Yi to współrzędne indywidualnych lokalizacji a N to całkowita liczba punktów
•Centrum rozkładu klientów MOPR w Poznaniu mieści się w punkcie o współrzędnych UTM: X = 630558 m i Y = 5807521 m, znajdującym się przy dworcu PKS (skrzyżowanie ulic Przemysłowej i Towarowej)
13. Co to jest średnie ważone centrum rozkładu danych punktowych? Jak obliczane jest centrum geometryczne i harmoniczne rozkładu danych punktowych? W jakich sytuacjach te wskaźniki są stosowane?
•Ważone średnie centrum uzyskuje się poprzez zmodyfikowanie znaczenia indywidualnej wartości współrzędnej przez dodatkową zmienną Wi
•W przykładzie z rozkładem przestrzennym na terenie Poznania klientów MOPR wagą może być liczba powodów przyznawania pomocy lub kwota pomocy
•Średnie centrum geometryczne jest związane ze średnimi logarytmów współrzędnych:
•Gdzie Õ jest iloczynem (produktem) każdej wartości danych i (to jest wszystkie wartości X lub Y są mnożone przez siebie), a N jest liczebnością zbioru. Równanie to może być oszacowane za pomocą logarytmów:
•Średnia geometryczna jest antylogarytmem średniej logarytmów. Ponieważ w pierwszym etapie obliczeń współrzędne X i Y są logarytmowane wpływa to zmniejszenie wpływu wartości ekstremalnych
•Średnia harmoniczna również zmniejsza wpływ wartości ekstremalnych, ale obliczana jest inaczej:
•Średnia harmoniczna współrzędnych X i Y jest odpowiednio odwrotnością średniej odwrotności X i Y (to jest: (1) oblicz odwrotność, (2) oblicz średnią odwrotności, (3) dokonaj odwrócenia średniej odwrotności)
•Średnie geometryczna i harmoniczna „stabilizują” średnią próby. Różnią się istotnie od średniej arytmetycznej wtedy, kiedy próba ma bardzo skośny rozkład
14. Co to jest mediana centrum rozkładu danych punktowych? Jaką ma właściwość, w odróżnieniu do innych parametrów statystycznych? Jak definiuje się centrum minimalnych odległości zbioru danych punktowych? Jakie można wyróżnić jego warianty?
•Mediana centrum stanowi przecięcie pomiędzy medianą zbioru współrzędnych X i medianą zbioru współrzędnych Y. Idea ta jest prosta, ale ściśle biorąc nie jest to mediana położenia zbioru punktów. Dla „zwykłej” zmiennej mediana jest wartością od której 50% przypadków jest mniejszych, a 50% większych. Na dwuwymiarowej płaszczyźnie nie można wyznaczyć jednej mediany, ponieważ zależy to od orientacji układu współrzędnych.
•Zamiast tego istnieje obszar braku unikalności, którego dowolny punkt może być traktowany jako „mediana centrum”. Narusza to jedną z podstawowych zasad statystyki, że parametr statystyczny musi być jedną, unikalną wartością.
•Mimo to, tak długo jak nie wykonuje się rotacji osi, mediana centrum może być użytecznym wskaźnikiem
•Centrum minimalnych odległości jest unikalnym położeniem ponieważ definiuje punkt w którym suma odległości do wszystkich punktów analizowanego zbioru jest najmniejsza. Jest zatem opisana przez wzór:
•Gdzie dic jest odległością pomiędzy konkretnym punktem i a centrum minimalnej odległości C
•Niestety jednak na podstawie tego wzoru nie można wykonywać obliczeń. Zamiast tego stosowany jest algorytm kolejnych przybliżeń (iteracyjny)
•Centrum minimalnych odległości może być określane na podstawie odległości bezpośrednich (euklidesowych) lub pośrednich, na przykład wzdłuż ulic, co jest bardziej odpowiednie dla obszarów miejskich
15. Jakie miary statystyczne stosuje się do oceny rozrzutu danych punktowych? Proszę podać wzór / procedurę obliczenia co najmniej jednej z nich.
- odchylenie standardowe współrzędnych
•Najprostszym wskaźnikiem rozrzutu jest odchylenie standardowe wartości współrzędnych X i Y analizowanego zbioru danych. Jego formuła jest identyczna jak w klasycznej statystyce:
•Gdzie Xi i Yi to współrzędne X i Y określonego punktu, X i Y to średnie współrzędnych X i Y, N to liczba analizowanych punktów danych. Odjęcie 1 od liczby punktów ma na celu nieobciążone oszacowanie odchylenia standardowego populacji na podstawie próbki
- Odchylenie standardowe odległości
•Mimo że odchylenie standardowe współrzędnych daje pewne informacje o rozproszeniu analizowanych danych nie jest jednak pozbawione istotnych wad. Po pierwsze nie jest to w rzeczywistości jeden syntetyczny wskaźnik rozproszenia, tylko dwie osobne statystyki (rozrzut w osi X i rozrzut w osi Y). Po drugie jest wyrażone w jednostkach układu współrzędnych. Kiedy zatem lokalizacje będą przedstawione we współrzędnych sferycznych wtedy jednostkami odchylenia standardowego współrzędnych będą stopnie dziesiętne
•Miara która umożliwia pokonanie tych problemów to odchylenie standardowe odległości lub w skrócie „odległość standardowa”. Jest to odchylenie standardowe odległości od każdego punktu danych do średniego centrum próby, i jest wyrażone w jednostkach pomiaru odległości (metry, stopy, kilometry, mile itp.). Miara ta jest ekwiwalentem odchylenia standardowego dla danych dwuwymiarowych.
- elipsa odchylenia standardowego
•Odchylenie standardowe odległości (odległość standardowa) jest dobrą pojedynczą miarą rozproszenia punktów danych wokół średniego centrum
•W dwóch wymiarach rozkłady są jednak najczęściej bardziej skośne w jednym kierunku niż w innych Właściwość ta nazywana jest anizotropią rozkładu przestrzennego. Aby tą właściwość uchwycić stosuje się inną miarę rozrzutu danych w dwóch wymiarach zwaną elipsą odchylenia standardowego lub w skrócie elipsą rozkładu
•Dwa odchylenia standardowe, w kierunku X i Y, są ortogonalne w stosunku do siebie i definiują elipsę. W najczęściej stosowanej procedurze wyznaczania elipsy dokonuje się rotacji osi X i Y w taki sposób, że suma kwadratów odległości pomiędzy punktami danych, a osiami są minimalizowane. Zgodnie ze przyjętą konwencją wizualizuje się to w postaci elipsy
- Obwiednia rozkładu danych punktowych
•Obwiednia to granica otaczająca zbiór punktów na płaszczyźnie. Idea jest bardzo prosta - granica ta musi być wytyczona tak, że żaden punkt ze ich zbioru nie pozostanie poza poligonem.
•Problem wyznaczenia obwiedni nie jest jednak tak prosty jak by się wydawało. Jest na to wiele sposobów, a ich wyniki często się od siebie różnią.
•Najprostszym algorytm nazywany jest analizą Grahama (Graham scan).
-Procedura zaczyna się punktu który z pewnością będzie znajdował się na obwiedni. Zazwyczaj jest to punkt z najmniejszą współrzędną X
-Następnie pozostałe punkty są sortowane kątowo zgodnie z ruchem wskazówek zegara. Jeśli kąt utworzony przez następny punkt i ostatnią krawędź jest mniejszy niż 180 stopni to punkt ten jest dodawany do obwiedni. Jeśli kąt jest większy od 180 stopni to wówczas łańcuch wierzchołków poczynając od ostatniej krawędzi musi być usunięty
-Procedura jest kontynuowana tak długo, aż obwiednia zostanie zamknięta.
•W CrimeStat wykorzystano algorytm „pakowania prezentu”.
•Zaczyna się od punktu z najmniejszą współrzędną Y - A. Następnie poszukiwany jest kolejny punkt B, taki, że wszystkie pozostałe punkty znajdują się na lewo od linii A-B.
•Później szukany jest punkt C, taki, że wszystkie pozostałe punkty leżą na lewo od linii B-C.
•Procedura jest powtarzana tak długo, aż osiągnie wyjściowy punkt A.
•Przebieg procedury przypomina owijanie prezentu w papier
•
•Obwiednia jest użyteczna do wizualizacji i porównywania zasięgów przestrzennych zbiorów danych punktowych. Ponieważ jednak opiera się na lokalizacjach skrajnych, ekstremalnych, jest czuła na dane potencjalnie błędne
16. Co to jest dodatnia/ujemna autokorelacja przestrzenna danych punktowych? Podaj przykłady.
•Kiedy zdarzenia, obiekty lub ludzie wykazują skupienia (zgrupowania) mówimy o dodatniej autokorelacji przestrzennej. I w przeciwieństwie kiedy układ zdarzeń, obiektów lub ludzi jest rozproszony określamy to jako ujemną autokorelację przestrzenną; taka sytuacja jest relatywnie rzadka, ale występuje.
•Większość wystąpień zjawisk o charakterze punktowym nie jest od siebie niezależna i wykazuje skupienia w przestrzeni, a zatem - dodatnią autokorelację.
17. Jakie miary statystyczne stosowane są do oceny autokorelacji danych punktowych?
•Istnieje wiele miar autokorelacji przestrzennej danych punktowych. Należą do nich:
-Proste, globalne, wskaźniki jak „I” Morana i „C” Geary'ego, „G” Getisa i Orda
-Wskaźniki pochodne (wtórne): jak „K” Ripleya, statystyki lokalne Morana i Geary'ego
-Wskaźniki złożone, w tym wielozmienne
•Wskaźniki globalne („I”, „C” i „G”) dają jedną wartość określenia autokorelacji dla całego zbioru punktów
•„I” Morana i „C” Geary'ego są zbliżone i używane często łącznie
•Statystyka Morana uważana jest za bardziej pewną
18. Podaj definicję i wzór statystyki „I” Morana. Omów podstawowe właściwości tej miary autokorelacji przestrzennej.
Służy określaniu siły i charakteru korelacji przestrzennej.
Mieści się w zakresie -1 do 1. 0 oznacza brak korelacji, ujemne wartości - ujemną korelację (występowanie różnych wartości koło siebie). Duża ujemna korelacja dała by rozklad przestrzenny przypominający szachownicę.
Dodatnie wartości świadczą o występowaniu podobnych wartości koło siebie (skupiska przestrzenne)
Podobieństwo/niepodobieństwo między jednostkami rozpatrywane jest w aspekcie wysokich i niskich wartości. Określane są one po uprzeniej standaryzacji względem średniej wartości
(do zweryfikowania)
19. Podaj definicję i wzór statystyki „C” Geary'ego. Omów podstawowe właściwości tej miary autokorelacji przestrzennej.
20. W jaki sposób testuje się istotność różnicy wskaźników autokorelacji „I” i „C” od teoretycznego rozkładu losowego?
•Ocena empiryczna „I” może zostać porównany z teoretyczną poprzez podzielenie przez szacowane teoretyczne odchylenie standardowe:
•Gdzie:
•„I” to wartość empiryczna wyliczona z próby,
•E(I) to teoretyczna średnia rozkładu losowego, a
•SE(I) - teoretyczne odchylenie standardowe E(I)
•Ocena empiryczna „C” może zostać porównany z teoretyczną poprzez podzielenie przez szacowane teoretyczne odchylenie standardowe:
•Gdzie:
•„C” to wartość empiryczna wyliczona z próby,
•E(C) to teoretyczna średnia rozkładu losowego, a
•SE(C) - teoretyczne odchylenie standardowe E(I)
•W „zwykłym” teście istotności „C” przyjęte jest założenie, że próba Z pochodzi z populacji o standardowym rozkładzie normalnym.
21. Co to jest, i w jaki sposób się oblicza, korelogram danych punktowych? W jaki sposób testuje się jego istotność?
•Wskaźniki „I” Morana i „C” Geary'ego są sumarycznym testem globalnej autokorelacji.
•Oznacza to, że podsumowują relacje w całym analizowanym zbiorze danych i nie rozróżniają charakterystyk autokorelacji które mogą się różnić w różnych jego podzbiorach
•Prostym rozszerzeniem informacji uzyskanych z „I” Morana jest wykonanie jego obliczeń osobno dla różnych przedziałów odległości między punktami i przedstawienie wyników na wykresie
•Wykres taki zwany korelogramem Morana pokazuje jak bardzo skoncentrowana (czy rozproszona) jest autokorelacja
•Obliczenia korrelogramu Morana mogą być również korygowane ze względu na małą odległość punktów danych
•Do oceny istotności empirycznych wartości I korelogramu używa się symulacji Monte Carlo.
•Każda symulacja generuje losowy rozkład punktów i wartości cechy i oblicza dla nich „I”.
•Rozkład losowych „I” z symulacji daje możliwość określenia przybliżonego przedziału ufności empirycznego „I”
•Korrelogram Morana dostarcza informacje o skali (skalach) autokorelacji przestrzennej, mówiąc czy jest ona rozproszona na całym obszarze, czy skupiona w na niewielkim jego fragmencie (fragmentach)
•Jest to użyteczne do oceny rozmiarów ewentualnych skupień. Nie daje jednak informacji gdzie one występują.
•Mimo to jest to ważna informacja wstępna przy innych procedurach analiz przestrzennych takich jak grupowanie hierarchiczne czy interpolacja gęstości skupień