Pytania na ko o

Pytania na koło:

  1. Podaj źródła danych NMT

Współczesne dane do opracowania NMT pochodzą z czterech źródeł:

  1. Wymień i scharakteryzuj 3 sposoby (modele) zapisu NMT

  1. Regularna siatka punktów (macierz punktów wysokościowych) (ang. GRID – Regular Raster Grid) – najczęściej stosowany w GIS model. Zazwyczaj zapisywany jest w postaci rastra. Każdy punkt (element macierzy) zawiera średnią wartość rzędnej wysokościowej pola podstawowego o rozmiarze zależnym od dobranej rozdzielczości przestrzennej modelu.

- model macierzowy o stałej rozdzielczości

- prostota zapisu danych

- zmienna dokładność zobrazowania terenu

- każdy element macierzy przechowuje średnią wysokość pola elementarnego

- jest podstawą do utworzenia modeli pochodnych – nachyleń i ekspozycji

  1. Model triangulacyjny (nieregularna siatka trójkątów) (ang. TIN – Triangular Irregular Network) – model ten zapisuje się w postaci wektorowej. Powierzchnia terenu dzielona jest na trójkąty, których wierzchołki stanową punkty wysokościowe.

­dzieli powierzchnię na trójkątne elementy

Wierzchołki trójkątów znajdują się w punktach pomiarowych

Zachowuje relacje topologiczne pomiędzy formami rzeźby terenu

Pozwala na uwzględnienie linii strukturalnych (grzbietowych i ciekowych)

Zmienna rozdzielczość, zależna od konfiguracji terenu

Stosunkowo duża wielkość pliku danych potrzebnych do zapisu informacji

  1. Model poziomicowy – (ang. DGL – Digital Line Graph) – przedstawia kształt danej powierzchni przy użyciu izohips (linii łączących punkty o jednakowej wysokości), zapisywanych w postaci obiektów wektorowych o współrzędnych (x, y, z). Plik taki zawiera bardzo dokładną współrzędną ale poza tym nie ma informacji o żadnych innych cechach. Za pomocą tego formatu w Stanach zostało opublikowane wiele map cyfrowych dlatego standard ten jest bardzo znaczący

  1. Na czym polega metoda odwrotnych odległości. Jaki jest wpływ stosowania coraz wyższego wykładnika potęg

Metoda odwrotnej odległości (inverse distance) ora metody krigingu zwykłego (ordinary kriging) i krigingu indykatorowego (indicator kriging) dla oszacowania wartości stężenia w danym punkcie wymagają określenia jego sąsiedztwa. Sąsiedztwo jest definiowane jako pewien obszar wokół danego punktu, przy czym podstawą do oszacowania stężenia w tym punkcie będą znane (zbadane) wartości stężeń w punktach znajdujących się w obrębie sąsiedztwa. Dane o stężeniach w punktach znajdujących się poza sąsiedztwem nie będą uwzględniane. Sąsiedztwo zawsze jest definiowane jako elipsa, której kształt i rozmiar można zmieniać, tak aby uwzględnić lub pominąć określone punkty i związane z nimi dane.

Metoda odwrotnej odległości

Podstawową przesłanką tej metody jest założenie, że wartość Vo w punkcie nie będącym punktem poboru próbki, jest równa średniej ważonej z wartości stwierdzonych w punktach znajdujących się w pobliżu.


$$w\left( x \right) = \frac{1}{{d(x,x_{i})}^{2}}$$

Waga zmniejsza się wraz ze wzrostem odległości od interpolowanych punktów. Większe wartości parametru p mają większy wpływ na wartości najbliższe interpolowanych punktów. Dla 0 <p <1 w(x) ma gładkie szczyty powyżej interpolowanych punktów xi , podczas gdy p> 1 szczyty są ostre. Wybór wartości p jest zatem funkcją stopnia żądanego wygładzenia w interpolacji, gęstości i rozkładu interpolowanych próbek, i maksymalną odległość, przy której każda z próbek może mieć wpływ na otoczenie.

  1. Co to jest blok diagram

Schemat blokowy (ang. block diagram)- jest narzędziem nakierowanym na prezentację kolejnych czynności w projektowanym algorytmie. Realizowane jako diagram, na którym procedura, system albo program komputerowy są reprezentowane przez opisane figury geometryczne, połączone liniami zgodnie z kolejnością wykonywania czynności wynikających z przyjętego algorytmu rozwiązania zadania.

Cechuje je: 1)zasada budowy, 2)elastyczność zapisów, 3)możliwość zapisu z użyciem składu wybranego języka programowania, 4)łatwa kontrola poprawności algorytmu.

Wyróżnia się następujące rodzaje bloków:

a) Blok graniczny

b) Blok wejścia-wyjścia

c) Blok obliczeniowy

d) Blok decyzyjny, warunkowy

e) Blok wywołania podprogramu

f) Blok fragmentu

g) Blok komentarza

h) Łącznik wewnętrzny

i) Łącznik zewnętrzny

  1. Oblicz spadek (nachylenie) korzystając z danych

Przykładowe zadanie: Musimy wskazać obszary o potencjalnym zagrożeniu dla czystości wody w rzece. Założenie dla nachylenia: 2 i 3 kategoria stanowi największe zagrożenie. Ładujemy w ArcMapie katalog np.Wektor2.gdb. W Toolboxie -> Clip (Analysis) W Input Features ->Nachylenia. Clip Features-> Zlewnia. Output Features-> ściezka do swojego katalogu. XY tolerance->1m. Selection->Select By Atributes -> Layers->Clip Nachylenie. Klikamy Get Unique Values I w okienku dajemy “gridecode”=2 or “gridecode” = 3. PPM na clip_nachylenie->selection-> create layer from selected features

  1. Podaj znane Ci dziedziny wykorzystania NMT
    NMT stał się obecnie jednym z podstawowych, samodzielnych produktów geodezyjnych, o szerokim zakresie użyteczności. Można wskazać wiele dziedzin i praktycznych zastosowań NMT:

  1. Wymień i krótko opisz jakie bazy danych NMT są dostępne w Polsce (dokładność) OLA T

  2. Co wiesz o projekcie SRTM

SRTM - Shuttle Radar Topography Mission

Międzynarodowa misja przeprowadzona przez agencje kosmiczne Stanów Zjednoczonych (NASA), Niemiec (DLR) oraz Włoch (ASI), której celem było zebranie z pokładu promu kosmicznego Endeavour danych do opracowania numerycznych modeli terenu (NMT) lądow znajdujących się pomiędzy 56° szerokości geograficznej południowej, a 60° równoleżnikiem szerokości geograficznej północnej. Rezultatem tej misji jest sukcesywnie publikowany od 2001 do 2004 NMT, powszechnie znanych jako SRTM. Była to pierwsza tego typu misja, która dostarczyła tak szczegółowy i jednorodny pod względem dokładności NMT dla niemalże 80% lądów Ziemi.

Produkty misji

Ogólna charakterystyka

Wysokości w SRTM-C odniesione się do geoidy EGM-96, natomiast położenie pikseli zapisane jest względem elipsoidy WGS 84. Wysokości w SRTM-X odniesione są do elipsoidy WGS 84. Pliki posegregowane są w folderach według kontynentów, a ich nazwa odnosi się do współrzędnych geograficznych południowo-zachodniego rogu danego rastra. Przykładowo, współrzędne dla pliku n52e20.hgt to 52°N i 20°E.

SRTM-C (1")

opis: rastrowy numeryczny model terenu o rozdzielczości 1˝ zebrany przy użyciu pasma C,

odpłatność: bezpłatne dla Stanów Zjednoczonych; niedostępny dla innych obszarów (z uwagi na bezpieczeństwo USA),

format plików: HGT (16-bitowy raster, (rzędne zaokrąglona do pełnego metra),

pokrycie przestrzenne jednego pliku: 1° x 1°,

pokrycie przestrzenne całego zbioru: obszar ograniczony równoleżnikami 56°S i 60°N.[6]

SRTM-X (1")

opis: rastrowy numeryczny model terenu o rozdzielczości terenowej 1˝ zebrany przy użyciu pasma X;

odpłatność: 1€/km2),

format plików: HGT ,

pokrycie przestrzenne jednego pliku: 15' x 15',

pokrycie przestrzenne całego zbioru: 40% obszaru ograniczonego równoleżnikami 56°S i 60°N (mniejsze pokrycie wynika z faktu, że dane zbierane były w pasie o szerokości 50 km, a nie 225 km, jak w przypadku pasma C)[6].

SRTM-C (3")

opis: rastrowy numeryczny model terenu rozdzielczości terenowej 3˝ pozyskany przy użyciu pasma C (poprzez uśrednianie/decymację modelu SRTM-C (1"),

odpłatność: bezpłatne,

format plików: HGT,

pokrycie przestrzenne jednego pliku: 1° x 1°,

pokrycie przestrzenne całego zbioru: obszar ograniczony równoleżnikami 56°S i 60°N.[6]

SRTM-C (30")

opis: rastrowy numeryczny model terenu o rozdzielczości terenowej 30˝ uzyskany poprzez uśrednienie wysokości pikseli SRTM-C (3"),

odpłatność: bezpłatne,

format plików: DEM, GIFJPEG,

pokrycie przestrzenne jednego pliku: 40° x 50°,

pokrycie przestrzenne całego zbioru: cała Ziemia[6].

Uwaga SRTM-C (30") został włączony do modelu GTOPO-30.

  1. Opisz plusy i minusy modelu TIN

model triangulacyjny (nieregularna siatka trójkątów) (ang. TIN –Triangular Irregular Network) –model ten zapisuje się w postaci wektorowej. Powierzchnia terenu dzielona jest na trójkąty, których wierzchołki stanowią punkty wysokościowe.

Plusy:

1) zmienna rozdzielczość przestrzenna, pozwalająca na oszczędny zapis danych w miejscach, gdzie rzeźba terenu jest wyrównana i może zostać opisana mniejszą ilością punktów

2) model TIN jest stosunkowo dokładny, ponieważ w nim wykorzystywane są wszystkie punkty charakterystyczne

3) w TIN przechowywane są oryginalne dane pomiarowe, podczas gdy w modelu GRID wysokości w punktach węzłowych przeważnie są już interpolowane

4) pozwala na uwzględnienie linii strukturalnych (grzbietowych i ciekowych)

5) szerokie zastosowanie analitycznych GIS, modelując rzeczywistość geograficzną w sposób zbliżony do jej odbioru przez człowieka i umożliwiając odtwarzanie skomplikowanych relacji topologicznych zachodzących w rzeczywistości

6) pomiary bezpośrednie dzięki, którym powstaje model TIN są bardzo dokładne.

Minusy:

1) stosunkowo duża wielkość pliku danych potrzebnych do zapisu informacji

2) zwiększenie stopnia skomplikowania obliczenia charakterystyk morfometrycznych terenu

3) model TIN głównie to efekt bezpośrednich pomiarów terenowych, które są pracochłonne i kosztowne. Przy pozyskiwaniu punktów należy zwrócić uwagę na to, by dobrze charakteryzowały powierzchnie terenu

  1. Wymień rodzaje funkcji stosowanych w analizach gridowych (opisz)(4 zbiory funkcji), czym się różnią

- lokalne - pozwalają na wykonywanie działań (arytmetycznych, logicznych, kombinacyjnych, relacyjnych, bitwise) na komórkach map rastrowych

- sąsiedztwa - sumują, uśredniają, grupują dane z rastra w zasięgu sąsiedztwa danej komórki (poruszającego sie

sąsiedztwa) aby ukazać je w rastrze wyjściowym np. obliczyć sumę z sąsiedztwa, jego średnią lub wykonać inne

działania

- strefowe - zastosowanie w GISie. Działają na podobnej zasadzie jak funkcje sąsiedztwa z tą różnicą, że komórki

rastra mapy są dzielone na strefy o takich samych (lub podobnych) wartościach w celu wydzielenia obszarów i stref o określonej cesze

- globalne - bardziej skomplikowane funkcje niż strefowe, służą np. do tworzenia buforów oraz interpolacji na

mapach rastrowych

Podane funkcje różnią się zastosowaniem oraz skomplikowalnością i zakresem ich pracy.

  1. Opisz działanie funkcji con (conditional)

Con(Warunek,Prawda,Fałsz).

Warunek=> podaje sie warunek w SQLu, np. ze jakąś wartość danej warstwy (np. dla budynków kondygnacje >0)

Prawda=> kiedy sprawdzany obiekt spełnia warunek, to wtedy dzieje się to co jest zapisane w prawdzie( czyli np. jest kolorowany na czerwony, jest zmieniany na kawałek rastra itd.)

Fałsz=> jeśli obiekt nie spełnia warunku, to sie dzieje to co jest zdefiniowane w "Fałsz", ( czyli np. jest kolorowany na czerwony, jest zmieniany na kawałek rastra itd.)

  1. Podaj wynik działania funkcji con dla poniższych danych

Dane

Klasa Budynek

NrEwidencyjny LiczbaKondygnacji Funkcja Właściciel
1 2 m Ja
2 2 m Ty
3 3 i Oni
4 4 i Oni

Con(„FUNKCJA”=m, właściciel=Wacław)

Wynik

NrEwidencyjny LiczbaKondygnacji Funkcja Właściciel
1 2 M Wacław
2 2 M Wacław
3 3 I Oni
4 4 I Oni
5 2 K Andrzej

con(„LiczbaKondygnacji”=2,Funkcja=”m”,Właściel=”Bernard”)

NrEwidencyjny LiczbaKondygnacji Funkcja Właściciel
1 2 m Wacław
2 2 m Wacław
3 3 i Bernard
4 4 i Bernard
5 2 m Andrzej
  1. Wymień znane atrybuty topograficzne obliczane w analizach rastrowych

-nachylenie

-ekspozycja

-krzywizna

-topograficzny indeks wilgotności TWI

-indeks SPI

-indeks LS

-promieniowanie słoneczne dochodzące do ziemi

  1. Zastosowania modelu anu dem(?), co jest zapewnione w tym modelu

ANUDEM jest to połączenie rastrowe (oryginalna DEM) i wektorowe (strumień i wodnego granicy) danych w celu tworzenia "hydrologicznych skorygowań" DEM. W tym programie, strumienie skutecznie wyciągają wykop do gruntu (i jezior) i ich powierzchni ponad ich podstawowych komórek elewacji. Podobnie cyfrowe granice zlewni działają jak ściany pchając się do komórek bazowych wysokości wyższej. W efekcie jest nowym DEM, który korzysta z tych okopów i ściany do spuszczania wody najbardziej odpowiedni dla torem procesu.

ANUDEM zapewnia dobry kształt i strukturę melioracji oblicza NMT w pięciu głównych sposobach:

mposing warunkiem wykonania odwodnienia na wartości zamontowanych siatki, które automatycznie są usuwane fałszywe wykopy. To eliminuje jedną z głównych słabości sieci elewacji wytworzonych przez techniki interpolacji celu. Znacznie poprawia użyteczność DEM z hydrologiczn aplikacją. Można również pomoc w skutecznym wykrywania błędów danych.

Włączenie ograniczenia odwadniania powierzchniowego bezpośrednio z wejścia usprawnienia danych.

Wyznaczanie grzbietów i strumieni danych konturu automatycznie z wejścia liniowego. Osiąga się to poprzez wstawienie krzywoliniowym grzbietu i usprawnia związane z narożników linii konturu, który wskazuje, gdzie te linie krzyżują kontury elewacji.

Zniszczenie DEM przez linie Urwisko danych.

Zapewnienie zgodności granic jezioro alewacji , podłączenia usprawnia i sąsiednimi punktami DEM.

  1. Jak wykorzystuje się funkcje reklasyfikacji w analizach rastrowych

Reklasyfikacja - generalizacja informacji, pogrupowanie informacji z warstwy źródłowej

            Operacje reklasyfikacji wykorzystujemy do zamiany jednych wartości innymi. Informacje na mapach rastrowych zapisane są w każdym pikselu (najczęściej są to wartości zapisane w postaci liczb całkowitych lub rzeczywistych).

W odniesieniu do wartości całkowitych przyjęło się je określać jako klasy. Załóżmy, że naszą mapę zawierającą dane o wysokości terenu chcemy podzielić na trzy podstawowe grupy:

         obszary położone nisko (<1300 m n.p.m.),

         obszary przejściowe (1301÷1600)

         obszary najwyższe (>1601).

Taką operację nazywamy reklasyfikacją

  1. Dnia 4.03.2010 weszła w życie ustawa o infrastrukturze informacji przestrzennej. Kto prowadzi publicznie dostępną ewidencję zbiorów i usług danych dotyczących infrastruktury

Art., 7 Organy administracji prowadzą rejestry publiczne, które zawierają ewidencje zbiorów i usług danych dotyczących infrastruktury, wprowadzają zmiany techniczne zapewniające interpolacyjność zbiorów i usług danych przestrzennych oraz harmonizacje tych zbiorów.

  1. Jakie usługi danych przestrzennych przewiduje ustawa dla administracji (5)

Art. 9. 1. Organy administracji prowadzące rejestry publiczne, które zawierają zbiory związane z wymienionymi w załączniku do ustawy tematami danych przestrzennych, tworzą i obsługują, w zakresie swojej właściwości, sieć usług dotyczących zbiorów i usług danych przestrzennych, do których zalicza się usługi:

1) wyszukiwania, umożliwiające wyszukiwanie zbiorów oraz usług danych przestrzennych na podstawie zawartości odpowiadających im metadanych oraz umożliwiające wyświetlanie zawartości metadanych;

2) przeglądania, umożliwiające co najmniej: wyświetlanie, nawigowanie, powiększanie i pomniejszanie, przesuwanie lub nakładanie na siebie zobrazowanych zbiorów oraz wyświetlanie objaśnień symboli kartograficznych i zawartości metadanych;

3) pobierania, umożliwiające pobieranie kopii zbiorów lub ich części oraz, gdy jest to wykonalne, bezpośredni dostęp do tych zbiorów;

4) przekształcania, umożliwiające przekształcenie zbiorów w celu osiągnięcia interoperacyjności zbiorów i usług danych przestrzennych;

5) umożliwiające uruchamianie usług danych przestrzennych.

  1. Jakie dane obligatoryjne zawiera Krajowy System Informacji o Terenie (KSIT) według rozporządzenia ministra rozwoju regionalnego i budownictwa z 12.07.2001

Krajowy system informacji o terenie, zwany dalej "systemem", zawiera dane obligatoryjne dotyczące:
1) państwowego systemu odniesień przestrzennych,
2) rejestru granic Rzeczypospolitej Polskiej oraz granic jednostek zasadniczego trójstopniowego podziału terytorialnego państwa,
3) osnów geodezyjnych,
4) ewidencji gruntów i budynków,
5) geodezyjnej ewidencji sieci uzbrojenia terenu,
6) obiektów topograficznych.
2. System w części fakultatywnej może być uzupełniany o dane pozwalające użytkownikom na definiowanie własnych baz danych, innych niż wymienione w ust. 1.

  1. Kto zakłada i prowadzi zasób dla kraju, województwa i powiatu w KSIT wg rozporządzenia z 12.07.2001

§ 2. 1. System zakładają i prowadzą:

1) Główny Geodeta Kraju - dla obszaru kraju,

2) marszałek województwa - w województwie,

3) starosta lub prezydent miasta - w powiecie lub odpowiednio w mieście na prawach powiatu.

  1. Co jest prowadzone w ramach KSIT na szczeblu powiatu wg rozporządzenia

§ 5. 1. Dla obszaru powiatu zakłada się i prowadzi:

1) bazę danych szczegółowych osnów geodezyjnych,

2) bazę danych ewidencji gruntów i budynków,

3) bazę danych geodezyjnej ewidencji sieci uzbrojenia terenu,

4) bazę danych obiektów topograficznych objętych zakresem treści mapy zasadniczej,

5) bazę metadanych, obejmujących istniejące bazy danych i systemy, w odniesieniu do systemów informacji przestrzennej już funkcjonujących i danych o terenie tworzonych na obszarze powiatu, zawierającą informacje dotyczące: nazwy systemu, administratora lub dysponenta, zakresu tematycznego danych, dostępnego formatu danych, stanu aktualności, formy dostępu i statusu prawnego systemu.

  1. Jak działa metoda interpolacji naturalnego sąsiedztwa

Interpolacja naturalnego sąsiedztwa (Natural Neighbor) jest metodą interpolacji przestrzennej, opracowanej przez Robina Sibsona. Wskazuje położenie wybranej wartości pośredniej między wartościami punktów odniesienia, opierając się na diagramie Voronoi’a.  Posiada tę przewagę nad prostszymi metodami interpolacji, takimi jak najbliższe sąsiedztwo, że zapewnia bardziej płynne przybliżenie podstawowych "prawd" funkcji. Najmniej zmienia oryginalne wartości, a jednocześnie stosunkowo szybko pozwala przetwarzać duże zbiory danych.

Wybór „naturalnych sąsiadów” – są to punkty pomierzone, których wieloboki są naruszone przez wielobok wyznaczanego punktu. Metoda ta stosuje diagram Voronoi’a do obliczenia wagi „sąsiadów”, wykorzystując do tego obszar nowego wielokąta, który mieści się w obszarze każdego oryginalnego sąsiedniego wielokąta. Wagi przyjmują wartości 0-1, jeśli punkt nie jest naturalnym sąsiadem otrzymuje wagę 0.

  1. Opisz proces analizy danych w krigingu

Kriging – w metodzie tej przyjmuje się istnienie pewnej zależności pomiędzy oddaleniem punktów a stopniem ich podobieństwa wyrażonej semiwariogramem. Model ten przyjmuje zależność przestrzenną wyrażoną trendem kierunkowym wzrostu lub spadku wartości cechy pomiędzy punktami pomiarowymi do obliczeń wartości punktów interpolacji.

  1. Co to jest semiwariogram /zastosowania

Semiwariogram – jest to narzędzie umożliwiające wyrażenie zależności pomiędzy odległością punktów, a stopniem ich podobieństwa. Jest dzięki temu stosowany w jednej z metod interpolacji – krigingu. Model oparty na semiwariogramie przyjmuje zależność przestrzenną wyrażoną trendem kierunkowym wzrostu lub spadku wartości cechy pomiędzy punktami pomiarowymi do obliczeń wartości punktów interpolacji.

  1. Na czym polega trening sieci neuronowej z nauczycielem; podaj zastosowanie w geomatyce

Trening sieci neuronowej

  1. Opisz krótko metodę automatów komórkowych, podaj przykład zastosowania w geomatyce („gra w życie”)

Metoda automatów komórkowych polega na zastąpieniu zbioru skomplikowanych równań opisujących zachowanie się układów fizycznych, przestrzenią komórek opisujących dany układ z jednoznacznie określonymi regułami interakcji między nimi. Poprzez założenie oddziaływania tylko z najbliższymi sąsiadami pomijane są wpływy oddziaływań dalekiego zasięgu.

Automat komórkowy to system składający się z pojedynczych komórek, znajdujących się obok siebie. Ich układ przypomina szachownicę lub planszę do gry. Każda z komórek może przyjąć jeden ze stanów, przy czym liczba stanów jest skończona, ale dowolnie duża. Stan komórki zmieniany jest synchronicznie zgodnie z regułami mówiącymi, w jaki sposób nowy stan komórki zależy od jej obecnego stanu i stanu jej sąsiadów (równoległość).

Zastosowanie:

-symulacje biologiczne

-zachowanie się gazów w termodynamice

-przepływ cieczy przez materiały porowate

-prognozowanie przebiegu pożarów lasu-badanie tworzenia się korków na autostradzie

- symulacja ruchów mas śnieżnych

- modelowanie terenu w oparciu o rozproszone punkty pomiarowe.

„GRA W ŻYCIE”

2 stany komórki:"1" (jest żywa, szara) i "0"(martwa , biała).

1.Jeśli w otoczeniu komórki (nie licząc jej samej) są trzy komórki żywe, to w kolejnym kroku ta komórka jest żywa

2.Jeżeli w jej otoczeniu są dwie komórki żywe, a ona sama również jest żywa, to pozostaje żywa w kolejnym kroku

3.W pozostałych przypadkach jest ona martwa w kolejnym kroku

Gra toczy się na nieskończonej planszy (płaszczyźnie) podzielonej na kwadratowe komórki. Każda komórka ma ośmiu "sąsiadów", czyli komórki przylegające do niej bokami i rogami. Stany komórek zmieniają się w pewnych jednostkach czasu. Stan wszystkich komórek w pewnej jednostce czasu jest używany do obliczenia stanu wszystkich komórek w następnej jednostce. Po obliczeniu wszystkie komórki zmieniają swój stan dokładnie w tym samym momencie. Stan komórki zależy tylko od liczby jej żywych sąsiadów.

  1. Co to jest kroswalidacja 

Sprawdzian krzyżowy (lub walidacja krzyżowa, kroswalidacja, sprawdzanie krzyżowe) - metoda statystyczna, polegająca na podziale próby statystycznej na podzbiory, a następnie przeprowadzaniu wszelkich analiz na niektórych z nich (zbiór uczący), podczas gdy pozostałe służą do potwierdzenia wiarygodności jej wyników (zbiór testowy, zbiór walidacyjny).

Teoria sprawdzianu krzyżowego została zapoczątkowana przez Seymoura Geissera. Pozwala ona bronić się przed tzw. błędem trzeciego rodzaju i właściwie ocenić trafność prognostyczną modelu predykcyjnego. Bez jej zastosowania nie można być pewnym, czy model będzie dobrze działał dla danych, które nie były wykorzystywane do jego konstruowania

Prosta walidacja

Jest to najbardziej typowy rodzaj walidacji, w którym próbę dzieli się losowo na rozłączne zbiory: uczący i testowy. Zwykle zbiór testowy stanowi mniej niż 1/3 próby. Niektórzy nie zaliczają tego typu walidacji do metody sprawdzianu krzyżowego.

K-krotna walidacja

W tej metodzie, oryginalna próba jest dzielona na K podzbiorów. Następnie kolejno każdy z nich bierze się jako zbiór testowy, a pozostałe razem jako zbiór uczący i wykonuje analizę. Analiza jest więc wykonywana K razy. K rezultatów jest następnie uśrednianych (lub łączonych w inny sposób) w celu uzyskania jednego wyniku.

Leave-one-out

Jest to odmiana walidacji K-krotnej, gdy N-elementowa próba jest dzielona na N podzbiorów, zawierających po jednym elemencie. Stosowana często dla małych zbiorów danych.

Kroswalidacja stratyfikowana

Nie jest to w zasadzie osobna odmiana kroswalidacji, a odnosi się do wszystkich jej rodzajów wymienionych powyżej. Kroswalidacja stratyfikowana (ang. stratified cross-validation) polega na takim podziale obiektów pomiędzy zbiór treningowy i zbiór testowy, aby zachowane były oryginalne proporcje pomiędzy klasami decyzyjnymi. Zastosowanie kroswalidacji stratyfikowanej jest szczególnie ważne w przypadku, gdy w oryginalnym zbiorze danych występują znaczne dysproporcje w liczebności przykładów należących do poszczególnych klas decyzyjnych.


Wyszukiwarka

Podobne podstrony:
Pytania na ko
pytania na ko
Genetyka pytania na zaliczenie ko cowe
Medycyna Katastrof pytania na egzamin (opracowane)
pytania na kolos z klinicznej, psychiatria i psychologia kliniczna
Długi pytania na egzamin, PWTRANSPORT, semIII, Elektrotechnika II
pytania na egzam, MiBM, semestr II, MzOC, Inne
10, wojtek studia, Automatyka, studia 2010, obrona inz, Pytania na obrone, brak tematu , dyplomowka
Pytania na egazmin, studia Pedagogika Resocjalizacja lic, Działalność pożytku publicznego
Pytania na kolokwium eksploatacja, PWr Energetyka, VII semestr, Eksploatacja Świetochowski
zoologia pytania na egzamin, Leśnictwo, zoologia
pytania na gospodarkę, szkoła
pytania na zal - zgniot i rekrystalizacja, Materiały ze studiów, Nauka o materiałach, Zgniot i rekry

więcej podobnych podstron