Wymagania pierwszego projektu, Informatyka SGGW, Semestr 4, Metody analizy danych


Projekt pierwszy obejmuje takie zagadnienia jak porządkowanie według pewnej cechy bezpośrednio nieobserwowalnej i wizualizacja obiektów opisanych wieloma cechami oraz ich podział na jednorodne grupy. Na ocenę dobra i bardzo dobrą muszą być co najmniej dwa punkty w czasie obejmujące te obiekty opisane wieloma cechami.

Zawartość:

Na początku (np. oddzielny arkusz Excela lub Worda) ma zawierać krótkie podsumowanie pracy na 1-2 stron które ma odnośniki do poszczególnych etapów analizy

Co wchodzi w skład analizy?

  1. Opis celu czyli z jakimi obiektami mamy do czynienia i według czego chcemy je uporządkować.

  2. Opis danych wejściowych oraz źródła ich pozyskania

  3. Budowa zmiennych wskaźnikowych (tzn. zmiennych których wartości dotyczące poszczególnych obiektów są porównywalne. (np. PKB na osobe a nie np. na województwo czy kraj)

  4. Uzasadnienie dlaczego te a nie inne zmienne bierzemy do analizy (merytoryczny wybór)

  5. Wstępna analiza danych (chodzi o elementy odstające i wychwycenie zmiennych które są prawie liniowo zależne)

  6. normalizacja danych (co najmniej dwoma sposobami) - w przypadku gdy mamy dwa lub więcej punktów czasowych to normalizacja powinna być wspólna dla całego okresu, a nie robiona dla każdego okresu oddzielnie)

  7. Ustalenie wag

  8. Stworzenie wskaźnika syntetycznego lub innego służącego do porządkowania obiektów. (koniecznie dla co najmniej dwu normalizacji oraz musza to być różne wagi w przypadku wskaźników syntetycznych oraz odległości od wzorca lub/i dwu wzorców

  9. Dokonać podziału na skupienia według wskaźników porządkujących - czyli wykorzystując trzy progi (np. średnia - odchylenie, średnia, średnia + odchylenie bądź inny podział omawiany na wykładzie)

  10. Dokonać wizualizacji zbioru co najmniej dwoma sposobami

  11. Dokonać podziału zbioru na skupienia w oparciu o co najmniej dwie miary niepodobieństwa obiektów i kilka różnych sposobów obliczania odległości pomiędzy zbiorami - robimy to przy użyciu pakietu statystycznego lub programujemy

  12. Zestawiamy podziały oraz porządki i wyciągamy wnioski. W szczególności jeśli mamy dwa lub więcej punktów czasowych to pytanie o zmiany wartości wskaźnika porządkującego (wartość średni i rozproszenie - czy rosną maleją wraz ze zmianą czasu.

Uwaga! Nie chcę papieru tylko w arkuszu EXCELA skopiowane z pakietów statystycznych wyliczenia lub wytworzone w samym EXCELU. Ale musi być z głową podzielone na kartki aby w podsumowaniu można było zręcznie czytelnika odsyłać.



Wyszukiwarka

Podobne podstrony:
Braki danych, Informatyka SGGW, Semestr 4, Metody analizy danych
Prof Kukuła tekst HD, Informatyka SGGW, Semestr 4, Metody analizy danych
Informatyka-MAD Wszczesny, Informatyka SGGW, Semestr 4, Metody analizy danych, Wykład 1
pd1, Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza
pd 2, Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza
I kol I, Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza
pd 9.11.2009, Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza
pd 23.01, Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza
PD 5 ZROBIĆ OBOWIĄZKOWO na 6, Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza
pd podstawy całka nieoznaczona, Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza
pd 9.11.2009(2), Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza
d4 ciągi liczbowe 2, Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza
całka nieoznaczona, Informatyka SGGW, Semestr 2, Analiza, Analiza matematyczna, analiza

więcej podobnych podstron