7. Używa algorytmy wyboru właściwego testu statystycznego.
Sposób weryfikacji:
Praca pisemna dotycząca wykładu i zajęć laboratoryjnych.
Literatura:
1. H. Blalock: Statystyka dla socjologów. PWN 1977, Warszawa.
2. C. Watała: Biostatystyka wykorzystanie metod statystycznych w pracy badawczej w naukach biomedycznych. Medica Press 2002.
3. G. Ferguson, Y. Takane: Analiza statystyczna w psychologii i pedagogice. PWN 1999, Warszawa.
4. J. Guilforg: Podstawowe metody statystyczne w psychologii i pedagogice. PWN 1964, Warszawa.
Punkty ECTS: 10 pkt.
Opis przedmiotu:
Nasza cywilizacja, a w szczególności duże firmy muszą sobie radzić z ogromną ilością danych. Są to dane pochodzące z baz danych, hurtowni danych oraz systemu WWW i zawierają informacje m.in. o klientach i wytwarzanych produktach. Eksploracja danych jest dziedziną informatyki, której zadaniem jest odkrywanie użytecznej wiedzy z danych i obejmuje metody i algorytmy automatycznej ich analizy. Ułatwia tworzenie promocji na podstawie koszyków zakupów, tworzenie systemu rekomendacji oraz skutecznych reklam w systemie WWW. Celem przedmiotu jest wprowadzenie do metodyki CRISP-DM i podstawowych technik eksploracji danych.
Treść kształcenia:
1. Co to jest eksploracja danych?
2. Omówienie metodyki CRISP-DM.
3. Podstawy języka R i pakietu Rattle.
4. Praca z danymi w Rattle i R:
(a) nazewnictwo,
(b) jakość danych,
(c) import danych z różnych źródeł (CSV, ARFF, ODBC, SQLite, R Data),
(d) eksploracja danych (podsumowywanie, wykresy, analiza korelacji),
(e) przekształcanie danych (normalizacja, imputacja, czyszczenie).
5. Tworzenie modeli:
(a) Grupowanie,
12