WYKŁAD II (07.03.07)
Dokończenie wykładu I:
Cecha - może być nią dowolna charakterystyka zachowania się człowieka; każdy przymiotnik może być cechą.
Zmienna - każda cecha, przyjmuje co najmniej 2 wartości, np. płeć.
Pomiar przypisywanie wartości liczbowych wartościom zmiennej według jakiejś ustalonej zasady.
Skala stosunkowa - pomiary dość często mają charakter ciągły, tzn. pomiar nieskończenie gęsty, np. pomiar czasu (mierzymy z dokładnością, np. co do minuty).
Większość pomiarów w praktyce na skali stosunkowej ma charakter przedziałowy, (nie mylić ze skalą przedziałową) np. pomiar czasu z dokładnością do jednostki (dokładność pomiaru zależy od jednostki pomiarowej) - z dokładnością podaną na jednostce.
Statystyki opisowe - miary liczbowe, które opisują tendencję w badanej grupie.
Indeksowanie i sumowanie.
W statystyce najprościej jest posługiwać się symbolami.
Wielkie litery oznaczają zbiory danych, np.:
A - to możliwe wyniki rzutu kostką i A = {1,2,3,4,5,6}
B - to zbiór wyników rzutów kostką i B = {4,1,4,1,3}
Wszystkie dane, które mamy w zbiorze {4,1,4,1,3} numerujemy. Czyli będzie to wyglądać następująco: 4 przypiszemy 1; 1 przypiszemy 2; 4 przypiszemy 3; 1 przypiszemy 4; 3 przypiszemy 5. Te przypisane cyfry, to indeksy = i.
Σ - oznacza sumę (należy dodawać wszystkie liczby od indeksu zaczynającego się jeden do indeksu n.
{ } - zbiór danych jest skończony i zawiera n elementów, włącznie z pierwszym i ostatnim.
X1 - dana liczbowa oznaczana jako pierwsza w zbiorze.
Średnia arytmetyczna - suma wszystkich obserwacji w zbiorze podzielona przez liczbę tych obserwacji.
X = {1,2,3,4,5,6}
x = średnia arytmetyczna (czasami oznaczamy jako m).
Średnia arytmetyczna to jest to, co mamy zapisane we wzorze. Nie zawsze taka liczba może występować w zbiorze, np. średnia rzutu kostką 3,5 a na kostce nie mamy 3,5.
Ciekawostka: średnia waga mózgu: 283,13 kg u ssaków. (ale nie u wszystkich, tylko u tych, których dane zostały uwzględnione w badaniu czasu snu)
Średnia arytmetyczna może być wartością mylącą, jeżeli w zbiorze występują dane istotnie większe lub mniejsze od pozostałych.
Potoczna, statystyczna (matematyczna) i geometryczna interpretacja średniej.
Geometryczna średnia - możemy ją traktować jako punkt podparcia na pewnej wadze.
Średnia ważona - średnia ze średnich arytmetycznych (wzór w e-learningu)
Kiedy duże „N”, a kiedy małe „n”? - kiedy jest jeden zbiór danych, raczej „n”, kiedy zbiorów danych jest kilka, raczej „N”.
ZAWSZE NALEŻY PODAWAĆ ŚREDNIE ARYTMETYCZNE W BADANYCH GRUPACH, PODAJĄC WYNIKI.
Mediana - statystyka opisowa; taka wartość w zbiorze danych, poniżej i powyżej której znajduje się połowa (50%) wszystkich obserwacji; gdy zbiór danych zawiera nieparzystą wartość elementów, to medianą jest liczba środkowa, np.
1, 2, 3, 4, 5, 6, 7 -> mediana = 4
Jeśli zbiór danych zawiera parzystą liczbę elementów, wtedy medianą jest średnia arytmetyczna z dwóch środkowych elementów (wartości), np.
1, 2, 3, 4, 5, 6 -> mediana = (3 + 4)/2 = 3,5
Mediany się nie oblicza, tylko się ją wyznacza. Przed jej wyznaczeniem trzeba uporządkować zbiór w kolejności rosnących lub malejących. Wyznaczenie mediany jest przydatne zwłaszcza, gdy w zbiorze danych występują wartości skrajne, które są wyraźnie mniejsze lub wyraźnie mniejsze od pozostałych
Mediana (moda) - wartość, która w zbiorze danych pojawia się najczęściej; czasem w jednym zbiorze danych może być więcej niż jedna modalna.
Rozpiętość - różnica pomiędzy wartością maksymalną a minimalną w zbiorze danych. Wzór: R = Xmax. - Xmin.; Czasami rozpiętość oblicza się wg wzoru: R = X max. - Xmin. + 1 (wtedy wartość ta oznacza liczbę możliwych do uzyskania wyników - inaczej liczbę pozycji skali pomiarowej „zajętych” przez dane)
Statystyki pozycyjne (zbiór danych dzielą na różne liczby podzbiorów) - kwartyle - na cztery , decyle - na dziesięć , centyle - na sto i inne kwantyle.
Kwartyl pierwszy - wartość w zbiorze danych poniżej której znajduje się ¼ wszystkich obserwacji.
Drugi kwartyl - inaczej mediana; wartość poniżej której znajduje się połowa obserwacji.
Trzeci kwartyl - wartość poniżej której znajduje się ¾ obserwacji a poniżej ¼ .
Kwartyle dzielą zbiór danych na 4 części. Jak się je wyznacza? - najpierw liczymy medianę, a potem tak jakbyśmy liczyli medianę w pierwszej i drugiej połowie danych. jeżeli liczba danych w całym zbiorze jest nieparzysta. to wartość środkowa (mediana) jest uwzględniana przy obliczaniu obu kwartyli.
Przykład
A = {1,2,3,4,5,6,7,8,9}
mediana - 5
pierwszy kwartyl wyznaczamy ze zbioru: 1,2,3,4,5 - Q1 = 3,
trzeci kwartyl wyznaczamy ze zbioru 5,6,7,8,9 - Q3 = 7
Decyle - wartości w zbiorze pomiarowym, które dzielą go na 10 równych części.
Centyle - dzielą zbiór danych na 100 równych podzbiorów.
Twoje dziecko ma 90 centyl wzrostu - jest wyższe od 90% od innych i niższe od 10%.
Każdą analizę danych należy rozpocząć od wykresu, a najlepiej od histogramu lub wykresu rozrzutu. Standardowo w pakietach statystycznych histogramy są grupowane dla danych grupowanych w kategorii.
Histogram - wszystkie wyniki dla kategorii.
Wykres rozrzutu - możemy wyrzucać wyjątkowo wysokie dane, które zakłócają nasz wykres. Dzięki temu reszta danych jest rozłożona równomiernie na wykresie.
Ciekawostka: nietoperz śpi około 18 godzin na dobę.
Bezrobocie w ubiegłym miesiącu spadło 1%.
Bezrobocie w ubiegłym miesiącu spadło o 1 punkt procentowy.
Przykład
Liczba osób zdolnych do pracy - 1000, bezrobocie - 10% czyli 100 osób.
Jeżeli bezrobocie spadnie o 1% to spadnie o 1% z liczby bezrobotnych, czyli o 1% razy 100 osób = 1 osoba. - bezrobotnych jest 99 osób.
Jeżeli bezrobocie spadnie o 1 punkt procentowy to spadnie z 10% do 9% z całej liczby zdolnych do pracy czyli bezrobotnych będzie 9% razy 1000 = 90 osób.
Zmiana o punkt procentowy oznacza zmianę wskaźnika procentowego w stosunku do wcześniejszej wartości.