WYKŁAD IV (21.03.07)
Miary zmienności:
Wariancja (wzór 4.1.) - jeżeli chodzi o pojęcie wariancji, osobą najważniejszą jest sir R.A. Fisher; możemy spróbować zrozumieć, co ten wzór oznacza; wzór składa się z 3 elementów; oznaczamy go często symbolem sigma do kwadratu, w matematyce czasami D do kwadratu(X). Składa się z licznika i mianownika, czyli ułamka. Ważny jest licznik. Cały licznik na wariancję, czasami zapisujemy jako SS, co jest skrótem „sum of squars”. Licznik to suma kwadratów, suma kwadratów odchyleń od średniej. Na wielkość wariancji mają wpływ wyniki istotnie wyższe i istotnie niższe od średniej arytmetycznej.
Wariancja jest średnią kwadratów odchyleń od średniej.
S do kwadratu(c) = 0 [wariancja z jednej liczby zawsze jest równa 0; c - dowolna liczba]
Jeżeli do wszystkich liczb w zbiorze dodamy taką samą wartość, to wariancja nie ulega zmianie: s do kwadratu(X + c) = s do kwadratu(X).
Mam dwie zmienne, które są od siebie niezależne, to wariancja sumy tych dwóch zmiennych będzie równa wariancji obydwu tych zmiennych oddzielnie. Np. wyniki na egzaminie kobiet i mężczyzn są od siebie niezależne, jeżeli policzę wariancję wśród kobiet i mężczyzn, to tak jakbym policzył wariancję z dodanych do siebie parami wyników kobiet i mężczyzn (tylko po co je dodawać do siebie?).
Zasada dekompozycji wariancji, inaczej zasada rozkładania wariancji całkowitej na wariancje składowe: jeżeli zbiór liczb podzielimy na jakieś podzbiory, to wariancja między średnimi w tych podzbiorach powiększona o średnią arytmetyczną z wariancji w tych podzbiorach równa jest całkowitej wariancji w całym zbiorze danych.
.
Wariancja między średnimi jest miarą tego, na ile między sobą różnią się średnie arytmetyczne w zbiorach. Wariancje dla poszczególnych zbiorów są miarami zmienności wewnątrz zbiorów. Zróżnicowanie między zbiorami jest ważniejsze niż zróżnicowanie w środku tych zbiorów. Jeżeli zbiory się istotnie różnią między sobą, to widoczna jest różnica między średnimi.
Odchylenie standardowe - jest zawsze pierwiastkiem z wariancji. Jest zawsze wartością dodatnią
Po co jest wariancja - nierówność Pafnucego Czebyszewa (1821-1894).
Wariancja jest najlepszą miarą zmienności (co można nawet udowodnić matematycznie)
Prawdopodobieństwo, że w zbiorze danych pojawi się liczba większa lub mniejsza od średniej o dwa odchylenia standardowe lub więcej jest co najwyżej równe ¼ .
Nierówność Czebyszewa mówi, ze w miarę jak oddalają się wyniki od średniej, bardzo istotnie zmniejsza się prawdopodobieństwo znalezienia tych wyników.
Statystyczna kontrola jakości - np. Motorola. Prawdopodobieństwo, że coś się zepsuje jest nie większe niż 1 do 9 (zasada trzech sigm).
Wyniki rzutu kostką: 1, 2, 3, 4, 5, 6
Średnia: 3,5
Odchylenie standardowe: 1,7
Dodaję do średniej dwa odchylenia standardowe. Wychodzi mi to, co jest mało prawdopodobne do wyrzucenia. 3,5+2*1,7= 6,9
Średni iloraz inteligencji: 100
Odchylenie standardowe: 15
Aby uznać kogoś za upośledzonego, musi on mieć iloraz inteligencji mniejszy o dwa odchylenia standardowe, czyli 70. ponieważ: 100 - 2x15 = 70 (aby zdiagnozować upośledzenie umysłowe muszą być spełnione także inne warunki poza niskim IQ) geniusz: 3 odchylenia standardowe więcej.
Odchylenie standardowe podzielone przez średnią jest miarą zmienności niezależnie od rodzaju danych.
W losowaniu LOTTO liczby od 1 do 5 padają najczęściej :)
S. Dehaene: podaj ceny 20 często kupowanych produktów. Poprosili ludzi o podanie tych samych cen, ale w euro. Dla produktów rzadko kupowanych różnica miary zmienności nie jest aż tak wielka, ale inaczej jest z produktami kupowanymi często. Chodzi o porównanie cen w escudo (przed euro) i cen tych samych produktów w euro. Współczynnik zmienności dla euro był na początku dużo większy, co oznacza, że Portugalczycy mieli mniejszą wiedzę na temat cen produktów po wprowadzeniu euro.
Odchylenie przeciętne - średnia arytmetyczna z odchyleń wyników od średniej. ... od każdego wyniku odejmujemy średnia, dodajmy i ... To odchylenie stosowane jest rzadko.
Wzór 4.4. Odchylenie ćwiartkowe - 3 kwartyl - 1 kwartyl dzielone przez 2. Czasami mówi się też o zakresie kwartyli - wzór bez mianownika. (Q3 - Q1 = 2)
Wzór 4.6. Moment centralny rzędu k (tego nie trzeba umieć !!!). moment centralny rzędu 3 może być ujemny i nie może być dodatni. Moment centralny rzędu 4 jest zawsze dodatni.
Wzór 4.7. Miara skośności - jeżeli jest ujemny, to jest dużo więcej wyników mniejszych od średniej; pokazuje jaki jest cały rozrzut wyników.
Wzór 4.8. Miara kurtozy - oparta na momencie centralnym 4; zawsze dodatni; jest miarą tego czy jest dużo wyników w obrębie średniej czy nie.
Standaryzacja wyników: w każdym zbiorze danych można przedstawić wyniki w postaci wyników standaryzowanych, oznaczając je symbolem z i wyrażając je za pomocą różnicy między wynikiem i średnią wyrażoną przy pomocy wielkości odchylenia standardowego. Po zamianie wyników na wyniki standaryzowane wynik równy średniej jest zawsze równy zero.
Zakończyliśmy statystykę opisowa !!!
Nigdy nie należy przedstawiać wyników pojedynczych osób.
Wyniki należy przedstawiać w takiej kolejności, w jakiej były podawane hipotezy badawcze.
Zawsze należy przedstawiać średnią arytmetyczną lub procenty i dodać jakąś miarę rozrzutu.
W tekście raportu nie należy wymieniać kolejno więcej niż trzech liczb (od 3 do 12 - w tabeli; więcej niż 12 średnich - na wykres).
Zaznaczamy, które średnie są wyższe, które są niższe.
Nie zostawiaj w SPSSie wykresów takich, jakie one są. Musi mieć tytuł, numer, etc. Wykres musi mieć opisane osie.
Jeżeli mamy średnie w tekście, to nie powinno ich być na wykresie.
Wykres powinien być samotłumaczący się - patrzysz i wiesz o co biega.
W tekście zawsze należy odwołać się do numeru wykresu.
Nie można pisać np. wykres powyżej na lewo, itp.
Tabele: na końcu nie ma kropki - w tytule tabeli. Każda składa się z trzech części. Wyniki podobne do siebie pokazujemy obok siebie.
D.R. & J.K.