Statystyka w badaniach. Opis statystyczny struktury danych. część 2
Urszula Augustyńska
Opis statystyczny struktury zbiorowości cz.2
Asymetria mówi do nas,
czy jest równo po obu stronach.
Asymetria
charakteryzuje równomierność (a raczej brak równomierności) rozproszenia danych wokół
przeciętnej.
Określenie tendencji centralnej i zmienności rozkładu analizowanej zmiennej nie wyczerpuje opisu tegoż rozkładu. Czasem interesuje nas nie tylko wielkość rozproszenia lecz również na ile rozproszenie danych wokół przeciętnej jest równomierne. Jedną z miar asymetrii rozkładu jest współczynnik asymetrii A.
Gdy rozkład jest symetryczny współczynnik asymetrii A przyjmuje wartość zero (A=0).
Wartość dodatnia (A>0), wskazuje na asymetrię prawostronną. Wartość ujemna współczynnika (A<0), na asymetrię lewostronną. Większa wartość bezwzględna współczynnika odpowiada silniejszej asymetrii.
A = 0
A>0
A<0
M=Me=Mo
Mo<Me<M
M<Me<Mo
Rozkład symetryczny
Rozkład prawostronnie
Rozkład lewostronnie
asymetryczny
asymetryczny
Rys.25. Rozkład symetryczny, prawostronnie asymetryczny i lewostronnie asymetryczny W przypadku rozkładów umiarkowanie asymetrycznych jako przybliżoną miarę asymetrii można przyjąć różnicę między średnią arytmetyczną M a modą Mo, nazywaną wskaźnikiem skośności: M –
Mo.
Rozkład jest symetryczny, gdy M – Mo = 0.
Rozkład jest prawostronnie asymetryczny, gdy M – Mo > 0.
Rozkład jest lewostronnie asymetryczny, gdy M – Mo < 0.
Bezwzględny współczynnik skośności określa kierunek asymetrii, ale nic nie mówi o jej sile.
Zarówno kierunek jak i siłę asymetrii wskazuje względny współczynnik skośności AS: M − Mo
A =
S
,
S
gdzie M – średnia arytmetyczna, Mo – moda, S – odchylenie standardowe. Im większa, co do modułu, wartość współczynnika AS, tym bardziej asymetryczny jest rozkład.
Statystyka w badaniach. Opis statystyczny struktury danych. część 2
Urszula Augustyńska
Kwantyle rozkładu
Do opisu rozkładu wykorzystywane są też miary pozycyjne zwane kwantylami.
Kwantyle rozkładu to wartości zmiennej, które dzielą uporządkowaną według wartości zmiennej zbiorowość w określonym stosunku liczbowym. Kwantylem rzędu q rozkładu zmiennej X w N-elementowej zbiorowości jest taka wartość x k , że w uporządkowanej rosnąco ze względu na zmienną X zbiorowości q*100% jednostek zajmuje pozycję nie dalszą niż x k , a pozostały procent zbiorowości pozycję nie bliższą.
Najczęściej stosowane w opisie rozkładu kwantyle to:
kwantyl rzędu q=0,5 nazwany medianą; jest wartością zmiennej dzielącej uporządkowaną zbiorowość na dwie równoliczne części;
kwantyle rzędu q=0,25; 0,50; 0,75, kwar
tyle; trzy kwartyle dzielą uporządkowaną zbiorowość na
cztery równoliczne części;
kwantyle rzędu q=0,1; 0,2; ... 0,9, czyli decy
le; dziewięć decyli dzieli uporządkowaną zbiorowość
na dziesięć równolicznych części;
kwantyle rzędu q=0,01; 0,02; 0,50; ... 0,99, czyli cent
yle lub percentyle; 99 centyli dzieli
uporządkowaną zbiorowość na 100 równolicznych części (stosowane są w przypadku opisu dużych zbiorowości, N>100).
Za pomocą kwartyli konstruowane są miary kwantylowe opisu rozkładu zmiennej, zatem przyjrzyjmy się im bliżej.
Kwartyl pierwszy
Kwartyl drugi
Kwartyl trzeci
to jest miara,
jak mediana dzieli szereg na dla twardzieli na te części
co zbiorowość dzieli zaraz:
połówki i choć nazwa nie ta
szereg dzieli: wyższych jest
niższych jest wartości
sama wbij ją do swej ślicznej wartości ćwiartka, niższych
ćwiartka,
główki.
będzie ze trzy czwarte.
wyższych będzie ze trzy
(Tomasz Osyra)
(Justyna Kozierkiewicz)
czwarte. (Emilia Kozierkiewicz)
Q1 - kwartyl pierwszy (dolny): dzieli uporządkowany zbiór danych w stosunku 1 : 4 tak, że 25% danych zajmuje pozycję nie dalszą niż Q1 a 75% danych pozycję nie bliższą; kwartyl pierwszy jest kwantylem rzędu 0,25.
Q2 - kwartyl drugi (mediana) dzieli uporządkowany zbiór danych w stosunku 1 : 2 tak, że 50% danych zajmuje pozycję nie dalszą niż Q2 a 50% danych pozycję nie bliższą; mediana jest kwantylem rzędu 0,5.
Q3 - kwartyl trzeci (górny): dzieli uporządkowany zbiór danych w stosunku 3 : 4 tak, że 75% danych zajmuje pozycję nie dalszą niż Q3 a 25% danych pozycję nie bliższą; kwartyl trzeci jest kwantylem rzędu 0,75.
Miarą tendencji centralnej rozkładu określoną przy użyciu miar kwantylowych jest mediana, czyli drugi kwartyl.
Statystyka w badaniach. Opis statystyczny struktury danych. część 2
Urszula Augustyńska
Miarą rozproszenia rozkładu określoną przy użyciu miar kwantylowych jest różnica Q − Q
3
1 nazywana rozstępem kwartylowym, gdzie: Q3 - kwartyl trzeci (górny), Q1 - kwartyl pierwszy
Rozstęp kwartylowy określa zakres zmienności „środkowych” 50% danych zajmujących w uporządkowanym ich zbiorze pozycje między pierwszym a trzecim kwartylem.
W praktyce stosowane jest też jako miara zmienności rozkładu odchylenie ćwiartkowe (połówkowy rozstęp kwartylowy) Q:
Q − Q
3
1
Q =
,
2
Względną miarę rozproszenia w opisie pozycyjnym określa współczynnik zmienności VQ, zdefiniowany jako stosunek odchylenia ćwiartkowego do mediany:
Q
V =
,
Q
Me
gdzie Q - odchylenie ćwiartkowe, a Me - mediana.
Aby wyznaczyć pozycyjną miarę zmienności należy znaleźć wartość pierwszego i trzeciego kwartyla.
118cm, 118cm, 119cm, 121cm, 123cm, 125cm, 126cm, 126cm, 126cm, 127cm, 130cm x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11
x
Pierwszym kwartylem jest wartość N+ 1 , czyli w naszym przykładzie x3, stąd Q1 = 119cm. Trzeci 4
x
kwartyl to wartość 3( N + 1) , czyli x9, stąd Q3 = 126cm. Rozstęp kwartylowy wynosi Q3 - Q1 = 7cm, co 4
oznacza, że gdy pominiemy grupę 25% dzieci niższych i 25% dzieci wyższych to w pozostałej grupie 50% dzieci różnią się wzrostem nie więcej niż o 7cm.
Odchylenie ćwiartkowe równe jest:
Q − Q
cm
126
− 119 cm
Q
3
1
=
=
=
cm
5
,
3
,
2
2
Q
a względne rozproszenie mierzone współczynnikiem V =
Q
Me
5
,
3
VQ =
= 028
,
0
, co świadczy o dużej jednorodności zbioru danych.
125
Współczynnik asymetrii AQ zbudowany na miarach kwantylowych zdefiniowany jest następująco:
( Q − Me − Me − Q
3
) (
1 )
A =
Q
,
Q − Q
3
1
lub w postaci równoważnej powyższej równości:
Statystyka w badaniach. Opis statystyczny struktury danych. część 2
Urszula Augustyńska
Q + Q − 2 Me
A
3
1
=
Q
,
Q
2
gdzie Q1 i Q3 to odpowiednio pierwszy i trzeci kwartyl, Me – mediana, Q – odchylenie ćwiartkowe.
Większa, co do modułu, wartość współczynnika AQ wskazuje na silniejszą asymetrię rozkładu. Współczynniki asymetrii są liczbami niemianowanymi.
Liczbowy opis rozkładu można uzupełnić wykresem pudełkowym (ramkowym). W
opisie z wykorzystaniem kwartyli wykres ten składa się z prostokąta o dowolnej szerokości, którego wysokość wyznaczają pierwszy Q1 i trzeci Q3 kwartyl. Wewnątrz prostokąta zaznaczana jest mediana. Prostokąt uzupełniają dwa odcinki (wąsy): jeden łączy bok prostokąta na poziomie Q1 z wartością minimalną zbioru danych, drugi zaś łączy Q3 z wartością maksymalną. Położenie mediany względem kwartyli pozwala ocenić symetrię rozkładu; gdy odległość miedzy medianą a Q1 jest większa niż między medianą a Q3, rozkład jest lewostronnie asymetryczny, gdy jest odwrotnie otrzymany rozkład charakteryzuje się asymetrią prawostronną.
Wykres ramkowy charakterystyk pozycyjnych rozkładu zmiennej wzrost (tabela 3).
przedstawiony jest na rysunku 26.
Wykres ramkowy
175
170
165
160
155
150
145
Maks = 170 cm
140
Min = 136 cm
75% = 157 cm
135
25% = 150 cm
Mediana:
130
Med = 153 cm
Wzrost
Rys. 26. Wykres ramkowy (pudełkowy) obrazujący graficznie położenie mediany, kwartyli oraz wartości minimalnej i maksymalnej zbioru danych
W legendzie obok wykresu podane są: wartość maksymalna xmax = 170 cm, wartość minimalna xmin = 136 cm, kwartyl dolny Q1 = 150 cm, kwartyl górny Q3 = 157 cm, oraz mediana Me = 153 cm. Położenie mediany (kwadracik wewnątrz prostokąta) względem boków prostokąta na poziomie kwartyli wskazuje na słabą asymetrię prawostronną rozkładu.
Współczynnik asymetrii AQ jest równy w tym przypadku:
157 + 150 − 2 ⋅ 153 1
A
.
Q =
=
≈ 14
,
0
157 − 150
7
Statystyka w badaniach. Opis statystyczny struktury danych. część 2
Urszula Augustyńska
Dwa zastosowania odchylenia standardowego
W zastosowaniach praktycznych odchylenie standardowe wykorzystywane jest do określania obszaru wartości typowych dla danego rozkładu symetrycznego (w praktyce również rozkładu o niewielkiej asymetrii) według zależności:
M – S < xtyp < M + S
Obserwacje (dane) należące do tego obszaru, to wartości zmiennej typowe w badanej zbiorowości.
Jeżeli rozkład można uznać za rozkład normalny (w sensie zgodności badanego rozkładu empirycznego z teoretycznym rozkładem normalnym wykazanej w procedurze weryfikacji odpowiedniej hipotezy zgodności), poza obszarem typowym znajdzie się tylko około 32%
zbiorowości. Zatem typowe wartości analizowanej zmiennej to te, które zaobserwowano u ok. 68%
badanej zbiorowości.
Równie ważną rolę w praktyce statystycznej odgrywa mająca swe podstawy w nierówności Czebyszewa tzw. reguła trzech sigm, w której odchylenie standardowe wykorzystuje się do określenia obszaru wartości bardzo mało prawdopodobnych. Mówi ona o tym, że prawdopodobieństwo zaobserwowania wartości zmiennej różniącej się o więcej niż trzy odchylenia standardowe od średniej rozkładu tej zmiennej w populacji, wynosi mniej niż 0,001. Stosując tę regułę możemy „wyłapać” takie dane, które pojawiły się w analizowanym zbiorze danych przypadkowo.
Statystyka w badaniach. Opis statystyczny struktury danych. część 2
Urszula Augustyńska
Ćwiczenia i zadania
Zadanie 1. (T. Zimny, Metody statystyczne w badaniach i diagnostyce pedagogicznej. Wyd. Nauk.
Uniwersytetu Szczecińskiego , Szczecin 2007)
W oddziałach „a” i „b” IV klasy pewnej szkoły podstawowej przeprowadzono test zdolności manualnych. Otrzymane rozkłady wyników testowych charakteryzują następujące miary: Dolny
Mediana
Średnia
Odchylenie
kwartyl
arytmetyczna
standardowe
Oddział „a”
47 p
52 p
55 p
10 p
Oddział „b”
48 p
54 p
54 p
8 p
Na podstawie podanych charakterystyk rozkładów wyników testowych w oddziale „a” i oddziale „b”
określ prawdziwość stwierdzeń:
a) Połowa uczniów klasy IV oddziału „a” uzyskała nie więcej niż 52 punkty Tak
Nie
b) Przeciętnie zdolności uczniów oddziału „a” są wyższe niż zdolności uczniów oddziału „b”
Tak
Nie
c) W oddziale „a” jest kilku wyjątkowo zdolnych uczniów
Tak
Nie
d) W oddziale „b” 25% uczniów uzyskało nie więcej niż 48 punktów
Tak
Nie
e) Rozkład wyników testu zdolności w oddziale „a” jest symetryczny
Tak
Nie
f) Rozproszenie wyników testu jest większe w oddziale „a”
Tak
Nie
g) 75% uczniów oddziału „b” uzyskało wynik nie niższy niż 48 punktów
Tak
Nie
Wyniki typowe testu w oddziele „b” to wyniki od 46 punktów do . ........
Zadanie 2.
a) Jeżeli wzrost dziecka odpowiada 70 centylowi, to jaki procent dzieci jest od niego niewyższych?
b) Jeżeli masa ciała Jasia odpowiada 8 decylowi, to jaki procent dzieci ma masę ciała większą niż Jaś?
c) Jeżeli wzrost Jasia odpowiada 9 decylowi a masa ciała 30 centylowi to możemy się spodziewać, że Jaś jest stosunkowo:
- niski i masywny
- wysoki i masywny
- niski i szczupły
- wysoki i szczupły
Zadanie 3
a) Ustal relację między miarami opisującymi ten sam rozkład (wstaw w miejsce kropek znak „<”, „>”
lub „=”):
Me ...... Q1 Q1 ......... D1 C30 ........ D3 Q1 ....... C30
b) Uzupełnij tak aby równość była prawdziwa w analizowanym rozkładzie (w miejsce kropek wpisz odpowiedni numer centyla lub decyla):
Me = Q..... = D..... = C ......
Q1 = C.....
C30 = C.....