Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Opis statystyczny struktury zbiorowości cz.2

Asymetria mówi do nas,

czy jest równo po obu stronach.

Asymetria

charakteryzuje równomierność (a raczej brak równomierności) rozproszenia danych wokół

przeciętnej.

Określenie tendencji centralnej i zmienności rozkładu analizowanej zmiennej nie wyczerpuje opisu tegoż rozkładu. Czasem interesuje nas nie tylko wielkość rozproszenia lecz również na ile rozproszenie danych wokół przeciętnej jest równomierne. Jedną z miar asymetrii rozkładu jest współczynnik asymetrii A.

Gdy rozkład jest symetryczny współczynnik asymetrii A przyjmuje wartość zero (A=0).

Wartość dodatnia (A>0), wskazuje na asymetrię prawostronną. Wartość ujemna współczynnika (A<0), na asymetrię lewostronną. Większa wartość bezwzględna współczynnika odpowiada silniejszej asymetrii.

A = 0

A>0

A<0

M=Me=Mo

Mo<Me<M

M<Me<Mo

Rozkład symetryczny

Rozkład prawostronnie

Rozkład lewostronnie

asymetryczny

asymetryczny

Rys.25. Rozkład symetryczny, prawostronnie asymetryczny i lewostronnie asymetryczny W przypadku rozkładów umiarkowanie asymetrycznych jako przybliżoną miarę asymetrii można przyjąć różnicę między średnią arytmetyczną M a modą Mo, nazywaną wskaźnikiem skośności: M –

Mo.

Rozkład jest symetryczny, gdy M – Mo = 0.

Rozkład jest prawostronnie asymetryczny, gdy M – Mo > 0.

Rozkład jest lewostronnie asymetryczny, gdy M – Mo < 0.

Bezwzględny współczynnik skośności określa kierunek asymetrii, ale nic nie mówi o jej sile.

Zarówno kierunek jak i siłę asymetrii wskazuje względny współczynnik skośności AS: M − Mo

A =

S

,

S

gdzie M – średnia arytmetyczna, Mo – moda, S – odchylenie standardowe. Im większa, co do modułu, wartość współczynnika AS, tym bardziej asymetryczny jest rozkład.

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Kwantyle rozkładu

Do opisu rozkładu wykorzystywane są też miary pozycyjne zwane kwantylami.

Kwantyle rozkładu to wartości zmiennej, które dzielą uporządkowaną według wartości zmiennej zbiorowość w określonym stosunku liczbowym. Kwantylem rzędu q rozkładu zmiennej X w N-elementowej zbiorowości jest taka wartość x k , że w uporządkowanej rosnąco ze względu na zmienną X zbiorowości q*100% jednostek zajmuje pozycję nie dalszą niż x k , a pozostały procent zbiorowości pozycję nie bliższą.

Najczęściej stosowane w opisie rozkładu kwantyle to:

kwantyl rzędu q=0,5 nazwany medianą; jest wartością zmiennej dzielącej uporządkowaną zbiorowość na dwie równoliczne części;

kwantyle rzędu q=0,25; 0,50; 0,75, kwar

tyle; trzy kwartyle dzielą uporządkowaną zbiorowość na

cztery równoliczne części;

kwantyle rzędu q=0,1; 0,2; ... 0,9, czyli decy

le; dziewięć decyli dzieli uporządkowaną zbiorowość

na dziesięć równolicznych części;

kwantyle rzędu q=0,01; 0,02; 0,50; ... 0,99, czyli cent

yle lub percentyle; 99 centyli dzieli

uporządkowaną zbiorowość na 100 równolicznych części (stosowane są w przypadku opisu dużych zbiorowości, N>100).

Za pomocą kwartyli konstruowane są miary kwantylowe opisu rozkładu zmiennej, zatem przyjrzyjmy się im bliżej.

Kwartyl pierwszy

Kwartyl drugi

Kwartyl trzeci

to jest miara,

jak mediana dzieli szereg na dla twardzieli na te części

co zbiorowość dzieli zaraz:

połówki i choć nazwa nie ta

szereg dzieli: wyższych jest

niższych jest wartości

sama wbij ją do swej ślicznej wartości ćwiartka, niższych

ćwiartka,

główki.

będzie ze trzy czwarte.

wyższych będzie ze trzy

(Tomasz Osyra)

(Justyna Kozierkiewicz)

czwarte. (Emilia Kozierkiewicz)

Q1 - kwartyl pierwszy (dolny): dzieli uporządkowany zbiór danych w stosunku 1 : 4 tak, że 25% danych zajmuje pozycję nie dalszą niż Q1 a 75% danych pozycję nie bliższą; kwartyl pierwszy jest kwantylem rzędu 0,25.

Q2 - kwartyl drugi (mediana) dzieli uporządkowany zbiór danych w stosunku 1 : 2 tak, że 50% danych zajmuje pozycję nie dalszą niż Q2 a 50% danych pozycję nie bliższą; mediana jest kwantylem rzędu 0,5.

Q3 - kwartyl trzeci (górny): dzieli uporządkowany zbiór danych w stosunku 3 : 4 tak, że 75% danych zajmuje pozycję nie dalszą niż Q3 a 25% danych pozycję nie bliższą; kwartyl trzeci jest kwantylem rzędu 0,75.

Miarą tendencji centralnej rozkładu określoną przy użyciu miar kwantylowych jest mediana, czyli drugi kwartyl.

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Miarą rozproszenia rozkładu określoną przy użyciu miar kwantylowych jest różnica Q − Q

3

1 nazywana rozstępem kwartylowym, gdzie: Q3 - kwartyl trzeci (górny), Q1 - kwartyl pierwszy

Rozstęp kwartylowy określa zakres zmienności „środkowych” 50% danych zajmujących w uporządkowanym ich zbiorze pozycje między pierwszym a trzecim kwartylem.

W praktyce stosowane jest też jako miara zmienności rozkładu odchylenie ćwiartkowe (połówkowy rozstęp kwartylowy) Q:

Q − Q

3

1

Q =

,

2

Względną miarę rozproszenia w opisie pozycyjnym określa współczynnik zmienności VQ, zdefiniowany jako stosunek odchylenia ćwiartkowego do mediany:

Q

V =

,

Q

Me

gdzie Q - odchylenie ćwiartkowe, a Me - mediana.

Aby wyznaczyć pozycyjną miarę zmienności należy znaleźć wartość pierwszego i trzeciego kwartyla.

118cm, 118cm, 119cm, 121cm, 123cm, 125cm, 126cm, 126cm, 126cm, 127cm, 130cm x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11

x

Pierwszym kwartylem jest wartość N+ 1 , czyli w naszym przykładzie x3, stąd Q1 = 119cm. Trzeci 4

x

kwartyl to wartość 3( N + 1) , czyli x9, stąd Q3 = 126cm. Rozstęp kwartylowy wynosi Q3 - Q1 = 7cm, co 4

oznacza, że gdy pominiemy grupę 25% dzieci niższych i 25% dzieci wyższych to w pozostałej grupie 50% dzieci różnią się wzrostem nie więcej niż o 7cm.

Odchylenie ćwiartkowe równe jest:

Q − Q

cm

126

− 119 cm

Q

3

1

=

=

=

cm

5

,

3

,

2

2

Q

a względne rozproszenie mierzone współczynnikiem V =

Q

Me

5

,

3

VQ =

= 028

,

0

, co świadczy o dużej jednorodności zbioru danych.

125

Współczynnik asymetrii AQ zbudowany na miarach kwantylowych zdefiniowany jest następująco:

( Q − Me − Me − Q

3

) (

1 )

A =

Q

,

Q − Q

3

1

lub w postaci równoważnej powyższej równości:

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Q + Q − 2 Me

A

3

1

=

Q

,

Q

2

gdzie Q1 i Q3 to odpowiednio pierwszy i trzeci kwartyl, Me – mediana, Q – odchylenie ćwiartkowe.

Większa, co do modułu, wartość współczynnika AQ wskazuje na silniejszą asymetrię rozkładu. Współczynniki asymetrii są liczbami niemianowanymi.

Liczbowy opis rozkładu można uzupełnić wykresem pudełkowym (ramkowym). W

opisie z wykorzystaniem kwartyli wykres ten składa się z prostokąta o dowolnej szerokości, którego wysokość wyznaczają pierwszy Q1 i trzeci Q3 kwartyl. Wewnątrz prostokąta zaznaczana jest mediana. Prostokąt uzupełniają dwa odcinki (wąsy): jeden łączy bok prostokąta na poziomie Q1 z wartością minimalną zbioru danych, drugi zaś łączy Q3 z wartością maksymalną. Położenie mediany względem kwartyli pozwala ocenić symetrię rozkładu; gdy odległość miedzy medianą a Q1 jest większa niż między medianą a Q3, rozkład jest lewostronnie asymetryczny, gdy jest odwrotnie otrzymany rozkład charakteryzuje się asymetrią prawostronną.

Wykres ramkowy charakterystyk pozycyjnych rozkładu zmiennej wzrost (tabela 3).

przedstawiony jest na rysunku 26.

Wykres ramkowy

175

170

165

160

155

150

145

Maks = 170 cm

140

Min = 136 cm

75% = 157 cm

135

25% = 150 cm

Mediana:

130

Med = 153 cm

Wzrost

Rys. 26. Wykres ramkowy (pudełkowy) obrazujący graficznie położenie mediany, kwartyli oraz wartości minimalnej i maksymalnej zbioru danych

W legendzie obok wykresu podane są: wartość maksymalna xmax = 170 cm, wartość minimalna xmin = 136 cm, kwartyl dolny Q1 = 150 cm, kwartyl górny Q3 = 157 cm, oraz mediana Me = 153 cm. Położenie mediany (kwadracik wewnątrz prostokąta) względem boków prostokąta na poziomie kwartyli wskazuje na słabą asymetrię prawostronną rozkładu.

Współczynnik asymetrii AQ jest równy w tym przypadku:

157 + 150 − 2 ⋅ 153 1

A

.

Q =

=

≈ 14

,

0

157 − 150

7

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Dwa zastosowania odchylenia standardowego

W zastosowaniach praktycznych odchylenie standardowe wykorzystywane jest do określania obszaru wartości typowych dla danego rozkładu symetrycznego (w praktyce również rozkładu o niewielkiej asymetrii) według zależności:

M – S < xtyp < M + S

Obserwacje (dane) należące do tego obszaru, to wartości zmiennej typowe w badanej zbiorowości.

Jeżeli rozkład można uznać za rozkład normalny (w sensie zgodności badanego rozkładu empirycznego z teoretycznym rozkładem normalnym wykazanej w procedurze weryfikacji odpowiedniej hipotezy zgodności), poza obszarem typowym znajdzie się tylko około 32%

zbiorowości. Zatem typowe wartości analizowanej zmiennej to te, które zaobserwowano u ok. 68%

badanej zbiorowości.

Równie ważną rolę w praktyce statystycznej odgrywa mająca swe podstawy w nierówności Czebyszewa tzw. reguła trzech sigm, w której odchylenie standardowe wykorzystuje się do określenia obszaru wartości bardzo mało prawdopodobnych. Mówi ona o tym, że prawdopodobieństwo zaobserwowania wartości zmiennej różniącej się o więcej niż trzy odchylenia standardowe od średniej rozkładu tej zmiennej w populacji, wynosi mniej niż 0,001. Stosując tę regułę możemy „wyłapać” takie dane, które pojawiły się w analizowanym zbiorze danych przypadkowo.

Statystyka w badaniach. Opis statystyczny struktury danych. część 2

Urszula Augustyńska

Ćwiczenia i zadania

Zadanie 1. (T. Zimny, Metody statystyczne w badaniach i diagnostyce pedagogicznej. Wyd. Nauk.

Uniwersytetu Szczecińskiego , Szczecin 2007)

W oddziałach „a” i „b” IV klasy pewnej szkoły podstawowej przeprowadzono test zdolności manualnych. Otrzymane rozkłady wyników testowych charakteryzują następujące miary: Dolny

Mediana

Średnia

Odchylenie

kwartyl

arytmetyczna

standardowe

Oddział „a”

47 p

52 p

55 p

10 p

Oddział „b”

48 p

54 p

54 p

8 p

Na podstawie podanych charakterystyk rozkładów wyników testowych w oddziale „a” i oddziale „b”

określ prawdziwość stwierdzeń:

a) Połowa uczniów klasy IV oddziału „a” uzyskała nie więcej niż 52 punkty Tak

Nie

b) Przeciętnie zdolności uczniów oddziału „a” są wyższe niż zdolności uczniów oddziału „b”

Tak

Nie

c) W oddziale „a” jest kilku wyjątkowo zdolnych uczniów

Tak

Nie

d) W oddziale „b” 25% uczniów uzyskało nie więcej niż 48 punktów

Tak

Nie

e) Rozkład wyników testu zdolności w oddziale „a” jest symetryczny

Tak

Nie

f) Rozproszenie wyników testu jest większe w oddziale „a”

Tak

Nie

g) 75% uczniów oddziału „b” uzyskało wynik nie niższy niż 48 punktów

Tak

Nie

Wyniki typowe testu w oddziele „b” to wyniki od 46 punktów do . ........

Zadanie 2.

a) Jeżeli wzrost dziecka odpowiada 70 centylowi, to jaki procent dzieci jest od niego niewyższych?

b) Jeżeli masa ciała Jasia odpowiada 8 decylowi, to jaki procent dzieci ma masę ciała większą niż Jaś?

c) Jeżeli wzrost Jasia odpowiada 9 decylowi a masa ciała 30 centylowi to możemy się spodziewać, że Jaś jest stosunkowo:

- niski i masywny

- wysoki i masywny

- niski i szczupły

- wysoki i szczupły

Zadanie 3

a) Ustal relację między miarami opisującymi ten sam rozkład (wstaw w miejsce kropek znak „<”, „>”

lub „=”):

Me ...... Q1 Q1 ......... D1 C30 ........ D3 Q1 ....... C30

b) Uzupełnij tak aby równość była prawdziwa w analizowanym rozkładzie (w miejsce kropek wpisz odpowiedni numer centyla lub decyla):

Me = Q..... = D..... = C ......

Q1 = C.....

C30 = C.....