3 Statystyka w badaniach Statystycznych opis struktury danych część 1
Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska Opis statystyczny struktury zbiorowości Zobrazowana tabelarycznie lub graficznie struktura zbiorowości podlega w trakcie analizy statystycznej dalszemu syntetycznemu opisowi. Celem takiego opisu jest przedstawienie w kilku słowach pewnych charakterystycznych cech badanej zbiorowości. W grę wchodzą tu najczęściej pytania o przeciętne lub typowe wartości analizowanych zmiennych dobrze charakteryzujące zbiorowość, o stopień zróżnicowania zbiorowości, o równomierność tego zróżnicowania, itp. Statystyczny opis struktury składa się z pewnych charakterystyk noszących nazwę parametrów statystycznych, jeżeli opisują zbiorowość generalną (populację), bądz statystyk z próby, jeżeli odnoszą się tylko do zbiorowości próbnych i jako takie są podstawą do wnioskowania o parametrach populacji. Podstawowymi charakterystykami są miary takich właściwości rozkładu jak: " Tendencja centralna " Rozproszenie (zmienność, dyspersja) " Asymetria Tendencja centralna określa pewną przeciętną wartość zmiennej, Tendencja centralna, dobrze charakteryzującej otrzymany rozkład danych drogi studencie, niezależnie od ich wewnętrznego zróżnicowania. zbiorowość całą opisze ci chętnie Podstawowymi miarami tendencji centralnej są: jedną wartością trafnie dobraną: - średnia arytmetyczna średnią, modą lub medianą - mediana (wartość środkowa) - moda (dominanta, wartość najczęstsza) Gdy podzielisz sumę na równe kawałki arytmetyczną średnią otrzymasz, Michałku. Średnia arytmetyczna (M) to wartość zmiennej, którą dla otrzymanego zbioru danych obliczamy w następujący sposób: N 1 M = xi , Jak to policzyć? " N i= 1 gdzie N oznacza liczbę danych, Łx sumę wartości danych. i Średnią arytmetyczną obliczamy wówczas, gdy dane są wartościami liczbowymi oraz gdy są kompletne, tzn. gdy wartości analizowanej zmiennej określone zostały dla każdego elementu badanej zbiorowości. Mediana to taka dana, co w środku szeregu stoi i na połowy go kroi Mediana (Me) to wartość zmiennej, która dzieli uporządkowany zbiór danych na dwie równoliczne części. W uporządkowanym rosnąco (lub malejąco) zbiorze danych mediana zajmuje pozycję środkową. Jak to policzyć? Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska Moda odpowie ci sama, jaka w zbiorze najczęściej powtarza się dana Moda (Mo) to wartość zmiennej, która powtarza się najczęściej w zbiorze danych. Modę i medianę można wyznaczyć graficznie. Dla wartości równej wartości modalnej krzywa rozkładu zmiennej ciągłej osiąga maksimum. Medianę odczytujemy z wykresu dystrybuanty, jako wartość zmiennej odpowiadającej częstości kumulowanej 0,5 (50%). Mo Me Rys.24. Graficzne wyznaczanie mody i mediany Każda z omówionych miar tendencji centralnej ma swoistą interpretację, inaczej charakteryzuje otrzymany rozkład. Przedstawimy to na prostym przykładzie. Przykład: W pewnych badaniach zmierzono wzrost 11 dzieci. Pomiary wzrostu tej grupy dzieci tworzą następujący zbiór danych (uporządkowanych w szereg statystyczny): 118cm, 118cm, 119cm, 121cm, 123cm, 125cm, 126cm, 126cm, 126cm, 127cm, 130cm x x x x x x x x x x x 1 2 3 4 5 6 7 8 9 10 11 Obliczmy z definicji średnią arytmetyczną wzrostu: 11 1 1 1 1359 M = xi = (x1 + x2 + ...... + x11) = (118 + 118 + 119 + ..... + 130) = = 123,5 " 11 11 11 11 i= 1 Średnią arytmetyczną M = 123,5cm jako miarę tendencji centralnej rozkładu wzrostu w grupie dzieci można zinterpretować następująco: gdyby dzieci, których sumaryczny wzrost jest równy 1359cm były wszystkie tak samo wysokie, to każde z nich miałoby wzrost 123,5cm. Inaczej: średnia arytmetyczna jest taką wartością zmiennej, jaką miałby każdy element zbiorowości, gdyby ta zbiorowość była idealnie jednorodna. Aby określić medianę wzrostu należy w uporządkowanym rosnąco zbiorze danych znalezć element znajdujący x N + 1 się na pozycji środkowej; w zbiorze danych o nieparzystej liczbie elementów środkowym jest element , 2 gdzie N jest liczebnością zbioru danych. W naszym przykładzie jest to wartość x =125cm. Mediana rozkładu 6 wzrostu w grupie dzieci wynosi więc Me = 125cm; oznacza to, że dzieci, których wzrost jest nie większy niż 125cm jest tyle samo, ile dzieci o wzroście nie mniejszym niż 125cm. Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska Modą rozkładu wzrostu jest wartość Mo = 126cm. Taki wzrost ma najwięcej dzieci w grupie. Podjęcie decyzji, która z miar jest najbardziej odpowiednia do opisu tendencji centralnej konkretnego rozkładu zmiennej zależy, między innymi, od typu rozkładu, kompletności danych, rodzaju zmiennej. Czasem zasadnym jest określenie wszystkich miar. Chociaż każda z nich jest inną informacją o rozkładzie, to razem stanowią komplementarny opis tendencji centralnej. Należy jeszcze podkreślić, że wszystkie wskazane miary są wartościami mianowanymi (mają takie samo miano jak wartości analizowanej zmiennej). Rozproszenie, drogi studencie, o zróżnicowaniu danych opowie ci chętnie Rozproszenie (zmienność, dyspersja) charakteryzuje stopień zróżnicowania zbiorowości pod względem badanej właściwości. Miary tendencji centralnej informują nas o przeciętnej wartości analizowanej zmiennej, ale nie mówią o stopniu zróżnicowania badanej zbiorowości ze względu na tę zmienną. Zróżnicowanie to określają następujące podstawowe miary rozproszenia rozkładu: - rozstęp - wariancja i odchylenie standardowe - odchylenie ćwiartkowe Największa minus najmniejsza dana, to ROZSTP, kochana. Rozstęp (R) to różnica między największą - x , a najmniejszą - x zaobserwowaną wartością max min analizowanej zmiennej: R = x - x max min Przypuśćmy, że w dwu grupach młodzieży przeprowadzono test sprawności fizycznej i uzyskano następujące wyniki: grupa A: 4p, 6p, 8p, 8p, 10p, 11p, 12p, 12p, 15p grupa B: 8p, 9p, 10p, 10p, 11p, 12p, 12p, 13p, 13p. W grupie A rozstęp wyników wynosi: 15p 4p = 11p, a w grupie B: 13p 8p = 5p. Grupa B, w której różnica między wynikiem najwyższym a najniższym jest mniejsza, jest mniej zróżnicowana (bardziej jednorodna) pod względem sprawności, niż grupa A. Rozstęp określa zakres zmienności, ale nic nie mówi o zróżnicowaniu danych wewnątrz tego zakresu. Dokładniejszą miarą, określającą stopień rozproszenia danych względem średniej arytmetycznej, jest wariancja lub odchylenie standardowe: Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska Odchylenie Standardowe na pytanie wam odpowie, jakie danych rozproszenie wokół Średniej w tym terenie. Odchylenie standardowe (S) to pierwiastek ze średniej arytmetycznej kwadratów odchyleń poszczególnych danych od średniej arytmetycznej: 2 N 1 Jak to policzyć? S = ( xi - M ) " N i= 1 Wariancja (S2) to średnia arytmetyczna kwadratów odchyleń poszczególnych danych od średniej arytmetycznej: N 1 2 S = (xi - M )2 , " N i= 1 gdzie x to wartości zmiennej X zaobserwowane w próbie, a M jest średnią arytmetyczną. i Dla małych zbiorowości próbnych (N<30) wariancję oraz odchylenie standardowe rozkładu zmiennej w próbie obliczamy jako wartości statystyk: N 2 N ) 1 ) 2 S = (xi - M )2 S = 1 xi - M ( ) " " N - 1 i= 1 N - 1 i= 1 Im mniejsza wartość odchylenia standardowego S, tym mniejsze jest rozproszenie danych wokół średniej, czyli badana zbiorowość jest bardziej jednorodna. Ponieważ odchylenie standardowe jest wielkością mianowaną (ma miano analizowanej zmiennej), nie może być wykorzystane, gdy chcemy porównać stopień jednorodności badanej zbiorowości według różnych zmiennych. W tym przypadku możemy sięgnąć po względną miarę zwaną współczynnikiem zmienności; S VS = , M gdzie S odchylenie standardowe, M średnia arytmetyczna. Współczynnik zmienności charakteryzuje wielkość rozproszenia względem wybranej miary tendencji centralnej, w tym przypadku średniej arytmetycznej (o ile miara ta nie jest równa zero). Przyjmuje się, że jeżeli współczynnik nie przekracza wartości 0,10 mamy do czynienia z jednorodną, ze względu na analizowaną zmienną, zbiorowością1. Przykład: Obliczmy wymienione miary rozproszenia dla danych z poprzedniego przykładu. Maksymalną wartością w zbiorze danych jest x = 130cm, a minimalną, x = 118cm. max min Rozstęp R jest zatem równy R = 130cm 118cm = 12cm Różnica wzrostu między najwyższym a najniższym dzieckiem w badanej grupie wynosi 12cm. Wariancję rozkładu obliczymy jako wartość statystyki N ) 1 2 S = (xi - M )2 " N - 1 i= 1 Dla podanego zbioru danych mamy: 1 S.Ostasiewicz, Z.Rusnak, U.Siedlecka Statystyka. Elementy teorii i zadania, Wyd. AE, Wrocław 1999, s.68 Statystyka w badaniach. Opis statystyczny struktury danych. część 1 Urszula Augustyńska 11 1 2 2 S = ( xi - 123,5) = " 11- 1 i= 1 1 162,75 2 2 2 2 {(130 - 123,5) + (118 - 123,5) + (119 - 123,5) + ....... + (125 - 123,5) }= = 16,275 10 10 Wariancja rozkładu równa jest S2 = 16,28cm2, zaś odchylenie standardowe S = 16,28cm2 = 4,03cm S Względne rozproszenie mierzone współczynnikiem zmienności VS = wynosi: M 4,3 Vs = = 0,033, co świadczy o dużej jednorodności badanej grupy dzieci pod względem wzrostu. 123,5 Ćwiczenia i zadania 1. Oblicz średnią oraz wariancję i odchylenie standardowe poniższych zbiorów danych. Który rozkład danych charakteryzuje się mniejszym rozproszeniem? Pomiary zmiennej X: 4, 4, 5, 6, 6 Pomiary zmiennej Y: 2, 2, 5, 8, 8 G.Wieczorkowska; Statystyka. Wprowadzenie do analizy danych sondażowych i eksperymentalnych. Warszawa 2003 2. Oblicz średnią arytmetyczną, medianę i modę następujących zbiorów danych: a) 9,10, 11, 12, 13, 13, 14, 15, 16, 18, 20 [cm] b) 8, 10, 11, 12, 13, 14, 15, 16, 18, 20 [ml] c) 7, 8, 10, 10, 11, 13, 17, 18, 19, 21 22 [g] d) 10, 12, 15, 20, 22, 23, 23, 24, 25, 25, 25, 28, 30 [s] Przyjrzyj się otrzymanym miarom tendencji centralnej i zdecyduj, która miara najlepiej charakteryzuje każdy ze zbiorów danych. Wykonaj tabelę podsumowującą względne zalety oraz wady związane z podanymi miarami tendencji centralnej. 3. Oblicz rozstęp, wariancję i odchylenie standardowe poniższych zbiorów danych: a) 12, 10, 8, 4, 18, 8 [cm] b) 0, 0, 4, 5, 20, 20, 22, 19 [ml] c) 0, 19, 21, 18, 22 [g] d) 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6 [s] 4. W poniższym przykładzie średnia arytmetyczna wynosi 10. Znajdz modę, medianę, rozstęp i odchylenie standardowe; omów trafność tych miar dla podanego zbioru danych: 0, 1, 2, 20, 1, 3, 51, 20, 1, 1. 5. Dla każdego z następujących zestawów statystyk opisowych naszkicuj kształt rozkładu, z którego mogą one pochodzić: rozkład średnia arytmetyczna mediana moda A 50 50 50 B 10 20 30 C 30 20 10 D 60 60 20 i 80 F. Clegg; Po prostu statystyka. Kurs dla studentów nauk społecznych. Warszawa 1994