Analiza Statystyczna
Badania empiryczne wieku osób biorący udział w kursie języków obcych ( język angielski, język niemiecki)
Osoby uczęszczające na kurs języka angielskiego:
15; 15; 16; 16; 16; 18; 18; 18; 20; 20; 20; 21; 21; 22; 23; 23; 23; 24; 24; 25; 25; 25; 25; 26;
26; 26; 27; 27; 27; 29; 29; 30; 32; 36; 37; 37; 38; 40; 40; 40; 43; 44; 45; 47; 50; 50; 51; 52;
53.
Osoby uczęszczające na kurs języka niemieckiego:
12; 12; 12; 14; 14; 14; 15; 15; 15; 17; 17; 17;18; 18; 18; 19; 19; 19; 19; 20; 20; 20; 21; 21;
22; 22; 23; 23; 23; 24; 24; 25; 25; 26; 27; 27; 28; 28; 30; 33; 36; 37; 38; 40; 40; 45; 46; 50;
50.
Korzystając ze wzoru $k \approx \sqrt{n}$ liczymy ilość przedziałów. W tym przypadku k = 7.
Wiek w przedziałach | Język angielski | Język niemiecki |
---|---|---|
12-17 | 5 | 12 |
18-23 | 12 | 17 |
24-29 | 14 | 9 |
30-35 | 2 | 2 |
36-41 | 7 | 5 |
42-47 | 4 | 2 |
48-53 | 5 | 2 |
JĘZYK ANGIELSKI
Wiek w przedziałach | Ilość cech | Liczebności skumulowanie |
---|---|---|
12-17 | 5 | 5 |
18-23 | 12 | 17 |
24-29 | 14 | 31 |
30-35 | 2 | 33 |
36-41 | 7 | 40 |
42-47 | 4 | 44 |
48-53 | 5 | 49 |
Średnia ważona:
$$\overline{x} = \frac{\sum_{i = 1}^{k}{x_{i}*n_{i}}}{n} = \frac{1455}{49} = 29,7$$
Odchylenie standardowe:
S=$\sqrt{\frac{\sum_{i = 1}^{k}{{(x_{i} - \overset{\overline{}}{x})}^{2}*n_{i}}}{n}}$ ≈ 11,2
Dominanta:
D = $x_{0} + \frac{n_{m} - n_{m - 1}}{\left( n_{m} - n_{m - 1} \right) + (n_{m} - n_{m + 1})}*k_{m} = 24 + \frac{14 - 12}{\left( 14 - 2 \right) + \left( 14 - 12 \right)}*5 = 25$
Mediana:
Pozycja mediany: $\frac{n + 1}{2} = \frac{49 + 1}{2} = 25$
$u_{e} = x_{0} + \frac{h_{0}}{n_{0}}\left( N_{u_{e}} - n_{sk - 1} \right) = 24 + \frac{5}{14}\left( 25 - 17 \right) = \ $26
Kwartyl pierwszy:
pozycja $Q_{1} = \frac{n}{4} = \frac{49}{4} = 12,25\ \sim\ 12$
$$Q_{1} = x_{0} + \frac{h_{0}}{n_{0}}\left( N_{Q_{1}} - n_{sk - 1} \right) = 18 + \frac{5}{12}\left( 12 - 5 \right) = 21$$
Kwartyl trzeci:
pozycja $Q_{3} = \frac{3n}{4} = \frac{147}{4} = 36,75\ \sim\ 37$
$$Q_{3} = x_{0} + \frac{h_{0}}{n_{0}}\left( N_{Q_{3}} - n_{sk - 1} \right) = 30 + \frac{5}{12}\left( 37 - 17 \right) = 38$$
Odchylenie ćwiartkowe:
$$Q = \frac{Q_{3} - Q_{1}}{2} = \frac{38 - 21}{2} = 8,5$$
Współczynnik zmienności:
$$V_{x} = \frac{s}{\overset{\overline{}}{x}}100\% = \frac{11,2}{29}100\% = 37,71\%$$
Klasyczny współczynnik asymetrii:
A=$\frac{M_{3}}{s^{3}}$, gdzie
$M_{3} = \frac{\sum_{i = 1}^{k}{{(\overset{\overline{}}{x_{i}} - \overset{\overline{}}{x})}^{3}n_{i}}}{n}$=$\frac{893,4}{49} = 0,64$
Pozycyjny współczynnik asymetrii:
$A_{2} = \frac{\left( Q_{3} - \mu_{e} \right) - (\mu_{e} - Q_{1})}{Q_{3} - Q_{1}}$=$\frac{\left( 38 - 26 \right) - (26 - 21)}{38 - 21} \approx 0,41$
Współczynnik skośności
A1=$\frac{\overset{\overline{}}{x} - D}{s}$=$\frac{29 - 25}{11,2} \approx 0,42$
Współczynnik spłaszczenia(skupienia)-kurtoza
$$\gamma_{4 = \frac{M_{4}}{s^{4}}}$$
$$M_{4} = \frac{\sum_{i = 1}^{k}{\left( {\overset{\overline{}}{x}}_{i} - x \right)^{4}*n_{i}}}{n} = 2,15$$
Kurs języka angielskiego
K | 7 |
---|---|
Średnia ważona | 29,7 |
Dominanta | 25 |
Mediana | 26 |
Kwartyl drugi (pozycja) | 25 |
Kwartyl pierwszy | 21 |
Kwartyl pierwszy (pozycja) | 12 |
Kwartyl trzeci | 38 |
Kwartyl trzeci (pozycja) | 37 |
Odchylenie standardowe | 11,2 |
Odchylenie ćwiartkowe | 8,5 |
Współczynnik zmienności | 37,71 |
Trzeci moment centralny | 893,4 |
Klasyczny współczynnik asymetrii | 0,64 |
Pozycyjny współczynnik asymetrii | 0,41 |
Współczynnik skośności | 0,42 |
Współczynnik spłaszczenia | 2,15 |
JĘZYK NIEMIECKI
Wiek w przedziałach | Ilość cech | Liczebności skumulowanie |
---|---|---|
12-17 | 12 | 12 |
18-23 | 17 | 29 |
24-29 | 9 | 38 |
30-35 | 2 | 40 |
36-41 | 5 | 45 |
42-47 | 2 | 47 |
48-53 | 2 | 49 |
Średnia ważona:
$\overline{x} = \frac{\sum_{i = 1}^{k}{x_{i}*n_{i}}}{n} = \frac{1198}{49} = 24$,4
Odchylenie standardowe
S=$\sqrt{\frac{\sum_{i = 1}^{k}{{(x_{i} - \overset{\overline{}}{x})}^{2}*n_{i}}}{n}}$ ≈ 10,07
Dominanta:
D = $x_{0} + \frac{n_{m} - n_{m - 1}}{\left( n_{m} - n_{m - 1} \right) + (n_{m} - n_{m + 1})}*k_{m} = 18 + \frac{17 - 12}{(17 - 12) + \left( 17 - 9 \right)}*5 = 19$
Mediana:
Pozycja mediany: $\frac{n + 1}{2} = \frac{49 + 1}{2} = 25$
$$u_{e} = x_{0} + \frac{h_{0}}{n_{0}}\left( N_{u_{e}} - n_{sk - 1} \right) = 18 + \frac{5}{17}\left( 25 - 12 \right) = 22$$
Kwartyl pierwszy:
pozycja $Q_{1} = \frac{n}{4} = \frac{49}{4} = 12,25\ \sim\ 12$
$$Q_{1} = x_{0} + \frac{h_{0}}{n_{0}}\left( N_{Q_{1}} - n_{sk - 1} \right) = 18 + \frac{5}{17}\left( 12 - 12 \right) = 18$$
Kwartyl trzeci:
pozycja $Q_{3} = \frac{3n}{4} = \frac{147}{4} = 36,75\ \sim\ 37$
$$Q_{3} = x_{0} + \frac{h_{0}}{n_{0}}\left( N_{Q_{3}} - n_{sk - 1} \right) = 24 + \frac{5}{9}\left( 37 - 29 \right) = 28$$
Odchylenie ćwiartkowe:
$$Q = \frac{Q_{3} - Q_{1}}{2} = \frac{28 - 18}{2} = 5$$
Współczynnik zmienności:
$$V_{x} = \frac{s}{\overset{\overline{}}{x}}100\% = \frac{10,07}{24}100\% = 41,27\%$$
Klasyczny współczynnik asymetrii:
A=$\frac{M_{3}}{s^{3}}$, gdzie
$M_{3} = \frac{\sum_{i = 1}^{k}{{(\overset{\overline{}}{x_{i}} - \overset{\overline{}}{x})}^{3}n_{i}}}{n}$=$\frac{1069,38}{49} = 1,05$
Pozycyjny współczynnik asymetrii:
$A_{2} = \frac{\left( Q_{3} - \mu_{e} \right) - (\mu_{e} - Q_{1})}{Q_{3} - Q_{1}}$=$\frac{\left( 28 - 22 \right) - (22 - 18)}{28 - 18} \approx 0,2$
Współczynnik skośności
A1=$\frac{\overset{\overline{}}{x} - D}{s}$=$\frac{24 - 19}{10,07} \approx 0,54$
Współczynnik spłaszczenia(skupienia)-kurtoza
$$\gamma_{4 = \frac{M_{4}}{s^{4}}}$$
$$M_{4} = \frac{\sum_{i = 1}^{k}{\left( {\overset{\overline{}}{x}}_{i} - x \right)^{4}*n_{i}}}{n} = 3,19$$
Kurs języka niemieckiego:
K | 7 |
---|---|
Średnia ważona | 24,4 |
Dominanta | 19 |
Mediana | 22 |
Kwartyl drugi (pozycja) | 25 |
Kwartyl pierwszy | 18 |
Kwartyl pierwszy (pozycja) | 12 |
Kwartyl trzeci | 28 |
Kwartyl trzeci (pozycja) | 37 |
Odchylenie standardowe | 10,07 |
Odchylenie ćwiartkowe | 5 |
Współczynnik zmienności | 41,27 |
Trzeci moment centralny | 1069,38 |
Klasyczny współczynnik asymetrii | 1,05 |
Pozycyjny współczynnik asymetrii | 0,2 |
Współczynnik skośności | 0,54 |
Współczynnik spłaszczenia | 3,19 |
Porównanie danych
Dane | Język angielski | Język niemiecki |
---|---|---|
k | 7 | 7 |
Średnia ważona | 29,7 | 24,4 |
Dominanta | 25 | 19 |
Mediana | 26 | 22 |
Kwartyl drugi (pozycja) | 25 | 25 |
Kwartyl pierwszy | 21 | 18 |
Kwartyl pierwszy (pozycja) | 12 | 12 |
Kwartyl trzeci | 38 | 28 |
Kwartyl trzeci (pozycja) | 37 | 37 |
Odchylenie standardowe | 11,2 | 10,07 |
Odchylenie ćwiartkowe | 8,5 | 5 |
Współczynnik zmienności | 37,71 | 41,27 |
Trzeci moment centralny | 893,4 | 1069,38 |
Klasyczny współczynnik asymetrii | 0,64 | 1,05 |
Pozycyjny współczynnik asymetrii | 0,41 | 0,2 |
Współczynnik skośności | 0,42 | 0,54 |
Współczynnik spłaszczenia | 2,15 | 3,19 |
Interpretacja statystyczna wyznaczonych parametrów
Średnia wieku osób uczęszczających na kurs języka angielskiego wynosi 29 lat. Natomiast średnia wieku osób uczęszczających na kurs języka niemieckiego wynosi 24 lata. Średnie dla ogółu uczestników kursu języka angielskiego oraz niemieckiego łącznie wynoszą:
$$\overset{\overline{}}{x} = \left( 0,5*{\overset{\overline{}}{x}}_{1} + 0,5*{\overset{\overline{}}{x}}_{2} \right) = 0,5*29 + 0,5*24 = 26$$
Wiek najliczniejszej grupy języka angielskiego skupia się wokół 26 lat, a w przypadku języka niemieckiego 24 lat. 31 uczestników kursu języka angielskiego osiąga wiek poniżej 29 lat oraz 18 uczestników osiąga wiek powyżej 29 lat. W przypadku uczestników kursu języka niemieckiego 38 osób osiąga wiek poniżej 29lat oraz 11 osób powyżej 29 lat. Wiek 25% uczestników kursu języka angielskiego osiąga mniej a 75% więcej niż 21 lat, jak i 75% uczestników kursu języka angielskiego osiąga mniej a 25% więcej niż 38 lat. Wiek 25% uczestników kursu języka niemieckiego osiąga mniej a 75% więcej niż 18 lat, jak i 75% mężczyzn osiąga mniej a 25% więcej niż 28 lat.
Po porównaniu wszystkich wyliczonych miar tendencji centralnej możemy, stwierdzić, iż wiek osób biorących udział w kursie języka angielskiego jest wyższy od wieku osób uczestniczących w kursie języka niemieckiego. Wiek poszczególnych uczestników kursu języka angielskiego różnił się przeciętnie o 11 lat w porównaniu ze średnim wiekiem równym 29 lat. Analogicznie odchylenie wieku poszczególnych osób biorących udział w kursie języka niemieckiego od ich średniego wieku wynosi
10 lat.
Odchylenie standardowe wieku dla uczestników kursu języka angielskiego stanowi 37,71% ich średniego wieku, podczas gdy udział zróżnicowania przeciętnego w stosunku do średniej w grupie uczestników języka niemieckiego wynosi 41,27%. Wiek w podpopulacji uczestników kursu języka niemieckiego jest zatem mniej zróżnicowany niż w podpopulacji uczestników kursu języka angielskiego. Znaki obu współczynników asymetrii wskazują na dodatnią asymetrie wieku w grupie osób kursu języka niemieckiego, co oznacza, ze większość z nich osiągnęła wiek większy od średniej, czyli od 24 lat (w grupie uczestników języka niemieckiego , które uzyskały wyniki mieszczące się w przedziale $\left( \overset{\overline{}}{x} \pm s \right)$ tj. (24± 10,07) . Niewielka wartość bezwzględna obu mierników oznacza, że przewaga osób z większym wiekiem od średniej jest niewielka. Wartość współczynnika skośności w grupie uczestników biorących udział w kursie języka angielskiego wynosiła 0,42, wskazując na słaba, dodatnia asymetrie. Oznacza to, ze niewielka większość osób z kursu języka angielskiego osiąga wiek niższy od średniej wynoszącej 29,7 lat (w grupieosób którzy osiągnęli wyniki mieszczące się w przedziale $\left( \overset{\overline{}}{x} \pm s \right)$ tj. (29±11,2). Różnica w znakach obliczonych współczynników asymetrii wskazuje na to, ze asymetria w środkowej części obszaru zmienności wielkości cechy jest inna niż asymetria w całym obszarze zmienności. Jest to spowodowane wpływem skrajnych wielkości cechy na poziom obliczonych miar klasycznych.
I
Na podstawie powyższych danych oszacuję metodą przedziałową średnią wieku uczestników kursów języka angielskiego oraz języka niemieckiego.
Ponieważ nie znamy rozkładu wieku tak w grupie osób uczestniczących w kursach językowych (język angielski oraz język niemiecki), dlatego do szacowania średnich w podpopulacji stosujemy Model 3 dla średniej:
$\overset{\overline{}}{x}$- 1,96$\frac{s}{\sqrt{n}}$<µ < $\overset{\overline{}}{x}$+ 1,96$\frac{s}{\sqrt{n}}$
Nasz poziom istotności wynosi: α = 0,05 = 5%, wtedy przedział ufności wynosi = (1-0,05) = 0,95 = 95%.
Z tablic kwantyli rozkładu N(0,1) odczytujemy u=(1-$\frac{1}{2}\alpha$)=u(0,975)=1,96
Wyznaczymy 95%-ową realizację przedziału ufności dla średniej wieku kobiet i mężczyzn.
Zatem 95%-owa realizacja przedziału ufności dla nieznanej wartości przeciętnej μ (uzyskana na podstawie danych dotyczących wieku uczestników kursu języka angielskiego) określona jest nierównością:
29- 1,96 $\frac{11,2}{\sqrt{49}} < \ \mu < 29 + 1,96\frac{11,2}{\sqrt{49}}$
25,8< μ < 32,1
Zatem 95%-owa realizacja przedziału ufności dla nieznanej wartości przeciętnej μ (uzyskana na podstawie danych dotyczących wieku uczestników kursu języka niemieckiego) określona jest nierównością:
24- 1,96 $\frac{10,07}{\sqrt{49}} < \ \mu < 24 + 1,96\frac{10,07}{\sqrt{49}}$
21,1< μ < 26,8
II
Wyznaczam 95%-owe realizacje dla odchylenia w podpopulacji uczestników kursu języka angielskiego oraz uczestników kursu języka niemieckiego.
W tym przypadku możemy zastosować Model 2
P($\frac{s}{1 + \frac{u_{\alpha}}{\sqrt{2n}}} < \sigma <$ $\frac{s}{1 - \frac{u_{\alpha}}{\sqrt{2n}}}$ ) = 1-α
Dla α = 0, 1 odczytujemy uα = 1, 64.
Ponieważ n = 49, więc $\sqrt{2n}$=$\sqrt{98}$.
95%-owa realizacja przedziału ufności dla odchylenia σ wieku uczestników kursu języka angielskiego
s = 11, 2
$\frac{11,2}{1 + \frac{1,64}{\sqrt{98}}} < \sigma <$ $\frac{11,2}{1 - \frac{1,64}{\sqrt{98}}}$
9, 6 < σ< 13, 4
95%-owa realizacja przedziału ufności dla odchylenia σ wieku kursu języka niemieckiego
s = 10, 07
$\frac{10,07}{1 + \frac{1,64}{\sqrt{98}}} < \sigma <$ $\frac{10,07}{1 - \frac{1,64}{\sqrt{98}}}$
8, 6 < σ< 12, 06
III
Na podstawie danych na poziomie α = 0, 05 zweryfikuje hipotezę, że średnia wieku w podpopulacji uczestników kursu z języka angielskiego , była równa μ = 29 oraz uczestników kursu języka niemieckiego μ = 24.
Zastosujemy Model 1
Cecha X w populacji ma dowolny rozkład o nieznanej wartości średniej m i nieznanym odchyleniu standardowym σ. Próba jest duża. Weryfikujemy hipotezę:
H0: µ= m1 przeciw hipotezie alternatywnej H1: µ≠m1
Statystyka Un $= \frac{\overset{\overline{}}{X_{n}} - m_{1}}{\overset{\overline{}}{s_{n}}}\sqrt{n}$ ma rozkład N(0,1).
Hipoteza alternatywna jest zaprzeczeniem hipotezy zerowej, więc obszar krytyczny jest dwustronny (-∞, -uα) (uα,∞).
Obliczamy ud dla uczestników języka angielskiego
ud= $\sqrt{49}\frac{29,7 - 29}{11,2}$≈0,43 ponieważ μ0, 05 = 1, 96, więc hipotezę zerową musimy odrzucić.
Obliczamy ud dla uczestników języka niemieckiego
ud= $\sqrt{49}\frac{24,4 - 24}{10,07}$≈0,27 ponieważ μ0, 05 = 1, 96, więc hipotezę zerową musimy odrzucić.
IV
Pragnę stwierdzić czy słuszne jest mniemanie, że uczestnicy kursu języka angielskiego, są przeciętnie starsi od osób uczęszczających na kurs języka niemieckiego α = 0, 05
Mam do czynienia z Modelem 3 dla dwóch średnich.
Badana cecha ma w dwóch populacjach rozkłady normalne lub inne, ale o skończonych wariancjach σ12, σ22 (mogą być nieznane). Nieznane są natomiast średnie m1, m2, dla których stawiamy hipotezę H: m1 = m2 wobec jednej z hipotez alternatywnych:
H1: m1 ≠ m2, H1: m1 < m2, H1: m1 > m2.
Dla dwóch niezależnych prób o liczebnościach (co najmniej kilka dziesiątek) n1, n2 statystyka
U= $\frac{\overset{\overline{}}{x_{1}} - \ \overset{\overline{}}{x_{2}}}{\sqrt{\frac{s_{1}^{2}}{n_{1}} + \frac{s_{2}^{2}}{n_{2}}}}$
przy założeniu prawdziwości hipotezy H0 ma rozkład asymptotycznie normalny gdzie $\overset{\overline{}}{x_{1}} - \ \overset{\overline{}}{x_{2}}\ \text{oraz}\ s_{1},s_{2}$ średnie i wariancje empiryczne.
Stawiam hipotezę
H: μ1=μ2 wobec hipotezy alternatywnej H1 : μ1 > μ2
Gdzie μ1- średnia wśród osób biorący udział w kursie języka angielskiego
, μ2- średnia wśród osób biorących udział w kursie języka niemieckiego
Wyznaczam wartość statystyki U z wyniku obu prób losowych:
U= $\frac{29,7 - 24,4}{\sqrt{\frac{{11,2}^{2}}{49} + \frac{{10,07}^{2}}{49}}}$ =2,46
Wobec postaci hipotezy alternatywnej mamy prawostronny obszar krytyczny K=(uα, ∞).
uα=0,05, u0, 05 = 1, 96. Ponieważ 2,46 należy do K więc mam podstawę do odrzucenia hipotezy H0.
Wniosek: Otrzymany wynik oznacza, że na tym poziomie ufności α = 0, 05 (i na podstawie tych danych) możemy stwierdzić, że osoby biorące udział w kursie języka angielskiego są przeciętnie starsze od osób biorących udział w kursie języka niemieckiego.