Opis projektu id 336985 Nieznany

PROJEKT ZE STATYSTYKI

Zagadnienia:

•

Analiza regresji wielorakiej;

•

Test t-Studenta;

•

ANOVA – analiza wariancji;

Projekt wykonały:

•

Katarzyna Zygała

•

Magdalena Socha

Poniższy projekt zawiera rozważania natury statystycznej nad wynikami z pewnych

testów badających zdolności humanistyczne lub matematyczne, przeprowadzonych wśród

grupy młodzieży szkół ponadgimnazjalnych. Uczniowie zostali wybrani w sposób niezależny,

losowy.

Wszystkie dane wykorzystane w projekcie zostały zamieszczone w pliku Tabela1.sta.

Tabela ta zawiera kolejno (w kolumnach):

•

TestFigur - Wyniki „Testu Figur”;

•

TestSymboli - Wyniki „Testu Symboli”;

•

TestKosci - Wyniki „Testu Kości”;

•

TestSlow - Wyniki „Testu Słów”;

•

TestPrzyp - Wyniki „Testu Przyporządkowań”;

•

TestZdan - Wyniki „Testu Zdań”;

•

Zdolność matematyczna, wzrokowa oraz słowna każdego z uczniów wyliczona na

podstawie wcześniej wymienionych testów

•

SumaMat - Suma punktów z testów sprawdzających zdolności matematyczne („Test

Figur”, „Test Symboli”, „Test Kości”);

•

SumaHum - Suma punktów z testów badających zdolności humanistyczne („Test

Słów”, „Test Przyporządkowań”, „Test Zdań”);

•

Maksymalna suma z testów matematycznych oraz humanistycznych;

•

HumProcent, MatProcent – Wynik procentowy z wyżej wymienionych testów;

•

Umysł - Typ umysłu ucznia (ścisły lub humanistyczny), zadeklarowany przez niego;

•

Wiek - Wiek ucznia;

•

Plec - Płeć ucznia;

•

WynikOgolny - Wynik ogólny wyliczony na podstawie wyników z wyżej

wymienionych testów (4*Inteligncja wzrokowa + 5*Inteligencja słowna +

6*Inteligencja matematyczna);

REGRESJA WIELORAKA

W pierwszym rozdziale naszego projektu zajmiemy się analizą regresji wielorakiej.

Zbadamy związki pomiędzy wieloma zmiennymi niezależnymi (objaśniającymi, predyktorami)

a zmienną zależną (kryterialną, objaśnianą). Dokładniej mówiąc, sprawdzimy zależność

miedzy wynikiem ogólnym obliczonym na podstawie algorytmu, a wynikami z

poszczególnych testów.

Zmienna zależna: WynikOgolny;

Zmienne niezależne: TestFigur - TestZdan;

OBLICZENIA PRZEPROWADZONO W PROGRAMIE „Statistica” (na poziomie istotności α=0,05)

W wyniku obliczeń, (które zostały zawarte w pliku Skoroszyt1.sta), otrzymujemy

poniższą tabelę:

Tabela 1.

Na podstawie powyższych wyników otrzymujemy następujące równanie regresji:

WynikOgolny = 4,516087 + 3,967831*TestFigur + 5,166856*TestSymboli +

+ 7,691475*TestKosci + 6,411703*TestSlow + 5,805746*TestPrzyp +

+ 5,362435*TestZdan ± 18,768

Uwaga:

•

4,516087 - Wyraz wolny.

•

18,768

Błąd standardowy estymacji. Mierzy dyspersję wartości obserwowanych

wokół linii regresji.

Równanie to pokazuje, w jaki sposób zmienia się wynik ogólny w zależności od jednego z

sześciu testów (figur, symboli, kości, słów, przyporządkowań, zdań).

Z równania tego możemy dowiedzieć się na przykład, że każdy jeden dodatkowo zdobyty

punkt z testu symboli (TestSymboli), zwiększa wynik ogólny (WynikOgolny) o około 5,17 %.

Wszystkie testy (będące zmiennymi objaśniającymi) zostały zaznaczone na kolor czerwony,

są wiec istotne dla naszego modelu regresji. Dokładnie takiego efektu spodziewaliśmy się,

gdyż wynik ogólny w pewnym stopniu zależał od każdego z tych testów.

Na podstawie Tabeli 1. można odczytać dodatkowo:

•

Wartość statystyki F testu Fischera - Snedecora:

Test F weryfikuje jednocześnie trzy hipotezy:

: Zmienne objaśniające nie są istotne dla modelu;

: R

= 0 - Złe dopasowanie danych do modelu;

: Model nie jest liniowy;

F(6,115) = 111,23 - Statystyka testu Fishera - Snedecora z n

=6 oraz n

=115

stopniami swobody (6 =k - liczba zmiennych objaśniających; 115=n-(k+1), 122=n -

ilość obserwacji);

(6,115) = 2,178387 - Wartość krytyczna testu Fishera – Snedecora z n

=6 oraz

=115 stopniami swobody obliczona w programie „Statistica”, przy użyciu

kalkulatora prawdopodobieństwa (Statystyka

Kalkulator Prawdopodobieństwa

Rozkłady

F(Fishera));

Wysoka wartość statystyki F pozwala na odrzucenie trzech hipotez zerowych. Nie mamy

podstaw do odrzucenia hipotez alternatywnych:

: Zmienne objaśniające są istotne dla modelu;

: R

≠ 0 - Dobre dopasowanie danych do modelu;

: Model jest liniowy, (choć w przypadku wielowymiarowym, kiedy mamy do

czynienia z więcej niż jedną zmienną niezależną, linia regresji nie może już być tak

prosto przedstawiona wizualnie w przestrzeni dwuwymiarowej);

•

Współczynnik determinacji:

Współczynnik determinacji jest to miara dopasowania oszacowań modelu do danych

empirycznych. Określa on, jaka cześć zmienności zmiennej objaśnianej jest wyjaśniana

przez model.

= 0,85301801 - Otrzymany wynik informuje nas, że nieco ponad 85% zmienności

zmiennej objaśnianej WynikOgolny jest wyjaśniana przez model.

•

Skorygowany współczynnik determinacji:

Ponieważ współczynnik determinacji bywa często zawyżony (np., gdy zmienne są

współliniowe), warto zastosować skorygowany współczynnik determinacji. Jest on,

bowiem bardziej miarodajny.

skoryg.

= 0,84534938 - Otrzymany wynik jest bardzo zbliżony do wartości zwykłego

współczynnika determinacji, informuje nas, że niemal 85% zmienności zmiennej

objaśnianej WynikOgolny jest wyjaśniana przez model.

ZAŁOŻENIA REGRESJI WIELORAKIEJ:

Liniowość modelu, (choć procedury regresji wielorakiej są dość odporne na niewielkie

odstępstwa od tego założenia);

n ≥ k+1, (n - liczba obserwacji, liczebność próby, k - liczba zmiennych objaśniających);

Zmienne objaśniające x

(i = 1,…,n) są liniowo niezależne;

(założenia 2 oraz 3 gwarantują jednoznaczne rozwiązanie rz(X

X) = k+1)

Dla każdego i=1,…,n reszty e

~ N(0,σ

) mają rozkład normalny;

Reszty są nieskorelowane (to zał. ma istotny wpływ na efektywność reszt);

Ad. 1) Otrzymane równanie regresji ewidentnie jest liniową funkcją zmiennych
niezależnych, postaci: y = a + b

+ b

+ ... + b

Założenie liniowości jest spełnione.

Ad. 2) n = 122, k = 6, zatem n ≥ k+1 (zaleca się, aby brać do analizy przynajmniej około 10

do 20 razy więcej przypadków (obserwacji, pomiarów) niż występuje w niej zmiennych);

Ad. 3) W przypadku, gdy pomiędzy zmiennymi w modelu występuje zależność liniowa, te

zmienne są nadmiarowe. „Statistica” udostępnia wskaźniki statystyczne dla wykrycia

tego typu nadmiarowości - są to np. tzw. tolerancje (T) oraz korelacje semicząstkowe

1-T).

Na podstawie rozważanych danych otrzymujemy następującą tabelę:

Tabela 2.

Wysokie wartości tolerancji (bliskie 1) dla poszczególnych zmiennych objaśniających

ewidentnie wskazują, że w modelu nie występują zależności liniowe pomiędzy tymi

zmiennymi.

Ad. 4) W wyniku pracy z programem „Statistica”, otrzymujemy następujący histogram

reszt:

Wykres 1.

Na podstawie powyższego wykresu możemy stwierdzić, że reszty mają rozkład normalny.

Jest to dobrze widoczne. Reszty istotnie wpasowały się w wykres rozkładu normalnego.

Dla upewnienia, zbadajmy dodatkowo wykres normalności reszt. Przedstawia się on

następująco:

Wykres 2.

Jak widać reszty ułożyły się bardzo blisko prostej. Żadna z reszt nie ostaje istotnie od prostej,

zatem Wykres 2. upewnia nas w przekonaniu, że reszty (różnice między wartością

obserwowaną a obliczoną z równania regresji) podlegają rozkładowi normalnemu.

Ad. 5) Do oceny korelacji reszt należy skorzystać z tabeli korelacji. Dla naszych danych

przedstawia się ona następująco:

Tabela 3.

Na podstawie Tabeli 3. możemy stwierdzić, że korelacje pomiędzy resztami nie są bliskie

wartości 1. Reszty są więc słabo skorelowane ze sobą.

W efekcie możemy stwierdzić, że wszystkie założenia dla regresji wielorakiej są

spełnione. Zatem otrzymane równanie regresji możemy uważać za słuszne i miarodajne.

Podstawowym ograniczeniem metodologicznym leżącym u podstaw wszystkich technik

regresyjnych jest fakt, że przy ich pomocy można jedynie przekonać się o istnieniu relacji,

lecz nie ma możliwości dowiedzenia istnienia związku przyczynowego będącego podłożem

tej relacji.

W kolejnym kroku naszych rozważań zajmiemy się zbadaniem wyników otrzymanych

przez uczniów (Skoroszyt2, Skoroszyt3).

Na podstawie obliczeń, otrzymujemy następujący wykres:

Wykres 3.

Na podstawie Wykresu 3. stwierdzamy, że wyniki z testów przeprowadzonych wśród grupy

młodzieży nie mają rozkładu normalnego. Rozkładają się one nierównomiernie. Widoczne

jest, że wyniki z przedziału 60-70% najbardziej zakłócają dopasowanie wyników próby do

rozkładu normalnego.

Na podstawie wykresu ramka-wąsy zamieszczonego poniżej wyraźnie widać, że średnie

wyniki (ok. 69%) uczniów, którzy zadeklarowali się, że są ścisłowcami są dużo lepsze, niż

uczniów o umyśle humanistycznym (średnia ok.58%).

Wykres 4.

Test t-Studenta

W tej części projektu zbadamy średnie z poszczególnych testów (humanistycznego i

matematycznego) w dwóch grupach (humanistów i ścisłowców). W tym celu użyjemy testu

t-Studenta dla prób niezależnych.

Wcześniej jednak sprawdźmy jak przedstawiają się średnie w grupie ścisłowców i

humanistów na wykresie ramka-wąsy.

Wykres 5. Przedstawia wyniki procentowe z testu matematycznego dla ścisłowców i

humanistów. Natomiast Wykres 6. Przedstawia wyniki procentowe z testu humanistycznego.

Wykres 5.

Wykres 6.

Na podstawia powyższych wykresów stwierdzamy, że wyniki z testu matematycznego są

znacznie lepsze w grupie ścisłowców, natomiast wyniki z testu humanistycznego są lepsze w

grupie humanistów. Średnia z testu matematycznego w grupie ścisłowców (ok. 82%) jest

istotnie różna od średniej z tego testu w grupie humanistów (ok. 50%). Natomiast średnia z

testu humanistycznego w grupie humanistów (ok. 60%) jest różna od średniej z tego testu w

grupie ścisłowców (ok. 56%).

Przejdźmy do wykonania testu t-Studenta. Otrzymujemy następującą tabele:

Tabela 4.

Zmienna MatProcent (wynik procentowy z testu matematycznego) została zaznaczona na

kolor czerwony. Test t-Studenta odrzuca tą zmienną, co świadczy o tym, że średnie z testu

matematycznego są istotnie różne w grupie ścisłowców i humanistów (taki sam wniosek

został wysnuty na podstawie Wykresu 5.).

Dla zmiennej HumProcent (wynik procentowy z testu humanistycznego) nie ma podstaw do

odrzucenia hipotezy o równych średnich w grupie humanistów i ścisłowców.

Podawany w wynikach testu t poziom p reprezentuje prawdopodobieństwo błędu

związanego z przyjęciem hipotezy o istnieniu różnic między średnimi. Ujmując to językiem

bardziej technicznym jest to prawdopodobieństwo popełnienia błędu polegającego na

odrzuceniu hipotezy o braku różnicy między średnimi w dwóch badanych grupach.

ZAŁOŻENIA TESTU t-Studenta:

Normalność rozkładu zmiennych;

Brak istotnych różnic między wariancjami;

Ad. 1) Poniższe histogramy skategoryzowane przedstawiają dopasowanie do rozkładu

normalnego wyników z testu matematycznego (Wykres 7.) oraz humanistycznego

(Wykres 8.) dla ścisłowców i humanistów.

Wykres 7a.

Wykres 7b.

Wykres 8a.

Wykres 8b.

Na podstawie powyższych histogramów możemy stwierdzić, że wyniki nie mają rozkładu

normalnego.

Przeanalizujmy dodatkowo skategoryzowane wykresy normalności:

Wykres 9.

Wykres 10.

Zarówno z Wykresu 9. (wykonanego dla zmiennej MatProcent), jak również z Wykresu 10.

(wykonanego dla zmiennej HumProcent) łatwo można wywnioskować, że wyniki nie układają

się blisko prostej. Wiele przypadków znacznie odbiega od prostej.

Z powyższego wynika, że założenie o normalności dla testu t-Studenta nie jest

spełnione (jednakże, na podstawia Wykresu 8b. możemy wywnioskować, że wyniki

humanistów z testu humanistycznego mogą podlegać rozkładowi normalnemu).

Ad. 2) Do badania jednorodności wariancji wykorzystamy test Browna- Forsythe'a. Wartości

statystyk tego testu dla zmiennych HumProcent oraz MatProcent znajdują się w Tabeli 4.

Dla pierwszej z tych zmiennych wartość statystyki testu Browna- Forsythe'a wynosi:

Brn-Fors=0,000011, natomiast dla drugiej zmiennej, wynosi Brn-Fors=9,501284. Poziom

istotności p wynosi natomiast odpowiednio: p=0,997413 oraz p=0,002548.

Zatem dla zmiennej HumProcent nie ma podstaw do odrzucenia hipotezy o jednorodnej

wariancji (p>α). Natomiast dla zmiennej MatProcent hipotezę o jednorodnej wariancji

odrzucamy (p<α).

W efekcie możemy stwierdzić, że ponieważ założenia testu t-Studenta nie są

spełnione, to otrzymane wyniki mogą nie być miarodajne.

ANOVA – ANALIZA WARIANCJI

W ostatnim kroku naszych rozważań zajmiemy się analizą wariancji (ANOVA, pliki

Skoroszyt 4. - Skoroszyt 7.), której celem jest (jak w teście t), testowanie różnic pomiędzy

średnimi. W przypadku porównywania dwóch średnich powinniśmy otrzymać dokładnie taki

sam efekt jak w przypadku testu t.

Przed rozpoczęciem analizy wariancji, przyjrzyjmy się raz jeszcze wykresom ramka-

wąsy z uwzględnionymi średnimi.

Wykres 11.

Jak zostało wykazane przy pomocy testu t, średnie wyniki z testu matematycznego (kolor

zielony) są istotnie różne. Natomiast średnie z testu humanistycznego (kolor czerwony)

ulokowały się na podobnym poziomie. (Sprawdzimy to ponownie właśnie przy pomocy

ANOV-y.)

Dodatkowo możemy stwierdzić, że wyniki humanistów zarówno z testu humanistycznego,

jak i matematycznego są bardzo podobne.

Na Wykresie 11. obserwujemy dosyć dużo punktów odstających oraz ekstremalnych,

świadczy to o tym, że otrzymane wyniki znacznie odbiegają od średniej. Może to być

spowodowana faktem, że uczniowie sami deklarowali się, jaki rodzaj umysłu posiadają.

W pierwszym etapie ANOV-y homogeniczności wariancji zmiennej w grupach.

Stawiamy w tym celu następujące hipotezy:

: Wariancje zmiennej są statystycznie równe;

: Wariancje zmiennej różnią się istotnie;

Do weryfikacji hipotezy zerowej zastosujemy test Levene’a.

Tabela 5.

Na podstawie wyników zamieszczonych w Tabeli 5. wnioskujemy, że dla zmiennej

HumProcent na poziomie istotności α = 0,05, nie ma podstaw do odrzucenia hipotezy o

homogeniczności wariancji. Dla tej zmiennej p = 0,865809. Obliczona wartość p jest większa

od α.

Natomiast dla zmiennej MatProcent hipotezę H

odrzucamy, na korzyść hipotezy

alternatywnej (p<α).

Test Levene’a wskazuje, że założenie o homogeniczności wariancji w poszczególnych

podgrupach nie jest spełnione. ANOVA jest jednak stosunkowo odporna na niespełnienie

tego założenia.

Test ten pokazał, że analiza wariancji może zostać przeprowadzona jedynie dla zmiennej

HumProcent.

Poniższy wykres wyraźnie przedstawia dużą różnicę średnich dla testu matematycznego.

Natomiast na podstawie Wykresu 13

HumProcent dla humanistów i ścisłowców mogą okazać się statystycznie równe (

bowiem niewielkie).

Wykres 12.

Wykresu 13. możemy wywnioskować, że średnie wyniki z testu

dla humanistów i ścisłowców mogą okazać się statystycznie równe (

Wykres 13.

możemy wywnioskować, że średnie wyniki z testu

dla humanistów i ścisłowców mogą okazać się statystycznie równe (różnice są

W poniższej tabeli znajdują się oszacowane wartości średnich wraz z przedziałami ufności,

liczba humanistów oraz ścisłowców.

Tabela 6.

W kolejnym kroku, pomocą testów „Post-hoc” sprawdzimy czy średnie tworzą grupy

jednorodne.

Grupa jednorodna to grupa o średnich nieróżniących się istotnie. Poszczególne testy „Post-

hoc” mogą tworzyć różne grupy jednorodne, grupy te mogą być nierozłączne to znaczy jedna

średnia może należeć do dwóch różnych grup jednorodnych.

Tabela 7.

Dla poszczególnych testów, otrzymano jedną grupę jednorodną – pokazuje to Tabela 7.

Wykonane testy post-hoc to:

•

Test Tukeya;

•

Test Newmana - Keulsa;

•

Test Duncana.

Wyniki testów wymienionych powyżej znajdują się w pliku Skoroszyt5. W naszym przypadku

otrzymujemy jedną grupę jednorodną.

BADANIE NORMALNOŚCI ROZKŁADU ZMIENNEJ (TEST SHAPIRO - WILKA)

Na tym etapie, przy pomocy testu Shapiro - Wilka sprawdzimy normalność rozkładu

cech. W teście stawiamy następujące hipotezy:

: Rozkład zmiennej jest zgodny z rozkładem normalnym;

: Rozkład zmiennej nie jest zgodny z rozkładem normalnym;

W wyniku naszych rozważań, otrzymujemy następujące wyniki (Tabela 8., Tabela 9.):

•

Dla ścisłowców:

Tabela 8.

•

Dla humanistów:

Tabela 9.

Wyniki z powyższego testu nasuwają następujące wnioski:

•

p < α;

•

Na poziomie istotności α=0,05 mamy podstawy do odrzucenia hipotezy H

o zgodności rozkładu z rozkładem normalnym;

Obliczenia do testu są umieszczone w pliku o nazwie Skoroszyt4.

TESTOWANIE RÓŻNIC POMIĘDZY ŚREDNIMI Z RÓŻNYCH PRÓB NIEZALEŻNYCH

(TEST KRUSKALA - WALLISA)

Dla zmiennej MatProcent w teście Levene’a p = 0,001204 (wynik zamieszczono w

Tabeli 5.) na poziomie istotności α = 0,05 (p<α), w takim przypadku zamiast analizy wariancji

można zastosować jej alternatywę – nieparametryczny test Kruskala - Wallisa.

Hipotezy, jakie stawiamy są następujące:

: Rozkłady wyników są takie same (pochodzą z tej samej populacji);

: Istnieją co najmniej dwa wyniki, że ich rozkłady różnią się istotnie;

W naszym przypadku wyniki testu Kruskala – Wallisa są następujące:

Tabela 10.

Nad tabelą znajdujemy obliczoną wartość H=57,32193 i odpowiadający jej poziom p=0,0000.

Ponieważ p < 0,05 odrzucamy hipotezę o równości rozkładu wyników i stwierdzamy, iż

istnieją co najmniej dwa wyniki których te rozkłady są odmienne.

W celu dalszego podejmowania problemu, które z par wyników różnią się ze sobą istotnie,

skorzystamy z wielokrotnych porównań średnich rang dla wszystkich prób.

Tabela 11.

Na Wykresie 6. widzimy istotną różnice między średnimi wynikami dla MatProcent ze

względu na zmienną grupującą Umysł.

Opracowanie testu Kruskala – Wallisa znajduje się w pliku Skoroszyt6.

PODSUMOWANIE

Przeprowadzone analizy skłaniają nas do wysnucia następujących wniosków:

•

Przeprowadzone w grupie młodzieży testy nie dały wyników o rozkładzie normalnym

(zarówno w grupach, jak i bez podziału na grupy);

•

Test t-Studenta pokazał, że średnie wyniki w grupie matematyków są istotnie różne;

•

Na podstawia przeprowadzonej analizy wariancji (ANOVA) wnioskujemy, że nie ma podstaw

do odrzucenia hipotezy o równości średnich w grupie humanistów;

•

Powodem wielu niespełnionych założeń mogło być samodzielne zadeklarowanie przez

uczniów rodzaju posiadanego umysłu;

Wyszukiwarka

Podobne podstrony:
projekty 3 id 400866 Nieznany
kse projekt id 252149 Nieznany
opis cwiczenia id 336864 Nieznany
opis techiczny id 337039 Nieznany
projekt29 id 400291 Nieznany
projektMOS id 400412 Nieznany
projektowanie 2 id 400443 Nieznany
Projekt 7 A id 398367 Nieznany
projekt0002 id 400180 Nieznany
Projekt 6 id 397770 Nieznany
Omowienie projektu id 335352 Nieznany
PROJEKT 5 id 398124 Nieznany
GW PROJEKT F id 197909 Nieznany
projekt 4 i 5 id 398318 Nieznany
opis instalacje id 336913 Nieznany
Mechana projekt2 id 290480 Nieznany
Opis drogi id 336893 Nieznany
projekt 1 3 id 397964 Nieznany
Projekt3 id 400307 Nieznany

więcej podobnych podstron