PROJEKT ZALICZENIOWY Z PRZEDMIOTU STATYSTYKA OPISOWA
Aleksandra Potoczny
Arleta Perak
Zarządzanie w turystyce,
hotelarstwie i gastronomii
gr. 2b, rok II
Tabela przedstawia jedną zmienną zależną: ocena z egzaminu;
oraz 10 zmiennych niezależnych, po 30 przypadków:
ilość godzin poświęconych nauce
ilość zrobionych ściąg
ilość przeczytanych książek
ilość obecności na zajęciach
ilość obecności na wykładach
ilość odrobionych prac domowych
ilość godzin snu przed egzaminem
ilość godzin na korepetycjach
ocena z aktywności na zajęciach
ocena z zaliczenia
Średnia są to dodane wartości, podzielone przez ich ilość, np. średnia ocena z egzaminu to 3,53.
Mediana jest wielkością środkową, 50% wartości jest równe lub niższe medianie, zaś 50%
wartości jest równe lub wyższe od niej - weźmy np. zmienną „ilość obecności na zajęciach”, mediana wynosi 13, więc 50% osób było na zajęciach 13 lub mniej razy, natomiast drugie 50% osób było 13 lub więcej razy obecne na zajęciach. Mediana jest wielkością środkową z wszystkich danych.
Minimum oznacza najmniejszą wartość danego zbioru. Jeżeli weźmiemy pod uwagę zmienną ”ocena z zaliczenia” - minimum jest wartość 3, czyli najniższa ocena osiągnięta z zaliczenia.
Maksimum oznacza największą wartość danego zbioru. Weźmy np. zmienną ilość godzin poświęconych nauce- maksymalną wartością tego zbioru jest liczba 52, oznacza to, że tyle godzin poświęciła nauce pewna osoba/ osoby w przedstawionej grupie.
Odchylenie standardowe mówi nam o tym, jak szeroko wartości jakiejś wielkości rozrzucone są wokół jej średniej, np. „ocena zaliczenia”, mamy małą wartość odchylenia standardowego, ponieważ wszystkie wartości oscylują wokół średniej jest to przedział <3,5>, gdzie średnią jest wartość 3,53.
Współczynnik zmienności to miara zróżnicowania cechy, jest ilorazem bezwzględnej miary wielkości cechy (odchylenia standardowego) cechy i średniej wartości tej cechy. Podawany zwykle w procentach.
Przykład: Średnia ilość obecności na wykładzie wynosi 4,97 godziny, zaś odchylenie standardowe to 2,91 godziny(V1). Średnia ilość godzin na korepetycjach to 2,5 godziny, zaś odchylenie to 2,84 (V2)
V1= 2,91/4,97 = 58,76 %
V2= 2,84/2,5 = 113,99 %
Pomimo, iż obie badane populacje charakteryzowały się podobnym odchyleniem, to współczynnik zmienności ilości godzin na korepetycjach jest 2-krotnie wyższy niż ilości godzin na wykładach.
Skośność jest wskaźnikiem asymetrii wokół średniej. Przyjmuje wartość zero dla rozkładu symetrycznego(bliski tego jest rozkład wartości zmiennej „ ocena z egzaminu), wartości ujemne dla rozkładów o lewostronnej asymetrii, gdzie lewe ramię rozkładu jest wydłużone( np. ilość obecności na zajęciach) wartości dodatnie dla rozkładów o prawostronnej asymetrii, gdzie prawe ramię rozkładu jest wydłużone ( np. ilość zrobionych ściąg).
Kurtoza to miara koncentracji i spłaszczenia rozkładu, określa rozmieszczenie wartości w pobliżu średniej.
K > 0 rozkład stosunkowo dużej szczytowości (np. ilość zrobionych ściąg)
K= 0 rozkład normalny
K < 0 rozkład stosunkowo spłaszczony (np. ocena z aktywności na zajęciach)
Korelacja jest miarą powiązania pomiędzy dwiema lub większą liczbą zmiennych. Skale pomiarowe, jakich używa się w takiej analizie, powinny być co najmniej skalami przedziałowymi , lecz zdefiniowano także takie współczynniki korelacji, które umożliwiają analizę danych innych typów. Współczynniki korelacji przyjmują wartości z przedziału od -1,00 do +1,00. Wartość -1,00 reprezentuje doskonałą korelację ujemną, a wartość +1,00 doskonałą korelacją dodatnią. Wartość 0.00 wyraża brak korelacji.
Wykres pokazuje zależność między oceną z egzaminu a ilością godzin poświęconych nauce. Można zauważyć, że wraz ze wzrostem ilości godzin poświęconych nauce nieznacznie wzrasta ocena z egzaminu. Niestety nie możemy traktować tego jako wiarygodnej reguły, gdyż korelacja jest słaba.
Na wykresie została przedstawiona zależność między oceną z egzaminu a ilością przeczytanych książek. Krzywa ma tendencję rosnącą, z czego wynika, że ocena z egzaminu rośnie wraz z ilością przeczytanych książek. Występuje korelacja umiarkowana.
Wykres przedstawia zależność między oceną z egzaminu, a ilością ściąg zrobionych. Jak widać współczynnik korelacji przyjął wartość ujemną, czyli ilość zrobionych ściąg jest odwrotnie proporcjonalna do oceny uzyskanej z egzaminu - im więcej zrobionych ściąg tym niższa ocena z egzaminu. Korelacja jest niska.
Wykres przestawia zależność między oceną z egzaminu a ilością obecności na zajęciach. Widzimy, że współczynnik korelacji jest dodatni, z czego wynika ze ocena z egzaminu rośnie wraz z ilością obecności na zajęciach. Występuje korelacja umiarkowana.
Na wykresie przedstawiona jest zależność między oceną z egzaminu a ilością obecności na wykładzie. Krzywa korelacji jest minimalnie ujemna, a wartości rozrzucone są po całym wykresie, co pozwala nam stwierdzić, korelacja jest słaba, czyli ilość obecności na wykładach nie ma wpływu na ocenę z egzaminu.
Wykres przedstawia zależność między oceną z egzaminu a ilością odrobionych prac domowych. Współczynnik korelacji ma wartość dodatnią, czyli ilość prac domowych w pozytywny sposób wpływa na ocenę z egzaminu - im więcej tym wyższa ocena. Wykres przedstawia korelacje istotną.
Na wykresie została pokazana zależność między oceną z egzaminu a ilością snu przed nim. Wartości rozrzucone są nierównomiernie po całym wykresie, a krzywa korelacji jest praktycznie pozioma (korelacja słaba), z czego wnioskujemy, że ilość godzin snu przed egzaminem nie ma w przypadku naszego badania wpływu na ocenę z egzaminu.
Wykres prezentuje zależność między oceną z egzaminu a ilością godzin spędzonych na korepetycjach. Współczynnik korelacji przyjmuje podobnie jak w przypadku poprzedniej korelacji wartość dodatnią, bliską zeru (korelacja słaba) - ilość godzin poświęconych na naukę u korepetytora nie ma wpływu na ocenę z egzaminu.
Wykres przedstawia zależność między oceną z egzaminu a oceną z aktywności na zajęciach. Wynika z niego, że mamy do czynienia z zależnością znaczną, na co wskazuje wysoki współczynnik korelacji. Jest to korelacja dodatnia, gdzie ocena z egzaminu rośnie wraz z oceną z aktywności na zajęciach.
Wykres przedstawia zależność między oceną z egzaminu a ocena z zaliczenia. Współczynnik korelacji jest dodatni, z czego wynika, że wraz ze wzrostem oceny z zaliczenia rośnie również ocena z egzaminu. Korelacja wysoka.
Regresja wieloraka
„Regresja jest to wyjaśnianie zachowania się jednej zmiennej poprzez inne."
R wielorakie określa w jakim stopniu zmienne są współzależne.
R=0,84 wskazuje na dobrą korelacje zmiennej zależnej ze zmiennymi niezależnymi.
Wartość R2 stanowi wskaźnik jakości dopasowania modelu do danych (R2 bliskie 1,0 wskazuje, że prawie cała zmienność zmiennej zależnej może być objaśniona przez zmienne niezależne włączone do modelu).
Wynik uzyskany w badanej próbce R^2=0,71 oznacza ze 71,% danych badanej zmiennej czyli oceny z egzaminu jest wyjaśnione regresją a 29 % nie.
|
Powyższa tabela obrazuje, że 3 zmienne (zaznaczone na czerwono), czyli ocena z aktywności na zajęciach, ilość przeczytanych książek oraz ocena z zaliczenia są czynnikami istotnymi, wpływającymi na ocenę z egzaminu.
Wartość poziomu-p stanowi malejący wskaźnik wiarygodności rezultatu. Im wyższy poziom-p, tym mniej możemy być pewni, że relacja obserwowana w próbce jest wiarygodnym wskaźnikiem relacji pomiędzy mierzonymi wielkościami w całej interesującej nas populacji.
Na przykład jeżeli tak jak u nas przyjmiemy poziom-p równy 0,05 oznaczać to będzie, że istnieje 5% szans, że odkryta w próbie relacja jest dziełem przypadku. U nas widać, że ocena z zaliczenia, il. przeczytanych książek, ocena z zaliczenia mieszczą się w tych granicach. Można uznać, że zmienne te istotne , a ich wpływ na zmienną zależną nie jest przypadkowy. Natomiast ilość godzin snu przed egzaminem oraz ilość obecności na zajęciach, gdzie poziom istotności wynosi 0,15 oraz 0,26 nie jest dobrze dobraną zmienną lub dane są źle dobrane. Uzyskane wyniki są nie są istotne i nie należy brać ich pod uwagę.