Statystyka Ćwiczenia z SPSS dr Maciej Trojan
Podstawowe terminy statystyczne
Cel Zajęć:
Celem ćwiczeń jest zdobycie przez studentów podstawowych umiejętności niezbędnych przy planowaniu badań empirycznych oraz analizie i interpretacji ich wyników; tj:
właściwego formułowania problemów badawczych i hipotez,
dobierania właściwych narzędzi statystycznych do danego problemu badawczego,
oceny jakości uzyskanych danych,
interpretowania wyników analiz statystycznych.
Organizacja zajęć:
Zajęcia mają formę praktycznych ćwiczeń przy komputerze. Każdy z uczestniczących w nich studentów ma szansę osobiście przećwiczyć omawiane na wykładzie ze statystyki metody na danych dostarczonych przez osobę prowadzącą.
Wszystkie zagadnienia będą objaśniane na konkretnych przykładach zaczerpniętych z problematyki psychologicznej. Uczestnicy zajęć posiądą umiejętność obliczania statystyk (porównania międzygrupowe, techniki korelacyjne, regresja, analiza wariancji), tworzenia raportów i wykresów.
Dodatkowo, do każdych zajęć zostaną przygotowane stosowne materiały dydaktyczne.
Wymagania i forma zaliczenia
Wymagania wstępne
Zaliczenie wykładu ze statystyki
Umiejętność obsługi komputera.
Kryteria i sposób zaliczania
Obecność na zajęciach
Zdobycie odpowiedniej ilości punktów z kolokwiów w trakcie trwania zajęć
Uzyskanie pozytywnej oceny z końcowego testu
Tematy zajęć
Zajęcia organizacyjne - przedstawienie celu zajęć (odniesienie użycia pakietu statystycznego do szerszego kontekstu prowadzenia badań empirycznych), zakresu tematycznego, wymagań, kryteriów i sposobu zaliczania; Przygotowanie macierzy danych - organizacja macierzy, kodowanie danych, opis zmiennych, format zmiennych itp.
Ćwiczenia dotyczące organizacji macierzy danych - kodowanie brakujących wartości, rekodowanie danych, wyliczanie nowych zmiennych; Organizacja pakietu SPSS - data, syntax, output i inne okna programu
Statystyki opisowe - frekwencje, tablice wielodzielcze, miary tendencji centralnej i rozproszenia - średnia, mediana, odchylenie standardowe - skośność, kurtoza itp; Wykresy częstości
Test sprawdzający wiedzę z zakresu organizacji macierzy danych i statystyk opisowych; Testy istotności różnicy I - testy t (dla jednej próby, dla prób niezależnych, dla prób zależnych)
Testy istotności różnicy II - testy t, testy nieparametryczne (U-Manna-Whitneya, Z-Kołmogorowa-Smirnowa, W-Wilcoxona, test χ2)
Test sprawdzający wiedzę z zakresu testów istotności różnicy; Miary siły związku - r-Pearsona, τ-Kendalla i ρ-Spearmana, φ-Yulea i V-Cramera
Test sprawdzający wiedzę z zakresu miar siły związku; Analiza regresji liniowej
Analiza wariancji
Test sprawdzający wiedzę z zakresu analizy regresji liniowej i analizy wariancji; Ćwiczenia powtórkowe z wybranych partii materiału
Ćwiczenia powtórkowe wybranych partii materiału; Test końcowy
Statystyka - dział metodologii naukowej, zajmujący się zbieraniem, klasyfikowaniem, opisem i interpretacją danych. Jej celem jest opis i wyciąganie wniosków dotyczących właściwości ilościowych populacji.
Populacja - zbiór elementów (rzeczy, zdarzeń), podlegających badaniu statystycznemu. Elementy populacji są do siebie podobne pod względem badanej cechy, ale nie są identyczne.
Ze względu na liczebność zbioru, populacje można podzielić na:
populacje skończone - np. liczba ludzi w Polsce, liczba psów w schronisku
populacje nieskończone - np. czas, liczba możliwych rzutów kostką
Parametr -właściwość opisująca populację. Zazwyczaj parametry pozostają nieznane, szacujemy je na podstawie wartości uzyskanych z prób. (oznaczenia - litery greckie)
Estymator -właściwość próby pobranej losowo z populacji. Wartość uzyskana przy badaniu próby jest estymatorem odpowiedniego parametru populacji. (oznaczenia - litery łacińskie)
Zmienna - właściwość, pod względem, której elementy grupy lub zbioru różnią się między sobą (np. płeć, wiek, inteligencja).
Stała - właściwość, pod względem, której elementy grupy lub zbioru nie różnią się między sobą (w pewnym sensie to szczególny przypadek zmiennej, która nie zmienia się w zależności od elementu grupy lub w konkretnym zbiorze określonych warunków).
Zmienna niezależna to zmienna sprawcza; jej określona wartość bezpośrednio wpływa na wartość innych zmiennych.
Zmienna zależna ulega zmianom pod wpływem zmiennej niezależnej; jej wartość wynika bezpośrednio z kształtu zmian wartości zmiennej niezależnej.
Zmienna Ilościowa - wyraża określoną właściwość lub cechę danego obiektu, której poziom lub natężenie można wyrazić liczbowo (wzrost, wiek, zarobki).
Zmienna Jakościowa - ( zaliczamy do nich z. dychotomiczne) wyraża określoną właściwość lub cechę danego obiektu nie przy pomocy wartości liczbowych, ale przez skategoryzowanie tych cech czy właściwości (np. kobieta - mężczyzna).
Zmienne Ciągłe - mogą przyjmować dowolne wartości z określonego zakresu. Między dwiema dowolnymi wartościami zmiennej znajduje się nieskończenie wiele wartości pośrednich (np. wzrost, ciężar, czas).
Zmienne Dyskretne (nieciągłe) - może przyjmować tylko niektóre wartości (np. liczba dzieci w rodzinie, liczba rzutów kostką).
Zmienna Dychotomiczna (dwuwartościowa) - zmienna, która w naturalny sposób przyjmuję tylko wartości ze zbioru dwuelementowego; zmienna dwukategorialna (płeć, odp: tak, nie).
Zmienna Zdychotomizowana - faktycznie wielowartościowa, ale dla jakiś celów sprowadzona do postaci dwuwartościowej (np. wzrost niski - do 160; wysoki - powyżej 170).
Zmienna Politomiczna - wielowartościowa
Zmienne nominalne - właściwości elementów należących do grupy, która została wyznaczona przez operację pozwalającą na formułowaniu twierdzeń o równości lub różności (twierdzenia typu “takie same" bądź “różne”) np. płeć, kolor oczu, tryb studiów.
Zmienne porządkowe - właściwości określone przez operacje, pozwalające na szeregowanie elementów grupy; (twierdzenia typu „większe niż”, „mniejsze niż”), np. gdy musimy uszeregować grupę w/g. stopnia agresywności, skłonności do lenistwa.
Zmienne przedziałowe - właściwości określone przez operacje, pozwalające na formułowanie twierdzeń o równości przedziałów. Zmienna przedziałowa nie ma prawdziwego punktu zerowego, ale dla wygody może on zostać arbitralnie wyznaczony. Przykłady: pomiary temperatur wg skali Celsjusza, czas kalendarzowy
Zmienne stosunkowe (ilorazowe)- właściwości określone przez operacje, pozwalające na formułowanie również twierdzeń o równości stosunków (ile razy wartość jednej zmiennej jest większa/mniejsza od wartości drugiej zmiennej). Przykłady: długość, ciężar, liczebność zbiorów.
Metody statystyczne służą do analizowania danych składających się ze zmiennych nominalnych, porządkowych, przedziałowych oraz stosunkowych. Z punktu widzenia praktyki opracowania statystycznego w Psychologii nie ma znaczenia, czy zmienna jest mierzona na skali przedziałowej czy stosunkowej.
UWAGA! Każda skala silniejsza ma właściwości skali słabszej, tzn. że każda właściwość mierzona skalą silniejszą może być też mierzona skalą słabszą.
Etapy wnioskowania statystycznego:
Sformułowanie hipotez (zerowej i alternatywnej).
Określenie skali pomiarowej zmiennej zależnej.
Wybór testu statystycznego.
Przyjęcie poziomu istotności i określenie wielkości próby.
Określenie rozkładu z próby statystyki testu i ustalenie wartości krytycznej.
Wyliczenie statystyki testu z danych empirycznych.
Porównanie wartości empirycznej z wartościami krytycznymi i podjęcie decyzji odnośnie hipotezy zerowej.
Hipotezy zerowa i alternatywna (robocza) wzajemnie się wykluczają.
Hipoteza zerowa jest tak sformułowana, by jej odrzucenie było równoznaczne z przyjęciem hipotezy alternatywnej.
Hipotezy mogą być:
jednostronne (kierunkowe) lub
dwustronne (dwukierunkowe, bez określonego kierunku).
Błędem pierwszego rodzaju (zwanym inaczej błędem pierwszego typu, błędem przyjęcia lub alfa-błędem) nazywamy błąd polegający na odrzuceniu hipotezy zerowej, która jest prawdziwa. Innymi słowy jest to błąd polegający na tym, że na podstawie wyników testu statystycznego twierdzimy, że jakiś fakt jest statystycznie istotny, natomiast w rzeczywistości jest on dziełem przypadku.
Prawdopodobieństwo popełnienia błędu pierwszego rodzaju równy jest α i nazywamy poziomem istotności testu.
Błędem drugiego rodzaju (zwanym inaczej błędem drugiego typu, błędem przyjęcia lub beta-błędem) nazywamy błąd polegający na przyjęciu hipotezy zerowej, która jest fałszywa. Innymi słowy jest to błąd polegający na tym, że na podstawie wyników testu statystycznego twierdzimy, że jakiś fakt jest dziełem przypadku, natomiast w rzeczywistości jest on statystycznie istotny.
Prawdopodobieństwo popełnienia błędu drugiego rodzaju równe jest β.
Przy utrzymaniu na stałym poziomie błędu I rodzaju można zmniejszyć błąd II rodzaju poprzez zwiększenie liczebności próby.
Błąd trzeciego rodzaju (zwany inaczej błędem typu trzeciego ) to pojęcie wprowadzone w 1968 roku przez statystyka Howarda Raiffa. Zaproponował on wprowadzenie błędu trzeciego rodzaju, czyli błędu polegającego na prawidłowym i dokładnym rozwiązaniu niewłaściwego problemu (np. przy niewłaściwie sformułowanej hipotezie zerowej).
Czasami nazwą błąd trzeciego rodzaju określa się też wszelkie inne błędy które mogą wyniknąć przy testowaniu hipotez, np. błąd wynikający z zaokrąglenia wartości statystyki testowej podczas obliczeń komputerowych.
Rozkład empiryczny
- przyporządkowanie kolejnym
wartościom zmiennej odpowiadających
im liczebności. Odzwierciedla strukturę
badanej zbiorowości z punktu widzenia
konkretnej cechy.
Rodzaje rozkładów:
- jednomodalny
- wielomodalny
Rozkład normalny
Centralne twierdzenie graniczne:
- jeżeli pobieramy z populacji nieskończenie wiele reprezentatywnych prób to rozkład średnich z prób dąży do rozkładu normalnego.
Właściwości:
Rozkład normalny
(krzywa normalna, krzywa dzwonowata):
- Krzywą normalną zapisuje się zwykle w
postaci właściwej dla wyników standardowych.
- Krzywa jest symetryczna. Średnia, mediana
i wartość modalna zbiegają się w jednym
punkcie.
- Najwyższa rzędna krzywej występuje w
punkcie średniej.
- Krzywa jest asymptotyczna.
Zbliża się ona do osi poziomej, lecz nigdy
do niej nie dochodzi i rozciąga się od minus
nieskończoności do plus nieskończoności.
- Punkty zagięcia krzywej znajdują się w miejscach plus lub minus jedną jednostkę odchylenia standardowego powyżej lub poniżej średniej. W tych miejscach krzywa zmienia się względem osi poziomej z wypukłej we wklęsłą.
- Mniej więcej 68% powierzchni pod krzywą mieści się w granicach plus lub minus jednej jednostki odchylenia standardowego od średniej.
- Około 95,5% powierzchni pod krzywą mieści się w granicach dwóch odchyleń standardowych.
- Około 99,7% w granicach trzech odchyleń
Poziom istotności - prawdopodobieństwo popełnienia błędu pierwszego rodzaju, polegającego na odrzuceniu poprawnej hipotezy zerowej (α).
Poziom ufności - prawdopodobieństwo poprawnego wnioskowania (1-α).
Błąd standardowy średniej - odchylenie standardowe rozkładu średniej z próby.
Przedział ufności - przedział wartości prawdopodobnych.
Obszar krytyczny - obszar wartości nieprawdopodobnych.
Miary tendencji Centralnej
Są statystykami opisującymi rozkład proporcji.
Mediana - jest to 50. centyl, czyli taka wartość, przy której połowa obserwacji ma wartości nie większe od niej i równocześnie połowa obserwacji ma wartości nie mniejsze. W sytuacji parzystej liczby obserwacji, mediana jest średnią dwu środkowych obserwacji w próbie posortowanej rosnąco lub malejąco.
W przeciwieństwie do średniej, na którą wpływ może mieć nawet kilka ekstremalnie dużych lub małych wartości, mediana jest miarą tendencji centralnej niewrażliwą na wartości odstające.
Modalna - najczęściej spotykana wartość.
Średnia - suma obserwacji dzielona przez ich liczbę.
Miary Rozproszenia
Statystyki mierzące zmienność lub rozrzut danych; obejmują miedzy innymi:
Odchylenie standardowe - miara rozproszenia wokół średniej, wyrażona w tych samych jednostkach co zmienna, równa pierwiastkowi kwadratowemu z wariancji.
Wariancja - miara rozproszenia wokół średniej, równa sumie kwadratów odchyleń od średniej podzielonej przez liczbę obserwacji minus jeden. Wariancja jest podawana w kwadratach jednostek, w jakich mierzona jest zmienna.
Rozstęp - różnica między największą a najmniejszą wartością zmiennej numerycznej; maksimum minus minimum.
Minimum - najmniejsza wartość zmiennej numerycznej.
Maksimum - największa wartość zmiennej numerycznej.
Miary asymetrii - skośność
Rozkład normalny jest symetryczny i posiada współczynnik skośności równy 0. Rozkład o znaczącej wartości dodatniej współczynnika skośności ma długi ogon z prawej strony. Gdy zaś współczynnik jest ujemny, rozkład ma długi ogon z lewej strony. Wartość skośności większa od 1 na ogół oznacza rozkład znacząco różniący się od rozkładu normalnego.
Miary koncentracji - kurioza
W przypadku rozkładu normalnego wartość kurtozy wynosi 0. Dodatnia kurtoza wskazuje, że obserwacje są silniej skoncentrowane i mają dłuższe ogony niż w przypadku rozkładu normalnego. Ujemna kurtoza wskazuje na mniejszą koncentrację obserwacji i krótsze ogony.
Skośność < 0
Skośność > 0
Skośność = 0
Kurtoza < 0
Kurtoza > 0
Kurtoza = 0
99,7%
95,5%
68%