1. Wczytywanie, zapisywanie i tworzenie nowych zbiorów danych
Po uruchomieniu programu SPSS pojawi się okienko, które pozwala otworzyć istniejący plik danych. SPSS ma kilka przykładowych plików danych, np. Generalny Sondaż Społeczny USA 1991.sav. Spróbuj otworzyć właśnie ten plik. Wystarczy znaleźć go na przewijanej liście, która znajduje się na środku tego okienka. Jeżeli po uruchomieniu programu SPSS nie masz tego okienka lub w trakcie pracy z nim chcesz otworzyć inny plik, to wystarczy wybrać Plik / Otwórz / Dane...
SPSS ma postać arkusza z danymi. Bezpośrednio nad wierszem zawierającym nazwy zmiennych znajduje się komórka, w której można odczytać pozycję (czyli numer wiersza i nazwę kolumny) aktywnej komórki, a po prawej stronie - pole, w którym można edytować zawartość tej komórki.
Po najechaniu myszką na nazwę zmiennej pojawia się etykieta informująca nas, jakie dane znajdują się w tej kolumnie.
Zadanie: Otwórz przykładowy plik danych zamieszczony w pakiecie SPSS, np. Generalny Sondaż Społeczny USA 1991.sav. Przyjrzyj się tabeli danych i obejrzyj dokładnie specyfikacje zmiennych. Na przykładzie zmiennej educ odpowiedz na pytania:
jakie dane o respondencie są zapisywane pod tą zmienną?
jakiego typu jest ta zmienna?
jaką szerokość mogą mieć wprowadzone dane, czy mogą mieć cyfry po przecinku i ile?
jakie wartości może przyjmować zmienna educ?
co oznaczają wartości 98 i 99 tej zmiennej? dlaczego warto wprowadzić tego typu rozróżnienie?
jaka jest różnica przy specyfikacji tej zmiennej w wartościach wpisywanych w kolumny Szerokość i Kolumny?
jaka jest różnica pomiędzy poziomem ilościowym a porządkowym?
U dołu arkusza znajdują się dwie zakładki pozwalające na przełączanie się z arkusza danych do arkusza specyfikacji zmiennych. Dla każdej zmiennej określone są tam:
Nazwa krótka nazwa zmiennej, co najwyżej 8 znaków, nie może zawierać spacji;
Typ po uaktywnieniu tej komórki pojawiają się ..., wystarczy kliknąć na nie myszką i otwiera się okienko, pozwalające zmienić typ zmiennej na np. numeryczny, tekstowy, dolar, itp.
Szerokość liczba znaków, którą maksymalnie będą miały wpisywane dane;
Dziesiętne liczba miejsc dziesiętnych, wpisuje się tylko dla danych liczbowych;
Etykieta pełna charakteryzacja zmiennej, można tutaj wpisać dokładną informację o rodzaju danych umieszczonych w danej kolumnie;
Wartości jeżeli zmienna przyjmuje tylko kilka powtarzających się wartości (najczęściej tekstowych), np. kolor oczu: niebieskie, zielone, piwne, brązowe, to możemy je oznaczyć liczbami i w tym polu zdefiniować ich wartości;
Braki danych jeżeli np. w trakcie sondażu na temat popularności polityków 1, 2 i 3 otrzymywaliśmy odpowiedź ,,nie mam zdania'' lub w ogóle odpowiedzi nie otrzymywaliśmy i chcemy to jakoś rozróżnić, to oznaczamy: 8 - nie mam zdania, 9 - brak odpowiedzi, i w tej kolumnie wpisujemy informację o zaistnieniu braków danych;
Kolumny liczba znaków w kolumnie, powinna być tak dobrana, żeby mieściły się dane i nazwy zmiennych;
Wyrównanie danych: do lewej, do prawej lub centralnie;
Poziom można wybrać:
ilościowy gdy ważne jest, żeby dane porównywać i móc wykonywać na nich działania, np. A jest dwa razy cięższy niż B;
porządkowy gdy ważne będzie porównywanie danych, np. oceny na koniec roku szkolnego;
nominalny gdy na danych nie wykonujemy żadnych operacji, np. numer PESEL, nazwisko.
Zadanie : Utwórz własny plik danych, wpisując nazwisko, imię, wiek, wzrost, wagę, wykształcenie (oznaczając: 1 - podstawowe, 2 - zawodowe, 3 - średnie, 4 - wyższe), miejsce zamieszkania (oznaczając: 1 - ośrodek wiejski, 2 - małe miasto, 3 - duże miasto), kolor oczu i stan cywilny (odpowiednie wartości oznacz cyframi samodzielnie) i numer PESEL dla 10 dowolnie wybranych osób. Pamiętaj o prawidłowej specyfikacji zmiennych.
Chcąc utworzyć nowy plik danych, należy wybrać Plik / Nowy / Dane.
Zapisujemy dane wybierając Plik / Zapisz lub Zapisz jako.... Pliki SPSS mają rozszerzenie *.sav.
2. Zarządzanie danymi
Dodawanie zmiennej
Chcąc dodać jeszcze jedną zmienną, należy wybrać Dane / Wstaw zmienną. Dodatkowa kolumna zostanie wstawiona przed kolumnę, w której znajduje się aktualnie aktywna komórka.
Dodawanie obserwacji
W celu dodania obserwacji, należy wybrać Dane / Wstaw obserwację. Dodatkowy wiersz znajdzie się przed wierszem, w którym znajduje się aktywna komórka.
Usuwanie zmiennej lub obserwacji
Należy kliknąć myszką na numer wiersza lub nazwę kolumny, która chcemy usunąć. Zostanie ona zaznaczona czarnym kolorem. Klikamy następnie w tym samym miejscu prawym klawiszem myszki i wybieramy opcję Usuń.
Sortowanie obserwacji
Wybieramy Dane / Sortuj obserwacje. Otworzy się nam wówczas okienko, w którym po lewej stronie będą wymienione wszystkie zmienne. Przenosimy na prawą stronę te, według których chcemy sortować. Można wybrać kilka. Wówczas dane zostaną posortowane według pierwszej z nich, tam gdzie pierwsza zmienna będzie miała takie same wartości, dane zostaną posortowane względem drugiej zmiennej, itd. Ustawiamy jeszcze porządek sortowania: rosnący lub malejący.
Zadanie: W pliku Generalny Sondaż Społeczny USA 1991.sav posortuj obserwacje według płci i w obrębie tej samej płci - według wieku.
Łączenie danych
Jeżeli dysponujesz dwoma plikami danych, przy czym w obu plikach znajdują się różne zmienne dotyczące tych samych obserwacji lub w obu plikach znajdują się różne obserwacje tych samych zmiennych, to bywa czasem użyteczne umieszczenie ich w jednym pliku. Wybieramy wtedy Dane / Połącz dane / Dodaj zmienne... w pierwszym przypadku a Dane / Połącz dane / Dodaj obserwacje... w drugim. Należy pamiętać, żeby w obu plikach te same zmienne miały takie same nazwy, typy i szerokość. SPSS po wybraniu jednej z wymienionych powyżej opcji wyświetli okno, z którego należy wybrać plik, który chcemy dołączyć do danego. Przy dodawaniu obserwacji pojawi się także okno, w którym po prawej stronie znajdą się już zmienne dobrane automatycznie w pary. Pozostałe musimy mu sami w takie pary dobrać. Należy zaznaczyć parę zmiennych po lewej stronie i nacisnąć Para. Po wybraniu OK początkowy plik rozszerzy się o dołączone dane. Przy dodawaniu zmiennych SPSS nie będzie chciał dołożyć do danego pliku zmiennych, których nazwy już były w pierwszym z plików. Można je opuścić lub zmienić im nazwę.
Zadanie: Dodaj do siebie obserwacje zawarte w plikach moje_dane.sav i moje_dane2.sav , a następnie dołóż zmienne cukier i płeć z pliku pacjenci.sav.
3. Okno raportów
Wyniki analizy danych pojawiają się zawsze w formie nowego okna - okna raportów. Najważniejszą jego cechą jest menu, które jest dokładnie takie samo, jak przy tabeli z danymi. Umożliwia to dalszą analizę zmiennych bez konieczności powrotu do tabeli danych.
Pakiet SPSS umożliwia nam tworzenie prezentacji wyników analizy. Każdy fragment raportu: tytuły, tabele, wykresy, możemy edytować poprzez zmianę ich zawartości, zmianę koloru, czcionki, wielkości, itp. Chcąc uaktywnić element raportu należy kliknąć na niego myszką raz, aby go zaznaczyć, a potem dwa razy, aby go edytować. Jeśli fragment jest gotowy do edycji, to otacza go gruba szara ramka.
Jeżeli zaznaczony element zawiera tekst, to pojawia się pasek pozwalający na zmianę czcionki, jej rozmiaru i koloru. W tabelach można edytować każdą wpisaną w nie wartość.
Najwięcej możliwości mamy przy obróbce graficznej wykresów. Po uaktywnieniu fragmentu zawierającego wykres pojawia się edytor wykresu. Daje on nam możliwość zmiany np. słupków wykresu, ich wypełnienia, koloru, kształtu; linii, ich grubości, koloru, stylu; osi układu oraz tekstu. Aby dokonać zmian należy najpierw element, który chcemy edytować, zaznaczyć kliknięciem myszką, a następnie wybrać odpowiednie opcje.
4. Podstawowe statystyki i ich interpretacja
Podstawowa analiza danych powinna przedstawiać charakterystyki interesujących nas zmiennych, co da nam obraz całej zbiorowości. Nie sposób jest bowiem ogarnąć zbiór kilkuset danych i powiedzieć coś na jego temat. Dlatego właśnie oblicza się wymienione poniżej statystyki, które dotyczą najważniejszych cech zbiorowości.
LOKALIZACJA: Analiza / Opis statystyczny / Częstości / Statystyki... lub Analiza / Opis statystyczny / Statystyki opisowe / Opcje...
ŚREDNIA Z PRÓBY
TYP ZMIENNEJ: Ilościowa
INTERPRETACJA WYNIKU: Miara tendencji centralnej, wartość, wokół której grupują się pomiary.
OGRANICZENIA: Dane powinny mieć rozkład w przybliżeniu symetryczny.
DOMINANTA (MODA)
TYP ZMIENNEJ: Ilościowa
INTERPRETACJA WYNIKU: Liczba (liczby) będąca najczęściej przyjmowaną wartością pomiarową.
OGRANICZENIA: Każda wartość pomiarowa jest przyjmowana wielokrotnie, tzn. zbiór wartości pomiarów jest znacznie mniej liczny niż liczba pomiarów, ewentualnie wyniki zostały pogrupowane w kategorie i każdy wynik utożsamia się ze środkiem przedziału wyznaczającego pewną kategorię.
MEDIANA
TYP ZMIENNEJ: Ilościowa, dopuszczalna porządkowa rangowana.
INTERPRETACJA WYNIKU: Środkowa wartość pomiarowa, tzn. taka, że połowa pozostałych wartości jest mniejsza, a połowa większa od niej; dzieli zbiór pomiarów na dwie równe części.
OGRANICZENIA: Stosowana w przypadkach rozkładów symetrycznych.
KWANTYLE
TYP ZMIENNEJ: Ilościowa, dopuszczalna porządkowa rangowana.
INTERPRETACJA WYNIKU: Wartości zmiennej, które dzielą dane na części pozostające ze sobą w odpowiednim stosunku. Najczęściej używane kwantyle to kwartyle (podział na 4 części), decyle (podział na 10 części) i percentyle (podział na 100 części). Np. pierwszy kwartyl dzieli dane na dwie części w ten sposób, ze 1/4 z nich ma wartości od niego większe, a 3/4 - mniejsze.
OGRANICZENIA: Brak.
ROZSTĘP
TYP ZMIENNEJ: Ilościowa lub porządkowa.
INTERPRETACJA WYNIKU: Różnica największej i najmniejszej wartości zmiennej.
OGRANICZENIA: Brak.
WARIANCJA
TYP ZMIENNEJ: Ilościowa.
INTERPRETACJA WYNIKU: Średnia arytmetyczna kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej całego zbioru danych.
OGRANICZENIA: Dane muszą mieć rozkład w przybliżeniu normalny.
ODCHYLENIE STANDARDOWE
TYP ZMIENNEJ: Ilościowa.
INTERPRETACJA WYNIKU: Miara przeciętnego odchylenia wyników pomiarów od średniej; im większe jest odchylenie standardowe, tym bardziej rozproszone są dane.
OGRANICZENIA: Dane muszą mieć rozkład w przybliżeniu normalny.
WSPÓŁCZYNNIK SKOŚNOŚCI
TYP ZMIENNEJ: Ilościowa.
INTERPRETACJA WYNIKU: W zależności od znaku współczynnika rozkład jest prawostronnie (dodatnio) skośny dla dodatnich wartości współczynnika - ma dłuższy prawy ,,ogon'', symetryczny dla równego zero i lewostronnie (ujemnie) skośny dla współczynnika ujemnego - ma dłuższy lewy ,,ogon''.
OGRANICZENIA: Brak.
KURTOZA
TYP ZMIENNEJ: Ilościowa.
INTERPRETACJA WYNIKU: Miara skupienia wokół średniej, im większa jest jej wartość, tym bardziej wartości zmiennej koncentrują się wokół średniej. Jeśli jest ujemna, to rozkład jest bardziej spłaszczony od normalnego, jeśli dodatnia, to rozkład jest bardziej wysmukły niż normalny.
OGRANICZENIA: Brak.
Uwaga! Wczytaj plik placa_premia.sav. Zawiera on dane dotyczące wypłaty mięsiecznej oraz premii w pewnym zakładzie. Średnie dla obu tych zmiennych wynoszą 700$, ale zauważ jak różne rozkłady mają obie z nich. Dane z kolumny płaca istotnie rozkładają się w pobliżu 700$, natomiast analizując zmienną premia możemy zauważyć, że dane dzielą się na dwie grupy: są albo mniejsze niż 500$, albo większe niż 800$. Narysuj histogramy dla obu tych zmiennych. Pierwsza z nich ma rozkład w przybliżeniu symetryczny, natomiast rozkład drugiej nazywamy dwumodalnym (bimodalnym). Dla takiego rozkładu nie ma sensu liczenie średniej, dlatego, że ta charakterystyka nie mówi nam nic o rozkładzie. Pamiętaj: zanim policzysz statystyki dla wybranej zmiennej, narysuj jej histogram i zastanów się, które z nich dadzą Ci potrzebne informacje.
5. Wykresy
Dostęp do większości wykresów mamy poprzez Wykresy / rodzaj wykresu lub Wykresy / Interaktywne / rodzaj wykresu. Wybierając to pierwsze dostaniemy zawsze najprostszą wersję danego wykresu, wybierając to drugie, będziemy mieli możliwość ustawienia wielu opcji. Podstawowe typy wykresów:
Histogram - graficzny sposób przedstawienia rozkładu liczebności wybranej zmiennej. Nad przedziałami o równej szerokości rysowane są kolumny o wysokości równej liczbie obserwacji w tym przedziale. Można wybrać opcję Wyświetl krzywą normalną, która wyświetla krzywą normalną z tak dobranymi parametrami, by jak najlepiej opisywała dany rozkład. Wybierając Histogram spośród Interaktywne, mamy możliwość rysowania histogramów trójwymiarowych, czyli ukazujących związki między dwiema zmiennymi.
Wykres liniowy - przedstawia wartości danej zmiennej lub wybrane charakterystyki wielu zmiennych. Ma postać łamanej łączącej wybrane punkty.
Wykres słupkowy - zasady tworzenia analogiczne jak wykresów liniowych. Wyniki prezentowane są w postaci słupków. Możliwość tworzenia wykresów trójwymiarowych.
Wykres warstwowy - zasady tworzenia analogiczne jak dla wykresów liniowych. Wyniki prezentowane są w postaci pola pod krzywą łączącą punkty odpowiadające danym wartościom lub statystykom. Przy wyborze wykresów zestawionych rysowana jest wartość pierwszej zmiennej, następnie suma dwóch pierwszych zmiennych, trzech pierwszych zmiennych, itd. Zmienne powinny przyjmować tylko wartości nieujemne.
Wykres kołowy - służy do prezentacji procentowego udziału poszczególnych obserwacji w całości lub poszczególnych zmiennych w całości. Ma postać koła podzielonego na wycinki odpowiadające poszczególnym zmiennym lub obserwacjom.
Wykres skrzynkowy (ang. box-whisker), czasem nazywany skrzynkowym z wąsami, pozwala badać zależności pomiędzy zmiennymi. Na osi poziomej zaznaczamy wartości zmiennej porządkowej, a na pionowej zmiennej ilościowej. Dla każdej wartości zmiennej z osi poziomej program SPSS rysuje skrzynkę z wąsami przedstawiającą najważniejsze statystyki zmiennej z osi pionowej. Wąsy rozciągają się od wartości minimalnej do maksymalnej tej zmiennej, natomiast dolny i górny kraniec pudełka oznaczają odpowiednio pierwszy i trzeci kwartyl. Wewnątrz pudełka znajduje się pozioma kreska lub kwadracik na wysokości mediany. Czasem zaznaczone są również wartości odstające.
Słupki błędu - wykres przedstawia przedziały ufności dla średnich, błędy standardowe lub odchylenia standardowe dla wybranych zmiennych lub dla jednej zmiennej podzielonej na kilka kategorii.
Wykres rozrzutu - przedstawia obserwacje dla dwóch lub trzech zmiennych w postaci punktów o pierwszej współrzędnej równej wartości pierwszej zmiennej dla danej obserwacji, drugiej współrzędnej równej wartości drugiej zmiennej, trzeciej - trzeciej zmiennej. Jeżeli punkty układają się w nieregularną chmurę, to nie ma żadnego związku między zmiennymi. Jeżeli natomiast punkty układają się wzdłuż prostej lub pewnej krzywej, to można doszukiwać się takiego związku. Poszukiwaniem takich związków zajmuje się analiza regresji.
Wykres prawdopodobieństwo - prawdopodobieństwo - służy do testowania zgodności rozkładu badanej zmiennej z wybranym rozkładem teoretycznym. Poszczególne obserwacje są zaznaczane w układzie współrzędnych tak przeskalowanym, że krzywa rozkładu teoretycznego jest na nim linią prostą. Jeżeli rozkład badanej zmiennej jest zbliżony do wybranego rozkładu teoretycznego, to punkty na wykresie układają się wzdłuż tej prostej. Poniżej przedstawiany jest wykres bez trendu, czyli w danym punkcie od wartości prostej odjęte są wartości poszczególnych punktów. Na tym wykresie punkty powinny tworzyć nieregularną chmurę.
Uwaga: Tworząc większość wykresów musisz zadeklarować, co przedstawiają dane na wykresach. Mogą to być:
opisy dla grup obserwacji - na osi poziomej zaznaczane są wtedy grupy, na jakie zostały podzielone wszystkie obserwacje, a na osi pionowej wybrana statystyka danej zmiennej w poszczególnych grupach, najczęściej jest nią średnia; dane w arkuszu musisz podzielić na grupy przy pomocy dodatkowej zmiennej np. płeć, wykształcenie, itp.
podsumowania oddzielnych zmiennych - na osi poziomej zaznaczone są wtedy kolejne wybrane zmienne, a na pionowej średnia każdej z nich lub inna wybrana charakterystyka,
wartości poszczególnych obserwacji - na osi poziomej zaznaczone są wtedy kolejne obserwacje, a na pionowej wartość wybranej zmiennej (lub wartości zmiennych w przypadku wykresów wielokrotnych) dla każdej z tych obserwacji.
zmianę wagi pierwszej osoby z listy oraz zmianę wagi trzech pierwszych osób z listy (w tym celu musisz najpierw przetransponować tabelę danych wybierając Dane / Transponuj...) w trakcie kuracji,
zmianę średniej wagi wszystkich osób w poszczególnych tygodniach.
Rozwiązanie: Po przetransponowaniu zmiennymi będą wyniki dla poszczególnych uczestników kuracji, a obserwacjami kolejne tygodnie. Rysujemy wykres liniowy wielokrotny, wybierając jako dane przedstawiane na wykresie wartości poszczególnych obserwacji. Do narysowania drugiego wykresu musimy mieć dane w pierwotnej postaci. Tworzymy wykres liniowy prosty, wybierając jako dane przedstawiane na wykresie podsumowania poszczególnych zmiennych.
Zadanie: W pliku odchudzanie.sav utwórz nowe zmienne odpowiadające spadkom wagi w kolejnych tygodniach (aby to zrobić zajrzyj do Przekształcanie danych - funkcje zmiennych). Narysuj wykres warstwowy dla tych spośród wyznaczonych spadków, które przyjmowały wartości nieujemne. Odpowiedz na pytanie: które z badanych osób schudły najwięcej w ciągu całej kuracji?
Rozwiązanie: Kolejne spadki wagi zadajemy wzorem spadek1 = tydz_1 - tydz_2, itd. Tworząc wykres wybieramy zestawiony i wartości poszczególnych obserwacji. Na wykresie powinny się znaleźć tylko zmienne spadek1, spadek3 i spadek4.
Zadanie: Wykorzystując plik odchudzanie.sav, narysuj wykres kołowy prezentujący procentowy udział średnich spadków wagi w kolejnych tygodniach w średniej wagi utraconej w ciągu całej kuracji.
Rozwiązanie: Tworzymy wykres kołowy, wybierając podsumowania poszczególnych zmiennych.
Zadanie: W pliku odchudzanie.sav utwórz zmienną obrazującą łączny spadek wagi poszczególnych uczestników kuracji w ciągu 5 tygodni odchudzania. Narysuj wykres skrzynkowy dla tej zmiennej w zależności od płci uczestników. Czy kuracja dała lepsze efekty u mężczyzn, czy u kobiet?
Rozwiązanie: Nową zmienną zadajemy wzorem suma = spadek1 + spadek2 + spadek3 + spadek4. Tworząc wykres wybieramy opisy dla grup obserwacji i jako oś kategorii wpisujemy zmienną płeć.
Zadanie: Wczytaj plik odruchy.sav. Wykonaj histogramy dla każdej pary umieszczonych tam zmiennych. Czy istnieje związek pomiędzy tymi zmiennymi?
Rozwiązanie: Wykonujemy histogram wybierając Wykresy / Interaktywne / Histogram i zaznaczając, że rysujemy histogram trójwymiarowy.
Zadanie: Wczytaj plik rozklady.sav. Przy pomocy wykresów prawdopodobieństwo - prawdopodobieństwo odpowiedz na pytanie: z jakiego rozkładu pochodzą dane z każdej z trzech kolumn tego pliku?
Rozwiązanie: Pierwsza kolumna danych ma rozkład normalny, druga - jednostajny, a trzecia - wykładniczy.
6. Przekształcanie danych - funkcje zmiennych
Ćwiczenie: Narysuj wykres kołowy dla zmiennej age z pliku Generalny Sondaż Społeczny USA 1991.sav.
Twój wykres prawdopodobnie wygląda tak: age.spo. Znalazły się na nim wartości wszystkich danych, koło zostało podzielone na kilkadziesiąt części, w związku z czym wykres jest bardzo nieczytelny. Jeśli ma on służyć prezentacji, to zapewne chcesz mieć wycinki odpowiadające kategoriom: 0 - 9 lat, 10 - 19 lat, 20 - 29 lat, itd. Jak to zrobić? Trzeba skorzystać z kolejnego narzędzia udostępnianego przez pakiet SPSS. Wybierz z menu: Przekształcenia / Oblicz wartości.... Dostaniesz w wyniku okno, pozwalające definiować Ci nowe zmienne, które powstają z przekształcenia starych. Oto lista podstawowych funkcji dostępnych w pakiecie SPSS: funkcje.pdf.
Zadanie: Utwórz zmienną age2, która będzie określała, danego respondenta jako 20-, 30-, 40-, itd.-latka. Wykonaj wykres kołowy tej zmiennej.
Rozwiązanie: Definiujemy zmienną age2 = TRUNC(age/10)*10. Ma ona wówczas następujące wartości: wiek.sav. Możemy narysować teraz dla niej wykres kołowy: age2.spo.
7. Przedziały ufności
Estymatory przedziałowe określają przedział, w którym dany estymator punktowy mieści się z zadanym z góry prawdopodobieństwem (nazywanym poziomem ufności). Dla każdego estymatora punktowego, którym jest statystyka wyliczana z próbki, i dla każdego takiego poziomu ufności (w praktyce najczęściej 0,95; 0,99; 0,999) przedział taki wskazuje, w jakim zakresie należy szukać rzeczywistej wartości charakterystyki cechy dla całej populacji, jeśli charakterystyka dla próby jest dana. Oczywiście charakterystyka ta zawiera się w przedziale ufności z określonym prawdopodobieństwem równym poziomowi ufności.
SPSS pozwala na wyznaczanie przedziału ufności dla średniej po wybraniu Analiza / Opis statystyczny / Eksploracja.... W okienku, które się wówczas pojawi należy wybrać Statystyki... i tam zaznaczyć Przedział ufności dla średniej oraz wybrać poziom ufności.
Zadanie: Wyznacz estymator przedziałowy dla średniej zmiennej age z pliku Generalny Sondaż Społeczny USA 1991.sav. Jaką informację uzyskujemy w ten sposób?
8. Testy statystyczne
Każde badanie statystyczne rozpoczynamy od sformułowania hipotezy. Może ona dotyczyć:
wartości badanych zmiennych, np. średni wzrost dorosłych osobników danego gatunku wynosi x,
różnic między cechami opisującymi badaną grupę, np. osobniki zamieszkujące południową część danego obszaru są silniejsze niż te, które zamieszkują na północy,
zależności między zmiennymi, np. istnieje silna dodatnia korelacja pomiędzy piciem dużych ilości kawy a zachorowalnością na choroby serca,
kształtu zależności badanych zmiennych, np. istnieje zależność wykładnicza między wiekiem matki a prawdopodobieństwem urodzenia dziecka z zespołem Downa,
porównania rozkładów zmiennych, np. rozkład zmiennej wzrost jest normalny.
Testy statystyczne dzielimy zasadniczo na parametryczne, czyli dotyczące wartości parametrów statystycznych populacji, takich jak np. średnia, oraz nieparametryczne, czyli dotyczące postaci rozkładu zmiennej lub losowości próby.
Każdy test statystyczny rozpoczynamy od sformułowania hipotezy zerowej H0, czyli hipotezy podlegającej sprawdzeniu, oraz hipotezy konkurencyjnej H1, którą jesteśmy w stanie przyjąć, gdy odrzucimy hipotezę zerową.
Uwaga: Testy statystyczne w zależności od wyniku pozwalają nam hipotezę zerową odrzucić i wtedy przyjąć hipotezę konkurencyjną lub nie dają podstaw do odrzucenia H0, co nie jest równoznaczne z jej przyjęciem. Dlatego przeprowadzając jakiś test należy się kierować zasadą ,,po pierwsze nie szkodzić'' i to, co chcemy sprawdzić przyjmować jako H1.
Przykład: Chcemy stwierdzić, że lek A daje duże efekty w leczeniu pewnego schorzenia. Wyniki z próby mogą rzeczywiście na to wskazywać, ale może to być błąd w doborze próby. Dlatego przyjmujemy:
H0 - lek nie jest efektywny,
H1 - lek jest efektywny.
Test powie nam, czy można odrzucić H0 i przyjąć H1, czy też nie ma podstaw do odrzucenia hipotezy o nieefektywności leku i wymaga to np. dalszych badań.
Po sformułowaniu hipotezy zerowej wybieramy odpowiedni test i poziom istotności. Poziom istotności zadaje się wzorem 1 - poziom ufności. Oznacza on błąd, na jaki jesteśmy w stanie się zgodzić. Najczęściej jest to 0,05; 0,01 lub 0,001.
Hipotezę zerową odrzucamy, jeżeli test wskaże istotność mniejszą niż zadeklarowany poziom istotności.
9. Testy normalności rozkładu
Wiele testów parametrycznych wymaga, by dane pochodziły z rozkładu zbliżonego do normalnego. Dlatego testy badające normalność rozkładów są tak istotne. W testach tych zawsze przyjmuje się H0 - rozkład zmiennej jest normalny. Odrzucenie H0 jest wiec równoznaczne z przyjęciem hipotezy, że rozkład zmiennej nie jest normalny. Brak podstaw do odrzucenia nie oznacza przyjęcia hipotezy o normalności rozkładu. Musimy to jeszcze sprawdzić i w tym celu sporządzane są wykresy prawdopodobieństwo - prawdopodobieństwo.
W pakiecie SPSS testy badające normalność rozkładu dostępne są w Analiza / Opis statystyczny / Eksploracja i tam wybierając opcję Wykresy... należy zaznaczyć Wykresy normalności z testami.
SPSS dla małych próbek wykonuje dwa testy:
Test Kołmogorowa - Smirnowa z poprawką Lilleforsa, która jest obliczana, gdy nie znamy średniej lub odchylenia standardowego całej populacji.
Test Shapiro - Wilka - najbardziej polecany, ale może dawać błędne wyniki dla próbek większych niż 2 tys.
Jeżeli komputer wskaże istotność mniejszą niż zadeklarowany poziom istotności, to hipotezę o normalności rozkładu odrzucamy, jeżeli większą - nie mamy podstaw do odrzucenia. Należy wówczas ocenić normalność na podstawie wykresów prawdopodobieństwo - prawdopodobieństwo.
10. Inne testy statystyczne
Zadanie: Wczytaj plik czytelnictwo.sav. Dane w nim zawarte przedstawiają ilość czasu poświęcanego na codzienną lekturę prasy przed podjęciem pracy w firmie i po podjęciu tej pracy. Zbadaj, czy zatrudnienie w firmie miało wpływ na ilość czasu poświęcanego na lekturę prasy.
Rozwiązanie: Już po pobieżnym przejrzeniu danych widać, że jeśli istotnie ilość czasu poświęcanego na lekturę prasy się zmieniła, to na niekorzyść, tzn. nasi pracownicy poświęcają na to mniej czasu. Żeby stwierdzić, czy istotnie mamy racje, testujemy hipotezę
H0 - zmiana pracy nie ma wpływu na ilość czasu poświęcanego na czytanie prasy
przeciwko
H1 - istnieje związek pomiędzy zmianą pracy a czasem poświęcanym na lekturę prasy.
Pierwszą rzeczą jaką musimy zrobić jest sprawdzenie, czy dane mają rozkład normalny, co robimy wykonując testy normalności rozkładu. W tym przypadku okazuje się, że dane nie pochodzą z rozkładu normalnego. Dla zbadania postawionej wyżej hipotezy wykonujemy test Wilcoxona. Wybieramy Analiza / Testy nieparametryczne / Dwie próby zależne..., ponieważ dane pochodzą od tych samych osób i istnieje związek pomiędzy czasem poświęcanym na czytanie prasy przed i po zatrudnieniu się w firmie (jeśli ktoś lubił czytać, to robi to dalej). W okienku, które wówczas uzyskamy, zaznaczamy Wilcoxon i wykonujemy test dla zmiennych przed i po. W wyniku otrzymujemy tabelkę z rangami, z której możemy odczytać u ilu osób czas poświęcany na lekturę prasy zwiększył się, u ilu się zmniejszył, a u ilu pozostał niezmieniony. Sam test daje istotność = 0,047. Czyli przy poziomie istotności 0,05 stwierdzamy, że możemy odrzucić hipotezę zerową i przyjąć, że zmiana pracy miała wpływ na ilość czasu poświęcanego na lekturę prasy.
Uwaga: Dla sprawdzenia, czy dwa pomiary różnią się między sobą stosujemy test znaków lub test Wilcoxona. Pierwszy z nich wybieramy, gdy dane mają rozkład normalny, drugi, gdy nie. Oba te testy dotyczą zmiennych zależnych, najczęściej są to pomiary pochodzące od tej samej osoby. Hipoteza zerowa mówi, że wyniki obu próbek są jednakowe. Test znaków oparty jest na znakach różnic pomiędzy parami wyników. Liczba plusów i minusów jest zliczana i porównywana z wartością teoretyczną umieszczoną w odpowiednich tabelach. Tracimy informację niesioną przez liczbowe wartości różnic. Test kolejności par Wilcoxona uwzględnia zarówno znak różnic, ich wielkość, jak i kolejność. Po uporządkowaniu różnic w sposób rosnący są im przypisywane rangi a następnie sumowane osobno rangi różnic dodatnich i ujemnych. Ich suma po porównaniu z tabelą wartości teoretycznych decyduje o przyjęciu lub nie hipotezy zerowej.
Zadanie: Sprawdź, czy średni czas poświęcany na czytanie prasy przez pracowników naszej firmy zmienił się po przyjęciu ich do pracy.
Rozwiązanie: Stosujemy test parametryczny do porównywania średnich dla przetestowania hipotezy
H0 - średni czas poświęcany na lekturę prasy jest taki sam w obu przypadkach
przeciwko
H1 - średni czas poświęcany na lekturę prasy zmienił się.
Wybieramy Analiza / Porównywanie średnich / Test t dla prób zależnych... Test ten daje nam wynik 1,113, czyli nie możemy odrzucić hipotezy zerowej (na poziomie istotności 0,05). Przeczy to wynikom uzyskanym w poprzednim zadaniu. Okazuje się jednak, że popełniliśmy pewne nadużycie: testy parametryczne stosujemy tylko dla zmiennych o rozkładzie w przybliżeniu normalnym. Powinniśmy więc skłaniać się w stronę wyniku otrzymanego w poprzednim zadaniu.
Uwaga: Testy parametryczne służą do porównywania dwóch parametrów jednej zmiennej lub tego samego parametru dla różnych zmiennych. Najczęściej są to testy dotyczące różnic między średnimi lub wariancjami. Wykonuje się je dla zmiennych o rozkładach nie odbiegających od normalnego.
Zadanie: Wczytaj plik Dane o zatrudnieniu.sav. Sprawdź, czy wysokość pensji otrzymywanej przez respondentów zależy od ich płci.
Rozwiązanie: Testujemy hipotezę
H0 - średnia pensja otrzymywana przez kobiety i mężczyzn jest taka sama,
przeciwko
H1 - średnie różnią się.
Wybieramy: Analiza / Porównywanie średnich / Test t dla prób niezależnych... Testujemy zmienną Bieżące wynagrodzenie dzieląc dane na dwie grupy przy pomocy zmiennej Płeć pracownika. Otrzymujemy istotność równą 0,000, czyli hipotezę o równości średnich odrzucamy (nawet przy poziomie istotności 0,001).
11. Analiza regresji
Funkcja regresji przyporządkowuje średnie wartości zmiennej zależnej konkretnym wartościom zmiennej niezależnej. Najczęściej spotyka się liniowe funkcje regresji, ale dane mogą czasem wymagać dopasowania funkcji nieliniowej. Decyzję o rodzaju funkcji należy podjąć po wykonaniu wykresu rozrzutu.
W przypadku liniowym prosta regresji ma postać y = b0 + b1 x, gdzie parametry b0 i b1 szacuje się metodą najmniejszych kwadratów.
Chcąc otrzymać informację, czy wyznaczona zależność ma miejsce w całej populacji, a nie tylko badanej próbce należy wykorzystać kolejne narzędzia i wyznaczyć obszar ufności dla prostej regresji lub np. wykonać test istotności współczynnika korelacji Pearsona.
Rozwiązanie: Wybieramy Analiza / Regresja / Estymacja krzywej.... Jako zmienną zależną wpisujemy wzrost, a jako niezależną wiek oraz zaznaczamy model Liniowy. Istnieje możliwość uzyskania współczynników równania y = b0 + b1 x, jeśli zaznaczymy Uwzględnij stałą w równaniu lub y = b1 x, jeśli tego nie zrobimy. W wyniku otrzymujemy tabelę ze współczynnikami oraz wykres.
Uwaga: Można również wybrać Wykresy Interaktywne / Rozrzutu..., w okienku, które się pojawi na osi pionowej wpisać zmienną wzrost, a na poziomej wiek i po wybraniu zakładki Dopasowanie wybrać model Regresja. To rozwiązanie ma taką przewagę, że równanie prostej zostanie wypisane w jawny sposób.
12. Importowanie danych
Najczęściej dane do analizy statystycznej dostarczane są w plikach innego typu niż pliki SPSSa. Aby nie przepisywać ich żmudnie do arkusza danych, SPSS umożliwia importowanie plików.
Zadanie: Zaimportuj do arkusza danych SPSSa plik tekstowy generowane.txt. Plik ten zawiera trzy kolumny danych oddzielone od siebie znakiem tabulacji. Dane mają postać liczb dziesiętnych z co najwyżej dwoma miejscami po przecinku. Nazwy zmiennych nie są sprecyzowane, w pierwszym wierszu znajduje się już pierwsza obserwacja.
Rozwiązanie: Wybieramy Plik / Czytaj dane tekstowe i otwieramy plik generowane.txt. Otwiera się wówczas Kreator importu tekstu. Pozwala on u dołu okna obejrzeć dane z pliku tekstowego i zadaje pytania dotyczące tych danych. Odpowiadamy na nie kolejno biorąc pod uwagę wskazówki umieszczone w treści zadania. Po zakończeniu pracy z Kreatorem otrzymamy arkusz danych w programie SPSS.
Zadanie: Wczytaj dane z pliku generowane.xls utworzone w programie Excel. Dane mają taką samą postać, jak w poprzednim pliku (tekstowym).
Rozwiązanie: Wybieramy Plik / Otwórz / Dane... i w okienku, które się pojawi ustawiamy Pliki typu: Excel (*.xsl). Pojawi się wówczas plik generowane.xls, który otwieramy. W oknie Otwórz źródło danych Excel opcja Czytaj nazwy zmiennych z pierwszego wiersza danych powinna być wyłączona. Po naciśnięciu OK zmienne pojawiają się w arkuszu danych SPSS.
11