20 Testowanie hipotez

Kurs obsługi programu PASW Statistics

Testowanie hipotez

Autor: dr Joanna Karłowska-Pik, dr Dorota Juszczak

Jednym z głównych zadań statystyki matematycznej jest weryfikacja hipotez statystycznych. Zasadniczo problem jest następujący: stawiamy pewną hipotezę nazywaną hipotezą zerową i pytamy, czy jest ona prawdziwa dla całej populacji. Ponieważ przebadanie całej populacji jest z reguły niewykonalne bądź trudne, losujemy próbę. Na podstawie tej próby wyliczamy wartości pewnych statystyk. Test statystyczny daje odpowiedź na pytanie, czy przy założeniu możliwości popełnienia pewnego błędu (nazywanego poziomem istotności) uzyskane wartości tych statystyk pozwalają stwierdzić, że hipoteza zerowa może być prawdziwa, czy też jej przeczą.

Test statystyczny ma postać implikacji: jeśli hipoteza zerowa jest prawdziwa, to statystyki wyliczone z próby powinny mieć pewne określone wartości (nie mogą wpadać do tzw. obszaru krytycznego). Jeśli więc statystyki tych własności nie mają, to hipoteza zerowa nie jest prawdziwa. Jeśli jednak statystyki te własności mają, to hipoteza zerowa może być równie dobrze prawdziwa, jak i fałszywa. Mówimy, że nie mamy wówczas podstaw do jej odrzucenia, co nie jest równoznaczne z jej przyjęciem.

Program PASW Statistics, wykonując test statystyczny, oblicza statystyki testu (można sprawdzić, czy wpadają one do obszaru krytycznego, ale trzeba wiedzieć jaką ma on postać przy danym teście), ale oprócz nich podaje również istotność. Jest to graniczna wartość poziomu istotności, przy której odrzucamy hipotezę zerową. Postępowanie jest następujące:

W tym drugim przypadku możemy z grubsza myśleć, że otrzymana w wyniku losowania próba nie jest aż tak zła, żeby móc odrzucić hipotezę zerową.

Uwaga: Niezależnie od naszej hipotezy badawczej, hipoteza zerowa testu statystycznego jest zawsze ,,na tak'', tj. zakłada, że zachodzi np. równość średnich, czy równość rozkładów. Np. badamy działanie pewnego leku obniżającego ciśnienie. Nasza hipoteza badawcza brzmi ,,ciśnienie przed podaniem leku jest wyższe niż po podaniu leku, czyli ciśnienia mierzone przed i po podaniu leku bedą różne''. Wykonujemy test, np. test średnich, ale jego hipotezą jest zawsze równość, czyli hipoteza zerowa brzmi ,,średnie ciśnienie przed podaniem leku i po są równe''. Jeśli test odrzuci nam hipotezę zerową, to tym samym potwierdzi hipotezę badawczą.

Wykonując test statystyczny należy zawsze podać hipotezę zerową, hipotezę konkurencyjną (którą przyjmujemy, odrzucając hipotezę zerową), poziom istotności, istotność obliczoną przez program oraz decyzję, którą podejmujemy.

Testy normalności rozkładu

Hipoteza zerowa: Badana zmienna ma rozkład normalny.
Hipoteza alternatywna: Badana zmienna ma rozkład inny niż normalny.
Wymagania: Zmienna powinna mieć poziom ilościowy.
Dostęp w programie:

Ćwiczenie 1. Na podstawie danych zawartych w pliku pacjenci.sav ustal, czy przy poziomie istotności 0,05 waga pacjenta oraz jego poziom cukru we krwi mają rozkład normalny. Wykonaj testy wszystkimi podanymi sposobami. Sprawdź, czy przy podanym poziomie istotności mamy podstawy do odrzucenia hipotezy, że poziom cukru we krwi ma rozkład normalny ze średnią 6 i odchyleniem standardowym 0,5.

Ćwiczenie 2. Na podstawie danych zawartych w pliku testmarket.sav sprawdź, zakładając poziom istotności 0,01, czy liczba sprzedawanych towarów (w tys.) ma rozkład normalny. Wykonaj powtórnie analizę normalności rozkładu liczby sprzedawanych towarów w grupach wyróżnionych na podstawie wielkości marketu.

Test średniej (test t-Studenta)

Hipoteza zerowa: Badana zmienna ma w całej populacji średnią równą danej wartości a.
Hipoteza konkurencyjna: Badana zmienna ma w populacji średnią inną niż a.
Wymagania: Zmienna ma rozkład normalny lub zmienna ma rozkład niekoniecznie normalny, ale próba jest dość liczna (powyżej 30 obserwacji).
Dostęp w programie: Analiza -> Porównywanie średnich -> Test t dla jednej próby...
Uwagi:

Ćwiczenie 3. Sprawdź, korzystając z danych zawartych w pliku pacjenci.sav, czy średni poziom cukru pacjentów, spośród których wylosowano respondentów, jest równy 6,0.

Ćwiczenie 4. O pewnej chorobie mówiono, że dotyka ona pacjentów średnio 55-letnich, przy czym 2 razy częściej kobiet niż mężczyzn. W celu weryfikacji tych stwierdzeń wylosowano 738 pacjentów, których dane znajdują się w pliku terapia.sav. Na poziomie istotności 0,05 oceń prawdziwość tych opinii.

Ćwiczenie 5. W pliku bilety.sav znajdują się dane dotyczące liczby sprzedanych biletów MZK w Toruniu w kolejnych niedzielach maja i czerwca. Na podstawie tych danych na poziomie istotności 0,1 przetsetuj hipotezę, że liczba biletów sprzedawanych w niedziele jest równa 3,2 tys. przeciwko hipotezie, że średnia liczba sprzedawanych biletów jest

  1. różna od 3,2 tys.,

  2. mniejsza niż 3,2 tys.

Przyjmij, że liczba sprzedawanych biletów ma rozkład normalny.

Test dla dwóch średnich i prób niezależnych

Hipoteza zerowa: Badana zmienna ma dla całej populacji równe średnie w dwóch wyróżninych grupach.
Hipoteza konkurencyjna: Badana zmienna ma w populacji różne średnie w wyróżnionych grupach.
Wymagania: Dysponujemy zmienną ilościową, której średnie badamy, oraz zmienną wyróżniającą grupy (może to być zmienna dyskretna lub zmienna ciągła z wyróżnionym punktem podziału). Zmienna ma rozkład normalny w obu wyróżnionych grupach lub zmienna ma rozkład niekoniecznie normalny, ale próba jest dość liczna (powyżej 100 obserwacji w każdej z grup).
Dostęp w programie: Analiza -> Porównywanie średnich -> Test t dla prób niezależnych... Grupy definiujemy podając dwie wartości zmiennej grupującej lub punkt podziału w przypadku, gdy zmienna grupująca ma poziom ilościowy.
Uwagi:

Ćwiczenie 6. Producent płatków mydlanych wysunął hipotezę, że stopień wyprania tkaniny wełnianej płatkami mydlanymi jest wyższy od stopnia wyprania płynem do prania. W celu sprawdzenia tej hipootezy wykonano pomiary stopnia wyprania 17 wycinków tkaniny, a wyniki znajdują się w pliku pranie.sav. Przyjmując poziom istotności 0,05, zweryfikuj hipotezę wysuniętą przez producenta.

Test dla dwóch średnich i prób zależnych

Hipoteza zerowa: Badane zmienne mają w całej populacji równe średnie.
Hipoteza konkurencyjna: Badane zmienne mają w populacji różne średnie.
Wymagania: Dysponujemy dwoma zmiennymi ilościowymi, najczęściej obserwacje pochodzą od tych samych respondentów. Różnica zmiennych powinna mieć rozkład normalny lub próba powinna być duża (>30).
Dostęp w programie: Analiza -> Porównywanie średnich -> Test t dla prób zależnych...
Uwaga: W przypadku hipotezy konkurencyjnej postaci ,,Średnia wartość pierwszej zmiennej jest w całej populacji większa (odpowiednio mniejsza) od średniej wartości drugiej zmiennej'' należy sprawdzić, czy średnia z próbki ma wartość większą (odpowiednio mniejszą) dla pierwszej zmiennej niż dla drugiej, a istotność wyliczoną przez program porównywać z zakładanym poziomem istotności przemnożonym przez 2.

Ćwiczenie 7. zmierzono ciśnienie tętnicze wśród losowo wybranej grupy chorych na pewną chorobę przed i po podaniu takiego samego leku każdemu z badanych pacjentów. Wyniki znajdują się w pliku cisnienie.sav. Na poziomie istotności 0,05 zweryfikuj hipotezę, że stosowany lek nie powoduje spadku ciśnienia u pacjentów wobec hipotezy, że wartość przeciętna ciśnienia przed podaniem leku jest wyższa niż po jego podaniu.

Test dwumianowy

Hipoteza zerowa: Kategoria traktowana jako sukses występuje z zadanym prawdopodobieństwem p.
Hipoteza alternatywna: Kategoria traktowana jako sukces występuje z innym niż zadane prawdopodobieństwem.
Wymagania: zmienna dychotomiczna lub zmienna ciągła i ustalony punkt podziału (wartość zmiennej nie większa niż punkt podziału jest traktowana jako sukces).
Dostęp w programie:

Ćwiczenie 8. Na podstawie danych z pliku terapia.sav, na poziomie istotności 0,01 przetestuj hipotezy:

Test chi-kwadrat

Hipoteza zerowa: Kategorie zmiennej występują z określonymi proporcjami.
Hipoteza konkurencyjna: Proporcje poszczególnych kategorii są inne niż podane.
Wymagania testu: Zmienna numeryczna o kilku kategoriach. W przypadku wartości tekstowych należy je najpierw przekodować na numeryczne. Kategorie o małych liczebnościach teoretycznych (liczebności nie mniejsze niż 10 uznajemy za dobre, nie mniejsze niż 5 za wystarczające) powinny zostać połączone z sąsiednimi.
Dostęp w programie:

Ćwiczenie 9. Na podstawie danych zawartych w pliku terapia.sav zweryfikuj przy poziomie istotności 0,05 hipotezę, że najczęściej wybieraną przez lekarzy terapią jest terapia A - pojawia się ona 2 razy częściej niż B i 6 razy częściej niż C.

Ćwiczenie 10. Na podstawie danych zawartych w pliku voter.sav sprawdź, czy na poziomie istotności 0,05 można powiedzieć, że zwolenników Busha było 2 razy więcej, a zwolenników Clintona 3 razy więcej niż osób głosujących na Perota.

Ćwiczenie 11. W czasie sondażu przeprowadzonego przez pracownię badania opinii społecznej, spośród 1100 ankietowanych dorosłych Polaków 1090 odpowiedziało, że w ubiegłym miesiącu nie przeczytało żadnej książki, a pozostali potwierdzili, że przeczytali przynajmniej jedna książkę. Utwórz odpowiedni zbiór danych, a następnie na poziomie istotności 0, 01, przetestować hipotezę, ze odsetek dorosłych Polaków, którzy nie przeczytali w ubiegłym miesiącu żadnej książki wynosi 99%, przeciw hipotezie, że odsetek ten jest inny, używając najpierw testu t dla jednej średniej, a następnie testów dwumianowego i chi-kwadrat.

Test Kołmogorowa (w programie: Kołmogorowa-Smirnowa)

Hipoteza zerowa: Badana zmienna ma zadany rozkład.
Hipoteza alternatywna: Badana zmienna ma rozkład inny niż zadany.
Wymagania: Zmienna powinna mieć poziom ilościowy.
Dostęp w programie:

Ćwiczenie 12. Generator liczb losowych wygenerował 20 liczb z rozkładu wykładniczego z parametrem 2 (średnia równa 0,5). Dane znajdują się w pliku wykladniczy.sav. Na poziomie 0,05 przetestuj zgodność tych danych z podanym rozkładem, wykorzystując obie opisane powyżej metody dostępu do testu w programie.

Uwaga: Wykonując test Kołmogorowa drugą metodą, zapisz polecenie w języku poleceń (klikając Wklej zamiast Uruchom) i upewnij się, czy program dobrze sczytał podaną wartość parametru.

Test chi-kwadrat niezależności

Hipoteza zerowa: Badane zmienne są niezależne.
Hipoteza alternatywna: Badane zmienne są zalezne.
Wymagania: Zmienna powinna mieć poziom porządkowy lub nominalny. Wynik testu uznaje się za niewiarygodny, jeśli w tabeli krzyżowej wartość oczekiwana jakiejś komórki jest mniejsza niż 1 lub ponad 20% komórek ma liczebności oczekiwane mniejsze od 5.
Dostęp w programie:

Ćwiczenie 13. Na podstawie danych z pliku GSS93 subset.sav sprawdź, czy od przynależności respondenta do danej kategorii wiekowej zależą jego poglądy na temat

  1. konieczności porządnego lania dziecka od czasu do czasu,

  2. mieszkania na starość razem z dziećmi.

Test Wilcoxona znakowanych rang (ang. Wilcoxon signed-rank test, w programie: test Wilcoxona znaków rangowanych)

Hipoteza zerowa: Mediana różnicy dwóch zmiennych jest równa 0.
Hipoteza alternatywna: Mediana różnicy dwóch zmiennych jest różna od 0.
Wymagania: Różnica badanych zmiennych jest zmienną ciągłą o rozkładzie symetrycznym względem mediany.
Dostęp w programie:

Ćwiczenie 14. Pacjentów pewnego ośrodka poddano diecie. Dane dotyczące wagi pacjentów w czasie trwania kuracji znajdują się w pliku dietstudy.sav. Wykonując test średnich dla zmiennych zależnych oraz test Wilcoxona przy poziomie istotności 0,05 sprawdź, czy dieta miała wpływ na wagę pacjentów, porónując wagę pacjentów sprzed kuracji i po kuracji.

Ćwczenie 15. Dziewięciu pacjentów ze zdiagnozowaną depresją poddano terapii lekiem uspokajającym T. Dane w pliku depresja.sav dotyczą wartości tzw. czynnika Hamiltona u pacjentów i zostały zmierzone po pierwszej oraz po drugiej wizycie u lekarza. Polepszeniu stanu pacjenta odpowiada obniżenie wartości czynnika Hamiltona. Stosując test znakowanych rang Wilcoxona, na poziomie istotności 0,049 przetestuj hipotezę, że efekt terapii jest zerowy, przeciwko hipotezie, że lek T przynosi pozytywne efekty. Wyznacz p-wartość zbudowanego testu.

Ćwiczenie 16. W celu zbadania, czy płace w sektorze publicznym są współmierne do płac w sektorze prywatnym, wybrani pracownicy z obu grup zostali połączeni w pary (na podstawie typu pracy, wykształcenia, lat doswiadczenia itp.). W pliku sektory.sav podane zostały wysokości zarobków rocznych (w dolarach) dla 12 utworzonych w ten sposób par. Za pomocą testu znakowanych rang Wilcoxona przetestuj hipotezę, że nie ma różnic między zarobkami w obu sektorach, przeciwko hipotezie, że pracownicy sektora prywatnego zarabiają więcej niż odpowiadający im pracownicy w sektorze publicznym. Wyznacz p-wartość zbudowanego testu.


Wyszukiwarka

Podobne podstrony:
06 Testowanie hipotez statystycznychid 6412 ppt
Metody testowania hipotez ewolucyjnych, Psychologia, biologia, ewolucyjna
Rozwiązania z testowania hipotez nieparametrycznych 3, statystyka
statystyka, Przedzial ufnosci dla m. Testowanie hipotezy dla m., PRZEDZIAŁ UFNOŚCI DLA WARTOŚCI OCZE
1 wzory testowanie hipotezid 10 Nieznany
Ogólne zasady testowania hipotez statystycznych
cw 8 testowanie hipotez dotycz dwóch populacji, Testowanie hipotez dotyczących porównania dwóch popu
Testowanie Hipotez, Testowanie Hipotezy Na Jednej Populacji
Statystyka #6 Testowanie hipotez
cw 8 testowanie hipotez testy jednostronne, Testowanie hipotez
cw testowanie hipotez2, Ćwiczenia 7
cw 7 testowanie hipotez1, Testowanie hipotez odnoszących się do jednej populacji
testowanie hipotez.zajęcia7, Psychologia, SPSS
testowanie hipotez, Statystyka i metodologia(1)
Zajęcia 7 Teoria testowania hipotez statystycznych
etapy testowania hipotez statystycznych, statystyka
5 Testowanie hipotez statystycznych
TESTOWANIE HIPOTEZ STATYSTY, szkoła
estymacja i testowanie hipotez Nieznany

więcej podobnych podstron