statystyka+2+wyk b3ad+ + 9cci b9ga VKNMHDTTP5VXUJNGGEFESVPLJX7U7YGDNCAMBLQ


WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Podstawowym problemem, będącym przedmiotem zainteresowania statystyki matematycznej jest poznanie rozkładu prawdopodobieństwa badanej zmiennej losowej X, opisującej naturalną zmienność wyników eksperymentu. Rozkład ten nie jest zwykle znany , a posiadane informacje pozwalają na wyróżnienie szerszej lub węższej rodziny rozkładów 0x01 graphic
do której rozkład tej zmiennej należy. Wybór rodziny P zależy od konkretnego problemu praktycznego, a w szczególności od tego, jakie informacje posiadamy o badanym zjawisku. Poprawne zdefiniowanie zmiennej losowej , określenie rodziny rozkładów P nazywamy zdefiniowaniem modelu statystycznego.

Przykład 1

Przypuśćmy, że wiemy iż zmienna losowa X ma rozkład normalny ale nie znamy wartości oczekiwanej i wariancji tego rozkładu. Wówczas rodzinę P, do której należy rozkład naszej zmiennej losowej możemy zdefiniować następująco, że jest to rodzina rozkładów normalnych indeksowanych dwuwymiarowym parametrem 0x01 graphic
. zauważmy, że parametr ten jednoznacznie identyfikuje rozkłady z tej rodziny. Gdybyśmy znali wartość parametru 0x01 graphic
, to moglibyśmy wskazać , który rozkład z tej rodziny jest rozkładem naszej zmiennej.

Jest to przykład modelu statystycznego, w którym znamy klasę rozkładów, do której należy rozkład zmiennej X ,a nie znamy jedynie parametrów tego rozkładu. Model taki nazywać będziemy parametrycznym. Niekiedy jednak nie posiadamy zbyt wiele informacji o rozkładzie badanej zmiennej X, wtedy rodzinę P możliwych rozkładów tej zmiennej musimy zdefiniować znacznie szerzej.

Przykład 2

Załóżmy, że badaną cechą jest dochód na jedną osobę w gospodarstwie domowym. Najczęściej jedyną informacją jaką posiadamy jest to, że zmienna ta jest dodatnia i ciągła. W tym przykładzie rodzinę P musimy określić bardzo szeroko, jako rodzinę wszystkich rozkładów ciągłych określonych na R+. W tym przypadku 0x01 graphic
utożsamiamy z pojedynczym rozkładem z tej rodziny . natomiast 0x01 graphic
utożsamiamy z całą rodziną P. tego rodzaju model statystyczny nazywać będziemy parametrycznym.

Rodzina P jest indeksowana parametrem 0x01 graphic
o wartościach z pewnego zbioru 0x01 graphic
zwanego przestrzenią parametru. Jeżeli różnym wartościom parametru odpowiadają różne rozkłady z rodziny P to parametr taki nazywamy identyfikowanym. Poznanie prawdziwej wartości parametru pozwala jednoznacznie określić rozkład zmiennej losowej będącej przedmiotem badania. W przypadku obserwacji częściowej tj. opartej na losowej próbie wyznaczenie dokładnej wartości parametru na ogół nie jest możliwe. Możliwe jest jednak wyróżnienie najbardziej prawdopodobnej wartości parametru lub przynajmniej wskazanie podzbioru do którego z dużym prawdopodobieństwem należy prawdziwa wartość parametru. Poznaliśmy już podstawowe metody estymacji punktowej i przedziałowej realizujące powyższy cel. Obecnie zajmiemy się metodami weryfikacji hipotez statystycznych.

Def. Hipotezą statystyczną - nazywamy każde przypuszczenie dotyczące rodziny rozkładu P dla danej zmiennej losowej. 0x01 graphic

Rozważmy dwa rozłączne podzbiory przestrzeni 0x01 graphic
.Oznaczmy je symbolem 0x01 graphic
i 0x01 graphic
(0x01 graphic
). Dalej 0x01 graphic
utożsamiać będziemy z hipotezami statystycznymi. Prawdziwa wartość parametru może należeć do podzbioru 0x01 graphic
lub 0x01 graphic
wówczas prawdziwa hipoteza jest odpowiednio 0x01 graphic
. Zadaniem metod weryfikacji hipotez statystycznych jest wskazanie, z możliwie małym prawdopodobieństwem błędu, która z hipotez jest prawdziwa.

Hipoteza parametryczna to taka, która dotyczy jedynie wartości parametrów rozkładu badanej cechy wiedząc do jakiej klasy rozkładów należy rozkład tej zmiennej.

Hipoteza nieparametryczna to taska, która dotyczy wartości parametrów nieznanego rozkładu zmiennej losowej lub też dotyczy postaci funkcyjnej tego rozkładu.

W celu zbudowania testu dla weryfikacji H0 należy skonstruować dwa rozłączne i dopełniajace się podzbiory W i W1 zbioru liczb rzeczywistych takie, że 0x01 graphic
, 0x01 graphic
∅ oraz pewną ststystyke Tn=T(X1, X2, ...,Xn) będacą funkcją wyników próby zwaną statystystyką testową. Wartosć statystyki testowej wykorzystuje się do podjęcia decyzji o przyję ciu lub odrzuceniu H0 w następujacy sposób: jeżeli T(X1,...,Xn)єW to odrzucamy H0, jeżeli T(X1,...,Xn)єW1 to przyjmujemy H0.. Zbiór W nazywa się obszarem krytycznym, a W1 obszarem przyjęcia hipotezy zerowej.Jeżeli H0 jest prawdziwa a test odrzuca tę hipotezę to popełniamy blad I rodzaju. Jeżeli H0 jest fałszywa a test decyduje o jej przyjęciu wówczas popełnimy bład II rodzaju.

Mocą M testu nazywamy prawdop. odrzucenia hipotezy fałszywej (prawdop. błędu II rodzaju) P(T(X1, X2,...,Xn)єW1\H1)=β ; M=1-β

Test, który przy ustalonym prawdop. I rodzaju min. prawdop. II rodzaju nazyw. testem najmocniejszym dla hipotezy H0 przeciwko H1.

0x08 graphic

Decyzja

Hipoteza Zerowa

Prawdziwa

fałszywa

Odrzucić

Bład I rodzaju

Decyzja poprawna

[MOC TESTU]

Przyjąć

Decyzja poprawna

Bląd II rodzaju

================================================================================

PARAMETRYCZNE TESTY ISTOTNOŚCI

Test istotnosci dla 2 srednichm [σ1, σ2 - znane , mała próba]

Niech X1 i X2 będą dwiema zmiennymi los. o μ1=E(X1) i μ2=E(X2). Stawiamy hipotezę H0: μ12 wobec alternatywnej H1: μ1≠μ2 ( μ12 lub μ12). Wybór testu służacego do zweryfikowania powyższej hipotezy H0 zależy od tego jekie informacje posiadamy o rozkladach zmiennych X1 i X2.Pierwszy z tych testów możemy zweryfikować następujaco: założenia: X1:N(μ1, σ1) ; H1:N(μ22). Wówczas statystyka testowa ma postać:

U=0x01 graphic
gdzie: 0x01 graphic
; 0x01 graphic

Statystyka U ma przy założeniu prawdziwosci H0 rozkład N(0,1). Obszar krytyczny konstruujemy następujaco:

a)obustronny ( H0 przeciw H1: μ1 ≠ μ2)

b)prawostronny (H0 przeciw H1: μ1 > μ2)

c)lewostronny (H0 przeciw H1: μ1 < μ2)

--------------------------------------------------------------------

--------------------------------------------------------------------

TEST STUDENTA dla 2 srednich [σ1, σ2 - nieznane, σ12]

Założenia X1: N(μ1, σ1) H0: μ12

X2: N(μ2, σ2) H1: μ1≠ μ21< μ2 μ1> μ2)

Statystyka testowa jest postaci: t=0x01 graphic

Statystyka t ma przy założeniu prawdziwoci hipotezy H0 rozkład Studenta o n1+n-2 st. swobody. Obszat krytyczny jak wyżej o n1+n2-2 st. swobody.

----------------------------------------------------------------------------------------------------------------------------------------

Test istotnosci dla 2 srednich w [σ1, σ2 - nieznane , duża próba]

Założenia: X1, X2 zmienne losowe o dowolnych rozkładach. Z obu populacji wylosowano 2 duże próby o liczebnościach n1 i n2.

Statystyka testowa jest postaci: U=0x01 graphic

Statystyka przy prawdziwości H0 ma graniczny rozkład N(0,1)

----------------------------------------------------------------------------------------------------------------------------------------

Test istotnosci dla 2 wariancji (Test Fishera-Snedecora)

Niech X1 i X2 będą zmiennymi losowymi o rozkładzie Normalnym z parametrami odpowiednio X1: N(μ1, σ1) oraz X2:N(μ2, σ2) Stawiamy hipotezę H0:0x01 graphic
wobec alternatywnej H1: 0x01 graphic
lub 0x01 graphic
. Statystyka testu wygląda następujaco:

0x01 graphic
(0x01 graphic
)

0x01 graphic
; 0x01 graphic

Statystyka F ma przy założeniu prawdziwosci H0 rozkład Fishera - Snedecora o n1-1 i n2-1 st. swobody. Obszar krytyczny testu jest obszarem prawostronnym.

----------------------------------------------------------------------------------------------------------------------------------------

Test istotności dla 2 wskaźników struktóry

Przypuscmy, że X1, X2 sa zm. los. o rozkładzie Zero-Jedynkowym. Wtedy:

X1: Z-J 0x01 graphic

X2: Z-J 0x01 graphic

Stawiamy hipotezę: H0: p1=p2 wobec H1: p1≠ p2 (p1>p2 ; p1<p2). Statystyka testu jest następująca:

0x01 graphic
gdzie: 0x01 graphic
; 0x01 graphic
; 0x01 graphic

k1- liczba elementów wyróżnionych w pierwszej próbie n1-elementowej

k2 - liczba elementów wyróżnionych w drugiej próbie n2-elementowej

Statystyka U ma przy założeniu prawdziwości H0 rozkład N(0,1). Obszar krytyczny wygląda nast.:

  1. obustronny ( H0: p1=p2 ; H1: p1≠ p2)

  1. lewostronny ( H0: p1=p2 ; H1: p1> p2)

  1. prawostronny ( H0: p1=p2 ; H1: p1< p2)

NIEPARAMETRYCZNE TESTY ISTOTNOSCI

Testy zgodności służą do weryfikacji hipotezy że populacja generalna ma określony typ rozkładu. Domniemany rozkład populacji określać będziemy mianem rozkładu teoretycznego bądź rozkładu hipotetycznego. Nazwa testów zgodności pochodzi stąd, że weryfikując hipotezę o postaci funkcyjnej rozkładu badamy zgodność uzyskanego z próby rozkładu empirycznego interesującej nas cechy z rozkładem teoretycznym. Podstawą testów zgodności jest budowa właściwej dla danego testu statystyki, która jest miarą rozbieżności pomiędzy rozkładem empirycznym a teoretycznym. Jeśli wartość tej miary przekroczy ustaloną granicę (punkt krytyczny) to hipotezę o zgodności rozkładu odrzucamy. W przeciwnym wypadku stwierdzamy, że nie ma podstaw do odrzucenia sprawdzanej hipotezy. Wynika stąd, że obszar krytyczny większości testów jest obszarem prawostronnym.

----------------------------------------------------------------------------------------------------------------------------------------

1.Test zgodności 0x01 graphic
Pearsona - w teście tym przyjmujemy następujące założenia: populacja generalna ma rozkład z nieznaną dystrybuantą 0x01 graphic
. Z populacji tej wylosowano dużą 0x01 graphic
n-elementową próbę prostą. Wyniki próby klasyfikujemy w szereg rozdzielczy o r-rozłącznych klasach 0x01 graphic
, o liczebnościach 0x01 graphic
w każdej klasie 0x01 graphic
.

Otrzymany szereg rozdzielczy stanowi tzw. rozkład empiryczny badanej cechy. Należy sprawdzić zgodność tego rozkładu z określonym w hipotezie rozkładem teoretycznym. Niech 0x01 graphic
oznacza zbiór rozkładów teoretycznych o kreślonym typie postaci funkcyjnej dystrybuanty do którego przypuszczalnie należy rozkład badanej cechy. Stawiamy hipotezy:0x01 graphic
wobec alternatywnej hipotezy 0x01 graphic
. Sprawdzianem testu jest statystyka postaci

0x01 graphic
(*)

gdzie

0x01 graphic
- oznacza liczebności teoretyczne; 0x01 graphic
- oznacza liczebności empiryczne

Liczba stopni swobody tej statystyki zależy od liczby niezależnych składowych występujących po prawej stronie wzoru *.

Jeżeli hipotetyczny rozkład badanej populacji został jednoznacznie określony to liczba stopni swobody statystyki 0x01 graphic
równa jest r-1.

Jeżeli natomiast rozkład teoretyczny nie został jednoznacznie zdefiniowany (nie sprecyzowane zostały wartości parametrów tego rozkładu) to liczba stopni swobody statystyki jest mniejsza od r-1.

Niech k oznacza liczbę parametrów rozkładu teoretycznego które szacowaliśmy na podstawie próby. Wówczas liczba stopni swobody statystyki równa jest r-k-1. Obszar krytyczny jest obszarem prawostronnym.

----------------------------------------------------------------------------------------------------------------------------------------

2.Test zgodności 0x01 graphic
-Kołmogorowa

W przypadku rozkładu 0x01 graphic
- Kołmogorowa porównujemy dystrybuantę empiryczną z dystrybuantą teoretyczną (zakłada się, że dystrybuanta teoretyczna jest ciągła). Idea tego testu jest następująca. Jeżeli populacja generalna ma istotnie taki rozkład jak przypuszczamy w hipotezie, wówczas wartości dystrybuanty empirycznej nie powinny się różnić istotnie od wartości dystrybuanty teoretycznej. Stąd w teście tym analizujemy bezwzględne różnice pomiędzy dystrybuantą empiryczną a dystrybuantą teoretyczną. Największa bezwzględna różnica służy do określenia wartości statystyki testu. Najczęściej w praktyce korzysta się z rozkładu granicznego tej statystyki tzn. wtedy gdy próba jest duża.

Założenia testu: przypuśćmy, że z populacji generalnej wylosowano próbę prostą n-elementową. Jeżeli próba jest duża, wówczas grupujemy ją w szereg rozdzielczy o dużej liczbie klas. Na podstawie tej próby należy zweryfikować hipotezę zerową 0x01 graphic

wobec alternatywnej hipotezy0x01 graphic
gdzie:

0x01 graphic
- reprezentuje nieznaną dystrybuantę rozkładu badanej cechy w populacji generalnej;

0x01 graphic
- oznacza dystrybuantę teoretyczną rozkładu tej cechy (najczęściej wyspecyfikowaną jednoznacznie, tzn. z parametrami)

Statystyką testu jest zmienna losowa postaci:

0x01 graphic
, gdzie 0x01 graphic

gdzie 0x01 graphic
- dystrybuanta empiryczna wyznaczona z próby.

Statystyka 0x01 graphic
ma przy założeniu poprawności hipotezy zerowej rozkład 0x01 graphic
-Kołmogorowa. Obszar krytyczny jest obszarem prawostronnym.

----------------------------------------------------------------------------------------------------------------------------------------

3.Test normalności Shapiro - Wilka

Test ten należy do grupy testów zgodności, jednak jego zastosowanie jest zawężone do przypadku, gdy sprawdzamy hipotezę, że rozkład danej populacji jest normalny. Czyli hipotezę postaci 0x01 graphic
wobec alternatywnej hipotezy 0x01 graphic
, gdzie

0x01 graphic
- rodzina dystrybuant rozkładu normalnego

Założenia testu są następujące: przypuśćmy, że z populacji generalnej o ciągłym rozkładzie z dystrybuantą 0x01 graphic
wylosowano niezależnie n-elementową próbę prostą. Próbę porządkujemy w szereg szczegółowy. Statystyką takiego testu jest zmienna losowa postaci:

0x01 graphic

0x01 graphic
- część całkowita z tej liczby

0x01 graphic
- są pewnymi współczynnikami, które odczytujemy ze specjalnych tablic zwanych tablicami współczynników Shapiro-Wilka

0x01 graphic
- statystyka pozycyjna i - tego rzędu , przyjmująca i - tą co do wielkości wartość w uporządkowanej, niemalejącej próbie.

Statystyka W ma przy założeniu prawdziwości hipotezy zerowej rozkład Shapiro-Wilka. Obszar krytyczny jest obszarem lewostronnym.

================================================================================

TEST ZGODNOSCI DLA 2 ROZKLADÓW EMPIRYCZNYCH

Stosunkowo często w praktyce występuje potrzeba porównania dwóch populacji o nieznanych typach rozkładów. Jeśli z populacji wylosujemy dwie próby proste to na ich podstawie można zweryfikować hipotezę nieparametryczną, że obie próby pochodzą z populacji, których rozkłady nie różnią się. Hipotezę taką można zapisać następująco: 0x01 graphic
wobec alternatywnej hipotezy

0x01 graphic
gdzie; F1,F2 - reprezentują nieznane dystrybuanty rozkładów odpowiednio w populacji pierwszej i drugiej.

1.Test Kołmogorowa - Smirnowa

Dane są dwie populacje o ciągłych rozkładach z nie znanymi dystrybuantami F1(X), F2(X). Z populacji tych wylosowano dwie próby proste o liczebnościach odpowiednio n1 , n2 . Na podstawie wyników obu prób należy zweryfikować hipotezę , że obie próby pochodzą z populacji o jednakowym rozkładzie, czyli:0x01 graphic
wobec alternatywnej hipotezy 0x01 graphic
.

Test istotności dla H0 podany został przez Smirnowa, a oparty jest na statystyce podobnej do 0x01 graphic
-Kołmogorowa. Testowanie hipotezy H0 przeprowadzamy w następujących etapach:

  1. porządkujemy wyniki obu grup w kolejności rosnącej. Dal dużych grup 0x01 graphic
    grupujemy ej w stosunkowo wąskie przedziały o tych samych końcach dla obu grup.

  2. Dla każdego wyniku próby pierwszej i drugiej (ewentualnie dla każdego przedziału klasowego) obliczamy wartości dystrybuant empirycznych 0x01 graphic
    i 0x01 graphic
    .

  3. Wyznaczamy wartość statystyki Kołmogorowa - Smirnowa

0x01 graphic
, gdzie 0x01 graphic

Statystyka 0x01 graphic
ma przy 0x01 graphic
graniczny rozkład 0x01 graphic
-Kołmogorowa (przy założeniu, że hipoteza H0 jest prawdziwa)

W praktyce korzystanie z granicznego rozkładu statystyki 0x01 graphic
oznacza konieczność wylosowania dużych prób 0x01 graphic
. Z tablic wartości krytycznych 0x01 graphic
-Kołmogorowa dla zadanego poziomu 0x01 graphic
odszukujemy punkt krytyczny 0x01 graphic
, to jest taką liczbę dla której spełnione jest równanie : 0x01 graphic
. Obszar krytyczny jest obszarem prawostronnym. Zatem odrzucamy hipotezę zerową jeśli 0x01 graphic
przekroczy punkt krytyczny 0x01 graphic

----------------------------------------------------------------------------------------------------------------------------------------

2.Test serii dla dwóch rozkładów empirycznych.

Test ten służy do weryfikacji 0x01 graphic
wobec alternatywnej hipotezy 0x01 graphic
. Jest zbudowany w oparciu o tzw. TEORIĘ SERII czyli teorię zajmującą się kolejnością pojawienia się poszczególnych wyników w próbie.

Założenia tego testu są następujące: dane są dwie populacje o nieznanych lecz ciągłych rozkładach określonych przez dystrybuantę 0x01 graphic
i 0x01 graphic
z populacji tych wylosowano dwie próby proste o liczebnościach odpowiednio n1 i n2 . Na podstawie tych prób należy sprawdzić hipotezie, że pochodzą one z populacji o takim samym rozkładzie.

Etapy testowania tej hipotezy:

  1. Wyniki grup porządkujemy w jeden niemalejący ciąg

  2. Wyrazom pochodzącym z tych samych populacji przypisujemy symbole odpowiednio a i b W rezultacie otrzymujemy ciąg łożony z liter a i b.

  3. Obliczamy liczbę serii „k” składających się z wyrazów a lub b

SERIĄ - nazywamy każdy podciąg ciągu wyników złożony z jednakowych symboli oddzielony innym symbolem (jeden symbol to też seria). Liczba serii - „k” jest statystyką testu jej rozkład jest znany i stablicowany. Jest to rozkład skokowy . mała liczba serii świadczy przeciwko hipotezie zerowej, dlatego obszar krytyczny jest obszarem lewostronnym.

  1. Z tablic rozkładu Liczby Serii dla zadanego poziomu istotności 0x01 graphic
    odczytujemy taki punkt krytyczny 0x01 graphic
    a by zachodziła równość

0x01 graphic
. Hipotezę zerową odrzucamy jeśli obliczona wartość statystyki testu K spełnia nierówność:0x01 graphic

================================================================================

WNIOSKOWANIE STATYSTYCZNE NA BAZIE MODELU REGRESJI LINIOWEJ.

Badając zjawiska masowe (w tym także zjawiska społeczno - ekonomiczne) stwierdzamy zawsze, że każde z tych zjawisk jest uwarunkowane działaniem innych zjawisk np.: wiadomo, że PKB = „Y” zależy od takich zmiennych jak liczba mieszkańców kraju „X” , stopy bezrobocia „Z” czy stopy inwestycji „U” itp. Na ogół powiązania pomiędzy zmiennymi losowymi nie mają charakteru ściśle funkcyjnego, który dałoby się zapisać w postaci 0x01 graphic
0x01 graphic
, gdzie f - to pewna nieznana funkcja.. zapis taki oznaczałby, ze konkretnym realizacjom zmiennych (x,z,u...w) zwanych zmiennymi objaśniającymi odpowiada dokładnie jedna wartość zmiennej Y zwanej zmienną objaśnianą, co w praktyce rzadko się zdarza. . Bardziej adekwatne jest przedstawienie zależności pomiędzy zmiennymi w następujący sposób: (*) 0x01 graphic
E gdzie:

x,z,u...w - reprezentują tu konkretne ustalone wartości zmiennych objaśniających.

Y - jest zmienną losową objaśnianą.

E - jest zmienną losową co do której zakładamy iż ma rozkład normalny o wartości oczekiwanej równej zero E(X)=0 oraz wariancji równej σ2. Zmienną tą nazywamy składnikiem wahań przypadkowych (składnikiem losowym).

Uwzględnienie składnika losowego po prawej stronie wzoru (*) powoduje, że konkretnym wartościom x,z,u..w mogą odpowiadać różne wartości zmiennej losowej Y, o takiej zależności mówimy, że jest zależnością stochastyczną . Problemem podstawowym , jaki pojawia się przy badaniu zależności stochastycznych, jest oszacowanie funkcji f zwanej także funkcją regresji. Dokonujemy tego na podstawie wyników n - elementowej próby prostej tzn. na podstawie ciągu następujących obserwacji:

0x01 graphic

dla n losowo i niezależnie wybranych obiektów. Dla każdego z obiektów przyjmujemy, że zachodzi zależność podana wzorem (*) czyli zachodzi 0x01 graphic
Ei dla i = 1,2...n Wówczas jako kryterium dopasowania funkcji f do danych empirycznych możemy przyjąć sumę postaci:

0x01 graphic
E2 =0x01 graphic

Funkcja, która w danej klasie funkcji minimalizuje wartość powyższej sumy nazywana jest estymatorem najmniejszych kwadratów funkcji regresji f.

Przyjmijmy dla uproszczenia , że funkcja f należy do klasy funkcji liniowych oraz, ze mamy tylko jedna zmienną objaśniającą. Wówczas model (*) sprowadza się do znanej postaci regresji liniowej jednej zmiennej:

0x01 graphic
E

Oszacowanie nieznanych współczynników 0x01 graphic
i 0x01 graphic
prowadzi do znalezienia oszacowania funkcji regresji f.

Estymatorami najmniejszych kwadratów współczynników 0x01 graphic
i 0x01 graphic
są statystyki a i b.

0x01 graphic
0x01 graphic
,

gdzie: 0x01 graphic
0x01 graphic

Wówczas równanie prostej 0x01 graphic
lub inaczej0x01 graphic
jest oszacowaniem funkcji regresji liniowej0x01 graphic
jednej zmiennej jest Model: Model Gaussa - Markowa. W modelu tym funkcja f jest liniową funkcją o p zmiennych objaśniających (p>1) dla uproszczenia zapisu zmienne p oznaczymy symbolami: x1,x2,...xp przy tych oznaczeniach model zapisujemy następująco:

(**) 0x01 graphic
E

gdzie 0x01 graphic
są nieznanymi współczynnikami, które należy oszacować. Zauważmy, że jeżeli przyjmiemy p=2 i x1=1 to otrzymujemy model regresji liniowej omówiony powyżej 0x01 graphic
E .

Dysponując wynikami z n-elementowej próby prostej tzn. ciągiem wartości

0x01 graphic
otrzymujemy zgodnie ze wzorem (**)

0x01 graphic
E zależności postaci:

0x01 graphic
Ei ; i=1...n o składnikach losowych Ei zakładamy, ze są niezależnymi zmiennymi losowymi o jednakowym rozkładzie normalnym, o wartości przeciętnej równej E(X)=0 i wariancji 0x01 graphic
.

Ponadto jeśli wprowadzimy oznaczenia macierzowe:

0x01 graphic
;0x01 graphic
0x01 graphic
0x01 graphic

to powyższe zależności można zapisać następująco: 0x01 graphic

W celu oszacowania wektora współczynników 0x01 graphic
stosujemy metodę minimalizacji sumy kwadratów tj. sumy postaci:

0x01 graphic

----------------------------------------------------------------------------------------------------------------------------------------

TEST ISTOTNOSCI DLA WSÓLCZYNNIKA REGRESJI LINIOWEJ

Bardzo często w analizie regresji dokonuje się sprawdzania hipotezy dotyczącej istotności otrzymanych z próby współczynników regresji. Jeśli współczynniki te okażą się istotnie różne od zera to dopiero wówczas można używać otrzymanej funkcji regresji jako narzędzia przy dokonywaniu prognozy wartości zmiennej objaśnianej na podstawie wartości zmiennych objaśniających.

Załóżmy, ze z populacji generalnej wylosowano „n” elementów i zanotowano dla nich wartości dwóch cech X i Y. W rezultacie otrzymano ciąg par postaci (x1 , y1)...(xn , yn). Na podstawie wyników tej próby należy sprawdzić hipotezę, ze współczynnik regresji 0x01 graphic
(liniowej funkcji regresji postaci 0x01 graphic
) w populacji ma określoną wartość, czyli hipotezę postaci:

0x01 graphic
, wobec 0x01 graphic
lub 0x01 graphic
, gdzie 0x01 graphic
to domniemana wartość tego współczynnika.W szczególności, gdy 0x01 graphic
hipoteza zerowa ma postać 0x01 graphic
0x01 graphic
lub 0x01 graphic

Hipoteza zerowa tej postaci oznacza, że współczynnik regresji liniowej Y względem X jest NIEISTOTNY (nie różni się istotnie od zera).

Test istotności dla powyższej hipotezy jest następujący: z wyników próby metodą najmniejszych kwadratów znajdujemy oszacowanie funkcji regresji otrzymując funkcję postaci 0x01 graphic
. Następnie obliczamy wartość statystyki testu wyrażoną wzorem:

0x01 graphic

gdzie

0x01 graphic

Statystyka „t” ma przy założeniu prawdziwości hipotezy zerowej rozkład t-Studenta o n-2 stopniach swobody. Z tablic tego rozkładu dla ustalonego poziomu istotności odczytujemy wartość krytyczną tego testu, a następnie podejmujemy decyzję o odrzuceniu bądź przyjęciu hipotezy zerowej.

----------------------------------------------------------------------------------------------------------------------------------------

TEST ISTOTNOSCI DLA WSÓLCZYNNIKA KORELACJI

Przy badaniu populacji generalnej ze względu na dwie lub więcej cech (cech ilościowych) posługujemy się pojęciami regresji i korelacji. Oba te pojęcia dotyczą współzależności pomiędzy zmiennymi. Przy czym korelacja dotyczy siły tej zależności a regresja jej kształtu.Gdy zależność między dwiema badanymi cechami jest liniowa to najlepszym miernikiem korelacji między nimi jest współczynnik korelacji 0x01 graphic
definiowany wzorem

0x01 graphic

gdzie cov(X,Y)=E[(X-E(X))(Y-E(Y))]

0x01 graphic
odchylenie standardowe zmiennej losowej X czyli 0x01 graphic

Wspólczynnik 0x01 graphic
jest unormowaną miarą korelacji gdyż zawiera się w przedziale <-1;1>. Gdy 0x01 graphic
jest równe -1 lub 1 wówczas między X i Y zachodzi ściśle funkcyjna zależność liniowa. Gdy 0x01 graphic
=0 mówimy, że zmienne są nieskorelowane. Im 0x01 graphic
bliższe zera tym silniejsza jest zależność. Znak wskazuje na kierunek korelacji. Należy zaznaczyć, że pojęcie korelacji różni się od pojęcia zależności stochastycznej pomiędzy zmiennymi losowymi.

Zmienne niezależne są zawsze nieskorelowane. Twierdzenie odwrotne nie jest prawdziwe, tzn., ze zmienne nieskorelowane nie muszą być niezależne chyba że ich rozkład jest dwuwymiarowym rozkładem normalnym.

Estymatorem nieobciążonym i zgodnym dla 0x01 graphic
jest współczynnik korelacji z próby prostej n-elementowej określany wzorem

0x01 graphic

Na podstawie tego estymatora można wyznaczyć przedział ufności dla współczynnika 0x01 graphic
. Załóżmy, że zmienne X i Y mają w populacji generalnej dwuwymiarowy rozkład normalny lub do niego zbliżony. Z populacji generalnej wylosowano dużą n-elementową próbę prostą (n - kilka sztuk) Wówczas przedział ufności dla współczynnika 0x01 graphic
wyraża się przybliżonym wzorem . Dla zadanego współczynnika ufności [1-α]

0x01 graphic

gdzie 0x01 graphic
kwantyl rzędu 0x01 graphic
rozkładu normalnego standaryzowanego.

Test istotności dla współczynnika korelacji 0x01 graphic
konstruuje się również korzystając ze współczynnika korelacji próby „r”. Zakładamy nadal, że zmienne X i Y mają rozkład normalny lub do niego zbliżony. Z populacji losujemy n-elementową próbę prostą na podstawie wyników tej próby należy sprawdzić hipotezę zerową, że zmienne losowe X,Y nie są skorelowane.

0x01 graphic
0x01 graphic
lub 0x01 graphic

Statystykę tego testu określa się wzorem

0x01 graphic

zmienna losowa "t” ma przy założeniu prawdziwości hipotezy zerowej rozkład t-Studenta o n-2 stopniach swobody. Z tablic rozkładu tej zmiennej dla ustalonego poziomu istotności i dla n-2 stopni swobody odczytujemy wartość krytyczną testu i podejmujemy decyzję o odrzuceniu bądź przyjęciu hipotezy H0.

----------------------------------------------------------------------------------------------------------------------------------------

TEST NIEZALEZNOSCI χ2

W badaniach populacji wielowymiarowych występuje często problem badania współzależności zmiennych. W przypadku, gdy zmienne te (cechy statystyczne ) są mierzalne (ilościowe) badanie współzależności sprowadza się do analizy korelacji i regresji. Natomiast jeżeli zmienne mają charakter jakościowy (niemierzalny) to wnioskowanie statystyczne współzależności tych cech opiera się przede wszystkim na teście niezależności χ2.

Rozważmy dwuwymiarową zmienną losową (X,Y), o skokowych rozkładach brzegowych. Z populacji generalnej losujemy n-elementową próbę prostą, w której odnotowujemy wartości zmiennej losowej (X,Y). Na podstawie uzyskanych wyników z próby chcemy sprawdzić hipotezę, że zmienne X,Y są niezależne. Hipotezę tą możemy zapisać następująco:

0x01 graphic

0x01 graphic

gdzie:

F(x,y) - dystrybuanta łącznego rozkładu zmiennej losowej (X,Y)

F1(x), F2(y) - dystrybuanty brzegowe obu zmiennych losowych.

Hipotezy powyższe zapisuje się niekiedy w równoważnej postaci

0x01 graphic

0x01 graphic

Test istotności dla H0 zwany testem niezależności χ2 jest następujący: wyniki dużej próby klasyfikujemy w tzw. tablicę niezależności (tablicę kontyngencyjną) o r - wierszach i s- kolumnach. Wiersze stanowią wartości zmiennej X (inaczej są to różne warianty tej zmiennej ), a kolumny odpowiadają wartościom zmiennej losowej Y. Wnętrze tablicy stanowią liczebności „nij” tych elementów próby, dla których wartości obu cech należały do i-tego wiersza i j-tej kolumny tablicy.

X

Y

ni.

y1

...

ys

x1

n11

...

n1s

n1.

...

...

....

...

...

xr

nr1

...

nrs

n.r.

Sumując w wierszach liczebności „nij” otrzymujemy wartości brzegowe ni· i analogicznie dla kolumn. Niech „pij” oznacza prawdopodobieństwo teoretyczne (czyli wyznaczone przy założeniu, że H0 jest prawdziwa) zdarzenia, że wylosowany obiekt zostanie zaklasyfikowany do i-tego wiersza i j-tej kolumny tablicy. Zakładając prawdziwość hipotezy zerowej mamy, że 0x01 graphic
, przy czym 0x01 graphic
. Prawdopodobieństwa brzegowe 0x01 graphic
oraz 0x01 graphic
nie są jednak znane. Można je jednak oszacować na podstawie próby metodą największej wiarygodności. Estymatorami tymi są: 0x01 graphic
, 0x01 graphic
stąd za estymator prawdopodob. pij przyjmujemy iloczyn 0x01 graphic
. Znając już oszacowane prawdopodobieństwa pij wyznaczamy dla każdego pola tablicy tzw. oszacowane liczebności teoretyczne równe 0x01 graphic
. Wielkości te informują ile w przybliżeniu powinno się znaleźć obserwacji w polu ij tablicy, gdyby hipoteza była prawdziwa.

Przeciwko hipotezie zerowej świadczyć będą duże rozbieżności między liczebnościami empirycznymi a teoretycznymi dla poszczególnych pól tablicy.

Statystyką testu niezależności χ2 jest zmienna losowa:

0x01 graphic

Statystyka ta ma dla dużych prób asymptotyczny rozkład χ2 0x01 graphic
stopniach swobody. Obszar krytyczny tego testu jest obszarem prawostronnym. Oznacza to, że będziemy odrzucać hipotezę zerową , jeżeli wartość statystyki χ2 przekroczy pewien punkt krytyczny. Dla zadanego punktu istotności 0x01 graphic
punktem tym jest kwantyl rzędu 0x01 graphic
rozkładu χ2 o danej liczbie stopni swobody. Punkt odczytujemy z tablicy.

5



Wyszukiwarka

Podobne podstrony:
statystyka+1+wyk b3ad+ + 9cci b9ga 5C4QHXF3UK74LMAFIT5WGWFVGKKVACWV5IDOJHI
atom 2c+uk b3ad 2cwi b9zania+ + 9cci b9ga KGLJP5JUEHVNKFKTJL4N5TVEMY6PTHZB6QUZ27A
IiE, Mat Statystyka,Wyk 4
KZ = iso 8859 2 q Wyk=B3ad = 2010
KZ = iso 8859 2 q Wyk=B3ad = 2018
wska 9fniki+poziomu+gospodarowania+ + 9cci b9ga N6RZTISND6QESJI2D34LHQZGRZ7USYLFPBARN4Y
zarz b9dzanie+produkcj b9+ + 9cci b9ga A7MWXCKB2PU3RG4XWX3RH2JK3DV4IBTJH6RSCKQ
9cci b9ga+hp NDAMPFUKRLHN3OAWFSO77YPGSHSWVQ7ACLANIMI
9cci b9ga+z+marketingu GURTSLEDJ3H2GZOAX7BVATYB4D572YJTD4XUSRA
rachunkowo 9c e6+bankowa+ +wyk b3ad+1+ 2816 11 2005 29 OLCPLSAV2E6GCT5FOI3SHOBIYYNTNVORFOT3BMY
zarz b9dzanie+ + 9cci b9ga xg6l3ozrw4ycluypzpge4vsahbmubhhu7pba7gi xg6l3ozrw4ycluypzpge4vsahbmubhhu7
KZ = iso 8859 2 q Wyk=B3ad = 2007
KZ = iso 8859 2 q Wyk=B3ad = 2008
zarz b9dzanie+finansami+ + 9cci b9ga GYYSDHCNJHGRPA3NWDYZSORHZDM5X65TEQPZ56Q
fizyka+ 9cci b9ga PYRAOUCEQHOI22SASOE6X4VYOWN3LW6IP6XZ34Q

więcej podobnych podstron