statystyka egzamin 2008, Statystyka

1. Na czym polega częstościowa interpretacja prawdopodobieństwa?

Interpretacja ta znajduje zastosowanie gdy przestrzeń zdarzeń elementarnych zawiera nieskończoną ilość elementów.

Jeśli eksperyment będziemy wykonywać wielokrotnie i po każdym wykonaniu eksperymentu obliczać częstość badanego zdarzenia A to wraz ze wzrostem liczby wykonanych doświadczeń wahania częstości na/n będą coraz mniejsze i będą oscylowały wokół pewnej stałej wartości wokół liczby będącej prawdopodobieństwem P(A)

2. Jakie estymatory nazywamy nieobciążonymi?

Estymator Un gdzie n oznacza liczebność z próby na podstawie z której obliczona jest wartość estymatora parametru Q jeśli dla każdej liczebności próby wartość oczekiwana estymatora jest równa wartości estymowanego parametru Q

3. Miary zależności między zmiennymi dyskretnymi

Mierzą siłę zależności między dwiema zmiennymi dyskretnymi.

Przy wyborze odpowiedniej miary zależności trzeba wziąć pod uwagę:

- typ danych

- właściwości różnych mierników zależności

Wyróżniamy:

miary zależności dla zmiennych mierzonych na skalach nominalnych(w tym wypadku miary określają tylko siłę związku między zmiennymi, nie określają kierunku ani charakteru zależności )

Istnieją dwa typy miar :

oparte na statystyce Chi-kwadrat (współczynnik Persona , Cramera, T Czuprowa
miary koncentracji i niepewności

-współczynnik koncentracji Goodmana i Kruskala

- współczynnik niepewności (U Theila)

Współczynniki niepewności i koncentracji wskazują proporcjonalne zmniejszenie się błędu gdy wartości jednej zmiennej są przewidywane drugiej zmiennej

- miary zależności dla zmiennych mierzonych na skalach porządkowych

(oparte są na porównywaniu zgodności i niezgodności par względem obu zmiennych)

- miernik Kendalla

- miernik Gamma Godmana i kruskala

- współczynnik d Sersa (dy)

4. Czy test niezależności Chi-kwadrat i dokładny test Fishera są stosowane do testowania takich samych hipotez ? Jakich?

Tak, są stosowane do takich samych hipotez

H0 : zmienne X i Y są niezależne

H1 : nie prawda że H0

Test Chi-kwadrat niezależności stosujemy gdy liczebność oczekiwana jest większa bądź równa 5 w każdej tablicy kontyngencji jeśli ten warunek jest nie spełniony powinniśmy zastosować dokładny test Fishera . Test Chi-kwadrat jest nadwrażliwy przy dużych liczebnościach więc stosujemy T. Fishera.

Decyzje podjęte na podstawie testu chi-kwadrat i dokładnego testu Fishera są takie same.

5. Określ problemy(zagadnienia) testowania pojawiające się w modelowaniu regresji liniowej.

Stosując regresję określany kierunek zależności, ponieważ w modelach tych jedna ze zmiennych jest zmienną objajśnianą a pozostałe zmiennymi objaśniającymi.

Jednym z celów jest predykcja( przewidywanie ) wartości jednej lub kilku zmiennych na podstawie informacji zawartych w wynikach innych zmiennych (objaśniających)

6. Jakie są różnice między współczynnikiem korelacji Pearsona i współczynnikiem korelacji rang Spearmana.

Współczynnik Pearsona możemy stosować gdy

-odchylenie standardowe jest różne od 0

-rozkład zmiennych musi być normalny

-obie zmienne muszą być ciągłe ilościowe

-zależność między zmiennymi powinna być liniowa
- jest współczynnikiem parametrycznym
- ma większą moc niż współczynnik Spearmana

Współczynnik korelacji rang Spearmana może być stosowany gdy:

-założenia są takie jak u Pearsona ale wtedy nie opłaca się nam tego robić gdyż współczynnik ten ma mniejszą moc, jest nie parametryczny.
-rozkład zmiennych nie jest normalny
-gdy przynajmniej jedna zmienna nie jest ilościowa tylko porządkowa
-związek między zmiennymi nie jest liniowy

7. Omów testy wykorzystywane przy porównaniu dwóch średnich

Test t-Studenta dla prób niezależnych

-badamy dwie grupy osób

-badana cecha ma rozkład normalny(gdy grupa jest większa od 30 to na mocy centralnych twierdzeń granicznych przyjmujemy ze rozkład jest normalny

-w teście t-Studenta musi być spełnione założenie o równości wariancji.

Test Manna-Wilthney'a

-jest nieparametrycznym odpowiednikiem testu t-Studenta dla prób niezależnych(gdy nie wiemy nic o liczebności gr , normalności rozkładu)

-wykorzystuje rangowanie czyli nadawanie kolejnych numerów obserwacjom w uporządkowanym ciągu.

-stosujemy go gdy istnieją zastrzeżenia odnośnie normalności rozkładu prawdopodobieństwa badanej cechy.

Test t- Studenta dla prób zależnych

- czyli przy porównaniu tej samej grupy przy ocenie skutków pewnych działań przeprowadzonych na tej samej grupie (porównywanie średnich sprzed działania do średnich po działaniu np. zastosowanie terapii

- stosujemy gdy próba jest liczna > 30

Test Wiloxona dla par obserwacji

- jest nieparametrycznym odpowiednikiem testu t-Studenta dla prób zależnych (gdy liczebność próby jest mniejsza od 30
- wykorzystuje rangowanie

8. Podaj testy dla porównań średnich

Mogą dotyczyć porównania średnich dla prób niezależnych gdy porównujemy średnie dwóch różnych grup oraz porównania średnich dla prób zależnych gdy oceniamy skutek pewnych działań przeprowadzonych na tej samej grupie osób.

9. Czy z każdego modelu analizy wariancji możemy zrobić model analizy kowariancji ?

Tak. (kwestia do dyskusji):)

10. Do czego wykorzystywana jest analiz skupień?

Nie będzie na egzaminie!!!

1. Opisz niezbędne warunki stosowalności jednoczynnikowej analizy wariancji

-wszystkie błędy powinny mieć rozkład normalny o wartości oczekiwanej 0 i jednakowej wariancji

-wariancja ( ale ta prawdziwa a nie oszacowana na podstawie próby), powinna być jednakowa w każdej z porównywanej grup oraz badana cecha, w każdej z badanych grup, powinna mieć rozkład normalny

-grupy są równie liczne

- warto przyjąć interpretację, że wartości czynnika, czyli wartości zmiennej dyskretnej wyznaczają nam pewne, wzajemne rozłączne populacje, i z tych populacji losujemy próby o liczebnościach n1, n2…nk

2. Podstawowe różnice między testami parametrycznymi i nieparametrycznymi

-testy parametryczne służą do testowania hipotez parametrycznych, a testy nieparametryczne do testowania hipotez nieparametrycznych

-jeśli hipoteza dotyczy parametr, parametrów to nazywamy ją hipotezą parametryczną, hipotezy nieparametryczne mogą dotyczyć postaci rozkładu prawdopodobieństwa ale nie tylko bo zaliczamy do nich też hipotezy o niezależności zmiennych losowych a także hipotezy o równości rozkładów prawdopodobieństwa

-do weryfikacji hipotez parametrycznych, z wyjątkiem dużych prób, musimy znać rozkład prawdopodobieństwa badanej cechy, do weryfikacji hipotez nieparametrycznych nie jest to wymagane

- tak w przypadku parametrycznych jak nieparametrycznych musi znać (chociażby w przybliżeniu) rozkład prawdopodobieństwa statystyki będącej podstawą testu

-wszystkie testy nieparametryczne są słabsze niż parametryczne ich odpowiedniki, więc prawdopodobieństwo popełnienia błędu drugiego rodzaju jest większe niż w testach nieparametrycznych

-testy nieparametryczne dostarczają mniej precyzyjnych informacji

3 Jaka jest zasadnicza różnica między regresją liniową i logistyczną

- w modelu regresji liniowej przyjmowaliśmy, że zmienna objaśniana ( będąca jednocześnie wynikową zmienną badania) jest zmienną ciągłą, natomiast w modelach regresji logistycznej zmienna wynikowa jest zmienną dwustanową

- stosując model regresji liniowej poszukiwaliśmy zależności między wartościami zmiennej objaśnianej i wartościami zmiennych objaśniających zaś model regresji logistycznej opisuje zależność między wartościami zmiennych objaśniających (nazywane często czynnikami ryzyka) a prawdopodobieństwem wystąpienia badanego zdarzenia ( stanu zmiennej wynikowej), zmienna wynikowa jest kodowana: 1-występuje zdarzenie, 2- brak tego zdarzenia

-podstawową funkcją wykorzystywaną w regresji logistycznej jest funkcja wiarygodności, a w regresji liniowej dużą rolę odgrywa współczynnik determinacji

-współczynniki regresji w modelach liniowych były szacowane metodą najmniejszych kwadratów, natomiast w modelach regresji logistycznej współczynniki szacowane są metodą największej wiarygodności, poprzez poszukiwanie maksimum na powierzchni funkcji wiarygodności

- w modelach regresji logistycznej wartości funkcji wiarygodności są wykorzystywane do budowy mierników dopasowania modeli a także do testowania niektórych hipotez o statystycznej istotności pojedynczych zmiennych

4. Scharakteryzuj parametry położenia

Odpowiednikiem wartości oczekiwanej jako parametru położenia jest mediana, kwartale służą konstrukcji parametrów rozproszenia, a steny są pochodnymi percentyli.

Mediana to pewna wartość środkowa analizowanej próby, która dzieli tę próbę na 2 równoliczne części, obserwacje nie większe od mediany i obserwacje nie mniejsze od mediany.

Kwartyle dzielą badaną populację (próbę), ze względu na wielkość obserwacji, na 4 równoliczne części

Kwartyl rzędu o,25 jest pierwszym kwartylem, rzędu 0,5 jest drugim kwartylem równym medianie a rzędu 0,75 jest trzecim kwartylem; kwartyle 0,1 ; 0,2 ;…0,8 nazywamy percentylami

Zastosowanie parametrów pozycyjnych:

-często precyzyjniejsza niż przy użyciu wartości przeciętnej i odchylenia standardowego przy silnej asymetrii rozkładu charakterystyka rozkładu prawdopodobieństwa badanej zmiennej losowej

-kwartyle są wykorzystywane do ustalania zakresów prawidłowych wartości parametrów biologicznych

-porównanie ,,próbkowej'' wartości oczekiwanej i mediany umożliwia łatwą choć przybliżoną ocenę symetrii (asymetrii) rozkładu prawdopodobieństwa badanej zmiennej

5. Podaj podstawowe założenia testu t-studenta i oceń ich niezbędność

Podstawowe założenia:

-normalność rozkładu w obrębie podpopulacji

-jednorodność wariancji w porównywanych grupach

-jeśli liczebność każdej z grup jest większa od 30 to na mocy centralnych twierdzeń granicznych możemy uchylić założenie, iż rozkład badanej cechy w podpopulacjach jest rozkładem normalnym

Jeśli mamy mało liczną próbę i nie znamy żadnych przesłanek umożliwiających przyjęcie założenia o normalności rozkładu badanej cechy powinniśmy zastosować test nieparametryczny , który jest gorszy od parametrycznego, gdyż dostarcza mniej precyzyjnych informacji na temat różnic. Nieparametrycznym odpowiednikiem testu t- studenta dla prób niezależnych jest test Manna-Whitney'a

W przypadku, gdy wariancje nie są jednorodne możemy wykorzystać test t skorygowany lub ewentualnie pracować na zmiennych przekształconych, np.: logarytmach wartości zmiennych

6. Czy pojęcia estymacja i estymator oznaczają to samo ? Uzasadnij

Estymacja jest metodą jest to szacowanie parametrów lub funkcji a estymator to narzędzie w tej metodzie wykorzystywane. Aby funkcje zmiennych losowych uznać za estymator powinna ona posiadać porządne własności. ,,Porządny'' estymator to taki, do którego będziemy mieli duże zaufanie, tzn., że spodziewamy się, że wartości parametru oszacowane na jego podstawie są w mniejszym lub większym przybliżeniu równe prawdziwej wartości parametru

7. Na czym polegają błędy w testowaniu hipotez?

Błąd I rodzaju polega na odrzuceniu hipotezy zerowej gdy jest ona prawdziwa, błąd II rodzaju polega na przyjęciu hipotezy zerowej wtedy gdy jest ona fałszywa. Prawdopodobieństwo popełnienia błędu I rodzaju nazywane jest poziomem istotności testu, zaś prawdopodobieństwo popełnienia błędu II rodzaju jest podstawą do wyznaczenia mocy testu. Prawdopodobieństwa popełnienia błędów : I i II rodzaju pozwalają kontrolować częstość podejmowania błędnych decyzji.

8. Podaj interpretację poziomu istotności testu statystycznego

Testy istotności to takie, w których kontrolowany jest jedynie poziom istotności natomiast nie kontroluje się w nich prawdopodobieństwa błędu II rodzaju. Jesteśmy w stanie odrzucić hipotezę zerową na rzecz hipotezy alternatywnej tj. podejmujemy decyzję, że hipoteza zerowa jest fałszywa zaś hipoteza alternatywna jest prawdziwa. Nie możemy podjąć decyzji o prawdziwości hipotezy zerowej gdyż nie kontrolujemy prawdopodobieństwa błędu II rodzaju tj. prawdopodobieństwa błędu polegającego na przyjęciu hipotezy zerowej gdy jest ona fałszywa. Stwierdzamy wówczas, że nie ma podstaw do odrzucenia hipotezy zerowej .

9. Jakiego obszaru relacji między parametrami (rozkładami) dotyczy test hipotezy statystycznej

10. Omów testy wykorzystywane w porównaniu dwóch średnich

1.Podstawowe różnice między estymatorem punktowym i przedziałowym?

-Estymator punktowy:

*jest to jedna liczba, którą uważamy za prawdziwą wartość poszukiwanego parametru.

*daje dokładną informację o odległości między jego wartością a prawdziwą wartością parametru.

Estymator przedziałowy:

*relacja między oszacowaniem nieznanego parametru i jego prawdziwej wartości w terminach prawdopodobieństwa.

*w przeciwieństwie do estymatora punktowego nie mamy dokładnej informacji o odległości między wartością estymatora

a prawdziwą wartością parametru, poznamy jedynie prawdopodobieństwo, iż prawdziwa wartość parametru może

znajdować się w zbiorze pewnych przedziałow liczbowych.

2.Scharakteryzuj zastosowanie metod analizy kowariancji.

-Analiza kowariancji oprócz czynników i mierzonych cech do modelu wprowadzone są dodatkowe zmienne tzw.

czynniki zakłócające.

*jest to tzw. metoda kontrolowania zmienności spowodowanej błędem eksperymentalnym.

*modele analziy kowariancji mogą przyczynić się do wzrostu precyzji eksperymentu i usuwać potencjalne

źródła obciążeń.

*bada obok podstawowych zmiennych również jedną albo kilka zmiennych towarzyszących (zakłócających).

3. Miary zalezności między zmiennymi ciągłymi.

-współczynnik korelacji liniowej Pearsona

-współczynnik korelacji rang Spearmana

4.Jakich zależności poszukujemy stosując regresję linową a jakich stosując regresję logistyczną?

-Zależność liniowa: (jednozmiennowa regresja liniowa)

zależność między zmiennymi losowymi X i Y

Y=Bo+B1*X

(wielozmiennowa regresja liniowa)

zależność miedzy jedną zmienną objaśnianą i wieloma zmiennymi objaśniąjacymi

Y=Bo+B1*X1+B2*X2+...Bk*Xk

-Regresja logistyczna opisuje zależność między wartościami zmiennych objaśniających (nazywanych niekiedy

czynnikami ryzyka) a prawdopodobieństwem występowania podanego zdarzenia.

P(Y=1)=1/1+exp(-(Bo+B1*X1+...Bn*Xn))

5.Omów skale pomiarowe i konsekwencje ich użycia.

-Skale pomiarowe ze względu na relacje dzielimy na:

*nominalne-relacja:równe różne; pomiar polega na zastosowaniu liczby jako nazwy, czyli grupowaniu jednostek

w klasy (kategorie), którym przypisuje się nazwy czy liczby, np. studenciwg rodzaju studiów, szczególny

przypadek-skala dychotomiczna (dwupunktowa).

*porządkowe-relacja:większe lub mniejsze; pomiar polega na grupowaniu jednostek w klasy (kategorie), którym

przypisuje się nazwy lub liczby i porządkuje się te klasy ze względu na stopień natężenia, w jakim posiadają

one badaną cechę.

*przedziałowe-relacja:większe o tyle; pomiar występuje wtedy, gdy uporządkowany zbiór wartości cechy składa się

z liczb rzeczywistych,zero w tej skali ustalone jest dowolnie, np. skala Celsjusza i Fahrenheita, skala pozwala stwierdzić

tylko o ile jest coś wyższe.

*stosunkowe(ilorazowe)-relacja:tyle razy większe;spełnia wszystkie aksjomaty liczb, pomiary w tej skali charakteryzują się

stałymi ilorazami i zerem bezwzględnym, tylko w tej skali możliwe jest porównywanie jednostek za pomocą względnych

charakterystyk np. jeden obiekt jest dwa razy cięższy od drugiego.

6.Omów testy wykorzystywane przy porównywaniu dwóch średnich?

Porównujemy średnie dwoch różnych grup osób

-Test T-studenta dla prób niezależnych (parametryczny)

*rozkład musi być normalny

*grupa liczna >30

*założenie o jednorodności wariancji

Test Manna-Withneya, nieparametryczny odpowienik testu T-studenta dla prób niezależnych

Używamy go gdy nie zostaną spełnione założenia o jednorodności wariancji lub normalności rozkładu.

-Test T-studenta dla prób zaleznych (parametryczny)

*oceniamy skutek pewnych działań przeprowadzonych na tej samej grupie osób

*grupa liczna-ponad 30 osób lub dowiadujemy się że rozkład próby jest normalny

*założenie o jednorodności wariancji

Test Wilcoxona dla par, nieparametryczny odpowiednik testu T-studenta dla prób zależnych.

Wykorzystuje rangi różnic oraz znaki różnic dla poszczególnych par obserwacji (podobnie jak test Manna-Whitneya dla

prób niezaleznych).

Wykorzystujemy go gdy nie zostaną spełnione zalożenia o jedorodności wariancji lub normalności rozkładu.

7.Co to jest poziom ufności przedziału ufności?

-Np.przedział ufności dla średniej wieku wszystkich strażaków wynosi : P<35,18<m<38y=0,95

Przedział w garnicach (35,18; 38) lat pokrywa z wiarygodnością 95% szacowany średni wiek wszystkich strażaków.

8.Zinterpretuj iloraz szans w zależności od typu zmiennej objaśniającej (czynnika ryzyka).

-Iloraz szans dla zmiennej ciągłej(objaśniającej)-pozwala ocenić krotność zmian ryzyka przy wzroście o jednostkę

zmiennej traktowanej jako czynnik ryzyka. Natomiast dla zmiennej dyskretnej poddawane są ilorazy szans dla

poszczególnych kategorii tej zmiennej w odniesieniu do kategorii zdeklarowanej jako kategoria odniesienia.

9.Scharakteryzuj mierniki jakości dopasowania modeli regresyjnych do danych empirycznych.

-Wpółczynnik determinacji:

*jest to kwadrat współczynnika korelacji wielorakiej

*jesli R kwadrat jest równy "0" niekoniecznie oznacza to, iz model liniowy jest nieodpowiedni do opisu zależności

między zmiennymi. Oznacza, że model liniowy jest nieodpowiedni do opisu zależności między zmienną

objaśnianą i objaśniającą , gdyż zależność ta może być nieliniowa i wówczas model liniowy nie pasuje do danych

empirycznych.

*chi-kwadrat

*wykorzystywana jest do oceny dopasowania modelu

im wyższy R kwadrat tym dopasowanie lepsze, istotność współczynnika determinacji oceniamy analizą

wariancji: Ho:R kwadrat=0

H1:R kwadrat#0 (Rkwadrat>0)

-Test Hosmera-Lemenshowa- regresja logistyczna, stwierdzamy, że dopasowanie jest satysfakcjonujące

jeśli p<L zaś w teście H&L gdy p>L, gdyż Ho:model jest dopasowany.

10.Jaka jest różnica między ilorazem szans i ryzykiem względnym?

?????

1.Co to jest test statystyczny?

-Test statystyczny to reguła postępowania, która na podstawie wyników próby ma doprowadzić do podjęcia przez nas decyzji przyjęcia

lub odrzucenia postawionej hipotezy statystycznej.

2.Co to jest poziom istotności testu?

-Prawdopodobieństwo, że podjęta przez nas decyzja odnośnie odrzucenia hipotezy zerowej była błędna.

3.Czy mediana i wartość oczekiwana zmiennej losowej to te same parametry? Uzasadnij odpowiedź

-Mediana i wartość oczekiwana to nie są te same parametry. Przy wyliczaniu wartości oczekiwanej uwzględniane są wszystkie

obserwacje, natomiast przy medianie istotna jest tylko wartość obserwacji, która dzieli badaną grupę ze względu na wartość

analizowanej zmiennej na dwie części.

4. W jakich zagadnieniach statystycznych występuje pojęcie interakcji?

-Interakcja może wystąpić kiedy badamy związek więcej niż jednej zmiennej niezależnej ze zmienną zależną. Gdy istnieje

mozliwość, że jedna ze zmiennych niezależnych modyfikuje wpływ innej zmiennej niezależnej na zmienną zależną.

5.Omów relację między skalą pomiarową a typem zmiennej losowej?

-Skala pomiarowa służy operacjonalizacji analizowanej zmiennej. Zmienne dyskretne mogą być wyrażone na skali nominalej

i porządkowej. Zmienne ciągłe na skali interwałowej lub ilorazowej.[ Zmienna dyskretna (skokowa) to zmienna losowa, która

może przyjmować jedynie wartości należące do pewnego, co najwyżej przeliczalnego zbioru S, przy czym każda wartość

ze zbioru S ma prawdopodobieństwo dodatnie, natomiast zmienna ciągła to zmienna losowa, która może przyjmować wartości

należące do pewnego nieprzeliczalnego zbioru S i nie mającą punktów skokowych.] Natomiast skala pomiarowa służy

do operacjonalizacji danej zmiennej. W zależności od celu badania można zmienną losową ciągłą wyrazić na skali niższego

rzędu np.na skali porządkowej wówczas traktowana będzie jako quazi dyskretna.

6.Określ problemy (zagadnienia) testowania pojawiające się w modelowaniu regresji logistycznej?

-Regresja logistyczna jest to metoda pozwalająca ocenić związek zmiennej lub zmiennych objaśniających ilościowych ze zmienną

objaśnianą, która jest zmienną dychotomiczną. Regresja logistyczna opiera się na wyrażaniu prawdopodobieństwa za pomocą

wyliczenia stosunku liczby sukcesów do liczny porażek. W metodzie tej zmienne objaśniające niosą pewną inf. na temat

prawdopodobieństwa sukcesu.

7.Na czym polega analiza kowariancji?

-Analiza kowariancji oprócz czynników i mierzonych cech do modelu wprowadzone są dodatkowe zmienne tzw.

czynniki zakłócające.

*jest to tzw. metoda kontrolowania zmienności spowodowanej błędem eksperymentalnym.

*modele analziy kowariancji mogą przyczynić się do wzrostu precyzji eksperymentu i usuwać potencjalne

źródła obciążeń.

*bada obok podstawowych zmiennych również jedną albo kilka zmiennych towarzyszących (zakłócających).

8.Czym rózni się test porównań wielokrotnych od testu t-studenta?

-Test t-studenta służy ocenie związku między zmienną objaśnijącą wyrażoną na skali nominalnej a zmienną objaśnianą o charakterze

ilościowym za pomocą oceny zróżnicowania międzygrupowego i wewnątrzgrupowego.

Testy porównań wielokrotnych są wykorzystywane w metodzie analizy wariancji do oceny statystycznej istotności różnic wartości

zmiennej objaśnianej dla różnych poziomów zmiennej objaśniającej.

W testach porównań wielokrotnych założony poziom istotności dzielimy przez liczbę dokonywanych porównań aby poziom istotności

całego modelu nie przekraczał dopuszczalnej wartości 0,05. Natomiast w teście t-studenta poziom istotności ze względu na jedno

porównanie nie podlega żadnym manipulacjom.

9.Jakie hipotezy testujemy w dwuczynnikowej analizie wariancji?

-Testujemy następujące hipotezy:

* o interakcyjnym związku zmiennych objaśniajacych ze zmienną objaśnianą (efekt interakcyjny)

*o różnicach wartości zmiennej objaśnianej w zależności od poziomu zmiennych objaśniających dla każdej ze zmiennych

objaśniających z osobna (efekty główne)

*o róznicach wartości zmiennej objasnianej w zależności od poziomu każdej ze zmiennych objaśniających przy stałym poziomie

drugiej zmiennej objaśniającej (efekty proste)

10.Podaj podstawowe założenia testu t-studenta i oceń ich niezbedność.

-Założenia:

*rozkład normalny zmiennej objaśnianej w wyróżnionych populacjach.

*równa liczebność porównywanych grup

*jednorodność wariancji zmiennej objaśnianej w porównywanych grupach.

-Niezbędność:

*jeżeli spełnione są dwa z powyższych warunków nie trzeba przejmować się nie spełnieniem założenia w trzecim warunku.

*w przypadku niejednorodności wariancji, nalezy odczytywać wynik testu na podstawie wartości skorygowanej

*w przypadku dużych liczebności grup istnieje możliwość zignorowania niespełnienia warunku o normalności rozkładu

przy założeniu, że rozkład w populacji generalnej jest asyptotycznie-normalny (dążący do normalnego).

1.Scharakteryzuj parametry rozproszenia:

Rozkład prawdopodobieństwa każdej zmiennej losowej jest charakteryzowany przez zespół pewnych wielkości zwanych paramentrami rozkładu.

parametry rozproszenia: wariancja, odchylenie standardowe, odchylenie ćwiartkowe.
wariancja(odchylenie standardowe)- zmiennej losowej jest to moment centralny rzędu drugiego, czyli średnie odchylenie kwadratowe zmiennej losowej X od wartości przeciętnej E(X).Pierwiastek kwadratowy z wariancji nazywamy odchyleniem standardowym.

Właściwości wariancji:odchylenie standardowe to miernik rozrzutu wartości zmiennej losowej wokół wartości oczekiwanej. Im odchylenie standardowe jest większe tym wartości zmiennej losowej będą bardziej rozproszone a im odchylenie stand., mniejsze tym wartości zmiennej losowej będą bardziej skupione wokół wartości oczekiwanej.

Wariancja i odchylenie zmiennej losowej w praktyce mają to samo znaczenie(oba parametry są miarami rozrzutu(rozproszenia)) zmiennej losowej wokół wartości oczekiwanej(wartości przeciętnej), jednakże odchylenie standardowe jest wygodniejsze gdyż mierzone jest w takich samych jednostkach jak sama zmienna oraz wartość oczekiwana.

odchylenie ćwiartkowe-jest miarą rozrzutu; odpowiednik odchylenia standardowego wyznaczony dla połowy najbardziej typowych jednostek zbiorowości.Wyrażany w jednostkach badanej zmiennej.

2.Co to jest hipoteza statystyczna?:

Hipoteza statystyczna to każde przypuszczenie dotyczące rozkładu(rozkładów) prawdopodobieństwa badanej zmiennej losowej(zmiennych losowych). Przypuszczenie to może dotyczyć parametru(parametrów) rozkłądu prawdopodobieństwa albo postaci tegoż rozkładu. Hipoteza statystyczna dotyczy teoretycznej kategorii badania a nie wyników uzyskanych z próby. Hipoteza statystyczna formułowana jest w terminach prawdziwych( choć nam nieznanych) wartości parametrów czy postaci rozkładu a nie wyników uzyskiwanych z próby. Wyniki liczbowe uzyskane z próby są podstawą do weryfikacji hipotezy statystycznej. Zatem na podstawie próby, uogólniając jej wynik formułujemy pewne sądy dotyczące ogólniejszej rzeczywistości- jest to istota metod indukcyjnych( rozumienia indukcyjnego).

3.Czy przyjecie hipotezy alternatywnej oznacza jej prawdziwość? rozwiń uzasadnienie:

Odrzucenie hipotezy zerowej i przyjęcie hipotezy alternatywnej oznacza, iż badacz przyjmuje hipotezę alternatywą za prawdziwą. Jednak na podstawie przeprowadzonego testu statystycznego nie jesteśmy w stanie kategorycznie stwierdzić czy nasza hipoteza statystyczna jest na pewno prawdziwa. Badacz podejmuje decyzję o prawdziwości lub fałszywości badanej hipotezy, ale jest to jego subiektywna decyzja, która nie musi być poprawna. Przyjmując hipotezę alternatywną jesteśmy narażeni na błąd pierwszego rodzaju oznaczany przez alfa(dopuszczalny błąd przyjęcia hipotezy alternatywnej w przypadku kiedy prawdziwa jest hipoteza zerowa).Natomiast przyjmując hipotezę zerową jesteśmy narażeni na błąd drugiego rodzaju- Beta.

4 Jakich zależności poszukujemy stosując regresję liniową a jakich stosując regresję logistyczną?:

W modelu regresji liniowej przyjmowaliśmy, iz zmienna objaśniana-Y będąca jednoczesnie wynikową zmienną badania, jest zmienną CIĄGŁĄ, natomiast w modelach regresji logistycznej zmienna wynikowa jest zmienną DWUSTANOWĄ (czyli dychotoniczną, ale na egzm.lepiej nie używać tego zwrotu:P)

Y= 0 (badane zdarzenie nie występuje)

1 (badane zdarzenie występuje)

Stosując model regresji liniowej poszukujemy zależności między wartościami zmiennej objaśnianej(Y) i wartościami zmiennych objaśniających(X), zaś model regresji logistycznej opisuje zależność między wartościami zmiennych objaśniających(X, - nazywanych tutaj niekiedy czynnikami ryzyka) a PRAWDOPODOBIEŃSTWEM wystąpienia badanego zdarzenia(prawdopodobieństwem wystapienia określeonego, ustalonego przez badacza stanu zmiennej wynikowej- Y).

5. Do czego służą metody krokowe w regresji?:

Metody krokowe w regresji służą do wyeliminowania zmiennych, które nie są istotnie związane ze zmienną objaśnianą(Y). Metody krokowe eliminuja z większego zbioru zmiennych te nieistotne, inne wprowadzają do modelu tylko zmienne istotne oraz najefektywniejsze metody, w której na każdym etapie po wprowadzeniu kolejnej zmiennej analizowany jest cały uzyskany do tego momentu model i usuwane są zmienne, które ewentualnie "utraciły istotność"

6.Czy do porównania dwóch średnich można używać analizy wariancji? dlaczego?:

Tak. Metody analizy wariancji służą do porównywania średnich kilku grup(dwóch lub więcej). Podstawą metod analizy wariancji jest podział całkowitej wariancji zmiennej mierzonej w eksperymencie na pewne składowe wykorzystywane w obliczeniach. Przeprowadzenie Anovy dostarcza jedynie informacji o tym czy grupy różnią sie istotnie. Aby wskazać jaki jest kierunek tych różnic należy dodatkowo przeprowadzić testy post hoc. Natomiast stosując test t , już na podstawie znaku statystyki testowej można te różnice dokładnej określić.

7.Współczynnik korelacji Pearsona dla dwóch zmiennych losowych jest równy 0,13 , współczynnik korelacji Spearmana jest równy 0,83. Co można powiedzieć o rodzaju zależności między tymi zmiennymi?:

Współczynnik korelacji rang Spearmana można traktowac podobnie jak współczynnik korelacji liniowej Pearsona, jednakże analiza (szacowanie i testowanie) współczynnika korelacji rang należy do metod nieparametrycznych a współczynnik korelacji liniowej Pearsona bazuje na średnich i jest zaliczany do metod parametrycznych. Wynik współczynnika korelacji Pearsona jest niski a współczynnika korelacji Spearmana wysoki co może wnioskować o zależności krzywoliniowej miedzy zmiennymi.

8.Interpretacja interakcji czynników:

Interakcję miedzy czynnikami alfa i beta możemy rozumieć jako łączny, nierozkładalny na sumę efektów czynnika alfa o beta wpływ obu czynników na badaną zmienną ciągłą. Hipoteza zerowa: Ho: łączne efekty poziomów czynnika α i poziomów czynnika β, dla każdej pary (i, j) i = 1, ..., K; j = 1, ..., J, w jednakowy sposób wpływają na mierzoną cechę (zmienną Y). Hipoteza alternatywna: istnieje przynajmniej jeden poziom pierwszego czynnika i jeden poziom drugiego czynnika, których łączny wpływ na zmienną Y jest inny niż pozostałych kombinacji poziomów tych czynników.

Efekty czynników α i β nazywane są efektami głównymi w dwuczynnikowym modelu analizy wariancji, zaś ich interakcja nazywana bywa efektem interakcyjnym. W przypadku dwuczynnikowej analizy kowariancji będziemy mieli do czynienia zarówno z efektami głównymi, efektami kowariancyjnymi jak i efektami interakcyjnymi.

Wyszukiwarka