Stat FiR TEORIA III (estymacja, hipotezy, korelacja i regresja)(2)


Pytania z teorii

Statystyka

Podstawy wnioskowania, dobór próby, rozkłady statystyk z próby

  1. Co rozumiemy pod pojęciem wnioskowania statystycznego?

Wnioskowanie statystyczne - polega na uogólnianiu wyników otrzymanych na podstawie próby losowej na całą populację generalną, z której próba została pobrana

Wnioskowanie statystyczne dzieli się na:

1.   Estymację - szacowanie wartości parametrów lub postaci rozkładu zmiennej na podstawie próby - na podstawie wyników próby formułujemy wnioski dla całej populacji

2. Weryfikację hipotez statystycznych - sprawdzanie określonych założeń sformułowanych dla parametrów populacji generalnej na podstawie wyników z próby - najpierw wysuwamy założenie, które weryfikujemy na podstawie wyników próby

  1. Wyjaśnij pojęcie populacji generalnej i populacji próbnej. Podaj przykłady.

populacja generalna - stanowią ją wszystkie elementy będące przedmiotem badania, co do których chcemy formułować wnioski ogólne Np. Ogólna ilośc studentów SGGW w 2009r.

Populacja próbna - stanowi ją część elementów wchodzących w skład populacji generalnej.

Np. Studenci zaoczni SGGW w 2009r w ogólnej liczbie studiujących .

  1. Wyjaśnij pojęcie próby prostej.

Próba prosta - Każda jednostka populacja ma takie samo prawdopodobieństwo znalezienie się w próbie.

  1. Wyjaśnij pojęcie losowania indywidualnego, nieograniczonego i niezależnego.

Losowanie indywidualne ma miejsce wówczas, gdy losuje się

pojedyncze elementy (jednostki badania) z populacji generalnej.

Losowanie zespołowe polega na tworzeniu zespołów

(grup), składających się z pewnej liczby jednostek badania i

wylosowaniu pewnej liczby tychże zespołów według określonej

zasady. Próbę stanowią wówczas wszystkie jednostki badania

z wylosowanych zespołów (grup). W tym schemacie losowania w

przeciwieństwie do losowania indywidualnego jednostka

losowania  jednostka badania.

Losowanie niezależne zwane też losowaniem ze zwracaniem, to

takie, w którym losujemy jednostkę po jednostce z populacji

generalnej z tym samym prawdopodobieństwem wyboru. A zatem,

żeby zachować takie samo prawdopodobieństwo wyboru

jednostka raz wylosowana ponownie zostaje włączona w skład

populacji.

  1. Wyjaśnij pojęcie próby reprezentatywnej.

Próba reprezentatywna - oznacza, że struktura próby ze względu na interesujące nas cechy musi być zbliżona do struktury populacji generalnej.( tzn. powinna w jak najlepszy sposób oddawać strukturę populacji.)

  1. Wymień etapy badania statystycznego.

  1. Projektowanie i organizacja badania

  2. Obserwacja statystyczna

  3. Opracowanie materiału statystycznego

  4. Analiza statystyczna

  1. Wyjaśnij pojęcia losowania niezależnego i losowania zależnego. Podaj przykłady takich losowań.

Losowanie niezależne zwane też losowaniem ze zwracaniem, to

takie, w którym losujemy jednostkę po jednostce z populacji

generalnej z tym samym prawdopodobieństwem wyboru. A zatem,

żeby zachować takie samo prawdopodobieństwo wyboru

jednostka raz wylosowana ponownie zostaje włączona w skład

populacji. Np. W urnie jest 15 kul (10 czarnych i 5 białych). Musimy wylosować 3 kule białe. Jeśli wylosujemy jedną, to ją odkładamy do urny i losujemy dalej.

W losowaniu zależnym (losowaniu bez zwracania) jednostka

raz wylosowana do próby nie bierze udziału w dalszym

losowaniu. Prawdopodobieństwo wyboru kolejnej jednostki

zmienia się w miarę losowania kolejnych jednostek do próby.

Np. W urnie jest 15 kul (10 czarnych i 5 białych). Musimy wylosować 3 kule białe. Jeśli wylosujemy jedną, to ją odkładamy na bok i losujemy dalej.

  1. Na czym polega losowanie warstwowe? Podaj przykład takiego losowania.

Losowanie warstwowe polega na tym, że najpierw dzielimy zbiorowość statystyczną na jakościowo różniące się części, a następnie losujemy z każdej warstwy jednostki zbiorowości do próby. np. spis bloków na osiedlu według stanu technicznego.

  1. Na czym polega losowanie zespołowe? Podaj przykład takiego losowania.

Cechą charakterystyczną tego schematu jest to, że elementami losowania nie są poszczególne jednostki populacji, ale grupy. Podział danej zbiorowości na szereg grup i następnie wylosowanie pewnej ich liczby do badania, obejmuje na ogół wszystkie elementy danej grupy. Średnia uczniów z w szkole, z podziałem na klasy.

  1. Na czym polega losowanie systematyczne? Podaj przykład takiego losowania.

Dobór z listy obejmującej wszystkie elementy danej zbiorowości co n-tej (np. co pięćdziesiątej) jednostki losowania. Przykład: Testujemy używanie proszku. Dzwonimy do co 10 osoby z ksiązki telefonicznej..

  1. Wyjaśnij pojęcie operatu losowania i podaj dwa przykłady takich operatów.

ograniczamy wstępnie populację do obiektów które jesteśmy w stanie zidentyfikować i włączyć dowolny z nich do próby. Zbiór ten zwany jest operatem losowania. W przedwyborczym sondażu opinii możliwe zawężenia populacji obejmują np.:

rejestr wyborców

książkę telefoniczną

odwiedzających centra handlowe wieczorem w ostatni poniedziałek przed wyborami.

Aby wyłoniona próba była reprezentatywna, operat musi być aktualny i kompletny.

  1. Wymień trzy metody nielosowego doboru próby i wyjaśnij jedną z nich.

Celowe (przykład: 100 osób kupujących w supermarkecie w godz. 8-15)

Ilościowe (wg określonych ilości, np. 10 mężczyzn i 20 kobiet)

Proporcjonalne (50 proc. palących, 50 proc. niepalących)

  1. Co rozumiemy pod pojęciem statystyki próby? Podaj dowolny przykład takiej statystyki wraz z interpretacją.

  1. Przedstaw i scharakteryzuj dowolny przykład rozkładu statystyki z próby.

  1. Naszkicuj funkcję gęstości rozkładu t-Studenta i podaj, ile wynoszą parametry w tym rozkładzie.

0x01 graphic

Mediana = 0

Moda = 0

Wartość oczekiwana (średnia) = 0 dla dla ν > 1, w przeciwnym wypadku nieokreślona

  1. Naszkicuj funkcję gęstości rozkładu chi-kwadrat i podaj, ile wynoszą parametry w tym rozkładzie.

0x01 graphic

Mediana = ok. k-2/3

Moda= k-2 dla k(>-)2

Wartość oczekiwana (średnia) = k

  1. Naszkicuj funkcję gęstości rozkładu F-Fischera-Snedecora i podaj, ile wynoszą parametry w tym rozkładzie.

0x01 graphic

Parametry: jak dla rozkładu normalnego

Metody estymacji

  1. Wyjaśnij pojęcia estymacji i weryfikacji.

Estymacja to szacowanie wartości parametrów lub postaci funkcji rozkładu prawdopodobieństwa w populacji generalnej na podstawie wyników próby.

Weryfikacja hipotez statystycznych czyli sprawdzenie określonych przypuszczeń (założeń) wysuniętych w stosunku do parametrów (lub rozkładów) populacji generalnej na podstawie wyników z próby.

  1. Co rozumiemy pod pojęciem estymatora? Podaj przykład.

Estymator to wielkość wyznaczona na podstawie próby losowej, służąca do oceny wartości nieznanych parametrów populacji generalnej.

Nie wiem jaki podać przykład.

  1. Co rozumiemy pod pojęciem oceny parametru? Wyjaśnij na przykładzie.

Obliczoną przez nas na podstawie konkretnej próby wartość średnią nazywamy oceną parametru. Inaczej: Otrzymana na podstawie realizacji konkretnej próby wartość estymatora nazywamy ocena (przybliżeniem, oszacowaniem) tego parametru.

T - ocena parametru 0x01 graphic
, jest to konkretna wartość liczbowa, którą przyjmuje estymator.

Przykład 1W losowo wybranej próbie 25 samochodów osobowych marki Toyota przeprowadzono badanie zużycia benzyny. Średnie zużycie w badanej próbie wynosiło 7,4 l/100 km, natomiast odchylenie standardowe 1,5 l/100 km. Zakładając, że zużycie paliwa ma rozkład normalny, oszacować średnie zużycie benzyny samochodów osobowych tej marki. Przyjąć współczynnik ufności 0,95.

Rozwiązanie:

Stosujemy model A:

0x01 graphic

0x01 graphic

0x01 graphic

0x08 graphic
0x01 graphic
0x01 graphic
0x01 graphic

0x01 graphic
0x01 graphic
0x01 graphic

0x08 graphic
0x08 graphic
0x01 graphic

0x01 graphic

0x08 graphic
0x08 graphic
więc:

0x01 graphic

Z prawdopodobieństwem 0,95 możemy twierdzić, że średnie zużycie benzyny samochodów osobowych tej marki jest większe niż 6,8 l/100 km ale mniejsze niż 8 l/100 km.

  1. Co rozumiemy pod pojęciem estymatora punktowego, a co pod pojęciem estymatora przedziałowego? Wyjaśnienie poprzyj przykładem.

  1. Wyjaśnij pojęcie estymacji punktowej. Podaj stosowny przykład.

Estymacja punktowa polega na tym, że za ocenę parametru przyjmuje się konkretną liczbę otrzymaną na podstawie próby losowej:

0x01 graphic
= T

zwykle dodajemy

0x01 graphic
= T 0x01 graphic
D(Tn)

  1. Wyjaśnij pojęcie estymacji przedziałowej. Podaj stosowny przykład.

Estymacja przedziałowa polega na podaniu tzw. przedziałów ufności dla nieznanych parametrów danego rozkładu (bądź funkcji tych parametrów).

Estymacja przedziałowa polega na tym, że konstruuje się pewien przedział (zwany przedziałem ufności), o którym możemy powiedzieć, iż z określonym prawdopodobieństwem 1-0x01 graphic
pokryje wartość szacowanego parametru. Prawdopodobieństwo 1-0x01 graphic
jest nazywane współczynnikiem ufności.

0x01 graphic

gdzie: kd -jest to dolna granica przedziału, kg - górna granica przedziału ufności.

Jeżeli estymator ma rozkład normalny to przedział ufności można zapisać w następujący sposób: 0x01 graphic

  1. Omów i wyjaśnij własność nieobciążoności estymatora.

1. Nieobciążony

0x01 graphic

Np.: 0x01 graphic
- bo średnia arytmetyczna próby jest nieobciążonym estymatorem średniej populacji m

  1. Omów i wyjaśnij własność zgodności estymatora.

0x01 graphic
dla dowolnego 0x01 graphic

0x01 graphic

  1. Omów i wyjaśnij własność efektywności estymatora.

Spośród zbioru wszystkich nieobciążonych estymatorów Q1,Q2…Qr najefektywniejszym nazywamy estymator o najmniejszej wariancji.

  1. Podaj estymator punktowy średniej populacji. Wyjaśnij zastosowane oznaczenia.

0x01 graphic

0x01 graphic

x - średnia z próby (czyli estymator punktowy średniej z populacji); wyznaczamy

funkcja o nazwie SREDNIA(od komórki:do komórki)

  1. Podaj estymator punktowy wariancji populacji. Wyjaśnij zastosowane oznaczenia.

  1. Podaj estymator punktowy wskaźnika struktury populacji. Wyjaśnij zastosowane oznaczenia.

  1. Co to jest błąd standardowy średniej? Podaj wzór i wyjaśnij zastosowane oznaczenia.

Błąd standardowy, błąd średni, odchylenie średnie wyników pomiarów tej samej wielkości otrzymanych przy użyciu tego samego narzędzia pomiarowego. Oznacza się go zwykle symbolem s i wyraża wzorem:

0x01 graphic

gdzie xi - i-ty wynik pomiaru, 0x01 graphic
- wartość średnia wyników pomiarów, n - liczba pomiarów.

  1. Co to jest błąd standardowy wskaźnika struktury? Podaj wzór i wyjaśnij zastosowane oznaczenia.

  1. Wyjaśnij pojęcie przedziału ufności. Wyjaśnienie poprzyj przykładem.

Przedział ufności to przedział, który z zadanym z góry prawdopodobieństwem 0x01 graphic
, zwanym współczynnikiem ufności, pokrywa nieznaną wartość szacowanego parametru. Przedział ten jest podstawowym narzędziem estymacji przedziałowej. Pojęcie to zostało wprowadzone do statystyki przez polskiego matematyka Jerzego Spławę-Neymana.

Niech cecha X ma rozkład w populacji z nieznanym parametrem 0x01 graphic
. Z populacji wybieramy próbę losową 0x01 graphic
. Przedziałem ufności0x01 graphic
o współczynniku ufności 0x01 graphic
nazywamy taki przedział, który spełnia warunek:

0x01 graphic

gdzie 0x01 graphic
są funkcjami wyznaczonymi na podstawie próby losowej.

  1. Co rozumiemy pod pojęciem poziomu ufności. Wyjaśnienie poprzyj przykładem.

Poziom ufności - stopień prawdopodobieństwa, iż wynik badania zarejestrowany w próbie, jest zgodny ze stanem faktycznym w całej badanej zbiorowości (populacji).
Pojęcie poziomu ufności związane jest ze statystyczną teorią analizy danych reprezentatywnych i łączy się ściśle z terminem przedział ufności.
Przykład: Na podstawie badania próby reprezentatywnej posiadaczy samochodów w Polsce, przy 95% poziomie ufności oszacowano, że 10% (+/-2%) posiadaczy jeździ autami marki A. Oznacza to, iż jesteśmy pewni na 95% (poziom ufności), że w istocie od 8 do 12% ogółu użytkowników (przedział ufności) posiada samochody marki A.
I jednocześnie, z 5% ryzykiem (100 95), musimy zakładać, że mylimy się w naszych szacunkach w niewiadomym stopniu.

  1. Podaj wzór pozwalający oszacować przedziałowo średnią populacji w przypadku, gdy rozkład badanej zmiennej jest normalny. Wyjaśnij zastosowane oznaczenia. Przy jakich założeniach można stosować ten wzór?

  2. Podaj wzór pozwalający oszacować przedziałowo średnią populacji w przypadku, gdy nie jest znany rozkład badanej zmiennej. Wyjaśnij zastosowane oznaczenia. Przy jakich założeniach można stosować ten wzór?

  3. Podaj wzór pozwalający oszacować przedziałowo wariancję populacji. Wyjaśnij zastosowane oznaczenia. Przy jakich założeniach można stosować ten wzór?

  4. Podaj wzór pozwalający oszacować przedziałowo odchylenie standardowe populacji. Wyjaśnij zastosowane oznaczenia. Przy jakich założeniach można stosować ten wzór?

  5. Podaj wzór pozwalający oszacować przedziałowo wskaźnik struktury populacji. Wyjaśnij zastosowane oznaczenia. Przy jakich założeniach można stosować ten wzór?

  6. Co oznacza 0x01 graphic
    ? Wyjaśnienie zobrazuj rysunkiem.

  7. Co oznacza 0x01 graphic
    ? Wyjaśnienie zobrazuj rysunkiem.

  8. Co oznacza 0x01 graphic
    ? Wyjaśnienie zobrazuj rysunkiem.

  9. Wyjaśnij pojęcia wiarygodności oraz dokładności estymacji przedziałowej. Jaki jest między nimi związek?

Im większa wartość współczynnika ufności, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość 1 - α, tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu.

  1. W jaki sposób liczebność próby wpływa na dokładność estymacji przedziałowej? Wyjaśnienie zobrazuj przykładem.

Wyraźnie widać tutaj, że na szerokość przedziału ufności wpływa nie tylko poziom ufności, ale również liczebność próby: im większa jest liczebność próby, tym precyzyjniejszy szacunek (węższy przedział ufności dla danego poziomu ufności).

  1. W jaki sposób zróżnicowanie próby wpływa na dokładność estymacji przedziałowej? Wyjaśnienie zobrazuj przykładem.

  2. W jaki sposób poziom ufności wpływa na dokładność estymacji przedziałowej? Wyjaśnienie zobrazuj przykładem.

Od wartości poziomu ufności zależy szerokość przedziału ufności. Im większa jest wartość β, tym przedział ufności jest szerszy, czyli mniejsza jest dokładność estymacji parametru. Im mniejsza jest wartość β, tym węższy jest przedział ufności, czyli większa jest dokładność estymacji, ale jednocześnie pewność uzyskanego wyniku jest mniejsza.

  1. Wymień trzy czynniki wpływające na długość przedziału ufności.

  2. Co rozumiesz pod pojęciem minimalnej liczebności próby?

Minimalna liczebność próby - taka liczebność próby, która zapewni wymaganą dokładność (precyzję oszacowania) przy danym poziomie wiarygodności (prawdopodobieństwa).

  1. Podaj wzory (i wyjaśnij, kiedy każdy z nich jest stosowany) na minimalną liczebność próby przy szacowaniu średniej populacji. Wyjaśnij zastosowane oznaczenia.

Niezbędna liczebność próby to taka, która zapewnia, że budowany przedział ufności, przy współczynniku ufności 1-α, ma taką długość, że jego połowa - zwana maksymalnym lub dopuszczalnym błędem szacunku - nie przekracza ustalonej wcześniej liczby d:

0x01 graphic

Czyli, minimalna liczebność próby zapewniającej uzyskanie założonej z góry dokładności estymacji d, wynosi:

0x01 graphic

Jeżeli zbiorowość generalna ma rozkład normalny z nieznaną wariancją 0x01 graphic
, to minimalną liczebność próby potrzebną do uzyskania założonej dokładności estymacji przedziałowej można określić za pomocą tzw. dwustopniowej metody Steina. W tym celu losujemy najpierw niewielką (rzędu kilku jednostek) próbę wstępną n0 i wyznaczamy z niej statystykę 0x01 graphic
. Następnie określamy liczebność właściwej próby, korzystając ze wzoru:

0x01 graphic

gdzie 0x01 graphic
jest wartością odczytaną z tablic rozkładu Studenta dla n0-1 stopni swobody, a d jest dopuszczalnym błędem szacunku.

  1. Podaj wzory (i wyjaśnij, kiedy każdy z nich jest stosowany) na minimalną liczebność próby przy szacowaniu wskaźnika struktury populacji. Wyjaśnij zastosowane oznaczenia.

Wzór na minimalną liczebność próby przy szacowaniu frakcji (wskaźnika struktury) otrzymujemy w drodze przekształcenia przedziału ufności dla frakcji, zakładając, że połowa długości przedziału ufności nie może być większa od ustalonej z góry liczby d będącej maksymalnym (dopuszczalnym) błędem szacunku.

0x01 graphic

Gdzie: 0x01 graphic
jest otrzymanym w badaniu wstępnym wskaźnikiem struktury

d jest maksymalnym (dopuszczalnym) błędem szacunku.

Jeżeli nie ma żadnych informacji o wielkości parametru p w populacji ani o wielkości wskaźnika struktury 0x01 graphic
z badania pilotażowego, to we wzorze na liczebność próby w miejsce 0x01 graphic
należy wstawić wartość 0,5. Liczebność próby wyraża się wtedy zależnością:

0x01 graphic

Tak wyliczona liczebność próby gwarantuje żądaną precyzję estymacji przedziałowej parametru p przy założonym maksymalnym błędzie szacunku d.

Testowanie hipotez

  1. Co rozumiemy pod pojęciem hipotezy statystycznej? Podaj przykład takiej hipotezy.

Hipoteza statystyczna to dowolne przypuszczenie dotyczące rozkładu populacji - postaci funkcyjnej lub wartości parametru rozkładu. Proces sprawdzenia prawdziwości tego przypuszczenia na podstawie wyników próby losowej to weryfikacja hipotez statystycznych. np Jeżeli hipoteza dotyczy rozkładu cechy w populacji, wówczas hipotezę formułujemy jako zwykłe zdanie/stwierdzenie, np.

rozkład cechy "wytrzymałość na ściskanie wzdłuż włókien" jest zgodny z rozkładem normalnym.

  1. Co rozumiemy pod pojęciem hipotezy parametrycznej? Podaj przykład takiej hipotezy.

hipoteza parametryczna to hipoteza dotycząca parametrów rozkładu statystycznego,hipoteza dotyczy wartości parametru rozkładu,.

np.Wiemy, że wzrost człowieka jest zmienną losową ciągłą. Stwierdzenie wzrost badanej populacji jest określony rozkładem normalnym o parametrach m=1,75m i σ=0,1 jest hipotezą parametryczną, ponieważ określa wartość parametrów rozkładu oraz prostą, bo jednoznacznie definiuje rozkład.

  1. Co rozumiemy pod pojęciem hipotezy nieparametrycznej? Podaj przykład takiej hipotezy.

nieparametryczne - hipoteza dotyczy postaci funkcyjnej rozkładu

Stwierdzenie "wzrost badanej populacji jest określony rozkładem normalnym" jest hipotezą nieparametryczną - nie dotyczy wartości parametrów rozkładu i złożoną - określa więcej niż jeden możliwy rozkład.

  1. Co to jest hipoteza zerowa oraz hipoteza alternatywna? Wyjaśnienie poprzyj przykładem.

Weryfikację hipotezy rozpoczyna się zwykle od sformułowania tzw. hipotezy zerowej, oznaczanej H0.

Następnie formułuje się hipotezę konkurencyjną, którą jesteśmy skłonni przyjąć, gdy odrzucimy hipotezę zerową. Taką hipotezę nazywa się hipotezą alternatywną i oznacza H1.

Jak to wygląda w praktyce? Na przykład chcemy stwierdzić, że lek A jest skuteczniejszy od leku B. Choć wyniki z próby mogą wskazywać, że tak jest, musimy być ostrożni; różnica może być dziełem przypadku. Dlatego jako hipotezę zerową przyjmujemy zazwyczaj brak różnicy. W rzeczywistości interesuje nas hipoteza alternatywna, według której różnica istnieje (tzn. lek A jest skuteczniejszy od leku B). Odrzucając hipotezę zerową, przyjmujemy alternatywną, natomiast nieodrzucenie hipotezy zerowej stawia nas w trudnej sytuacji. Nie można oczywiście przyjąć hipotezy alternatywnej i zerowej, bo jej nieodrzucenie może wynikać np. z niewłaściwego doboru grupy próbnej lub zbyt małej jej liczebności.

  1. Wyjaśnij pojęcia hipotezy dwustronnej i jednostronnej (prawo- oraz lewostronnej).

Hipoteza typu m < m0 lub m > m0 nazywa się hipotezą jednostronną, a test związany z jej weryfikacją - testem jednostronnym. Analogicznie, testem dwustronnym nazywa się test użyty do weryfikowania hipotezy dwustronnej, tzn. hipotezy postaci: m =m0.

  1. Co to jest błąd I rodzaju? Wyjaśnienie poprzyj przykładem.

Błąd pierwszego rodzaju (błąd pierwszego typu, alfa-błąd, false positive) - w statystyce pojęcie z zakresu weryfikacji hipotez statystycznych - błąd polegający na odrzuceniu hipotezy zerowej, która w rzeczywistości jest prawdziwa. Oszacowanie prawdopodobieństwa popełnienia błędu pierwszego rodzaju oznaczamy symbolem α (mała grecka litera alfa) i nazywamy poziomem istotności testu.

Przyjmijmy, że poziom istotności a = 0,05 i wyobraźmy sobie, że z populacji pobrano bardzo dużo prób tej samej wielkości. Nawet jeżeli hipoteza H0 jest prawdziwa, w 5% wszystkich prób uzyskamy wartość statystyki z obszaru krytycznego. Wśród tych 5% prób może znaleźć się ta jedna realna próba, którą dysponujemy i gdyby na jej podstawie testować hipotezę H0, należałoby ją - mimo prawdziwości - odrzucić. Popełniony zostałby błąd pierwszego rodzaju, polegający na odrzuceniu hipotezy prawdziwej. Prawdopodobieństwo popełnienia takiego błędu wyznacza poziom istotności testu, a . Przyjmując niższe wartości a , zmniejszamy ryzyko popełnienia błędu pierwszego rodzaju.

  1. Co to jest błąd II rodzaju? Wyjaśnienie poprzyj przykładem.

Błąd drugiego rodzaju (błąd drugiego typu, błąd przyjęcia, beta-błąd, false negative) - w statystyce pojęcie z zakresu weryfikacji hipotez statystycznych - polegające na nieodrzuceniu hipotezy zerowej, która jest w rzeczywistości fałszywa.

  1. Wyjaśnij związek między prawdopodobieństwem popełnienia błędu I rodzaju a prawdopodobieństwem popełnienia błędu II rodzaju.

Błędy związane z weryfikowaniem hipotez statystycznych

Test statystyczny opiera się na założeniu, że gdy prawdziwa jest hipoteza zerowa, mało prawdopodobne jest uzyskanie w próbie wartości statystyki z obszaru krytycznego, co nie oznacza, że nie jest w ogóle niemożliwe. Przyjmijmy, że poziom istotności a = 0,05 i wyobraźmy sobie, że z populacji pobrano bardzo dużo prób tej samej wielkości. Nawet jeżeli hipoteza H0 jest prawdziwa, w 5% wszystkich prób uzyskamy wartość statystyki z obszaru krytycznego. Wśród tych 5% prób może znaleźć się ta jedna realna próba, którą dysponujemy i gdyby na jej podstawie testować hipotezę H0, należałoby ją - mimo prawdziwości - odrzucić. Popełniony zostałby błąd pierwszego rodzaju, polegający na odrzuceniu hipotezy prawdziwej. Prawdopodobieństwo popełnienia takiego błędu wyznacza poziom istotności testu, a . Przyjmując niższe wartości a , zmniejszamy ryzyko popełnienia błędu pierwszego rodzaju.

Gdybyśmy nie odrzuconą hipotezę zerową uznali za prawdziwą, moglibyśmy popełnić błąd drugiego rodzaju, polegający na przyjęciu hipotezy fałszywej. Prawdopodobieństwa popełnienia błędów pierwszego (a ) i drugiego (b ) rodzaju oraz liczebności próby (n) są wielkościami zależnymi. Jeżeli liczebność próby się nie zmienia, to zmniejszając wartość a zwiększamy prawdopodobieństwo b , chcąc natomiast przy danym poziomie istotności a zmniejszyć prawdopodobieństwo popełnienia błędu drugiego rodzaju, należałoby zwiększyć liczebność próby. Z tego powodu stwierdziliśmy wcześniej, że nieodrzucenie H0 nie może oznaczać jej automatycznego przyjęcia. Hipotezę H0 można by przyjąć tylko wtedy, gdy liczebność próby jest wystarczająco (bardzo) duża; niestety, błąd drugiego rodzaju nie może być kontrolowany tak jak błąd pierwszego rodzaju - przez wyznaczenie obszaru krytycznego. Z tego powodu w miarę możliwości należy starać się tak formułować hipotezy, aby hipoteza, którą w wyniku testowania chcielibyśmy przyjąć, była hipotezą alternatywną. Jeżeli na przykład ` x1 i `x2 są średnimi arytmetycznymi obserwacji z dwóch prób i chcemy wykazać, że próby pochodzą z populacji o różnych wartościach średnich m1 i m2, sformułujemy hipotezę H0: m1 = m 2 oraz hipotezę alternatywną HA: m1ą m2.(i użyjemy testu dwustronnego) lub gdybyśmy przypuszczali, że wartość średnia m1 jest mniejsza od m 2 - HA: m1 < m2 (teraz zastosujemy test jednostronny).

  1. Co to jest moc testu?

Moc testu (pojęcie statystyczne) to prawdopodobieństwo nie popełnienia błędu drugiego rodzaju. Im większe jest to prawdopodobieństwo, tym lepszy jest dany test jako narzędzie do różnicowania między hipotezą prawdziwą i fałszywą. Moc testu mierzy się prawdopodobieństwem odrzucenia fałszywej hipotezy zerowej, wynoszącym 1-β.

Test statystyczny może być słaby lub mocny:

test mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą hipotezę zerową

test słaby - gdy istnieje duża szansa na to, że nie odrzucimy hipotezy zerowej, pomimo jej nieprawdziwości.

Moc testu możemy określać zamiennie jako prawdopodobieństwo odrzucenia hipotezy zerowej, gdy w rzeczywistości jest ona fałszywa.

  1. Co to jest poziom istotności testu?

Poziom istotności - jest to maksymalne dopuszczalne prawdopodobieństwo popełnienia błędu I rodzaju (zazwyczaj oznaczane symbolem α). Określa tym samym maksymalne ryzyko błędu, jakie badacz jest skłonny zaakceptować. Wybór wartości α zależy od badacza, natury problemu i od tego jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się α = 0,05; rzadziej 0,1, 0,03, 0,01 lub 0,001. Wartość założonego poziomu istotności jest porównywana z wyliczoną z testu statystycznego p-wartością (czasem porównuje się od razu wartości statystyki testowej z wartością odpowiadającą danemu poziomowi istotności). Jeśli p-wartość jest większa, oznacza to, iż nie można odrzucić tzw. hipotezy zerowej H0 która zwykle stwierdza, że obserwowany efekt jest dziełem przypadku.

  1. Co to jest obszar krytyczny testu? Wyjaśnienie zobrazuj rysunkiem.

Obszar krytyczny testu - w statystyce zbiór wartości rozkładu funkcji testowej w teście statystycznym, których wystąpienie, przy założeniu prawdziwości hipotezy zerowej (H0), jest wystarczająco mało prawdopodobne, żeby (empiryczna) realizacja zmiennej losowej mieszcząca się w obszarze krytycznym pozwalała na odrzucenie tej hipotezy. W statystyce wielkość obszaru krytycznego określamy zazwyczaj parametrem α i nazywamy poziomem istotności. Oznacza on prawdopodobieństwo wylosowania zmiennej losowej z tego przedziału, pod warunkiem prawdziwości hipotezy zerowej, np. obszar krytyczny α=0,05 oznacza 5% szansy na uzyskanie statystyki z tego przedziału przy założeniu hipotezy zerowej.

  1. Co to jest dwustronny obszar krytyczny i w jakich sytuacjach jest stosowany?

Obszar krytyczny to taki obszar, że jeżeli znajdzie się w nim wartość testu, wówczas odrzucamy hipotezę zerową. Obszar ten zależy przede wszystkim od dwóch czynników: przyjętego poziomu istotności oraz sformułowania hipotezy alternatywnej.
Możliwe są trzy lokalizacje obszaru krytycznego, związane z założeniem postawionym w hipotezie alternatywnej:
- H1 : parametr nie jest równy założonej liczbie - wtedy mamy do czynienie z dwustronnym obszarem krytycznym, (poziom istotności alfa jest rozdzielony symetrycznie)
Co to jest prawostronny obszar krytyczny i w jakiej sytuacjach jest stosowany?

- H1 : parametr jest mniejszy od założonej liczby - mamy do czynienia z jednostronnym (lewostronnym) obszarem krytycznym, ( poziom istotności alfa znajduje się z lewej strony)

  1. Co to jest lewostronny obszar krytyczny i w jakiej sytuacjach jest stosowany?

-H1 : parametr jest większy od założonej liczby - jest to jednostronny (prawostronny) obszar krytyczny. (poziom istotności alfa jest usytuowany z prawej strony)

  1. Na czym polega proces weryfikacji hipotez? (krótko scharakteryzuj)

Proces weryfikacji hipotez statystycznych przebiega w 4 omówionych poniżej etapach.

1. Sformułowanie hipotezy zerowej (H0) oraz odpowiadającej jej hipotezy alternatywnej (H1) Przypuśćmy, że chcemy zadecydować o wprowadzeniu nowego leku do praktyki klinicznej. Przyjmijmy więc: H0 - lek nie jest skuteczny H1 - lek jest skuteczny

2. Dobranie odpowiedniego dla hipotezy zerowej testu i obliczenie jego wartości na podstawie danych pochodzących z próby

Jest to najważniejsza decyzja podejmowana w trakcie weryfikacji hipotez. Wybór niewłaściwego testu przekreśli wartość całego późniejszego rozumowania. Musimy wiedzieć, jakie jest odpowiednie "narzędzie" dla naszego problemu i badanych zmiennych. Musimy też zawsze sprawdzić, czy założenia o możliwości zastosowania wybranego przez nas testu są spełnione. O tym będzie mowa w następnych artykułach tego cyklu.

3. Przyjęcie odpowiedniego poziomu istotności

W naukach biologicznych jest to wartość 0,05 lub mniejsza. Jakie jest znaczenie tej liczby? Poziom istotności wskazuje, na jaki błąd alfa się zgadzamy. Pamiętajmy, że wybierając niższy poziom istotności, uzyskujemy wyższy poziom wiarygodności hipotezy alternatywnej (jej przyjęcie jest mocniej uzasadnione), ale jednocześnie będzie nam trudniej odrzucić hipotezę zerową. Często wahamy się między chęcią jak najszybszego odrzucenia hipotezy zerowej a chęcią przyjęcia hipotezy alternatywnej z dużą wiarygodnością.

Przy weryfikacji hipotezy za pomocą pakietu komputerowego ważne staje się wprowadzenie drugiego poziomu istotności (ex post), oprócz poziomu istotności alfa (ex ante). Ten drugi poziom istotności, zwany "poziomem prawdopodobieństwa", jest w pakietach komputerowych oznaczany przez p. Autorzy badań naukowych podają zwykle tę wartość p, czyli prawdopodobieństwo, że zaobserwowane różnice są dziełem przypadku.

Poziom istotności alfa powinno się ustalić przed rozpoczęciem testowania. Zależy on od tego, jak ważne jest niepopełnienie błędu w ostatecznym wnioskowaniu. Na przykład: gdy testujemy nową metodę leczenia choroby mózgu, to wartość alfa = 0,05 będzie raczej za duża - 5% nieudanych operacji mózgu może być zbyt wysoką ceną. W takim przypadku przyjmiemy np. alfa = 0,001.

Jeżeli alfa > p, to na danym poziomie istotności alfa odrzucamy hipotezę zerową, natomiast gdy alfa < p, to na danym poziomie istotności alfa nie ma podstaw do odrzucenia hipotezy zerowej.

4. Przy ustalonym poziomie istotności znajdujemy obszary krytyczne i w oparciu o nie podejmujemy decyzję o odrzuceniu lub nie hipotezy zerowej

Jaka jest idea tworzenia obszarów krytycznych? Otóż zakładając, że hipoteza H0 jest prawdziwa oraz posługując się matematyczną teorią (opisującą naszą zmienną), tworzy się pewną zmienną losową (statystykę) Z. Następnie określa się wartości, jakie musiałaby ona przyjąć, aby było to "mało prawdopodobne", tzn. aby prawdopodobieństwo zaistnienia tych wartości było równe poziomowi istotności. Te "mało prawdopodobne" wartości tworzą tzw. obszar krytyczny. Jeśli wartość testu obliczona dla grupy próbnej znalazła się w obszarze krytycznym, to wystąpiło zdarzenie bardzo mało prawdopodobne. Zdarzenie takie faktycznie nie powinno nastąpić. Skoro jednak nastąpiło (a mamy zaufanie do obliczeń w grupie próbnej), to nie jest spełnione założenie o prawdziwości hipotezy zerowej (wykorzystane do utworzenia obszaru krytycznego). Ostatecznie więc hipotezę zerową odrzucamy i przyjmujemy hipotezę alternatywną.

  1. Do czego służy test t-Studenta?

testy t-Studenta służą do porównania ze sobą DWÓCH grup. Nie więcej! Korzystamy z nich wtedy, gdy mamy wyniki dla dwóch grup i chcemy porównać je ze sobą - tzn. stwierdzić, czy wyniki w jednej grupie są większe bądź mniejsze niż w drugiej grupie.

Przykład: Chcemy sprawdzić czy uczniowie z klasy Vc mają wyższy poziom inteligencji niż uczniowie z klasy Va. W tym celu badamy jedną i drugą grupę testem na inteligencję. Aby porównać wyniki obydwu grup stosujemy test t-Studenta (jeżeli założenia tego testu zostały spełnione) dla prób niezależnych.

Rodzaje testów

Standardowo istnieją trzy rodzaje testu t-Studenta:

1. dla jednej próby

2. dla prób niezależnych

3. dla prób zależnych

  1. Do czego służy test U?

  2. Do czego służy test chi-kwadrat?

Test chi-kwadrat (χ2) - każdy test statystyczny, w którym statystyka testowa ma rozkład chi-kwadrat, jeśli teoretyczna zależność jest prawdziwa. Test chi kwadrat służy sprawdzaniu hipotez. Innymi słowy wartość testu oceniana jest przy pomocy rozkładu chi kwadrat. Test najczęściej wykorzystywany w praktyce. Możemy go wykorzystywać do badania zgodności zarówno cech mierzalnych, jak i niemierzalnych. Jest to jedyny test do badania zgodności cech niemierzalnych.

  1. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o średniej populacji (gdy rozkład populacji jest normalny). Wyjaśnij wprowadzone oznaczenia.

  2. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o średniej populacji (gdy nie jest znany rozkład populacji). Wyjaśnij wprowadzone oznaczenia.

  3. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o wariancji populacji. Wyjaśnij wprowadzone oznaczenia.

  4. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o odchyleniu standardowym populacji. Wyjaśnij wprowadzone oznaczenia.

  5. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o wskaźniku struktury populacji. Wyjaśnij wprowadzone oznaczenia.

  6. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o równości średnich dwóch populacji (gdy rozkłady obu populacji są normalne). Wyjaśnij wprowadzone oznaczenia.

  7. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o równości średnich dwóch populacji (gdy rozkłady populacji są nieznane). Wyjaśnij wprowadzone oznaczenia.

  8. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o równości wariancji dwóch populacji. Wyjaśnij wprowadzone oznaczenia.

  9. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o równości odchyleń standardowych dwóch populacji. Wyjaśnij wprowadzone oznaczenia.

  10. Podaj odpowiedni zestaw hipotez, wzór funkcji testowej i warunki stosowalności testu w przypadku testowania hipotezy o równości wskaźników struktury dwóch populacji. Wyjaśnij wprowadzone oznaczenia.

  11. Wyjaśnij pojęcie krytycznego poziomu istotności. Wyjaśnienie zobrazuj rysunkiem.

  12. Wyjaśnij związek między estymacją parametrów populacji generalnej a testowaniem hipotez dotyczących tych parametrów. Wyjaśnienie poprzyj przykładem.

Korelacja i regresja (część 1 - statystyka opisowa)

  1. Wyjaśnij pojęcia analizy korelacji i analizy regresji.

Analiza korelacji- zajmuje się badaniem zależności liniowej miedzy dwoma cechami X i Y. Celem jej jest stwierdzenie :

-czy miedzy badanymi cechami występuje zależność

-jaki jest kształt zależności

-jaka jest jej siła

-jaki jest jej kierunek

Analiza regresji- jest to ilościowy opis powiązań miedzy cechami, który sprowadza się do znalezienia analitycznej postaci związku miedzy badanymi cechami. Zajmuje się szukaniem funkcji matematycznej ,która w jak najlepszy sposób charakteryzowałaby zależność miedzy cechami zmiennymi.

  1. Wyjaśnij pojęcia siły, kierunku i kształtu zależności między dwiema cechami.

Siłę zależności- ocenimy obserwując, czy punkty na wykresie tworzą bardziej wyraźną smugę punktów, czy tez są bardziej rozrzucone. Niewielki rozrzut świadczy o dużej sile związku, natomiast im punkty są bardziej rozrzucone, tym związek słabszy.

Kierunek zależności- możemy określić tylko dla cech wyrażonych w skali co najmniej porządkowej. Chodzi tu o określenie, czy korelacja jest dodatnia czy ujemna. Jeśli punkty ułożone są wokół przekątnej od dolnego lewego `'rogu” wykresu do górnego prawego, to powiemy o korelacji dodatniej. W przeciwnym wypadku korelacja jest ujemna.

Kształt zależności- to postać funkcji matematycznej, opisującej związek miedzy badanymi cechami X i Y(związek liniowy, związek krzywoliniowy). Jeśli np. punkty na wykresie układają się wzdłuż linii prostej, to powiemy o korelacji liniowej. W przeciwnym wypadku, czyli gdy punkty ułożą się wzdłuż linii krzywej, będziemy mieli do czynienia z korelacja krzywoliniową.

  1. Wyjaśnij pojęcia korelacji dodatniej i korelacji ujemnej. Podaj przykłady obu korelacji.

Korelacja dodatnia- jest wtedy, gdy chmura punktów „wznosi się” do prawego gornego rogu np.

Korelacja ujemna- chmura punktów opada do dolnego lewego rogu np.

  1. Wyjaśnij pojęcie diagramu korelacyjnego. Podaj przykład.

Diagram korelacyjny- (rozrzut punktów lub chmura punktów)wykres w ulkadzie współrzędnych. Na osi X odkładamy wartość cechy X -przyjmujemy ją jako zmienną niezależną, na osi Y -wartość cechy Y -zmiennej zależnej. np.

  1. Wyjaśnij pojęcie tablicy korelacyjnej, rozkładów brzegowych i rozkładów warunkowych. Podaj wzory pozwalające wyznaczyć parametry obu rozkładów brzegowych (średnie arytmetyczne i odchylenia standardowe).

Tablica korelacyjna -przedstawia ona dane pogrupowane, w ktorej w boczku tablicy zapisane sa wartośći (warianty) cechy X w postaci przedziałow klasowych, konkretnych wartości luba wariantow cech a w glowce tablicy zapisane sa wartosci (warianty) cechy Y. W poszczególnych kratkach tablicy podawna jest liczba jednostek zbiorowości, u których zaobserwowano i-ty warianty cech X i j-ty wariant cechy Y

Rozklad brzegowy - to rozklad jednej cechy niezależnie od tego, jaka wartość przyjmuje druga cecha.

Rozklad warunkowy - to rozklad jenej cechy pod warunkiem, ze druga cecha przyjmuje okreslona wartość.

  1. Podaj wzór na współczynnik korelacji liniowej Pearsona. Wyjaśnij wprowadzone oznaczenia. Kiedy można stosować tę miarę korelacji? Jak interpretuje się jej wartość?

0x01 graphic

Cov(X,Y) - kowariancja cech X i Y (jest ona miarą łacznego zróżnicowania obu cech)

Sx-odchylenie standardowe cechy X

Sy-odchylenie standardowe cechy Y

Kiedy można stosowac? Miernik sluzy do pomiaru cech ilosciowych w przypadku, gdy związek badanych cech jest liniowy.

Interpretacja wspolczynika znajduje się w przedziale [-1,1],

Znak wspolczynika (plus czy minus) informuje nas o kierunku korelacji.

r>0 koleracja dodatnia (wzrost wartości jednej cechy pociaga za soba wzrost średnich wartości drugiej cechy)

r<0 koleracja ujemna (wzrost wartości jednej cechy pociaga za soba spadek średnich wartości drugiej cechy)

Wartosc bezwzgledna tego wspolczynika r oznacza sile koleracji:

- im wartość jest blizsza 1 - tym silniejsz korelacja

-im wartość jest blizsza 0 - tym koleracja jest slabsza

  1. Podaj wzór na współczynnik korelacji rang Spearman'a. Wyjaśnij wprowadzone oznaczenia. Kiedy można stosować tę miarę korelacji? Jak interpretuje się jej wartość?

Stosuje się do bada dania korelacji miedzy dwiema cechami w przypadku, gdy obie z nich wyrażone w skali co najmniej porzadkowej, zwany inaczej wspolczynikiem koleracji kolejnościowej.

0x01 graphic

n - liczba obserwacji jednej cechy

di- roznica miedzy rangami, które sa przypisane i-tej obserwacji pierwszej i drugiej cechy

Miare stosujemy do oceny kierunku i sliy korelacji w przypadku gdy:

- cechy sa niemierzalne, ale istnieje możliwość uporządkowania wariantow cech(czyli cechy te wyrazone sa w skali porzadkowej)

- cechy sa mierzalne, przy czym liczba wariantow przyjmowanych przez te cechy musi być skonczona.

Najogolniej wspolczynik stosujemy gdy możliwe jest uszeregowanie wariantow obu cech wedlug jakiegos kryterium.

Interpretacja wspolczynika znajduje się w przedziale [-1,1],

Znak wspolczynika (plus czy minus) informuje nas o kierunku współzależnośći miedzy badanymi cechami (dodatnia czy ujemna)

RS>0 - koleracja dodatnia(wystepuje zgodność rang, czyli wyższym rangom jedenej cechy odpowiadaja na ogol wyższe rangi drugiej cechy) przy czym RS=1 idealna zgodnosc

RS<0 koleracja ujemna (wystepuje niezgodność rang, czyli wyższym rangom jedenej cechy odpowiadaja na ogol nizsze rangi drugiej cechy) przy czym RS=-1 idealna niezgodnosc

RS=0 brak koleracji

Wartosc bezwzgledna przedstawiam nam o silniejszej lub słabszej sly koleracji:

0-0,2 bardzo slaba wspolzaleznosc

0,2-0,4 slaba wspolzaleznosc

0,4-0,6 umiarkowana współzależność

0,6-0,8 slina współzależność

0,8-1,0 bardzo silna wspolzaleznosc

  1. Wyjaśnij pojecie rangowania oraz pojęcie „rang wiązanych” przy wyznaczaniu współczynnika korelacji rang Spearmana.

Rangowanie- jest wtedy, gdy porządkujemy(w kolejności rosnącej lub malejącej)wartości jednej cechy, nadając im kolejne numery od 1 do n, tak zwane rangi.

Rangi związane- są wtedy gdy dana wartość występuje wielokrotnie, wówczas wartościom tym nadajemy tę samą rangę równą średniej arytmetycznej kolejnych numerów pozycji, na których stoją te jednakowe wartości.

  1. Wyjaśnij pojęcia: regresja prosta, regresja wieloraka, regresja liniowa, regresja krzywoliniowa, zmienna zależna, zmienna niezależna.

Regresja prosta - wystepuje tylko jedna zmiena

Regresja wieloraka - w sytuacji ,gdy bada Się wpływ wielu zamiennych

Regresja liniowa - gdy najlepiej dopasowana do punktow empirycznych jest linia prosta

Regresja krzywoliniowa - gdy najlepiej dopasowaną do punktów empirycznych jest pewna linia krzywa (np.: funkcja wykladnicza, potegowa, logarytmiczna i inne)

Cecha Y traktuje się jako efekt wplywu cechy X i nazywamy zmieną objaśnianą (inaczej niezalezną), a cechę X traktuje się jako przyczynę i nazywa zmienną objąsnijącej (tj. skutek)

X - zmienna (cecha) objasniająca (niezalezna) - czyli ta ktorej wpływ badamy (tj. przyczyna), jej wartośći kształtowane sa poza modelem regresyjnym

Y - Zmienna (Cecha) objasniana (zalezna) - czyli ta, ktorej wartości chcemy modelować, opisywać wpływem zmiennej objaśniającej (tj. skutek)

  1. Podaj wzór liniowej funkcji regresji w przypadku badania związku dwóch cech (X i Y). Wyjaśnij wprowadzone oznaczenia. Podaj dokładną interpretację parametrów funkcji regresji.

Wzor linowej funkcji regresji: Y=a+bX+ε

X- zmienna objasniająca (niezalezna)

Y- zmienna objasniana (zalezna)

A - wyraz wolny regresji

B - tzw wspolczynik regresji (tu: regresji Y względem X)

ε - składnik losowy

Wspolcznynik regresji informuje, o ile jednostek przeciętnie zmieni się wartość zmienej Y, gdy wartość zminnej X wzrosnie o jednostke. Przecietna zmiana może oznaczac przeciętny wzrost lub przeciętny spadek w zależność od znaku współczynnika regresji b i tak:

Jeśli B>0 - wówczas wzrost wartości zmiennej X o jednostkę powoduje wzrost wartości zmiennej Y przeciętnie o b

Jeśli B<0 - wówczas wzrost wartości zmiennej X o jednostkę powoduje spadek wartości zmiennej Y przeciętnie o b

  1. Wyjaśnij pojęcie reszty modelu regresji. Wyjaśnienie zobrazuj rysunkiem.

Reszta modelu regresji to odchylenie wartości zaobserwowanej y, od wartości teoretycznych y

0x01 graphic

  1. Wyjaśnij istotę metody najmniejszych kwadratów. W jakim celu stosuje się tę metodę?

Metoda MNK bazuje na pojeciu reszty, czyli roznicy wartości zaobserwowanych i waertosci teoretycznych cechy Y. Aby prosta była dobrze dopasowana, reszty (odchylenia) powinny być możliwie male. Najlepiej dopasowana prosta powinna zagwaranotwac, aby laczna odległość wszystkich punktow od prostej była jka najmniejsza. Niektóre reszty maja znak „+” lub „-„ przez co znosza się wzajemnie i ich suma wynosi zero. Tak wiec suma reszt nie stanow właściwej miary bledu modelu i nie może być kryterium wyboru najlepiej dopasowanej prostej. Aby zbudować miarę właściwą, należy się pozbyć znakow „-„ można to zrobic podnosząc reszty do kwadratów i następnie zsumować otrzymane kwadraty,

Metoda ta pozwala znalesc parametry funkcji regresji

  1. Podaj wzory pozwalające wyznaczyć parametry funkcji regresji liniowej (w przypadku badania związku dwóch cech). Wyjaśnij wprowadzone oznaczenia. Przedstaw rysunek obrazujący wartości parametrów a i b.

  1. Przedstaw trzy dowolne miary pozwalające ocenić jakość dopasowania modelu regresji do danych empirycznych. Podaj nazwy tych miar, wzory i wyjaśnij wprowadzone oznaczenia.

  1. Wariancja reszt (składnika resztowego)

0x01 graphic

i - numer obserwacji

n - liczba obserwacji

yi - zaobserwowanie wartośći cechy Y (rzeczywista wartość cechy Y, jaką ma obiekt o numerze i)

Ўi - teoretyczna wartość cechy Y (wynikająca z równowagi regresji, tj. taką, jką uzyskujemy z równania regresji dla konkretnego xi)

  1. Odchylenie standardowe reszt

0x01 graphic

  1. Wspolczynik zmienności losowej

0x01 graphic

Ve- wspolczynik zmienosći losowej

Se- odchylenie standardowe reszt ( przecietna reszta)

Ў - srednia arytmetyczna wartości cechy Y

  1. Wyjaśnij pojęcie wariancji reszt i odchylenia standardowego reszt. Podaj wzory, wyjaśnij wprowadzone oznaczenia. Jak interpretuje się wartości tych miar?

  1. Wariancja reszt (składnika resztowego)

0x01 graphic

i - numer obserwacji

n - liczba obserwacji

yi - zaobserwowanie wartośći cechy Y (rzeczywista wartość cechy Y, jaką ma obiekt o numerze i)

Ўi - teoretyczna wartość cechy Y (wynikająca z równowagi regresji, tj. taką, jką uzyskujemy z równania regresji dla konkretnego xi

Wariancja reszt jest miara rozrzutu punktow empirycznych względem prostej regresji. Wariancja przyjmuje wartość zero gdy wszystkie reszty sa rowne zero, czyli gdy punkty leza na lini regresji. Im wieksz jest wartość regresji tym wieksze odchylenia, czyli gorsze dopasowanie funkcji regresji do danych.

  1. Odchylenie standardowe reszt

0x01 graphic

i - numer obserwacji

n - liczba obserwacji

yi - zaobserwowanie wartośći cechy Y (rzeczywista wartość cechy Y, jaką ma obiekt o numerze i)

Ўi - teoretyczna wartość cechy Y (wynikająca z równowagi regresji, tj. taką, jką uzyskujemy z równania regresji dla konkretnego xi)

Odchylenie standardowe reszt inczej sredni blad dopasowaniam przecietna reszta. Pozwala ocenic przecietny rozmiar reszty. Informuje, o ile przeciętnie rożnią się rzeczywiste wartości zmiennej Y od wartośći teoretycznych. Wskazuje o ile przeciętnie się mylimy się (ze względu na wpływ czynnikow losowych), szcujac wartość cechy objaśnianej Y na podstawie funkcji regresji. Im wartośći sa mniejsze tym lepsze dopasowanie modelu do danych empirycznych.

  1. Podaj wzór na współczynnik determinacji, wyjaśnij wprowadzone oznaczenia. Jak interpretuje się wartość tego współczynnika? Przedstaw związek między współczynnikiem determinacji a współczynnikiem korelacji.

0x01 graphic

i - numer obserwacji

n - liczba obserwacji

ŷ - - teoretyczna wartość cechy Y (wynikająca z równowagi regresji, tj. taką, jką uzyskujemy z równania regresji podstawiając konkretna wartosc xi)

ұ - srednia arytmetyczna cechy Y

yi - zaobserwowane wartości cechy Y (rzeczywista wartość cechy Y obiektu o numerze i )

Wspolczynik determinacji informuje, jaka czesc zmienności zmiennej objasnianej zostala wyjasniona przez zbudowany model regresji. Wartosci wspolczynika przyjmuja wartość od 0 do 1 lub od 0% do 100%. Im wartość jest blizsza 1 lub 100% tym lepsze dopasowanie regresji do danych.

Gdy kwadrat wspolczynika determinacji rowna sie kwadratowi wspolczyninika korelacji liniowej Pearsona jest związek liniowy miedzy Y a X

  1. Wyjaśnij sposób wyznaczania statystyki chi-kwadrat w oparciu o tablicę kontyngencji. Podaj wzór na tę statystykę i wyjaśnij wprowadzone oznaczenia.

  2. Podaj wzory na trzy dowolne współczynniki kontyngencji. Podaj nazwy tych współczynników i wyjaśnij wprowadzone oznaczenia. W jakich sytuacjach można stosować te współczynniki? Jak interpretuje się ich wartość?

  3. Wyjaśnij sposób wyznaczania statystyki chi-kwadrat na podstawie tablicy czteropolowej. Podaj wzór na współczynnik Kendalla.

Korelacja i regresja (część 2 - wnioskowanie)

  1. Podaj odpowiedni zestaw hipotez oraz test (wzór funkcji testowej i nazwę testu) służący do sprawdzenia istotności współczynnika korelacji liniowej Pearsona. Wyjaśnij wprowadzone oznaczenia.

  2. Podaj odpowiedni zestaw hipotez oraz test (wzór funkcji testowej i nazwę testu) służący do sprawdzenia istotności współczynnika korelacji rang Spearman'a. Wyjaśnij wprowadzone oznaczenia.

  3. Podaj odpowiedni zestaw hipotez oraz test (wzór funkcji testowej i nazwę testu) służący do sprawdzenia istotności współczynnika regresji. Wyjaśnij wprowadzone oznaczenia.

  4. Wyjaśnij, w jaki sposób można wnioskować o istotności współczynnika regresji na podstawie przedziału ufności.

  5. Podaj wzór na test niezależności chi-kwadrat. Wyjaśnij wprowadzone oznaczenia. W jakiej sytuacji stosowany jest ten test? Podaj odpowiedni zestaw hipotez.

Pytania zapisane kolorem szarym nie obowiązują do sprawdzianu nr 3. Obowiązują natomiast do „wyjściówki” i egzaminu. Egzamin obejmie również analizę dynamiki (wykład 9)

Na temat doboru próby - pytania 1-12 można przeczytać w:

Na temat korelacji i regresji - pytania 80-98 można przeczytać na str. 273-339 (książka j.w.)



Wyszukiwarka

Podobne podstrony:
Stat FiR TEORIA III (estymacja, sggw - finanse i rachunkowość, studia, II semestr, Statystyka ĆW
Stat FiR TEORIA II (miary cd, sggw - finanse i rachunkowość, studia, II semestr, Statystyka ĆW
Stat FiR TEORIA I (podstawowe pojecia, sggw - finanse i rachunkowość, studia, II semestr, Statystyka
Stat FiR TEORIA I (podstawowe pojecia, sggw - finanse i rachunkowość, studia, II semestr, Statystyka
ZK PZ Spotkanie 6 (korelacje i Regresja)
Korelacja i regresja
3-Estymacja parametrów modelu regresji liniowej, # Studia #, Ekonometria
Estymacja parametrów modelu regresji liniowej 2
JAK PRZEGRAĆ W OBRONIE III RP – hipotezy i teorie
11 Podstawy korelacji i regresji
06 Opis Stat, Studia, Rok III, Rynek nieruchomości
05 Dane Stat, Studia, Rok III, Rynek nieruchomości
korelacja regresja Word2003, Elementy matematyki wyższej
statystyka, Korelacja i regresja liniowa, Korelacja i regresja liniowa

więcej podobnych podstron