Statystyka ostateczny, UE Katowice, II stopień sem1, STATYSTYKA MATEMATYCZNA, TEORIA

Co oznacza termin dystrybuanta. Narysuj dystrybuantę rozkładu normalnego wystandaryzowanego.

Dystrybuantą zmiennej losowej X nazywamy funkcję F(x) określoną na zbiorze liczb rzeczywistych jako:F(x) = P.(X ≤ x)Z definicji tej wynika, że zmienna losowa X przyjmuje wartość nie większą od wartości argumentu. ( Dystrybuanta w punkcie x, to prawdopodobieństwo, że zmienna losowa przyjmie wartości mniejsze bądź równe x)

Jaka jest definicja i własność standaryzacji.

Definicja standaryzacji mówi, że jeśli mamy zmienną X to żeby jakikolwiek jej pomiar wystandaryzować należy odjąć od tego pomiaru średnią i podzielić przez odchylenie standardowe, tzn. ile odchyleń standardowych mieści się w różnicy EMBED Unknown.Wynik ten może być dodatni lub ujemny. Znak pokazuje nam czy wynik ten leży poniżej, czy powyżej średniej, zatem EMBED Unknown to nie tylko liczba odchyleń standardowych od średniej, ale także kierunek odchylenia (większy lub mniejszy od średniej)

Własności standaryzacji:Z własności miar rozproszenia wynika, że skoro odchylnie standardowe zmiennej X równe jest s, to odchylenie standardowe zmiennej X - x (X minus stała) równe jest także s.Z postaci wzoru bezpośrednio wynika, że średnia arytmetyczna zmiennej z równa jest 0.Wyniki standardowe stosuje się w celu porównania pomiarów otrzymywanych po użyciu różnych procedur n tego samego badanego, bądź badanych między sobą.Dlaczego odchylenie standardowe statystyki nazywa się błędem standardowym.

Odchylenie standardowe statystyki nazywa się błędem standardowym, ponieważ błąd standardowy jest właśnie odchyleniem standardowym rozkładu z próby tej statystyki. Jest to błąd mierzący stopień zmienności statystyki.

Ile wynosi błąd standardowy średniej arytmetycznej i dla czego.

Błąd standardowy średniej arytmetycznej równy jest odchyleniu standardowemu tej średniej w rozkładzie z próby. Na podstawie centralnego twierdzenia granicznego, można stwierdzić, że rozkład średniej próby x dąży do rozkładu normalnego ze średnią μ i wariancją δEMBED Unknown /n. Jeśli zatem wariancja średniej arytmetycznej w rozkładzie z próby równa się δEMBED Unknown /n, a odchylenie standardowe średniej arytmetycznej w rozkładzie z próby równa się Oblicz prawdopodobieństwo zrealizowania się wartości zmiennej losowej o rozkładzie normalnym z przedziału <μ;μ+25>

P.(x1≤ x ≤ x ) = φ (z2) - φ (z1) = φ(z) - φ(o) - 0,9772-0,5 = 0,4772x1 = μ → z1 = μ - μ x2 = μ + 25 →Estymuj przedziałowo μ, gdy x = 40; s=5; n=225

P.(40- 1,96 P. (39,354 ≤ μ ≤ 40,646) = 0,95Narysuj rozkład t-studenta i podaj jego definicję.

Rozkłady pola t - Studenta zmiennej t są to spłaszczone rozkłady normalne po wystandaryzowaniu. Spłaszczenie jest tym większe im mniejsza wartość próby.

ile znasz błędów wnioskowania. jakie jest ich źródło. jak od siebie zależą.I° - polega na odrzuceniu hipotezy H₀, będącej przypuszczeniem prawdopodobnym. Jest to błąd I rodzaju, równy wielkością poziomowi istotności α. Wywodzi się z probabilistycznego charakteru teorii. Ponieważ badań dokonujemy na poziomie próby, musimy przyjąć jakąś wielkość błędu o jaką zakładamy, że możemy się pomylić. Jest on więc wyznaczany subiektywnie przez badacza.II° - polega na nie odrzuceniu hipotezy H₀, będącej przypuszczeniem fałszywym. Jest to błąd II rodzaje, jest wielkością β. Wywodzi się z czysto logicznego błędu wnioskowania. Prawdopodobieństwo popełnienia tego błędu jest większe, w przypadku małych prób. Zależność między tymi błędami polega na tym, że jeśli będziemy chcieli zmniejszyć błąd α, to zwiększymy tym samym błąd β. Jedynym sposobem zmniejszenia jednocześnie obu tych błędów, jest zwiększenie liczebności prób. Również postawienie hipotezy H₁ ,w formie kierunkowej, a idący za tym sposób testowania jej testem jednostronnym, zmniejsza błąd β.Co to jest obszar krytyczny testu.Obszar krytyczny (w kolejnych rozkładach z próby) jest to przedział wartości tej statystyki odpowiadający poziomowi istotności. Co to jest test statystyczny.Test statystyczny jest to sposób sprawdzający, weryfikujący hipotezę zerową. Jest zdeterminowany postacią hipotezy alternatywnej.JAKI JEST STATUS HIPOTEZY ZEROWEJ WE WNIOSKOWANIU STATYSTYCZNYM I JAKA JEST JEJ DEFINICJA. (dopisać def.)Hipoteza zerowa jest weryfikowana przy założonej decyzji odnośnie postępowania po jej ewentualnym odrzuceniu. Sposób sprawdzania hipotezy zbiorowej jest zdetrminowany przez postać hipotezy alternatywnej. Hipotezę zerową weryfikuje się testem statystycznym dwustronnym lub jednostronnym. Hipotezę zerową można przyjąć lub odrzucić z określonym p.-em.Przedstaw schemat wnioskowania statystycznego.

Procedury wnioskowania statystycznego wprowadzają porządek do wszelkich naszych prób wyciągania wniosków, które wykraczają poza obserwacje dokonywane na poszczególnych próbkach.

Pytania na jakie można odpowiedzieć dzięki wnioskowaniu statystycznemu:czy uzyskana próbka wyników jest rzeczywiście reprezentatywna dla pewnej okreslonej populacjiczy otrzymana różnica między średnimi różnych próbek jest dostatecznie duża, aby móc wyciągnąć wniosek, że próbki te są prawdopodobnie pobrane z różnych populacjiczy zróżnicowanie wyników między grupami, które podano różnym oddziaływaniom eksperymentalnym, jest większe niż rozrzut wyników w obrębie każdej z tych grup.Z jaką pewnością przyjmuje się hipotezę zerową. Podaj definicję hipotez rozważanych w trakcie wnioskowania.

Hipotezę zerowa przyjmuje się z pewnością 1 - alfa, np. jeżeli zakładamy, że alfa = 0,05, to hipotezę zerową przyjmujemy z pewnościa 0,95.

W trakcie wnioskownia rozważamy hipotezy: zerową, alternatywną; różnościowe bądź kierunkowe.Hipoteza różnościowa ma postać : μ1: μ1 ≠ μ2 i mówi o różnym μ1 i μ2.Hipoteza kierunkowa ma postać μ1 : μ1 > μ2 i mówi, że μ1 jest większe od μ2.Jakie znasz skale pomiarowe.Skala stosunkowa (ilorazowa) - stanowi najwyższy poziom pomiaru. Skala ta posiada wszelkie właściwości niżej wymienionych skal , i tę właściwość, że jej początkiem jest zero bezwzględne.Skala przedziałowa - zwana także interwałową posiada wszystkie właściwości skal nominalnych i porządkowych, a ponadto i tę iż ma równe jednostki. Oznacza to, że jednostkowe różnice wyników reprezentują równej wielkości różnice tej cechy, którą mierzymy. Przedziały są równe na całej skali.Skala porządkowa - pomiar na tej skali nie tylko odróżnia daną osobę od pozostałych, lecz także mówi nam, czy dana osoba posiada mierzoną cechę w większym lub mniejszym stopniu.Skala nominalna - jest najniższym poziomem pomiaru. Liczby stosuje się tu tylko dla odróżnienia jednej osoby lub grupy od innej.Liczby te nie reprezentują ilości czegokolwiek.Istotą pomiaru na skali nominalnej jest klasyfikacja jakościowa.Co oznacza termin „rozkład z próby statystycznej”.

Rozkład z próby statystyki jest to rozkład prawdopodobieństwa estymatora tej statystyki, opisujący zmienność statystyki w zbiorze powtarzanych prób.

Ile stopni swobody ma wariancja i dlaczego.Wariancja ma n-1 stopnia swobody:

Spośród n odchyleń podniesionych do kwadratu, tylko n-1 może się swobodnie zmieniać. Wariancja ma n-1 stopni swobody.Spośród n odchyleń podniesionych do kwadratu, tylko n-1 może się swobodnie zmieniać, dzięki dzieleniu przez n-1, a nie przez n. Estymator δEMBED Unknown nie jest obciążony, tzn. nie wykazuje systematycznej jedynki do tego by być większym bądź mniejszym niż δEMBED Unknown.

Podaj definicję kwartyli. Jaki jest związek mediany z kwartylami.Kwartyle - jednostki dzielące liczbę osób na 4 równo liczące grupy, każda po 25% ogólnej liczb osób. Mediana to 2 kwartyl? Narysuj wystandaryzowany rozkład normalny i wypisz jego własności.Na odcinku 2 odchyleń powierzchnia pola zajmuje 95,5% całej powierzchni pola, a na odcinku 3 odchyleń 99,7% powierzchni całego pola. α=0, δ²=1Co znaczy termin wartość krytyczna testu statystycznego.Wartość krytyczna testu statystycznego stanowi granica przedziału ufności:Jak jest definicja statystyki t-studenta i przy jakich założeniach można ją stosować.zmienna x musi być przynajmniej ze skali przedziałowej;xn(α, δ²); próba losowa n-elementowa; α - określone prawoskośnie H₀:μ=μ₀H₁:μ≠μ₀Jaką interpretacje mają wartości znanych statystyk t-studenta.Gdy |t|>t_α_f ⇒ H₀^-hipotezę zerową odrzucamy z prawem 1-α, przyjmując alternatywną.Gdy |t|<t_α_f ⇒ H₀⁺nie ma podstaw do odrzucenia hipotezy zerowej. f=n-1NARYSUJ ROZKŁAD STATYSTYKI F-FISHERA I PODAJ JEJ DEFINICJĘ.Służy on do badania homogeniczności wariancji. Aby go zastosować, musimy mieć dwie próby losowe, niezależne. F= ≈ ≥ 1 s₁² - wariancja większa ze stopniami swobody f₁ = n₁ - 1s₂² - wariancja mniejsza ze stopniami swobody f ₂ = n₂ - 1F > F_α_{, f1, f2} ⇒ H₀^-F ≤ F_α_{, f1, f2} ⇒ H₀⁺postaw hipotezy stosowane przy weryfikowaniu homogeniczności wariancji dwu populacji. czy mogą mieć postać alternatywną. H₀: δ₁² = δ₂²=δ H₁ : δ₁² > δ₂²H₁zawsze musi mieć taką postać.kiedy w próbkach mówi się „próby niezależne”, a kiedy „próby zależne”. czy rozróżnienie to wpływa na sposób testowania hipotezy zerowej.Próby niezależne stanowią dwa rozłączne zbiory osób (w skład jednej próby wchodzą inne osoby niż do drugiej próby). Jedne pomiar nie może wpływać na drugi.Próby zależne są to próby losowe z jednego zbioru osób (osoby te, mogą powtarzać się w jednej i w drugiej próbie). Jeden pomiar wpływa na drugi.Rozróżnienie to wpływa na sposób testowania hipotezy zerowej.

POUKŁADAĆ TE WZORY

Próby niezależne. Postać statystyki testu t = H₀: μ₁ = μ₂ H₁ : μ₁ ≠ μ₂ Próby zależne. Postać statystyki testu t = ⋅ √n H₀: μ₁ = μ₂ H₁ : μ₁- μ₂D- różnica z populacjiCzy lepiej jest stosować test jednostronny czy dwustronny. Wyjaśnij na rysunku.

t alfa

t alfa't alfa'<t alfa→ granica przedziału ufności dla testu jednostronnego jest mniejsza niż granica przedziału ufności dla testu dwustronnego. W związku z tym jest mniejsze prawdopodobieństwo popelnienia błędu wnioskowania: II rzędu, czyli przyjęcie hipotezy fałszywej. Lepiej jest stosować test jednostronny.

Ile stopni swobody ma statystyka t-studenta przy badaniu, Czy Próba „Pochodzi Z Konkretnej Populacji”.Statystyka t - studenta ma n-1 stopni swobody przy badaniu.Podaj definicję znanych miar rozproszenia.Miary rozproszenia (jak rozproszyły się na osi nasze wartości zmiennej) to rozstęp, wariancja i odchylenia standardowe. Te charakterystyki mówią nam czy próbka rozłożyła się na całej skali, czy też dostaliśmy mało wartości ze skali, ale jest dużo frekwencji.Rozstęp - estymator tego parametru mówi na ilu jednostkach skali rozrzuciły się wartości zmiennej.Wariancja - to przeciętna kwadratowa odległość wszystkich pomiarów od średniej arytmetycznej.Odchylenia standardowe - przeciętna odległość pomiarów od średniej arytmetycznej.Przytocz i wyjaśnij centralnie twierdzenie graniczne i wniosek z tego twierdzenia.

Centralne twierdzenie graniczne - mówi nam o zbieżności sumy niezależnych zmiennych losowych do rozkładu normalnego. Jeżeli z populacji w której zmienna losowa X ma dowolny rozkład prawdopodobieństwa ze średnią μ i wariancją δEMBED Unknown losujemy kolejno próby losowe o coraz większej liczbie elementów n, to wraz ze wzrostem liczby losowań rozkład estymatora μ, czyli rozkład średniej z próby,EMBED Unknown dąży do rozkładu normalnego ze średnią równą μ i wariancją δEMBED Unknown/n

Podaj podstawową własność średniej arytmetycznej. Która z miar: średni arytmetyczna, czy mediana jest „bardziej czuła” pomiary leżące daleko względem pozostałych.

Średnia arytmetyczna jest punktem równowagi odległości wszystkich pomiarów mniejszych od średniej i wszystkich większych. EMBED Unknown

(suma odchyleń wszystkich pomiarów od średniej arytmetycznej równa jest zero).NA POMIARY LEŻĄCE DALEKO WZGLĘDEM POZOSTAŁYCH JEST BARDZIEJ CZUŁA ............... WYMIEŃ ZAŁOŻENIA NIEZBĘDNE DO UŻYCIA METODY T-STUDENTA PRZY TESTOWANIU HIPOTEZY O RÓWNOŚCI ŚREDNICH DWU POPULACJI NIEZALEŻNYCH.Od ilu elementów próbę nazywa się „dużą” i dlaczego.Próbę nazywa się dużą od 130 elementów, ponieważ przy n = 130 rozkład t - Studenta zbliża się do wystandaryzowanego rozkładu normalnego N (0,1)Ile stopni swobody ma test t-Studenta dla dwu populacji niezależnych i dlaczego?Test t-studenta dla dwu populacji niezależnych ilość stopni swobody wynosi: f = n₁+n₂-2Uzasadnienie:Zakładamy:zmienna X mierzalna (skala przynajmniej przedziałowa)-zmienna ma rozkład normalny w 1 populacji: N(μ₁,_,δ₁)zmienna ma rozkład normalny w 2 populacji: N(μ_2,δ₂)2 próby losowe o liczebności n₁, n₂postać statystyki t-studenta dla dwu populacji niezależnych: ; (μ₁-μ₂)=0 , a więc jeśli wariancje sa homogeniczne: δ₁²=δ₂²=δ(w populacji)zatem δ²≈s².Gdy założenie to jest spełnione, wariancję należy oszacować tworząc estymator łączny z odchyleń dwu prób s₁ i s₂ , a ponieważ zatem liczba stopni swobody dla 2 populacji niezależnych: f=n₁+n₂-1Kiedy rozkład z próby statystycznej F jest bardziej smukły dla próby dużej, czy małej. Przedstaw to na rysunki., ponieważ δ²≈s² , zatem z definicji wariancji gdy liczebność próby jest duża to wariancja maleje, zaś gdy liczebność próby maleje to wariancja rośnie. Zatem statystyka F też maleje, a więc rozkład statystyki F jest bardziej smukły, gdy próba jest duża. Kiedy błąd wnioskowania zależny jest od decyzji badacza.Od decyzji badacza zależny jest błąd wnioskowania I rodzaju (α), czyli odmiana hipotezy .........To badacz bowiem z góry ustala wielkość αCzy jeżeli wariancje dwu populacji niezależnych są heterogeniczne, to stopnie swobody testu t-studenta rosną czy maleją względem stopni swobody testy t-studenta przy wariancji homogenicznej?Dla wariancji heterogenicznych dla dwu prób niezależnych stopnie swobody testu t-studenta maleją względem stopni swobody przy wariancji homogenicznej.Czy termin „statystyka” oznacza to samo co termin „estymator parametru”.Tak.Dlaczego używa się wyników wystandaryzowanych zamiast zwykłych pomiarów wartości zmiennych.Wynik wystandaryzowany w odróżnieniu od zwykłych pomiarów wartości zmiennych pozwala na interpretację wyniku pojedynczej osoby w kontekście przeciętnego wyniku grupy. Możemy powiedzieć o ile odchyleń standardowych od średniej leży wynik danej osoby.Kiedy trzy zmienne miary tendencji centylowej rozkładu prawdopodobieństwa zmiennej są sobie równe.Trzy znane miary tendencji centralnej: modalna, mediana i wartość oczekiwana są równe gdy I miara skośności = 0. Rozkład prawdopodobieństwa może być wtedy symetryczny.W jakiej kolejności ustawią się mediana, średnia arytmetyczna i medialna w rozkładzie prawo skośnym, a jak w lewo skośnym.Rozkład prawo skośny

m<me<x x

k > 0Rozkład lewo skośny

X <me<m x

k < 0Ile wynosi „z” gdy Φ(z)=0,975, a ile, gdy Φ(z)=0,995.Φ(z)=0,975 z=1,96Φ(z)=0,995 z=2,58Narysuj rozkład normalny z duża wariancją i z małą wariancją. Jaki jest drugi parametr (poza wariancją) rozkładu normalnego.

x= 4 μ = 7 x = 10 x

Drugim parametrem rozkładu normalnego jest wartość oczekiwana μ.Ile prób należy wylosować posługując się planem badań właściwym dla analizy wariancji jednoczynnikowej, a ile przy dwuczynnikowej (dla populacji niezależnych)W analizie jednoczynnikowej losujemy k-prób (tyle ile jest poziomów), poziomów, w przykładzie k=4 czyli cztery poziomyW analizie 2 czynnikowej k - poziomów czynnika A; l - poziomów czynnika B; W przykładzie: 4 poziomy czynnika 1; 5 poziomy czynnika 2. k⋅l - ilość prób 4⋅5=20, iloczyn poziomów czynnika 1 i czynnika 2Przedstaw założenia dwuczynnikowej analizy wariancji (dla populacji niezależnych).Dwuczynnikowa analiza wariacji przyjmuje następujące założenia:Y - skala przedziałowa;próby niezależne, losowe, równoliczne;liczba prób równa iloczynowi poziomów obydwu czynników: k⋅l;licznik elementów wszystkich prób: n=k⋅l⋅mY ma rozkład normalny w całej populacji Y-N (μ,δ²) oraz w populacjach wyznaczonych przez poziomy czynników: Y~N (μ_i,δ_i²), i=1,...,k; Y~N (μ_j,δ_j²), j=1,...,lWariancje wszystkich rozważanych populacji są homogeniczne δ²_ij=δ²_i⋅δ²_j=δ²Założenia o homogeniczności należy bezwzględnie zweryfikować testem BartlettaPrzykład:W analizie 2 czynnikowej (rys) k - poziomów czynnika A; l - poziomów czynnika B. W przykładzie: 4 poziomy czynnika 1; 5 poziomy czynnika 2. k⋅l - ilość prób 4⋅5=20, iloczyn poziomów czynnika 1 i czynnika 2Ile i jakiej postaci hipotezy zerowe testuje się w analizie wariancji (dla populacji niezależnych).Ogólna hipotez jest: L=2^c-1 (c- liczba czynników)W jednoczynnikowej jednowymiarowej analizie wariancji dla populacji niezależnych wygląda to tak:H₀:α_i=0 αi=μi-μ≠0H₁:~H₀ i=1,...,kW dwuczynnikowej:H₀:α_i=0H₁:~H₀ i=1,...,k brak efektów głównych czynnika AH₀:β_j=0H₁:~H₀ j=1,...,k brak efektów głównych czynnika BH₀:(αβ)_ij=0 αi=μi-μ≠0H₁:~H₀ i;j=1,...,k brak efektów interakcji. Jakie są podstawy teoretycznie konstrukcji statystyki f w analizie wariancji.Iloraz 2 różnych oszacowań wariancji w populacji jest statystyką F-Fischera. m - identyczna liczebność każdej próby.Mianownik δ²IIWariancje we wszystkich populacjach muszą być homogeniczne: δ²1=δ²2=...=δ²k=δ²Gdy założenie to jest spełnione wariancje w populacji można szacować estymatorem łącznym wariancji z k-próby jest to zmienność wewnątrz grupowa niewyjaśniona wpływem czynnika.Licznik δ²IIJeżeli H0 jest prawdziwa, rozkład normalny i próby są równoliczne, to na podstawie wniosku z centralnego twierdzenia granicznego można oszacować wariancje w populacji. Rozrzut średnich grupowych jest właśnie szacunkiem z tych wariancji. EMBED Unknown estymator wariancji średnich równy jest: jest to zmienność międzygrupowa wyjaśniona wpływem czynnika. Jeżeli czynnik nie działa to te 2 oszacowania wariancji są sobie równe, więc statystyka F=1. Jeżeli czynnik działa to licznik przeważa mianownik, więc F>1Czym różni się pojecie efektu głównego (działania czynnikowe) od pojęcia kontrastu I rzędu.Efekt główny działania i-tego poziomu czynnika kontrolowanego A zmiennej x jest to różnica między wartością oczekiwaną na i-tym poziomie a wartością oczekiwaną w całej populacji. αi=μi-μ≠0Kontrast I rzędu jest to różnica między efektami głównymi działania czynnika na różnych poziomach, czyli różnica między wartościami oczekiwanymi na 2 różnych poziomach αi-αi` =μi-μi` i≠i`Co oznacza termin „kontrast parametrów II rzędu”.Kontrasty parametrów II rzędu oblicza się, kiedy mamy 2 czynniki kontrolowane: A i B według wzoru:[(αβ)_ij-(αβ)_ij`]-[(αβ)_i`j-(αβ)_i`j]=(μ_ij-μ_ij`)-(μ_i`j-μ_i`j)i=i`, j=j`(αβ)_ij - interakcja i-tego poziomu czynnika A z j-tym poziomem czynnika B(αβ)_i`j` - interakcja i`-tego poziomu czynnika A z j`-tym poziomem czynnika B

μ_ij	1	2	3	4	μ_i
1	20	40	30	50	35
2	30	40	40	30	35
3	50	30	20	40	35
4	40	50	30	20	35
μ_j	35	40	30	35	μ=35

[^-(αβ)₁₁-(αβ)₁₂]-[^-(αβ)₂₁-(αβ)₂₂]=(μ₁₁-μ₁₂)-(μ₂₁-μ₂₂)=(20-40)-(30-40)
=-(-20)-(-10)=-10Ile efektów głównych a ile interakcyjnych należy oszacować w dwuczynnikowej analizie wariancji.W dwuczynnikowej analizie wariacji szacujemy:k - liczba poziomów pierwszego czynnika;l - liczba poziomów drugiego czynnika.Czyli efektów głównych jest k+l, a efektów interakcyjnych k⋅lIle stopni swobody maja wariancje z liczebników a ile z mianowników statystyki F w wieloczynnikowej ANOVA`iePrzy weryfikacji hipotezy o działaniu efektu głównego wariancje z liczników maja tyle stopni swobody ile poziomów czynnika kontrolowanego minus,np.:H₀:α_i=0 i=1,2,....,k f=k-1H₀:β_i=0 i=1,2.....,k f=l-1Przy weryfikacji hipotezy o działaniu efektu interakcyjnego wariancja z licznika ma (k-1)(l-1) stopni swobody, np.H₀:(αβ)_ij=0 i=1,2.....,k; j=1,2....,k f=(k-1)(l-1)Wariancje z mianowników mają f=n-kl stroni swobody, gdzie n - liczba poziomów, k - liczba poziomów jednego czynnik, l - liczba poziomów drugiego czynnika.Ile kontrastów II rzędu należy oszacować w dwuczynnikowej ANOVA`ie. Dlaczego?EMBED Unknownk - liczba poziomów czynnika A,l - liczba poziomów czynnika B.Aby obliczyć 1 kontrast II rzędu należy wziąć 4 średnie: μ_ij, μ_i`j, μ_ij`, μ_i`j`, czyli spośród k poziomów wybieram 2: μ_i, μ_i` oraz spośród l poziomów 2: μ_j, μ_j`Stąd liczba możliwych kombinacji wynosi:Podaj przykład rozkładu średnich (w dwuczynnikowym planie badawczym) przy którym: Brak efektów głównych działania obydwu czynników lecz istnieją efekty interakcyjne,Istnieją efekty główne obydwu czynników, ale brak interakcji,Istnieją efekty główne jednego czynnika, brak efektów głównych drugiego czynnika oraz brak interakcji,Istnieją efekty główne jednego czynnika, brak efektów głównych drugiego czynnika oraz istnieją efekty interakcyjne obydwu czynników.Brak efektów głównych działania obydwu czynników lecz istnieją efekty interakcyjne:

μ_ij	1	2	μi
1	12	8	10
2	8	12	10
μj	10	10	μ=10

αβ₁₁=12-10-10+10=2αβ₁₂=8-10-10+12=-2αβ₂₁=8-10-10+10=-2αβ₂₂=12-10-10+10=2są interakcje (αβ)ij≠0α₁=10-10=0α₂=10-10=0β₁=10-10=0β₂=10-10=0brak efektu głównego bo α₁, α₂, β₁, β₂ = 0Istnieją efekty główne obydwu czynników, ale brak interakcji:

μ_ij	1	2	μi
1	3	7
2	4	8
μj			μ=5,5

αβ₁₁=3-5-3,5+5,5=0αβ₁₂=7-5-7,5+5,5=0αβ₂₁=4-6-3,5+5,5=0αβ₂₂=8-6-7,5+5,5=0brak interakcje (αβ)ij=0α₁=5-5,5=-0,5α₂=6-5,5=0,5β₁=3,5-5,5=-2β₂=7,5-5,5=2jest efekt główny bo α₁, α₂, β₁, β₂ ≠ 0Istnieją efekty główne jednego czynnika, brak efektów głównych drugiego czynnika oraz brak interakcji

μ_ij	1	2	μi
1	40	60
2	40	60
μj			n=

αβ₁₁=40-50-40+50=0αβ₁₂=60-50-60+50=0αβ₂₁=40-50-40+50=0αβ₂₂=60-50-60+50=0brak interakcji (αβ)ij=0α₁=50-50=0α₂=50-50=0β₁=40-50=-10β₂=60-10=50brak efektu głównego bo α₁, α₂,=0jest efekt główny bo β₁, β₂ ≠ 0Istnieją efekty główne jednego czynnika, brak efektów głównych drugiego czynnika oraz istnieją efekty interakcyjne obydwu czynników:

μ_ij	1	2	μi
1	40	60	50
2	20	80	50
μj	30	70	μ=50

αβ₁₁=40-50-30+50=10αβ₁₂=60-50-70+50=-10αβ₂₁=20-50-30+50=-10αβ₂₂=80-50-70+50=10jest interakcja bo (αβ)ij≠0α₁=50-50=0α₂=50-50=0β₁=30-50=-20β₂=70-50=20brak efektu głównego bo α₁, α₂, = 0jest efekt główny bo β₁, β₂ ≠ 0Jak wygląda rozkład z próby statystyki F stosowanej w ANOVA`ie. Jakie założenia musi być bezwzględnie przestrzegane aby rozkład ten nie „odkształcił się”Aby rozkład nie odkształcił się musi być identyczna liczebność każdej z prób.Co znaczy termin „reszta regresji”Reszta regresji to licznik części zmienności objaśnianej Y nie wyjaśnionej zmienną objaśniającą. EMBED Unknownyi - wynik osobyEMBED Unknowni - wynik przewidy-wany zgodnie z modelem regresji liniowej.Jakie wartości przyjmuje współczynnik korelacji liniowej r-Pearsona i od czego to zależy?Współczynnik korelacji r-Pearsona jest to współczynnik liniowej siły związku X i YEMBED UnknownPrzyjmuje wartości <-1, 1>Im związek X i Y jest silniejszy, tym wartość bezwzględna r-Pearsona jest większa. Jeżeli związek jest dodatni - r przyjmuje wartości dodatnie; jeżeli ujemne - r przyjmuje wartości ujemne.r=0 - brak związku między X i Y,r=1 - istnieje idealny, maksymalny związek dodatni X i Y,r=-1 - istnieje dokonały, maksymalny związek ujemny X iY.Jakie założenie musi być spełnione, aby można było stosować prosta regresję liniową (przy analizie danych)X - skala przedziałowa (przynajmniej),Y - skala przedziałowa (przynajmniej),X - ma rozkład normalny dla każdej wartości YY - ma rozkład normalny dla każdej XRozkłady te maja identyczne wariancje,Średnie rozkładów leżą na jednej prostej,Dużą próba,H₀:ρ=0H₁: ρ<0 lub ρ>0Jakie właściwości ma współczynnik korelacji liniowej w sytuacji przeskalowywania zmiennych.Współczynnik korelacji r-Pearsona jest niezmiennikiem przekształceń liniowych tzn.:X`=ax+bY`=cy+d ⇒ r_yx=r_y`x`, gdy a⋅c>0Co stanie się ze współczynnikiem determinacji, gdy wartości współczynnika zwiększą dwukrotnie. Czy wtedy jedne zmienne wyjaśnią dwa razy więcej zmienności drugiej.r² - współczynnik determinacji r - współczynnik korelacjijeśli rx2 r₁=2r, to (r₁)²=(2r)²=4r²Zmienna nie wyjaśnia 2x więcej, ale 4x więcej zmienności drugiej.Jaka jest definicja współczynnika korelacji cząstkowej i jakie przyjmuje wartości.Współczynnik korelacji cząstkowej I rzędu Współczynnik korelacji cząstkowej jest to korelacja między dwoma zbiorami reszt, czyli błędów oszacowania x1 na podstawie x3 oraz x2. jest to część korelacji, jaka pozostaje po wyeliminowaniu trzeciej zmiennej r12.3 przyjmuje wartości <-l, l>. Wartość ta może być mniejsza, równa lub większa od wartości współczynnika korelacji całkowitej między zmiennymi.Jak wygląda rozkład z próby r₁₂,a jak r_12,3...k gdy H₀ jest prawdziwe, opisz i narysuj.t=n-k, czyli im więcej zmiennych, tym mniej stopni swobody przy ustalonym n, czyli wykres jest bardziej plaski.Przedział ufności dal r_12.3...k jest większy, czyli trudniej odrzucić H₀, a więc trudniej popełnić błąd II rzędu (przyjęcie hipotezy fałszywej) PCZY MOŻNA WYZNACZYĆ RÓWNANIE REGRESJI DLA POPULACJI. UZASADNIJ.Jeżeli r12=0,9 natomiast r13=0,8 to związek między r23 nie może być mniejszy od jakiej liczby?r12=0,9 →r=0,81 wartość wyjaśniana1-0,81=0,19 wartość niewyjaśniana między zmiennymi 1i2r13 =0,8 ~ r2=0,64r2/23min =0,64-0,19=0,45r - współczynnik korelacjir2 - współczynnik determinacjir2/23 = 0,45r23 = √0,45Odpowiedz: Związek między r23 nie może być mniejszy od √0,45Mianownik korelacji cząstkowej jest dodatni mniejszy od 1, zatem zwiększa wartość całego ułamka, zatem 3 r 12.3 > r 12 Załóżmy, że r 12 jest ujemne r 13 i r 23 są tych samych znaków; lic~ korelacji cząstkowej = -r 12 -r 13 r 23 ;wartość bezwzględna licznika korelacji cząstkowej jest większa od wartości bezwzględnej korelacji całkowitej. rl3=O lub r23=0, zatem licznik korelacji cząstkowej = licznik korelacji całkowitej.Załóżmy, że r12=0Bez względu na to, jakich znaków są r13 i r23 (gdy r13≠0 i r23≠O) r12.3 będzie zawsze większy od r12Podaj definicję współczynnika alienacji.wspó³czynnik alienacji jest to czźę zrI1iennoci zmiennej objanianej, nie wyjaniana przez zmienn¹ objaniaj¹c¹ 0≤1-r²≤1 - wspó³czynnik alienacji.Czy tworząc model regresji liniowej dla zmiennych wystandaryzowanych uzyska się identyczne oszacowania współczynników regresji jak dla zmiennych nie wystandaryzowanych? Uzasadnij na przykładzie regresji prostej. Tworząc model regresji liniowej dla zmiennych wystandaryzowanych nie
zawsze uzyska się identyczne szacowania współczynników regresji jak dla
zmiennych nie wystandaryzowanych.a, b - współczynnik regresji dla zmiennych nie wystandaryzowanych:a' , b' - współczynnik regresji dla zmiennych wystandaryzowanychDla zmiennych wystandaryzowanych średnia równa się), a odchylenie
standardowe równa się 1, więc:a'= 0
czyb=b'Czy związek liniowy zmiennych wystandaryzowanych ma taką samą, czy inna wartość niż związek zmiennych niewystandaryzowanych. Uzasadnij.

Związek liniowy zmiennych wystandaryzowanych ma taką samą wartość jak
związek zmiennych nie wystandaryzowanych

r - współczynnik liniowej siły zmienny nie wystandaryzowanychr' - współczynnik liniowej siły zmiennych wystandaryzowanych

Dla zmiennych wystandaryzowanych średnia o, a odchylenie standardowe 1
WIĘC:

r=r'Podaj definicje współczynnika alienacjiWspółczynnik alienacji jest to część zmienności zmiennej objaśnianej, nie wyjaśniana przez zmienną obiasniającą 0≤1-r²≤1 - współczynnik alienacji.Podaj przykład rzeczywistych badań, z których dane można byłoby przewidzieć zgodnie z modelem regresji wielomianowej.Przewidywanie zagadnień z modelu regresji wielokrotnejZadanie z modelu regresji wielokrotnej można przewidywać: powodzenie u mężczyzn kobiet w przedziale wieku <20, 35> lat (mierzone w ilości randek w miesiącu) na podstawie długości uch nóg i obwodu biustów.X1 - zmienna zależna objaśniana (powodzenie u mężczyzn kobiet w wieku 10-35 lat);X2 - zamienna objaśniająca (długość nóg);X3 - zmienna objaśniająca (obwód biustu)Przytocz strukturę wyniku zakładanej w dwuczynnikowej ANOVA'ie oraz strukturę wyniku zakładanej w regresji liniowej trzech zmiennych. Czy równania te zależą od tej samej klasy funkcji?Struktura cZYl1lriku w dwuczynnikowej ANOVA'ie wygląda tak:
Struktura wyniku w regresji liniowej 3 zmiennych wygląda tak: Jaka zmienna ma rozkład prawdopodobieństwa χ²(chi-kwadrat). Narysuj przykładowo taki rozkład, podaj jego parametry.Rozkład prawdopodobieństwa χ² ma zmienną EMBED UnknownEMBED Unknown k - liczba stopni swobodyPrzykład:k=5 10μ=k=5 10m=k-2=3 8δ²=2⋅k=10 20 m=3 m=8JAKIE ZNASZ MIARY SIŁY WSPÓŁWYSTĘPOWANIA KATEGORII ZMIENNYCH NOMINALNYCH. JAKIE PRZYJMUJĄ WARTOŚCI. ZAPREZENTUJ JE.Która z miar kontyngencji musi być używana w wersji skorygowanej, a której nie trzeba korygować. Uzasadnij.W wersji skorygowanej musi być używana miara kontyngencji C-Pearsona:Ponieważ nigdy nie osiągnie jedności.Jaka jest maksymalna wartość statystyki chi-kwadrat w przypadku tabeli 2x2, a jaka w przypadku tabeli kxk, k≥3. Czy wartość maksymalna x² dla tabeli kxl musi być większa w przypadku k≠l (względem k=l)Maksymalna wartość statystyki hi-kwadrat:1) tabela 2x2χ²max=n2) tabela kxk; k≥3χ²max=(k-1)nχ²max dla tabeli kxl nie może być większe od χ² dla tabeli kxkPrzedstaw przykładowy rozkład frekwencji dwu zmiennych nominalnych z czterema kategoriami wartości, przy którym wartości statystyki chi-kwadrat byłyby maksymalne.

f_ij	a	b	Σ
1	20	0	20
2	0	20	30
Σ	20	30	n=50

Jak przebiega algorytm weryfikowania hipotezy o normalnym rozkładzie zmiennej dla testu chi-kwadrat?Ho: rozkład x jest normalnyH1 ~ Ho1. x - mierzalna uciąglona: Wprowadza się dodatkową klasę wartości <-∞,☻>,gdzie☻to wartość najmniejsza uzyskana w badaniu, np. 0. lub od niej mniejsze (zależne od rozpiętości klasy h) Podobliie wprowadza się klasę <☻, ∞>. Obydwie klasy maja frekwencje empiryczna równą 0; 2. Oblicza się x i s zmiennej (ze wzoru dla danych sklasyfikowanych);3. Standaryzuje się główne granice wszystkich klas;4. Z tabel dystrybuanty rozkładu normalnego odnajduje się jej wartości dla wyznaczonych "z-tów". Znajduje się prawdopodobieństwo dla wartości x z danej klasy (różnica Фdla górnej i dolnej granicy po wystandaryzowaniu)5, Prawdopodobieństwo przyporządkowane klasami, Л wartoњci x zamienia się na frekwencje skale liniowe posługując się szacunkiem:gdzie li to liczebność próby;f = kˉ ³X²Czy algorytm weryfikowania hipotezy o normalnym rozkładzie zmiennej może mieć wpływ na decyzję o jej odrzuceniu?Algorytm weryfikowania H o normalnym rozkładzie zmiennych może mieć wpływ na decyzje o jej odrzuceniu, bo decyzja zależy od klasyfikacji: gdy zbyt
wąskie lub zbyt szerokie klasy to wtedy istnieje rozbieżność od rozkładu normalnego.Jakie warunki muszą spełniać fi i fe aby(przy badaniu normalności rozkładu zmiennej) mogła być użyta statystyka chi-kwadrat?Aby mog³a byę uæyta statystka chi-kwadrat (x²) naleæy: Uwzglźdnię tylko te klasy, których frekwencje s¹ wiźksze od 1 fei> 1, i= 1 ,. . .,k Ponadto musi byę co najmniej 1/5 klas spośród wyznaczonych, może zawierać foi<5. w przeciwnym razie łączy się w klasy.Jaka zmienna ma rozk³ad prawdopodobieństwa x²( chi-kwadrat).
Narysuj przyk³adowo taki rozk³ad, podaj jego parametry.Rozkład prawdopodobieństwa r ma zmiennąk - liczba stoplii swobodyprzykład: k=5 10
.u=k=5 10
m=k-2=3 8
δ²=2*k=10 20JAK OKREŚLONA JEST MIARA SIŁY ZALEŻNOŚCI DLA DWÓCH SKAL PORZĄDKOWYCH. JAKIE PRZYJMUJE WARTOŚCI. ZINTERPRETUJ JE.Dlaczego przy występowaniu rang wiązanych dwu zmiennych rangowych naleæy korzystaę szacuj¹c si³ź ich zaleænoci z tzw. "poprawki na wźz³y". Czy poprawka na wźz³y zwiźksza, czy zmniejsza wartoę tau-kwadrat (T²)Przy występowaniu rang związanych należy kontrolować i poprawiać na węzły, ponieważ kolejność tych samych wartości, w zakresie zmiennych x jest arbitralna, w związku z czym kolejność odpowiadających mu wartości zmiennych y też jest przypadkowa.Narysuj rozk³ad prawdopodobieństwa tau-kwadrat (T²) gdy hipoteza zerowa jest prawdziwa: dla duæej i ma³ej próby. Kiedy moc testu jest większa.Moc testu jest większa dla małych prób:Jaki rozkład ma statystyka chi-kwadrat w teście chi-kwadrat i ile ma stopni swobody. Uzasadnij.Rozważmy populację o średniej μ wariancji δ² i rozk³adzie normalnym wyników Y. Wynik standardowy z tej populacji równy jest Z=(Y-μ)/δ. Takie wyniki standardowe majΉ oczywicie rozk³ad normalny. Moæemy jednak pos³ugiwaę siź kwadratami wyników standardowych z tej populacji. Taki wynik ma postaę z² = ( y-μ)²/δ² Jeli elementy z tej populacji pobieramy po jednym naraz, to rozk³ad liczebnoci z² bździe rozk³adem x²z 1 stopniem swobody. Czyli po prostu, jeli z² jest wynikiem standardowym o rozk³adzie normalnym, to z bździe mieę rozk³ad x² z 1 stopniem swobody .Znaczy to, Ze przy 1 stopniu swobody z =√x². Wartoci krytyczne x² dla istotnoci na poziomie 0,05 i 0;01 przy df=1 wynosz¹ 3,84 i 6,64. Odpowiadaj¹ce im wartoci z otrzymane z rozk³adu normalnego wynosz¹ 1,96= √3,84 i 2,58=√6,64. Jeæeli elementy z populacji pobieramy po dwa naraz, to rozk³ad z1²+ z2² bździe rozk³adem x² z 2 stopniami swobody. Jeli elementy z populacji pobieramy po trzy naraz to rozk³ad z1²+z2²+z3² bździe rozk³adem x²z 3 stopniami swobody. Ogólnie rzecz bior¹c, przy próbach o liczebnoci N wielkoę suma Zi² ma rozk³ad z N stopniami swobody.Rozkład chi-kwadrat dla 5-procentowych obszarów krytycznych i dla różnych stopni swobody. Wartość chi-kwadrat jest zawsze dodatnia, co wynika z podnoszenia do kwadratu różnic między wartościami zaobserwowanymi a oczekiwanymi. Może przyjmować wartości od 0 do nieskończoności. Prawa strona krzywej jest asymptotyczna do odciętej. Przy 1 stopniu swobody krzywa jest asymptotyczna zarówno do rzędnej jak i do odciętej .JAKIE ZNASZ MIARY SIŁ WSPÓŁWYSTĘPOWANIA KATEGORII ZMIENNYCH NOMINALNYCH? JAKIE PRZYJMUJĄ WARTOŚCI ZINTERPRETUJ JE.która z miar kontyngencji musi być używana w wersji skorygowanej, a której nie trzeba korygować. Uzasadnij.W wersji skorygowanej musi być zużywana miara kontyngencji C-Pearsona:Jaka. jest maksymalna wartość statystyki. chi-kwadrat w przypadku tabeli 2x2, a jaka w przypadku tabeli k x k, k≤3. Czy wartoę maksymalna x² dla tabeli k x l musi byę wiźksza w przypadku k≠1 (wzglźdem k=1).Maksymalna wartość statystyki hi-kwadrat:l) tabela 2x2; x²max=n2) tabela kxk; k≥3 ; x²max=(k -l )nx² max dla tabeli kxl nie moæe byę Wiźksze od x² dla tabeli kxkPrzedstaw przykładowy rozpad frekwencji dwu zmiennych nominalnych z czterema kategoriami wartości, przy którym wartości statystyki chi-kwadrat byłyby maksymalne.