MIEJSCE STATYSTYKI W NAUCE
Informowanie, obserwowanie, gromadzenie doświadczenia, komunikacja między ludźmi odbywa się- w głównej mierze- przy pomocy zdań (prostych, złożonych; warunkowych, etc.)
Zdania nie tworzą bezsensownych układów wyrażeń; zawarte w nich „treści” (znaczenia) potrafimy systematyzować tworząc nowe zdania. Robi się to według pewnej logiki.
Logika zdań, czy teorią zdań jest rachunek zdań zajmujący się związkami międzyzdaniowymi (ujmowanymi w zdaniach złożonych).
Jednym z rodzajów zdań złożonych rozważanych w rachunku zdań jest IMPLIKACJA („wynikanie”) przypominająca pod pewnymi względami okres warunkowym w języku naturalnym. Stąd symbol implikacji: odczytuje się przy pomocy spójnika „ jeżeli..., to...”.
np. dla zdań p i q, implikacja pq oznacza „jeśli p, to q”.
Zdanie p jest poprzednikiem implikacji, lub racją lub przesłanką
Zdanie q jest następnikiem implikacji, lub następstwem logicznym, lub wnioskiem, lub skutkiem.
Rozumowanie (za Łukasiewiczem, Czeżowskim, czy Ajdukiewiczem) jest to „taka część umysłu, która prowadzi na podstawie zdań danych- będących punktem wyjścia rozumowania- do zdań innych będących celem rozumowania, a połączonych z poprzednikiem stosunkiem wynikania”.
Zatem, rozumowanie jest bądź:
Poszukiwaniem następstwa dla racji (gdy kierunek rozumowania zgadza się z kierunkiem wynikania logicznego).
Poszukiwaniem racji dla następstwa (gdy kierunek rozumowania i wynikania logicznego są przeciwne). Jest to tzw. ROZUMOWANIE NIEINDUKCYJNE, INDUKCYJNE.
W naukach empirycznych takich jak ekonomia, organizacja i zarządzanie, nauki społeczne (psychologia, socjologia, resocjalizacja, pedagogika,... itd.) wszelkie zdania teorii, teorii empirycznej (racje) uzasadniane są, - w ostatecznej instancji- przy pomocy zdań, które zdają sprawę z rezultatów obserwacji bezpośredniej lub z użyciem przyrządów (następstwa).
Noszą one nazwę zdań spostrzeżeniowych lub obserwacyjnych (ang. preceptual statements, obserwation statements)
Zatem sposób uzasadniania twierdzeń dzieli naukowców- przynajmniej- na dedukcjonistów i indukcjonistów.
W naukach empirycznych twierdzenia uzasadnia się indukcyjnie
pq
Szuka się prawa skończona liczba obserwacji
przyrody, którego następstw pewnych
prawdopodobnym skutkiem nieznanych praw przyrody
są następstwa
Jeżeli zajścia lub niezajścia zdarzenia nie można przewidzieć i jeżeli powiedzenie, że „zachodzi ono” lub „nie zachodzi” ma zawsze sens, to mówi się, że takie zdarzenie jest zdarzeniem losowym.
Zdarzenia losowe to np. wyniki obserwacji, wyniki doświadczenia itd.
Zdarzenia – w szczególności- dotyczące obserwowanych poziomów własności, cech obiektów badanych (wybranych z całej populacji obiektów).
Zdarzenia losowe – w szczególności- to konkretne pomiary cech elementów próby; zdarzeniom losowym przyporządkowane są liczby.
Stąd, w uproszczeniu, ZMIENNA LOSOWA to funkcja (rzeczywista) na wszystkich dopuszczalnych zdarzeniach losowych.
Zmienne losowe są mierzalne i niemierzalne w zależności od rodzaju użytej skali do odczytania wyniku pomiaru
Skala nominalna zmienne niemierzalne
Skala porządkowa (rangowa)
Skala przedziałowa (interwałowa)
Skala stosunkowa (ilorazowa) zmienne mierzalne
P(x)= ($\frac{n}{x}$)/2n= ($\frac{n}{x}$)($\frac{1}{2}$)n = ($\frac{n}{x}$)($\frac{1}{2}$)x × ($\frac{1}{2}$)n-x
prawdopodobieństwa p(c) p(D)
zdarzeń prostych: p + q =1
Rozkład dwumianowy prawdopodobieństwa zm. X
- Rozkład Bernoulli’ego:
Bn;p = P(x) = ($\frac{n}{x}$) × px × q(n-x)
p = p(c ) statystycznie wynosi 0,514
q = p (D) statystycznie wynosi 0,486
Rozkład prawdopodobieństwa dla X nie będzie symetryczny (im bardziej p ≠ q tym większa asymetria):
x | p=q | p≠q |
---|---|---|
5 4 3 2 1 0 |
0,031 0,156 0,313 0,313 0,156 0,031 |
0,036 0,170 0,321 0,303 0,143 0,027 |
∑ | 1 | 1 |
Wartość oczekiwana zmiennej losowej X,
µ = $\sum_{x = 0}^{n}x$ × P(x) = n×p
(średnia arytmetyczna zmiennej losowej, czy statystycznej)
POJĘCIE PRAWDOPODOBIEŃSTWA
Jeżeli zajścia lub niezajścia zdarzenia nie można przewidzieć i jeżeli powiedzenie, że „zachodzi ono” lub „nie zachodzi” ma zawsze sens, to mówi się, że takie zdarzenie jest zdarzeniem losowym.
Zdarzenia losowe to np. wyniki obserwacji, wyniki doświadczenia itd.
W teorii prawdopodobieństwa pojęcie zdarzenia losowego wprowadzone jest aksjomatycznie.
Nie wszystkie zdarzenia losowe interesują badacza. Zbiór zdarzeń dopuszczalnych generuje jego pytanie badawcze, problem badawczy.
Dla konkretnego problemu badacz konstruuje konkretny model probabilistyczny. Modele mogą być bardzo różne, natomiast „ujęcie problemu szacowania szansy”, filozofia rozwikłania tego zagadnienia- taka sama.
Punktem wyjścia jest określenie zbioru niepodzielnych, nierozkładalnych, pierwotnych zdarzeń losowych.
Jeżeli zdarzenia A nie można przedstawić
CHARAKTERYSTYKA ROZKŁADU PRAWDOPODOBIEŃSTWA ZMIENNEJ LOSOWEJ X
Miary centralne rozkładu: Miary rozproszenia wartości X:
(miary tendencji centralnej) σ2 - wariancja
µ - wartość oczekiwana X (σ – odchylenie standardowe)
(średnia arytmetyczna) v- rozpiętość (przedział określoności X)
M – modalna
(wartość najbardziej prawdopodobna)
Me – mediana
Miary skośności
Miary „płaskości” (kurtoza)
PARAMETRY
Statystyka (matematyczna) jest teorią, umożliwiającą porównywanie i analizowanie rozkładów prawdopodobieństwa różnych zmiennych losowych w różnych zbiorowościach generalnych (populacjach).
Przykłady populacji (zbiory obiektów, na których określona jest X)
Rodziny pięciodzietne
Sześciolatki uczęszczające do „zerówki”
Uzależnieni od alkoholu, ...
TRÓJKĄT PASCAL’A
Liczba sposobów ustawienia elementów dwu rodzajów na n- miejscach, gdy elementów pierwszego rodzaju jest X
X 1 2 3 4 5 6 7
0 1 1 1 1 1 1 1
1 1 2 3 4 5 6 7
2 - 1 3 6 10 15 21
3 - 1 4 10 20 35
4 - 1 5 15 35
5 - 1 6 21
6 - 1 7
7 - 1
. –
.
∑= 2n 2 4 8 16 32 64 128
PRZYKŁAD
Test psychologiczny, składający się z n- pytań z odpowiedziami „tak” lub „nie” (pytania typu rozstrzygnięcia) ma rozkład Bn;p przy założeniu takiej samej szansy odpowiedzi „tak” na każde pytanie konkretnej osoby badanej.
STATYSTYKA OPISOWA X W PRÓBIE
Założenie stałej wartości p (np. stałej szansy odpowiedzi „tak” na każde pytanie w kwestionariuszu psychologicznym) jest zbyt mocne i praktycznie nie do przyjęcia.
Założenie słabsze, prawdziwe- że być może dla niektórych pytań p są identyczne, dla części różne- jest w rzeczywistości nie do sprawdzenia, aczkolwiek, gdyby wszystkie pi (i = 1,...,n) były znane, łatwo byłoby zbudować model prawdopodobieństwa i znaleźć rozkład prawdopodobieństwa zmiennej losowej X (której znaczenie wyrażone jest treścią pytań testu psych.). byłby to model dość skomplikowany formalnie.
We współczesnym ujęciu przy szacowaniu szansy zrealizowania się konkretnej wartości zmiennej losowej (cechy, wielkości) zdefiniowanej w zbiorowości generalnej (populacji) odwołujemy się do częstości występowania tej wartości w próbie losowej elementów wybranych z tej populacji (oczywiście- skończonej liczbie elementów)
Populacja Próba losowa
Składa się z N elementów: składa się z n elementów
N- skończona n- skończona
N- nieskończona
Frakcja (częstość) występowania wartości xi w próbie równa fi/n może szacować szansę realizowania się tej wartości w całej populacji.
p (X = xi) ≈ fi/n ,
gdzie fi – to tzw. „frekwencja” wartości xi (liczba „wystąpień” xi w próbie).
[Oznaczamy liczbę pytań testu psychologicznego przez k, dla uniknięcia mylenia oznaczeń]
Licząc frakcję każdej wartości xi (i= 1,...,k) możemy oszacować rozkład zmiennej losowej w populacji.
Symbol P (X= xi)- interpretuje się jako prawdopodobieństwo zdarzenia polegającego na tym, że zmienna losowa przyjmuje (lub ma) wartość xi
Nieznane parametry rozkładu prawdopodobieństwa można oszacować przez ich estymatory liczone w próbie.
WŁASNOŚCI MIAR CENTRUM
Własności średniej arytmetycznej
Jest punktem równowagi odległości wszystkich pomiarów mniejszych od średniej i wszystkich większych od średniej środek ciężkości dla rozkładu
∑ (xi – x̄) = 0
(suma odchyleń wszystkich pomiarów od średniej arytmetycznej równa jest zeru)
[- jest punktem „środkiem ciężkości” rozkładu frekwencji]
Suma kwadratów wszystkich odchyleń wielkości pomiarowych od ich wielkości średniej jest mniejsza od sumy kwadratów odchyleń tych pomiarów od każdej dowolnej wielkości pomiarowej xo, xo≠ x̄, xo ∈ X.
$\sum_{i = 1}^{n}{(x}$i- x̄)2 < $\sum_{i = 1}^{n}{(x_{i} - \ {x\bar{}}_{0})^{2}\ }$
Jest bardzo zależna (x) od wartości skrajnych (wobec pozostałych).
Własności mediany
Suma bezwzględnych odchyleń wszystkich wartości pomiarowych xi od ich mediany jest mniejsza od odchyleń tych pomiarów od jakiejkolwiek innej wartości xo ∈ X, xo≠ me.
$\sum_{i = 1}^{n}\left| x_{i} - me \right|$ $< \ \sum_{i = 1}^{n}\left| x_{i} - x_{0} \right|$
Jest niezależna od wielkości skrajnych
Własności modalnej – bardzo zależna od rozpiętości h klasy
MIARY SKOŚNOŚCI ROZKŁADU X
I miara
K̂= $\frac{3(x\bar{} - me)}{S}$
Gdy k̂ >0 – rozkład dodatnio skośny; prawo skośny
Gdy k̂ < 0 – rozkład ujemnie skośny; lewo skośny
Gdy k̂= 0 rozkład może być symetryczny x̄= me= m !
WŁASNOŚCI MIAR ROZPROSZENIA
Jeżeli do wszystkich pomiarów xi zmiennej x doda się taką samą stałą, c, to odchylenie standardowe zmiennej x+c pozostanie niezmienione, równe σ; c ∈ R
W próbie:
Sx = Sx+c
Jeżeli wszystkie pomiary xi zmiennej X zostaną pomnożone przez pewną, taką samą, wartość stałą, c, to odchylenie standardowe zmiennej c ∙ X zostanie zwiększone o |c| względem odchylenia zmiennej X.
W próbie:
Sx c= |c| ∙ Sx
Stąd:
Sx+c2 = Sx2
Sc x2= c2 Sx2
Rozważając różnicę dowolnej pary wartości xi-xj, dla i, j= 1,...,n; i≠j, widać, że jest ich $\frac{n\ (n - 1)}{2}$. Okazuje się, że:
Uśredniona suma kwadratów różnic między parą pomiarów równa jest podwojonej wariancji.
$$\frac{\sum_{\begin{matrix}
i,j = 1 \\
i \neq j \\
\end{matrix}}^{n}{(x_{i} - x_{j})^{2}}}{\frac{n(n - 1)}{2\not{}}} = \overset{\not{}}{2} \bullet \ s^{2}$$
Stąd:
$s^{2} = \frac{1}{n\left( n - 1 \right)}\sum_{\begin{matrix} i,j = 1 \\ \\ \end{matrix}}^{n}{(x_{i} - x_{j})^{2}}$ , I ≠ j
WYNIKI STANDARDOWE (wyniki standaryzowane)
TRANSFORMACJA STANDARYZACJI.
xi- wynik surowy zmiennej X
zi- wynik standardowy zmiennej X
w próbie:
zi= $\frac{x - x\bar{}}{S}$
Z własności miar rozproszenia wynika, że skoro odchylenie standardowe zmiennej X równe jest s, to odchylenie standardowe zmiennej X-x̄ (x minus stała) równe jest także s
Dalej, ( x-x̄) ∙ $\frac{1}{S}$ (x-x̄ pomnożona przez stałą) ma odchylenie S pomnożone przez stałą, czyli $\frac{s}{s}$= 1. Zmienna „Z” ma odchylenie równe 1
Z postaci wzoru bezpośrednio wynika, że średnia arytmetyczna zmiennej Z równa jest 0
Wyniki standardowe stosuje się w celu porównywania pomiarów otrzymywanych przy użyciu różnych procedur u tego samego badanego, bądź badanych między sobą.
$\sum_{i = 1}^{n}{z_{i}^{2} = \ \sum_{i = 1}^{n}\frac{(x_{i} - \ x\bar{})^{2}}{s^{2}}} = \ \frac{1}{s^{2}}\ \sum_{i = 1}^{n}(x_{i} - \ \overset{\bar{}}{x})^{2} = \ \frac{\sum_{i = 1}^{n}(x_{i} - \ \overset{\bar{}}{x})^{2}}{\left\lbrack \sum_{i = 1}^{n}(x_{i} - \ \overset{\bar{}}{x})^{2} \right\rbrack \bullet \ \frac{1}{(n - 1)}} = n - 1$
$$\sum_{i = 1}^{n}{z_{i}^{2} = n - 1}$$
DYSTRUBUANTA ZMIENNEJ LOSOWEJ
(„skumulowane prawdopodobieństwo”)
Dystrybuantą zmiennej losowej X, F (x) nazywa się funkcję określoną wzorem:
F(x)= P(X≤x)
(dystrybuanta w punkcie x, to prawdopodobieństwo, ze zmienna losowa przyjmie wartości mniejsze, bądź równe x).
Estymatorem dystrybuanty w próbie dla xi są frekwencje skumulowane podzielone przez liczbę elementów próby, fci/n.
Dystrybuanta (ogiva) jest funkcją rosnącą.
NORMALNY ROZKŁAD PRAWDOPODOBIEŃSTWA
„modelowe” rozkłady Bernouliego są rozkładami symetrycznymi, p=q. Gdy n jest bardzo duże (n- długość zdarzenia elementarnego), zmienna losowa X ma bardzo wiele wartości. Jej rozkład zilustrowano niżej.
Widać, że dla n bardzo dużego- ze względu na wygodę liczenia prawdopodobieństwa zdarzeń złożonych, jest sens aproksymować („przybliżyć”) ten rozkład krzywą ciągłą.
Gdy p≠q rozkłady Bn;p będą skośn. Im bardziej p≠q, tym większa skośność tych rozkładów. Przy bardzo dużych n (rzędu kilkadziesiąt) odstępstwa rozkładów skośnych od krzywych symetrycznych (różnice wartości dla każdego x) są bardzo małe; toteż można je zaniedbać (nawet gdy p bardzo różni się od q).
Krzywa ciągła, którą można aproksymować rozkład dwumianowy dla dostatecznie dużych n, to funkcja wykładnicza opisana przez Gaussa;
Rozkład dwumianowy charakteryzuje zmienną losową X, o wartościach naturalnych „to”, dyskretną, z przedziału <o, n>
Rozkład normalny (krzywa Gaussa) charakteryzuje zmienną losową X o wartościach z przedziału (- ∞, +∞), ciągłą.
Postać krzywej Gaussa, lub inaczej funkcji gęstości „normalnej”.
$$P\left( X = x \right) = f\left( x \right) = \ \frac{1}{\sigma \bullet \sqrt{2\Pi}} \bullet e^{- \frac{1}{2}(\frac{x - \mu}{\sigma})^{2}}$$
gdzie e- stała Eulera, podstawa logarytmu naturalnego
Rozkład normalny zależy od dwu parametrów: wartości oczekiwanej i odchylenia standardowego. Jest krzywą symetryczną. Ponieważ jest krzywa ciągłą, to nie suma prawdopodobieństw poszczególnych x∈ X równa jest jedności, ale pole pod krzywa dla całej liczb rzeczywistych równe jest jedności [P(E)=1; E jest zbiorem nieskończonym].
Innymi słowy pytania o szansę zrealizowania pojedynczych wartości zmiennej losowej X (które miały sens przy rozkładzie dwumianowym zmiennej) tu nie maja racji bytu. Sens mają wyłącznie pytania o szansę zrealizowania się zmiennej losowej o wartościach z przedziału (ciągłego) < x1, x2>:
P (x1≤X≤x2); P (-∞<X<+∞)
[Ten przedział może być bardzo mały, ale nie może być pojedynczym punktem].
Przyjmuje się oznaczenie rozkładu normalnego:
P (X=x) = f(x) = N (µ; σ2)
TRANSFORMACJA STANDARYZACJI
[Przeskalowanie zmiennej X]
X zmienia się na Z
X z = $\frac{x - u}{\sigma}$; w próbie z= $\frac{x - x\bar{}}{S}$
Własności transformacji:
Jest to przesunięcie skali o µ oraz jej zwężenie ( gdy σ jest większe od 1) lub rozszerzenie (gdy σ jest mniejsze od 1)
Wartość oczekiwana zmiennej wystandaryzowanej równa jest 0
Odchylenie standardowe zmiennej wystandaryzowanej Z równe jest 1; wariancja równa jest 1.
Standaryzacja umożliwia interpretacje wyniku osoby badanej w kategoriach:
x= µ + z∙ σ
liczby odchyleń standardowych od średniej, czyli interpretację wyniku pojedynczego osoby w kontekście przeciętnego wyniku grupy.
Wystandaryzować można dowolną zmienną, zarówno dyskretną, jak i ciągłą, przy czym:
Standaryzacja nie zmienia rozkładu prawdopodobieństwa zmiennej dyskretnej;
Standaryzacja zmienia rozkład prawdopodobieństwa zmiennej ciągłej
Niezależnie od wielkości µ i σ dowolnej zmiennej, także jej rozkładu, po transformacji zawsze otrzymuje się zmienną z o identycznych parametrach
µ=0; σ 2=1
Zależność funkcji gęstości oraz dystrybuant zmiennych losowych przed i po- wystandaryzowaniu
W przypadku rozkładu normalnego prawdopod. X
$$f\left( x \right) = \frac{1}{\sigma \bullet \sqrt{2\Pi}}e^{- \frac{1}{2}(\frac{x - \mu}{\sigma})^{2}}$$
1 z
$$g\left( z \right) = \frac{1}{\sqrt{2\Pi}}e^{- \frac{z^{2}}{2}}$$
Znając funkcje gęstości wystandaryzowanego rozkładu normalnego g(x) w prosty sposób wyznacza się wartość f(x) (znając odchylenie standardowe zmiennej), funkcję gęstości dowolnej zmiennej o rozkładzie normalnym.
[ Toteż funkcja g(x) została zapisana w tablicach- patrz TABLICE STATYSTYCZNE dowolnego autora]
W przypadku zmiennej o dowolnym rozkładzie ze względu na konieczność „zachowania pola” pod funkcją gęstości na odpowiadających sobie odcinkach X przed i po- standaryzacji (aby pole dla całej X i Z równe było jedności):
P (x1≤x≤x2) = F(x2) – F(x1) = P(z1≤z≤z2)
W przypadku rozkładu normalnego, dla którego dystrybuanta ma stałe oznaczenie Φ:
P(x1≤x≤x2)= Φ(z2) – Φ(z1)
Podobnie jak funkcja gęstości, dystrybuanta rozkładu N(0;1) została zapisana w tablicach
WŁASNOŚCI WYSTANDARYZOWANEGO ROZKŁADU NORMALNEGO
Zatem:
Pole na odcinku jednego odchylenia standardowego od średniej (na lewo i prawo) stanowi 68% całego pola w przypadku zmiennej o normalnym rozkładzie prawdopodobieństwa.
Na odcinku dwu odchyleń- 95,5% całego pola, zaś na odcinku 3 odchyleń- 99,7 pola.
TWIERDZENIE MOIVRE’A- LA PLACE’A
Ciąg wystandaryzowanych dystrybuant Fn rozkładu dwumianowego jest, przy n ∞, zbieżny do dystrybuanty rozkładu normalnego standaryzowanego, czyli do Φ(z).
Wniosek:
Dla dostatecznie dużych n (rzędu co najmniej kilkudziesięciu) można szacować:
P(x1≤X ≤x2) = P(z1≤Z ≤z2) ≈ Φ(z2) – Φ(z1)
Przy czym: Z= $\frac{X - np}{\sqrt{\text{n\ } \bullet p \bullet q}}$
PODSTAWY WNIOSKOWANIA
P(a ≤$\text{\ \ }\frac{Y_{(n)}\ - n \bullet p}{\sqrt{n \bullet p \bullet q}}$ ≤ b) = Φ (b) – Φ(a)
µ= n • p w rozkładzie
σ2= n • p • q dwumianowym zmiennej Y(n)
Parametry- charakterystyki rozkładu prawdopodobieństwa zmiennej losowej (czyli charakterystyki rozkładu w populacji). Np. miary centrum.
Parametry to ustalone wartości.
Ich szacunki w próbach, inaczej estymatory, zależą od konkretnej próby; są zatem zmienne, są przypadkowymi wartościami.
Estymatory to zmienne losowe.
W konkretnej próbie można znaleźć wartość estymatora ustalonego parametru.
Tw. Lindeberga- Levyego: Centralne twierdzenie graniczne
Jeżeli z populacji, w której zmienna losowa X ma dowolny rozkład prawdopodobieństwa ze średnią µ i wariancją σ 2 losujemy kolejne próby losowe o coraz większej liczbie elementów n, to wraz ze wzrostem liczby losowań, rozkład estymatora µ, czyli rozkład średniej z próby, X, dąży do rozkładu normalnego ze średnią µ i wariancją σ2/n:
N (µ; σ 2/n)
Wniosek z centralnego twierdzenia granicznego:
Jeżeli z populacji, w której zmienna losowa X ma rozkład normalny ze średnią µ i wariancją σ 2 losujemy próby o ustalonej dużej liczebności n, to wraz ze wzrostem liczby losowań rozkład estymatora µ, czyli rozkładu średniej z próby, X, dąży do rozkładu normalnego ze średnią µ i warinacją σ 2/n:
N (µ; σ 2/n)
Błąd mierzący stopień zmienności statystyki (np. średniej arytmetycznej) wywołany czynnikami przypadkowymi, to błąd standardowy tej statystyki.
Def. Błąd standardowy statystyki jest to odchylenie standardowe (w rozkładzie z próby) tej statystyki
Np. σx̄ =$\text{\ \ }\frac{\sigma}{\sqrt{n}}$
PRZEDZIAŁY UFNOŚCI
Wiadomo, że dla dowolnej zmiennej losowej X:
z = $\frac{x - u}{\sigma}$ X= µ + z ∙ σ
Toteż:
z = $\frac{x\bar{} - u}{\sigma}$ = $\frac{x\bar{} - u}{\frac{\sigma}{\sqrt{n}}}$ x̄= µ + z ∙ $\frac{\sigma}{\sqrt{n}}$
NORMY
Def. Kwartylem k rzędu m, k= 1,2,...,m, zmiennej losowej X nazywa się wartość x X spełniająca równanie: P(X≤x) = $\frac{k}{m}$, 0< $\frac{k}{m}$ ≤ 1
m= 4 $\frac{k}{4}$ k= 1,2,3,4 - kwartyle
m= 10 $\frac{k}{10}$ k= 1,2,...,5,...,10 - decyle
m= 100 $\frac{k}{100}$ k= 1,2,...,50,...,100- centyle/ percentyle
PODSTAWY WNIOSKOWANIA
P( µ- zα $\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$ ≤ x ≤ µ+ zα $\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$) = 1- α
α- wyraża wielkość błędu wnioskowania
Def. Poziom istotności (wnioskowania) α, jest wielkością błędu wnioskowania, polegającego na przypuszczeniu odnośnie parametrów populacji.
Interpretacja: Poziom istotności (wnioskowania) α, w rozkładzie z próby statystyki stanowi ustaloną (przez badacza) „sumę” prawdopodobieństw najmniej prawdopodobnych wartości tej statystyki.
Jest to „łączne” prawdopodobieństwo dla najmniej prawdopodobnych wartości tej statystyki.
Np. α= 0,05
Poziom ufności (wnioskowania o właściwościach parametrów w populacji) jest wielkością równą 1- α
Przedział ufności (w konkretnym rozkładzie z próby statystyki) jest to przedział wartości tej statystyki (zmiennej losowej) odpowiadający poziomowi ufności.
Obszar krytyczny (w konkretnym rozkładzie z próby jest to przedział wartości tej statystyki odpowiadający poziomowi istotności.
TEORIA ESTYMACJI
Oszacowania punktowe (np. nieznanej, prawdziwej wartości µ) nic nie mówią o rzetelności, czy precyzji metody szacunku, która została użyta.
Np. µ≈x̄
Stąd powinny zawsze uzupełnione być informacjami, które pozwoliłyby osądzić ich zalety
Takimi dodatkowymi informacjami, wynikającymi z CTG jest możliwość stwierdzenia z prawdopodobieństwem 1- α, że x̄ będzie się różniła od µ mniej niż $z_{1 - \frac{\alpha}{2}}$ odchyleń standardowych rozkładu średnich.
Inaczej mówiąc, gdy σ jest znane:
x̄ będzie się różniło od µ mniej, niż o $z_{(1 - \frac{\alpha}{2})}$ ∙ $\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$
x̄- µ traktujemy jako błąd, który popełniamy przyjmując x̄ jako oszacowanie wartości µ
Z prawdopodobieństwem 1- α twierdzimy, że wielkość błędu jest mniejsza niż $z_{(1 - \frac{\alpha}{2})}$ ∙ $\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$
Wiedząc, że: $Z_{1 - \frac{0.05}{2}}$ = 1,96
$Z_{1 - \frac{0.02}{2}}$ = 2,33 twierdzić możemy, że; np.:
$Z_{1 - \frac{0.01}{2}}$ = 2,58
„Z prawdopodobieństwem 0,98, błąd szacunku X-µ jest mniejszy niż 2,33 σ/$\sqrt{n}$.”
Toteż: P(|x̄- µ|< $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ )= 1- α
Związaniem równania jest:
- $Z_{\left( 1 - \frac{\alpha}{2} \right)} \bullet \ \frac{\sigma}{\sqrt{n}}$ <x̄ - µ< $Z_{\left( 1 - \frac{\alpha}{2} \right)} \bullet \ \frac{\sigma}{\sqrt{n}}$
Zatem:
x̄ - $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ < µ< x̄ + $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$
Z prawdopodobieństwem 1- α twierdzimy, że nierówność ta jest spełniona dla dowolnej próby.
P(x̄ - $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ < µ< x̄ + $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ ) = 1- α
Gdy σ nie jest znane:
Do powyższego wzoru można zamiast σ można wprowadzić jego oszacowanie na podstawie próby σ≈S
Aby to oszacowanie było „sensowne”, próba musi być duża, n- duże, a i tak nie wiadomo czy różnica obydwu wielkości jest dodatnia, czy ujemna.
$Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{s}{\sqrt{n}}$ i $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$
[czyli, który z błędów jest większy]
Wyłącznie duże próby pozwalają na punktowe szacowanie δ i stosowanie powyższego wzoru.
Przy małych próbach procedura jest inna.
Dygresja:
TEORIA ESTYMACJI (SPOSÓB SZACOWANIA PARAMETRÓW POPULACJI)
Estymacja punktowa
Estymacja przedziałowa
P(x̄ - $z_{\alpha} \bullet \ \frac{\sigma}{\sqrt{n}}$ < µ < x̄ + $Z_{\alpha} \bullet \ \frac{\sigma}{\sqrt{n}}$ ) = 1- α
Gdy σ nie jest znane, szacuje się je punktowo odchyleniem standardowym wyliczonym w próbie σ ≈S
Toteż:
P(x̄ - $z_{\alpha} \bullet \ \frac{s}{\sqrt{n}}$ < µ < x̄ + $Z_{\alpha} \bullet \ \frac{s}{\sqrt{n}}$ ) = 1- α
PODSTAWY WNIOSKOWANIA
Rozkład prawdopodobieństwa t- studenta
Zmiennej losowej t
WNIOSEK Z CENTRALNEGO TWIERDZENIA GRANICZNEGO:
Jeżeli pobieramy kolejno próby losowe o ustalonej i małej liczebności n z populacji, w której zmienna losowa ma rozkład normalny ze średnią µ i nieznaną wariancją σ2, to wraz ze wzrostem liczby losowań rozkład średniej z próby dąży do spłaszczonego rozkładu normalnego.
Spłaszczenie jest tym większe, im mniejsza liczebność próby.
Takie rozkłady po wystandaryzowaniu noszą noszą nazwę rozkładów prawdopodobieństwa t- studenta zmiennej (wystandaryzowanej) t.
HIPOTEZA STATYSTYCZNA
Def. Hipoteza statystyczna to jakiekolwiek przypuszczenie dotyczące nieznanego rozkładu populacji generalnej.
Na podstawie próby chce się sprawdzić, czy wysunięta hipoteza jest słuszna. Zadaniem teorii sprawdzania (weryfikowanie) hipotez jest budowa odpowiednich metod rozstrzygania o słuszności hipotezy.
Najczęściej o rozkładzie populacji generalnej mamy pewne informacje a priori, np. że zmienna ma rozkład normalny. Wtedy hipoteza może dotyczyć jednego lub obydwu z jego parametrów.
Czasami tylko wiadomo, że zmienna ma rozkład ciągły (wiedza jest skromna).
Ogólnie – wiedza a priori o rozkładzie zmiennej X w populacji generalnej wyznacza zbiór możliwych rozkładów tej zmiennej.
Zbiór ten nazywa się zbiorem hipotez dopuszczalnych Ω.
Wysuwane hipotezy statystyczne muszą należeć do tego właśnie zbioru (wysuwanie innych nie miałoby sensu).
Jeżeli elementy zbioru Ω (czyli rozkłady) różnią się między sobą co najwyżej wartościami parametrów, to wysuwane hipotezy nazywa się hipotezami parametrycznymi: Ω p
Jeżeli elementy zbioru Ω różnią się nie tylko wartościami parametrów, ale i postacią funkcji, wówczas hipotezy nazywamy nieparametrycznymi: Ω n
Każda hipoteza statystyczna ma postać F(x) w, gdzie w jest wyspecyfikowanym podzbiorem zbioru hipotez dopuszczalnych Ω
H: F(x) ⋲ w
Jeżeli podzbiór w składa się tylko z jednego elementu, wtedy H jest hipotezą prostą.
Hipoteza tak w sposób jednoznaczny określa przypuszczalny rozkład populacji generalnej.
Jeżeli do w należy więcej niż jeden rozkład, wtedy H jest hipotezą złożoną.
Np. zbiór hipotez dopuszczalnych Ω, to zbiór rozkładów normalnych, czyli zbiór typu Ω p. Wysuwamy hipotezę, że µ=2; H: µ=2 z dowolnym odchyleniem standardowym.
Ω składa się z nieskończonej liczby rozkładów normalnych o średniej 2. Jest to hipoteza złożona.
Gdy jednak znamy σ, np. σ =1, wtedy stawiając H: µ=2 identyfikuje się konkretny rozkład normalny; jest to zatem hipotez prosta.
Np. zbiór Ω, to rozkład normalny o σ =1. Przy H: µ > 2, postawiliśmy hipotezę złożona choć parametryczną.
W szczególności hipotezy są postaci, np.
H0: µ1 = µ2 H0: µ1 = µ2
H1: µ1 ≠ µ2 H1: µ1 > µ2
Hipoteza zerowa
Hipoteza alternatywna
H0 : µ= 15 lub H0 : µ- 15= 0
H1: µ< 15 H1: µ- 15< 0
Hipoteza zerowa jest sprawdzana (weryfikowana) przy założonej decyzji odnośnie postępowania po jej ewentualnym odrzuceniu.
Nie jest obojętne bowiem, czy tę hipotezę odrzuca się na rzecz alternatywnej hipotezy „różnościowej” czy „kierunkowej”
Postać hipotezy alternatywnej determinuje sposób sprawdzania hipotezy zerowej (testowania hipotezy).
Hipotezę zerową sprawdza się (weryfikuje, testuje się)
TESTEM STATYSTYCZNYM:
dwustronnym (przy hipotezie alternatywnej różnościowej)
jednostronnym (przy hipotezie alternatywnej kierunkowej).
BŁĘDY WNIOSKOWANIA
Wydaję się iż:
weryfikowana hipoteza zerowa może zostać potwierdzona lub odrzucona w toku podejmowania decyzji przez badacza
Schemat wnioskowania statystycznego
Racje (założenia) wnioski, następstwa (konkluzje)
A B
Z prawdziwości A zawsze wynika prawdziwość B
A
założenia „o cechach”, czyli o rodzaju pomiaru i skali
założenia „o charakterze” populacji (zależne, niezależne) i o stosowanych metodach pobierania prób (losowe, duże, ...)
założenia o postaci rozkładu zmiennych (cech)
rozumowanie matematyczne konieczne do zbudowania zdań probabilistycznych, dotyczących wiarygodności poszczególnych wyników prób- cała teoria prawdopodobieństwa, statystyka matematyczna (błędy wnioskowania)
[zdania te mówię: gdy A prawdziwe i inne założenia prawdziwe, to w większości przypadków rezultaty z próby znajdują się w pewnym określonym przedziale wyników
B
wartość statystyki testu znajduje się w przedziale wartości prawdopodobnych (lub nie)
POZIOM BŁĘDÓW WNIOSKOWANIA
DECYZJA D = D1 D2 | HIPOTEZA zerowa PRAWDZIWA | HIPOTEZA zerowa FAŁSZYWA |
---|---|---|
PRZYJĄĆ H0 D1 |
O WŁAŚCIWA |
BŁĄD II RODZAJU WIELKOŚCI β |
ODRZUCIĆ H0 PRZYJĄĆ H1 D2 |
BŁĄD I RODZAJU WIELKOŚCI α | O WŁAŚCIWA |
POZIOM UFNOŚCI WNIOSKOWANIA
DECYZJA D = D1 D2 | HIPOTEZA zerowa PRAWDZIWA | HIPOTEZA zerowa FAŁSZYWA |
---|---|---|
PRZYJĄĆ H0 D1 |
1 - α | 1 - β |
ODRZUCIĆ H0 PRZYJĄĆ H1 D2 |
1 - α | MOC TESTU 1 - β |
BŁĘDY WNIOSKOWANIA
Statystyka dostarcza jedynie niezbędnych kryteriów podziału wszystkich wyników ( wartości statystyk weryfikujących H0) pomiędzy dwie klasy:
Podział wyników prawdopodobnych, gdy H0 prawdziwa (PRZEDZIAŁ UFNOŚCI)
Przedział wyników bardzo mało prawdopodobnych (OBSZAR KRYTYCZNY)
Wyniki zaliczane są do jednej albo drugiej klasy w zależności od tego, jakie ryzyko popełnienia błędów I i II rodzaju badacz jest skłonny ponieść
Charakter błędów:
Błąd II rodzaju - wywodzi się z czysto logicznego błędu wnioskowania
AB (Jeżeli B jest prawdziwe, A może być prawdziwe, lub nie. Może istnieć pewna liczba teorii alternatywnych również wywołujących B)
[poszukiwanie racji dla następstwa (gdy kierunek rozumowania i wynikania logicznego jest przeciwny) – to rozumowanie indukcyjne.]
Błąd I rodzaju α – wywodzi się z probabilistycznego charakteru teorii.
( Jeżeli A jest prawdziwe, to B prawdopodobnie również jest prawdziwe. Dopuszcza się możliwość fałszywości B, gdy prawdziwe A).
Gdy zawsze będziemy odrzucać A, gdy B będzie fałszywe (wynik statystyki testu leży w obszarze krytycznym), ponosić będziemy ryzyko popełnienia błędu polegającego na odrzuceniu hipotezy prawdziwej. Jego wielkość jest równa α.
Test t – studenta
Zmienna X- skala (przynajmniej) przedziałowa
X N (µ; σ2)
Próba losowa n- elementowa
α- określone subiektywnie
H0 : µ = µ0
H1 : µ ≠ µ0
t = $\frac{x\bar{} - \text{µ\ }}{\sigma_{x\bar{}}}$ = $\frac{x\bar{} - u}{s}$ ∙ $\sqrt{n}$ postać statystyki testu
Gdy |t|> tα,f H0− hipotezę zerową odrzuca się z P= 1 – α, przyjmując alternatywną z P=1 – α
Gdy |t|> tα,f H0+ nie ma podstaw do odrzucenia hipotezy zerowej (1 – β)
Test t – studenta dla dwu populacji niezależnych
Jeżeli pobieramy niezależnie duże próby losowe parami odpowiednio o liczebności n1 i n2 zdwu populacji niezależnych o rozkładach (zmiennej X) normalnych:
N (µ1; σ12)
N (µ2; σ 22),
to rozkład z próby różnicy między średnimi (x̄1 – x̄2) dąży do rozkładu normalnego ze średnią µ1 - µ2 oraz wariancją $\frac{\sigma_{1}^{2}}{n_{1}}$ + $\frac{\sigma_{2}^{2}}{n_{2}}$
Zmienna X- skala (przynajmniej) przedziałowa
Zmienna ma normalny rozkład w 1. – populacji;
N (µ1; σ 12)
Zmienna ma normalny rozkład w 2. – populacji;
N (µ2; σ 22)
Dwie próby losowe o liczebnościach n1 i n2
α – określone subiektywnie
H0 : µ1 = µ2 = µ
H1 : µ1 > µ2
Postać statystyki testu t= $\frac{\left( {x\bar{}}_{1} - {x\bar{}}_{2} \right) - \ (u_{1} - u_{2})}{\sigma_{\left( {x\bar{}}_{1} - {x\bar{}}_{2} \right)}}$
t= $\frac{\left( {x\bar{}}_{1} - {x\bar{}}_{2} \right) - \ 0}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}\ + \ \frac{\sigma_{2}^{2}}{n_{2}}}}$ wynik wystandaryzowany
Załózmy: Homogeniczne Heterogeniczne
Test F- Fishera
Założenia:
Skala (przynajmniej przedziałowa)
X N (µ1; σ 12)
X N (µ2; σ 22)
Dwie próby losowe, niezależne
α – określone subiektywnie
H0 : σ 1= σ 2 = σ 2
H1 : σ 1 > σ 2
Statystyka testu Fishera F= $\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \approx \ \frac{s_{1}^{2}}{s_{2}^{2}} \geq 1$
S1 – wariancja większa (z próby o liczebności n1), ze stopniami swobody f1 = n1- 1
S2 – wariancja mniejsza (z próby o liczebności n2), ze stopniami swobody f2= n2 – 1
TEST T- STUDENTA
Dla dwu populacji zależnych
Jeżeli pobieramy kolejno zależne próby losowe parami o dużej liczebności n z dwu populacji, w których zmienna x1 i x2 mają rozkład normalny, to, gdy D= X1- X2 jest zmienną różnic pomiarów (o rozkładzie normalnym ze średnią µD i wariancją σ D), rozkład średniej zmiennej D, XD, dąży do rozkładu normalnego ze średnią µD i wariancją σ D/n.
Populacje zależne:
X1, X2- mierzalne Postać statystyki testu:
X1 N (µ1; σ12) t= $\frac{{x\bar{}}_{D} - \mu_{D}}{S_{D}}\ \bullet \ \sqrt{n} = \ \frac{{x\bar{}}_{1} - {x\bar{}}_{2}}{\sqrt{\frac{\sum_{i = 1}^{n}{di^{2}} - \ n \bullet \ ({x\bar{}}_{1} - {x\bar{}}_{2})^{2}}{\left( n - 1 \right) \bullet \ n}}}$
X2 N (µ2; σ22)
X1, X2 – zależne, D= X1- X2
n- liczebność próby wynik standaryzowany- |t|> tα,f H0− f= n-1
α – określone subiektywnie
METODY ANALIZY WARIANCJI
Służą do analizy centrum rozkładów wielu populacji niezależnych lub zależnych (jednej bądź wielu zmiennych).
Gdy analizowana jest jedna zmienna X- mówi się o jednowymiarowej analizie wariancji i wieloczynnikowej (w szczególności jednoczynnik.)
Zmienna A nazywa się czynnikiem kontrolowanym w badaniu, gdy celowo zostały wyróżnione pewne jej poziomy wartości (w skończonej liczbie) na podstawie których populacja została podzielona na podpopulacje
Jednowymiarowa analiza wariancji stosowana jest wyłącznie dla populacji niezależnych. Oprogramowana została w procedurze ANOVA.
X- to zmienna zależna (objaśniona)
A, B ...- to zmienne niezależne (objaśniające)
Gdy interesujemy się wieloma zmiennymi zależnymi x1, x2, ..., xr- używamy wielowymiarowej analizy wariancji (r- wymiar) i wieloczynnikowej MANOVA.
ANALIZA WARIANCJI PROSTA
[jednowymiarowa, jednoczynnikowa analiza wariancji dla populacji niezależnych]
Złożenia:
X – skala (przynajmniej) przedziałowa
X N (µ; σ2)
X N (µ1; σ 12)
N (µ2; σ 22)
N (µk; σ k2)
Próby losowe, duże, równoliczne, niezależne
σ 12 = σ 22 = ...= σ k2 = σ 2 – homogeniczność wariancji
α- określone subiektywnie
H0: µ1= µ2= ...= µk= µ αi = µi - µ ≠ 0
H1: ≈ H0 efekt główny działania i- tego poziomu
H0: $\sum_{i = 1}^{k}{\alpha = 0}$ czynnika A
H1: ≈ H0
H0: αi = 0
H1: ≈ H0
$$\frac{\sigma^{2}}{\sigma^{2}} = F = \ \frac{\frac{1}{k - 1}\ \sum_{i = 1}^{k}{({x\bar{}}_{i} - x\bar{})^{2\ } \bullet \ n_{i}}}{\frac{1}{n - k}\ \lbrack\left( n_{1} - 1 \right)s_{1}^{2} + \left( n_{2} - 1 \right)s_{2}^{2} + \ldots + \left( n_{k} - 1 \right)s_{k}^{2}\ \rbrack}$$
F> Fα.f ,f H0-
Badanie homogeniczności wariancji odbywa się testem Bartletta
Gdy założenie to jest spełnione,
σ 12 = σ 22 = ...= σ k2 = σ 2
wariancję w populacji można szacować estymatorem łącznym wariancji z k- prób
σ 2= s2= $\frac{s_{1}^{2}\ + s_{2}^{2}\ + \ldots + s_{k}^{2}\text{\ \ }}{k} = \frac{1}{n - k}\ \left\lbrack \left( n_{1} - 1 \right)s_{1}^{2} + \left( n_{2} - 1 \right)s_{2}^{2} + \ldots + \left( n_{k} - 1 \right)s_{k}^{2}\ \right\rbrack = \ \frac{1}{n - k}\ \sum_{i = 1}^{k}{\sum_{j = 1}^{n}{(x_{\text{ij}} - {x\bar{}}_{i}\ )^{2}}}$
Gdy prawdziwa jest hipoteza zerowa, z założenia o normalności rozkładu X wynika, iż „rozrzut” średnich grupowych może być szacunkiem wariancji w populacji, gdy próby są równoliczne.
$${\sigma\ }_{x\bar{}}^{2} = \ \sigma^{2}/m$$
$${\sigma\ }^{2} = m \bullet \text{\ \ }\sigma_{x\bar{}}^{2}$$
estymator wariancji średnich jest:
m $\frac{1}{n - k}\ \sum_{i = 1}^{k}{({x\bar{}}_{i} - \ x\bar{})^{2}}$
Iloraz dwu różnych oszacowań wariancji w populacji jest statystyką F- Fishera. Satatystyka ta ma rozkład F- Snedecova.
$$F = \frac{{\sigma\ }_{\text{II}}^{2}}{{\sigma\ }_{I}^{2}} \approx \ \frac{m \bullet \ \sigma_{x\bar{}}^{2}}{\frac{s_{1}^{2}\ + s_{2}^{2}\ + \ldots + s_{k}^{2}\text{\ \ }}{k}}$$
$$F = \ \frac{\frac{m}{k - 1}\ \sum_{i = 1}^{k}{({x\bar{}}_{i} - \ x\bar{})^{2}}}{\frac{1}{n - k}\ \lbrack\sum_{i = 1}^{k}{\sum_{j = 1}^{m}{(x_{\text{ij}} - {x\bar{}}_{i}\ )^{2}}}}$$
Niezbyt poprawnie w literaturze statystycznej dopuszcza się próby o różnej liczebności przy stosowaniu ANOVA’y:
$$F = \ \frac{\frac{1}{k - 1}\ \sum_{i = 1}^{k}{{x\bar{}}_{i} - \ x\bar{})^{2}\text{\ \ } \bullet n_{i}}}{\frac{1}{n - k}\lbrack\sum_{i = 1}^{k}{\sum_{j = 1}^{n}{(x_{\text{ij}} - {x\bar{}}_{i}\ )^{2}}\rbrack}}$$
Nawet, gdy spełnione jest założenie homogeniczności wariancji w podpopulacjach, nie wiadomo jaki rozkład ma statystyka F. Może nie mieć rozkładu centralnego:
INTERAKCJA CZYNNIKÓW I KONTRASTY MIĘDZY PARAMETRAMI
Interakcja czynników lub inaczej współdziałanie czynników (w badaniu) wpływające na zmienność Y, występuje wtedy, gdy kontrolowane są przynajmniej dwa czynniki.
Np. A k=4 - istnieją istotne efekty główne przy braku interakcji czynników
B l=3
B B
µij | 1 2 3 | µi |
---|---|---|
1 2 3 4 |
12 14 11,5 11,5 13,5 11 10 12 9,5 8,5 10,5 8 |
12,5 12 10,5 9 |
µj | 10,5 12,5 10 | µ=11 |
1 2
µ11 - µ12= -2
µ21 - µ22= -2
µ31- µ32= -2
µ41 - µ42= -2
µ1- µ2 µj µ1- µ2= 10,5- 12,5= -2
Podobnie, np.:
µ32- µ41= 1,5 µi
µ32- µ42= 1,5 µ3- µ4= 10,5- 9= 1,5
µ33- µ43= 1,5
Wszystkie różnice między wierszami, czy kolumnami są stałe (różnią się o stałą). Mówi się, iż średnie są addytywne. A i B- niezależne we wpływie na Y.
Zatem współdziałanie nie może być zdefiniowane w podobny sposób ja efekty główne działania [np. i-tego poziomu czynnika: µ1- µ], czyli przez różnicę np. średnich: µij- µ (patrz tabela). Widać, że różnica między średnimi µij (z wnętrza tabeli) nie świadczy o współdziałaniu poziomów A i B.
Własność addytywności średnich:
µij- µi= µj- µ ,oraz
µij- µj= µi- µ „odcinki parami równe”
- „własność prostokąta”
Po dodaniu stronami:
2 µij – 2 µi – 2 µj + 2 µ = 0
µij – µi – µj + µ = 0
Negacja tego równania:
(αβ)ij = µij – µi – µj + µ ≠0
- „interakcja” i-tego poziomu czynnika A z j-tym poziomem czynnika B we wpływie na Y;
efekt interakcyjny
np. A k=3 - istnieją efekty interakcyjne przy braku efektów głównych obydwu czynników
B l=3
Analiza efektów interakcyjnych jest niezależna od analizy efektów głównych.
Toteż w dwuczynnikowej analizie wariancji weryfikuje się trzy hipotezy
H0 : αi=0 i=1,2,...,k
H0 : βj=0 j=1,2,...,l ogólnie hipotez:
H0 : (αβ)ij=0 dla i=1,...,k L = 2c – 1
J=1,...,l c- liczba czynników
KONTRASTY PARAMETRÓW
1 czynnik – A – kontrolowany: αi - αi = µi - µi , dla i≠i. - kontrast „zwykły”, I rzędu.
2 czynniki – A, B – kontrolowane: [(αβ)ij - (αβ)ij ] – [((αβ)i j - (αβ)i j] = (µij - µij ) - (µi j - µi j ),
dla i≠i , j≠j - kontrast II rzędu
Liczba kontrastów: I rzędu - k
A (k- poziomów) 2
II rzędu
A (k- poziomów)
B (l- poziomów)
STRUKTURA WYNIKU OSOBY BADANEJ O NUMERZE r:
Yijr = µ + αi + βj +(αβ)ij + Εijr
Yijr= µij + Εijr
ZMIENNOŚĆ CAŁKOWITA WYNIKÓW POMIARÓW
Liczba prób - k × l
Liczebność próby – m
Liczba elementów całej próby $n = m \times k \times l = \sum_{i = 1}^{k}{\sum_{j = 1}^{l}n_{\text{ij}}}$
Yijr - µ = Yijr - µijr + µijr - µi + µi - µj + µj - µ + µ - µ = (µi - µ) + (µj - µ) + (µij - µi - µj + µ) + (Yijr - µijr)
Podnosząc obydwie strony do kwadratu, następnie sumując wszystkie osoby z całej populacji, a na poziomie próby – wszystkie osoby z próby dostajemy:
STOPNIE SWOBODY WARIANCJI
SSTOTAL = SSA + SSB + SSAxB + SSERROR
(n -1)= (k -1) + (l -1) + (l -1) (k -1) + (n-k l)
$$\frac{SS}{n - 1} \neq \frac{\text{SS}}{k - 1} + \frac{\text{SS}}{l - 1} + \ \frac{\text{SS}}{\left( k - 1 \right)(l - 1)} + \ \frac{\text{SS}}{n - k\ \ l}$$
WARIANCJE:
MSTOTAL≠ MSA +MSB + MSAxB + MSERROR
DWUCZYNNIKOWA ANALIZA WARIANCJI
Założenia:
Y – skala (przynajmniej) przedziałowa
Próby niezależne, losowe, równoliczne
Liczba prób równa iloczynowi poziomów obydwu czynników: k × l
Liczba elementów wszystkich prób n = k × l × m
Y – ma rozkład normalny w całej populacji Y ~ N (µi ; σi2), i= 1,...,k
Y ~ N (µj ; σj2),j= 1,...,l
oraz ich przecięcia: Y ~ N (µij ; σij2)
Wariancje wszystkich rozważanych podpopulacji są homogeniczne: σij2 = σi2 = σj2= σ2
α – subiektywnie określone
Założenie o homogeniczności należy bezwzględnie zweryfikować testem Bartletta
PROBLEMATYKA PRZEWIDYWANIA WARTOŚCI (OCZEKIWANEJ) ZMIENNEJ, Y, DGY ZNANE SĄ WARTOŚCI INNEYCH ZMIENNYCH
(obniżanie zmieności „niewyjaśnionej” – Y)
REGRESJA
Modele regresji
niech Y oraz X1, X2, ..., Xk będą mierzalne
Y- zmienna objaśniana (zależna, kryterium, endogeniczna)
X1, ... , Xk – zmienne objaśniające (niezależne, predykatory, egzogeniczne)
Poszukuje się modelu najlepiej wyjaśniającego „zachowanie się” Y.
W sensie formalnym- szuka się „najlepszej” funkcji, czyli postaci funkcji: Y= f(X1, ... , Xk) nie zawsze zależnej od wszystkich argumentów.
W szczególnych przypadkach jest to funkcja liniowa. Mówi się wtedy o:
REGRESJI LINIOWEJ
Populacja: Y= β1X1 + β2X2 + ... + βkXk + α
gdzie α, β1, β2, ..., βk – parametry; współczynniki regresji (do oszacowania)
Próba: Ŷ= b1X1 + b2X2 + ... + bkXk + a,
gdzie a, b1, ... , bk – estymatory nieobciążone; szacunki współczynnika regresji
W szczególności, w przypadku jednej zmiennej objaśnianej i jednej objaśniającej ma się do czynienia z ...
PROSTA REGRESJA LINIOWA
Y = βX + α
Kiedy szukanie rozwiązania liniowego ma sens?
Założenia:
W populacji – istnieje dwuwymiarowy rozkład normalny zmiennej (X,Y), czyli: zmienna Y ma rozkład normalny dla każdego punktu x X
Wszystkie rozkłady mają identyczne wariancje- jest to warunek tzw. HOMOSCEDASTYCZNOŚCI WARIANCJI
Średnie (µ) wszystkich rozkładów leżą na jednej prostej;
Wartości oczekiwane zmiennej Y dla różnych wartości zmiennej X leżą na jednej prostej
[ Homoscedastyczność wariancji jest założeniem „każdej” regresji, niekoniecznie liniowej. Jeżeli wartości oczekiwane Y (dla różnych X) leżą na krzywej – poszukiwana krzywa regresji powinna należeć do klasy funkcji „najbliższej” postaci tej funkcji- np. wielomian drugiego stopnia]
SPOSÓB WYZNACZANIA PROSTEJ
-------------------------------------------
Całkowita zmienność Y:
(yi - ȳ) = yi -ŷi + ŷi - ȳ = (yi -ŷi) + (ŷi - ȳ)
Po podniesieniu obydwu stron do kwadratu i zsumowaniu po wszystkich osobach otrzyma się podział zmienności całkowitej
$\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2} = \ \sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2} + 2\sum_{i = 1}^{n}{\left( y_{i} - {y\hat{}}_{i} \right)\left( {y\hat{}}_{i} - \text{\ y}\bar{} \right) + \ \sum_{i = 1}^{n}{({y\hat{}}_{i} - \ y\bar{})}^{2}}$
= 0
Ostatecznie:
$\sum_{i = 1}^{n}{{(y_{i}\ - \ y\bar{})}^{2}\text{\ \ \ \ }} = \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2}\ \ \ \ \ \ + \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sum_{i = 1}^{n}{({y\hat{}}_{i} - \ y\bar{})}^{2}$
zmienność całk. Y zmienność Y niewyjaśniona zmienność wyjaśniona
X-em (znajomością zmienności X) X-em (znajomością
zmienności X)
Dzieląc obydwie strony przez wartość lewej strony otrzyma się:
$$1 = \ \frac{\sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2}}{\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2}}\ \ + \text{\ \ }\frac{\sum_{i = 1}^{n}{({y\hat{}}_{i} - \ y\bar{})}^{2}}{\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2}}$$
Część zmienności Y nie- część zmienności Y
wyjaśniona X-em wyjaśniona X-em; świadcząca o „związku” Y z X-em o
stopniu przewidywalności Y z X-a;
dobroci dopasowania prostej do
zbioru punktów
Współczynnik determinacji: $\text{r\ }^{2} = 1 - \ \frac{\sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2}}{\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2}}$
Jak „optymalnie” wpisać prostą w grupę punktów (wyników próbkowych)
Stosuje się tzw. kryterium Legendre’a, polegające na szukaniu rozwiązania (czyli wartości b i a) poprzez minimalizowanie tzw. reszty regresji (licznika cześci zmienności Y niewyjaśnionej X-em):
$$\sum_{i = 1}^{n}{{(y_{i} - {y\hat{}}_{i})}^{2} = min.}$$
Oznacza to równocześnie maksymalizowanie r2
Ta metoda nazywa się metodą najmniejszych kwadratów i jest jedną z metod wyznaczania estymatorów współczynników regresji.
r2 – współczynnik determinacji (Y przez X); miara stopnia wyjaśniania zmienności Y przez zmienność X.
0 ≤ r2 ≤ 1
r = $\sqrt{r^{2}}$ = $\sqrt{1 - \ \frac{\sum_{i = 1}^{n}\left( y_{i} - {y\hat{}}_{i} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i}\ - \ y\bar{} \right)^{2}}} = \left( po\ zastosowaniu\ metody\ najmniejszych\ kwadratow \right)$
$$- 1 \leq r = \ \frac{\sum_{i = 1}^{n}{\left( x_{i}\ \ - \ x\bar{} \right) \bullet \ (y_{i}\ - \ y\bar{})}}{\left( n - 1 \right) \bullet \ s_{x} \bullet \ s_{y}\ } \leq \ + 1$$
współczynnik liniowej siły związku X i Y; współczynnik korelacji r- Pearsona
r=0 brak związku
korelacja – związek, zależność
kowariancja – współzależność, współzmienność
rYX = rXY = $\frac{\text{cov}}{\text{S\ \ \ \ \ \ \ S}}$ , gdzie covX,Y = $\frac{\sum_{i = 1}^{n}{\left( x_{i}\ \ - \ x\bar{} \right)\ \ \ (y_{i}\ - \ y\bar{})}}{n - 1}$
-1 ≤ r ≤ +1 cov R
Odchylenia standardowe „uśredniona współzmienność”
zmiennych X i Y stanowią dodatnia lub ujemna – to kowariancja X i Y
element normujący r
KOWARIANCJA Y z Y to WARIANCJA Y (podobnie dla dowolnej innej zmiennej)
Po zastosowaniu metody najmniejszych kwadratów estymatory współczynników regresji są postaci:
$$b = \ \frac{\text{cov}}{S_{x}^{2}} = \ \frac{\sum_{i = 1}^{n}{x_{i}y_{i}} - (\sum_{i = 1}^{n}{x_{i})} (\sum_{i = 1}^{n}{y_{i})/n}}{\sum_{i = 1}^{n}x_{i}^{2} - {(\sum_{i = 1}^{n}{x_{i})}}^{2}/n}$$
$a = \overset{\bar{}}{y} - bx\bar{}$ [punkt (x̄,ȳ) leży na prostej regresji, toteż: ȳ = bx̄ + a]
lub: $b = r_{\text{XY}} \ \frac{S_{Y}}{S_{X}}$
$a = \overset{\bar{}}{y} - bx\bar{}$
Toteż Ŷ można inaczej (niż Ŷ= bx + a) przedstawić w postaci:
$\hat{Y} = r \frac{S_{y}}{S_{x}}\left( x - \overset{\bar{}}{x} \right) + y\bar{}$
Zatem, gdy obydwie zmienne są wystandaryzowane:
${Z\hat{}}_{Y} = r Z_{X}$
PROBLEM PREDYKCJI ODWROTNEJ
rYX = rXY - wynika bezpośrednio z definicji
ale: bYX ≠ bXY oraz aYX ≠ aXY
Przy interpretacji krzywej regresji trzeba dokładnie wiedzieć „co” z „czego” jest przewidywane.
Regresja jest jednokierunkowa!
Współczynnik korelacji liniowej r- Pearsona jest niezmiennikiem przekształceń liniowych
tzn.
Niech: X̕ = a X + b
Y̕ = c Y + d
gdy a i c są tego samego znaku (a·c >0)
Odwrotnie jakiekolwiek „przeskalowanie” dowolnej zmiennej zmienia współczynniki regresji (estymatory regresji).
Jakakolwiek transformacja danych, nawet przesunięcie o stałą, zmienia postać równania regresji.
BADANIE SIŁY ZALEŻNOŚCI DWÓCH CECH
X- skala przedziałowa (przynajmniej)
Y- skala przedziałowa (przynajmniej)
X- ma rozkład normalny dla każdej wartości Y (średnie leża na jednej prostej, wariancje homogeniczne)
Y- ma rozkład normalny dla każdej wartości X
Próba duża
H0 : ρ = 0
H1 : ρ < 0
$$r = \frac{\sum_{i = 1}^{n}{\left( x_{i} - \overset{\bar{}}{x} \right)(y_{i} - \overset{\bar{}}{y})}}{\left( n - 1 \right) S_{x} S_{y}}$$
MIARA SIŁY ZALEŻNOŚCI DWU ZMIENNYCH PORZĄDKOWYCH
Gdy zmienne, X i Y, są mierzalne, lecz nie ma możliwości sprawdzenia założenia o postaci ich rozkładów (z powodu np. małej próby)
Lub gdy jedna ze zmiennych, lub obydwie nie są mierzalne, lecz są porządkowe, do zweryfikowania hipotezy o niezależności X i Y stosuje się np. test
τ – Kendalla (tau)
Statystyka testu nie jest wyznaczana z wartości „pierwotnych” obydwu zmiennych, a z wartości porangowanych
RANGOWANIE- ustawianie obiektów podlegających rangowaniu w kolejności oraz nadawanie im kolejnych numerów
Ranga- to kolejny numer obiektu, przy czy nie zawsze jest to liczba naturalna.
[Jeżeli wiele wartości pierwotnych zmiennych było identycznych (w próbie) pojawiają się tzw. rangi wiązane, które jako wartości średnie miejsc zajmowanych przez „obiekty” równorzędne- mogą być liczbami rzeczywistymi]
Osoby: · · · · ... Osoby: · · · ·
Rangi: 1 2 3 4 ... Rangi: 1 2,5 2,5 4 6 6 6
(przypisywane
osobom)
Niżej kategorie zmiennej X i Y, charakteryzujące pięć osób badanych, oraz rangi nadawane tym kategoriom (pośrednio- osobom)
Lp. | X | Y | X | Y | RX | RY | Si+ |
Si− |
Si |
---|---|---|---|---|---|---|---|---|---|
1. 2. 3. 4. n=5. |
3 4 5 3 3 |
2 2 4 3 4 |
5 4 3 3 3 |
4 2 3 2 4 |
1 2 4 4 4 |
1,5 4,5 3 4,5 1,5 |
3 0 0 0 0 |
0 2 0 0 0 |
3 -2 0 0 0 |
Σ | - | - | - | - | 15 | 15 | 3 | 2 | S=1 |
Wartości zmiennej X
zostały uporządkowane $\sum_{}^{n}{R_{X} = \sum_{}^{n}{R_{Y} = \frac{n(n - 1)}{2}}}$
od (diagnostycznie)
„najlepszej” do „najgorszej”
Jaka postać rang świadczy o uporządkowaniach absolutnie zbędnych wartości obydwu zmiennych, [czyli o wysokiej DODATNIEJ (WPROST) sile zależności obydwu zmiennych]
RX | RY | Si+ |
Si− |
---|---|---|---|
1 2 3 . . . n-1 n |
1 2 3 . . . n-1 n |
n-1 n-2 n-3 . . . 1 0 |
0 0 0 . . . 0 0 |
Σ | - | $$\frac{n(n - 1)}{2}$$ |
0 |
RX | RY | Si+ |
Si− |
---|---|---|---|
1 2 3 . . . n-1 n |
n n-1 n-2 . . . 2 1 |
0 0 0 . . . 0 0 |
n-1 n-2 n-3 . . . 1 0 |
$$S = \frac{n(n - 1)}{2}$$ |
- | 0 | $$\frac{n(n - 1)}{2}$$ |
Postać rang, świadcząca o uporządkowaniach absolutnie przeciwnych wartości obydwu zmiennych [wysoka siła UJEMNA (ODWROTNA) zależności obydwu zmiennych]
$$S = - \frac{n(n - 1)}{2}$$
Si+- jest (dla ustalonego i-tego obiektu) liczbą tych obiektów spośród wszystkich pozostałych, dla których rangi zmiennej Y- przy wzrastających rangach zmiennej X- także rosną
Si− - jest (dla ustalonego i- tego obiektu) li liczbą tych obiektów spośród wszystkich pozostałych, dla których rangi zmiennej Y- przy wzrastających rangach zmiennej X- maleją;
jest liczbą inwersji (przestawień wartości Y przy wzrastających wartościach X).
Statystyka $S = \ \sum_{}^{}S_{i}^{+} - \sum_{}^{}S_{i}^{-} = \ S_{+} - \ S_{-}$ wyraża przewagę uporządkowania zgodnego par rang nad uporządkowaniem odwrotnym rang.
Maksymalna wartość S równa jest $\frac{n(n - 1)}{2}$ (z dokładnością do znaku) i świadczy i bardzo wysokiej sile zależności obydwu zmiennych, stąd wystarczy znaleźć iloraz S wyliczonego z danych względem Smax, aby określić unormowaną miarę zależności dwu zmiennych porzadkowych.
${\tau\hat{}}_{A} = \frac{S_{\text{empir}}}{S_{\max}} = \ \frac{S_{\text{empir}}}{\frac{n(n - 1)}{2}}$ $\hat{\tau} = \ \frac{2 S}{n\ (n - 1)}$ ; $- 1 \leq \ \hat{\tau}\ \leq \ + 1$
Test 𝛕- Kendalla
Założenia:
X, Y- skale porządkowe
α
H0 : τ=0
H1 : τ<0 lub τ>0, lub τ ≠0
a) ${\tau\hat{}}_{a} = \frac{2S}{n(n - 1)}$, gdy rangi obydwu zmiennych są wolne
b) w przypadku rang wiązanych:
${\tau\hat{}}_{b} = \ \frac{S}{\sqrt{\left( \frac{n\left( n - 1 \right)}{2} - T \right) (\frac{n\left( n - 1 \right)}{2} - U)}}$ , gdzie
T- poprawka wynikająca z liczby węzłów:
$T = \frac{1}{2}\sum_{i = 1}^{l}t_{i}\left( t_{i} - 1 \right) = \sum_{}^{}\frac{t_{i}(t_{i} - 1)}{2}$
l- liczba węzłów X
ti- liczba rang wiązanych w i-tym węźle, 1 ≤ i ≤ l
U- poprawka wynikająca z liczby węzłów
$U = \frac{1}{2}\sum_{i = 1}^{g}t_{i}\left( t_{i} - 1 \right)\ $
g- liczba węzłów Y
ti- liczba rang wiązanych w i-tym węźle, 1 ≤ i ≤ g
Jeśli |τ̂|> τα,n H0−
τα,n – wartość krytyczna testu przy ustalonym poziomie istotności α i wielkości próby n odczytywana z tabel.
ROZKŁAD PRAWDOPODOBIEŃSTWA χ2
Rozkład normalny
Transformacje standaryzacji: $z = \frac{X - u}{\sigma}$
Rozkład normalny wystandaryzowany:
Utwórzmy zmienną losową Z2. Jej rozkład:
$$u = \ \frac{\sum_{i = 1}^{n}z_{i}^{2}}{n} = \ \frac{\sum_{i = 1}^{n}{(z_{i}^{} - 0)}^{2}}{n} = \sigma_{z}^{2} = 1$$
Rozważmy sumę k- niezależnych zmiennych Z o rozkładzie normalnym wystandaryzowanym, N (0;1)
χ2 [K]= $\sum_{i = 1}^{n}z_{i}^{2}$ - zmienna losowa o rozkładzie χ2 z k – stopniami swobody
k≥ 2; µ=k; m= k – 2 (modalna); σ[k]2 = 2 k
ZASTOSOWANIE ROZKŁADU PRAWDOPODOBIEŃSTWA χ2(CHI- KWADRAT)
Badanie rozkładu:
Badanie zgodności rozkładu empirycznego zmiennej z teoretycznym
Badanie zgodności dwu rozkładów empirycznych zmiennej
Badanie niezależności zmiennych nominalnych
Rozkład χ2 jest rozkładem asymptotycznym wielu statystyk różnych od statystyki χ2, toteż słuzy do wyznaczania wartości krytycznych różnych statystyk.
TEST CHI – KWADRAT
Oparty na statystyce:
$$\chi^{2} = \sum_{i = 1}^{k}\frac{(f_{o} - \ f_{e})^{2}}{f_{e}}$$
fo – frekwencje otrzymane
fe – frekwencje oczekiwane
- służy do badania zgodności rozkładu empirycznego z teoretycznym
Jeżeli H0 o zgodności rozkładu zmiennej X z konkretnym rozkładem teoretycznym, jest prawdziwa, dla każdej klasy wartości X wyznacza się frekwencje oczekiwane, fe, na podst. złożonego rozkładu teoretycznego.
Jednakże, aby zbyt małe różnice między fo i fe nie były „nieznaczące” przy małych fe „waży się” je, dzieląc przez frekwencje oczekiwane.
Np.
fo |
fe |
(fo − fe)2 |
---|---|---|
2 | 4 | ( - 2)2 |
172 | 174 | ( - 2)2 |
4/ 4 = 1
4/ 174 = 0,023
ALGORYTM OBLICZANIA FREKWENCJI OCZEKIWANYCH PRZY ZAŁOŻENIU NORMALNEGO ROZKŁADU PRAWDOPODOBIEŃSTWA ZMIENNEJ
H0 : rozkład X jest normalny
H1 : ~ H0
X- mierzalna uciąglona. Wprowadza się dodatkową klasę wartości ( - ∞, ∙ >, gdzie ∙ to wartość najmniejsza uzyskana w badaniu, np. 0, lub od niej mniejsza (zależnie od rozpiętości klasy, h). Podobnie, wprowadza się klasę <∙, ∞). Obydwie klasy mają frekwencje empiryczne równe (chyba 0- ucięta kalka).
Oblicza się X̄ i s zmiennej (ze wzorów dla danych sklasyfikowanych).
Standaryzuje się górne granice wszystkich klas.
Z tabel dystrybuanty rozkłady normalnego odczytuje się jej wartości dla wyznaczonych „ z-ów”. Znajduje się prawdopodobieństwo dla wartości X z danej klasy (różnica dystrybuant dla górnej i dolnej granicy po wystandaryzowaniu)
Prawdopodobieństwo przyporządkowane klasom, przez wartości X zamienia się na frekwencje oczekiwane, posługując się szacunkiem:
$p_{i} \approx \ \frac{f_{e_{i}}}{n};\ \ \ f_{e_{i}} \approx \ p_{i}\ \bullet n$, gdzie n – liczebność próby.
xi |
xgi |
zgi |
Φ(zgi) |
Pi = Φ(zgi) − Φ(zgi−1) |
fei = pi • n |
---|---|---|---|---|---|
0 9 -11 12 – 14 15 – 17 ∙ ∙ ∙ |
8.5 11.5 14.5 ∙ ∙ ∙ |
∙ ∙ ∙ ∙ |
∙ ∙ ∙ ∙ |
∙ ∙ ∙ |
∙ ∙ ∙ |
Dla tabeli typu „2 x 2” (dwie zmienne dychotomizowane lub dychotomiczne; nominalne) wyznaczenie jednej frekwencji oczekiwanej determinuje wartości wszystkich pozostałych.
fij |
∑ | ||
---|---|---|---|
fe |
∙ - fe | ∙ | |
o -fe | x | ||
∑ | o | x | n |
Jeden stopień swobody przy wyznaczaniu feij
!!!! Statystyka χ2 ma jeden stopień swobody.
$\chi^{2} = \ \sum_{i,j}^{2\ x\ 2}\frac{(f_{o_{\text{ij}}} - \ f_{e_{\text{ij}}})^{2}}{f_{e_{\text{ij}}}}$; f = 1
Statystyka χ2 ma asymptotyczny rozkład χ2: χ2 > χα, f2 ⇒ H0−
Zmienna X ma k – kategorii, Y – l – kategorii
fij |
1 | .. | .. | l | ∑ |
---|---|---|---|---|---|
1 | |||||
... | • | ∑i |
|||
k | |||||
∑ |
∑j |
n |
Frekwencje oczekiwane- przy założeniu prawdziwości hipotezy zerowej- wyznacza się: $f_{e_{\text{ij}}} = \ \frac{\sum_{i}\ \bullet \ \sum_{j}}{n}$
Statystyka χ2 ma asymptotyczny rozkład χ2 z f = (k – 1) (l – 1) stopniami swobody
Jeśli χ2 > χα, f2 ⇒ H0−
Zmienne są zależne (przy 𝜶 ...)
Powstaje problem wyznaczenia „siły” tej zależności informującej o stopniu współwystępowania konkretnej kategorii X z konkretną kategorią Y.
UWAGA!
We wzorze χ2 uwzględnia się tylko te klasy, których frekwencje oczekiwane są większe od 1.
fei > 1 , i = 1, ... , k
Jeśli klasy (zwłaszcza skrajne) nie spełniają tego warunku „przyłącza się” je do klas najbliżej położonych.
Żąda się też, by co najwyżej $\frac{1}{5}\ $klas spośród wyznaczonych zawierała foi < 5 . W przeciwnym razie łączy się klasy.
Decyzja:
χ2 > χα, f2 ⇒ H0−
f = k – 3 trzy warunki ograniczające : suma pi równa się 1; średnia i wariancja X
[Badanie zgodności z rozkładem dwuzmiennowym f = k – 2 suma pi równa się 1; średnia
BADANIE ZGODNOŚCI DWU ROZKŁADÓW EMPIRYCZNYCH
Zmienna X i Y – zdychotymizowane
fij |
1 | 2 | ∑ |
---|---|---|---|
a | ⨀ |
||
b | ⨂ |
||
∑ |
o | x | n |
H0 : Π1a = Π2a
H1 : ~ H0
H0 : X i Y są niezależne
H1 : ~ H0
Założenie niezależności zdarzeń implikuje:
Pa1 = P(a ⋀ 1) = P (a) ∙ P (1) = $\frac{\bigodot}{n}\ \bullet \ \frac{O}{n}$ fea1 = Pa1 • n
Pa2 = P(a ⋀ 2) = P (a) ∙ P (2) = $\frac{\bigodot}{n}\ \bullet \ \frac{x}{n}$ fea2 = Pa2 • n
$f_{e_{\text{ij}}} = \ \frac{\left( \text{suma\ wiersza\ i} \right) \bullet (suma\ kolumny\ j)}{n}$
MIARY KONTYNGENCJI
Tabela typu „2 x 2”:
$$\chi^{2} = \ \frac{{n\ (bc - ad)}^{2}}{\left( a + b \right)\left( c + d \right)\left( a + c \right)(b + d)}$$
fij |
Y | ∑ |
|
---|---|---|---|
x | a | b | a+b |
c | d | c+d | |
∑ |
a+c | b+d | n |
χmax2 = n
Miara kontyngencji φ- Yule’a:
$$0\ \leq \varphi = \ \sqrt{\frac{\chi^{2}}{\chi_{\max}^{2}}} = \sqrt{\frac{\chi^{2}}{n}} \leq 1\ $$
Ponieważ χ2 osiąga wartość maksymalną tylko wtedy, gdy rozkłady brzegowe frekwencji (wierszy i kolumn) odpowiadają sobie, φ najczęściej nie ma odniesienia (przy interpretacji) do 1, której nie osiąga.
Proponowana poprawka Cale’go nie jest właściwym rozwiązaniem. [Istnieje „luka teoretyczna”. Czeka na rozwiązanie.]
Tabela typu „k x l”:
(k i l – równocześnie różne od 2)
$\chi^{2} = \ \sum_{i,j}^{}{\frac{f_{o_{\text{ij}}}^{2}}{f_{e_{\text{ij}}}} - \ n}$ |r|= $\sqrt{\frac{9}{1 + 9}}$
Jeżeli k = l ; k≥3 :
χmax2 = (k−1) • n
Miara kontyngencji c – Pearsona:
$$0\ \leq c = \ \sqrt{\frac{\chi^{2}}{\chi^{2} + \ n}} < 1\ $$
Jak widać nigdy nie osiąga jedności.