kalki przepisane

MIEJSCE STATYSTYKI W NAUCE

Informowanie, obserwowanie, gromadzenie doświadczenia, komunikacja między ludźmi odbywa się- w głównej mierze- przy pomocy zdań (prostych, złożonych; warunkowych, etc.)
Zdania nie tworzą bezsensownych układów wyrażeń; zawarte w nich „treści” (znaczenia) potrafimy systematyzować tworząc nowe zdania. Robi się to według pewnej logiki.
Logika zdań, czy teorią zdań jest rachunek zdań zajmujący się związkami międzyzdaniowymi (ujmowanymi w zdaniach złożonych).
Jednym z rodzajów zdań złożonych rozważanych w rachunku zdań jest IMPLIKACJA („wynikanie”) przypominająca pod pewnymi względami okres warunkowym w języku naturalnym. Stąd symbol implikacji: odczytuje się przy pomocy spójnika „ jeżeli..., to...”.

np. dla zdań p i q, implikacja pq oznacza „jeśli p, to q”.

Zdanie p jest poprzednikiem implikacji, lub racją lub przesłanką
Zdanie q jest następnikiem implikacji, lub następstwem logicznym, lub wnioskiem, lub skutkiem.

Rozumowanie (za Łukasiewiczem, Czeżowskim, czy Ajdukiewiczem) jest to „taka część umysłu, która prowadzi na podstawie zdań danych- będących punktem wyjścia rozumowania- do zdań innych będących celem rozumowania, a połączonych z poprzednikiem stosunkiem wynikania”.

Zatem, rozumowanie jest bądź:

Poszukiwaniem następstwa dla racji (gdy kierunek rozumowania zgadza się z kierunkiem wynikania logicznego).
Poszukiwaniem racji dla następstwa (gdy kierunek rozumowania i wynikania logicznego są przeciwne). Jest to tzw. ROZUMOWANIE NIEINDUKCYJNE, INDUKCYJNE.

W naukach empirycznych takich jak ekonomia, organizacja i zarządzanie, nauki społeczne (psychologia, socjologia, resocjalizacja, pedagogika,... itd.) wszelkie zdania teorii, teorii empirycznej (racje) uzasadniane są, - w ostatecznej instancji- przy pomocy zdań, które zdają sprawę z rezultatów obserwacji bezpośredniej lub z użyciem przyrządów (następstwa).

Noszą one nazwę zdań spostrzeżeniowych lub obserwacyjnych (ang. preceptual statements, obserwation statements)

Zatem sposób uzasadniania twierdzeń dzieli naukowców- przynajmniej- na dedukcjonistów i indukcjonistów.
W naukach empirycznych twierdzenia uzasadnia się indukcyjnie

Szuka się prawa skończona liczba obserwacji

przyrody, którego następstw pewnych

prawdopodobnym skutkiem nieznanych praw przyrody

są następstwa

Jeżeli zajścia lub niezajścia zdarzenia nie można przewidzieć i jeżeli powiedzenie, że „zachodzi ono” lub „nie zachodzi” ma zawsze sens, to mówi się, że takie zdarzenie jest zdarzeniem losowym.

Zdarzenia losowe to np. wyniki obserwacji, wyniki doświadczenia itd.

Zdarzenia – w szczególności- dotyczące obserwowanych poziomów własności, cech obiektów badanych (wybranych z całej populacji obiektów).

Zdarzenia losowe – w szczególności- to konkretne pomiary cech elementów próby; zdarzeniom losowym przyporządkowane są liczby.
Stąd, w uproszczeniu, ZMIENNA LOSOWA to funkcja (rzeczywista) na wszystkich dopuszczalnych zdarzeniach losowych.
Zmienne losowe są mierzalne i niemierzalne w zależności od rodzaju użytej skali do odczytania wyniku pomiaru

Skala nominalna zmienne niemierzalne
Skala porządkowa (rangowa)
Skala przedziałowa (interwałowa)
Skala stosunkowa (ilorazowa) zmienne mierzalne

P(x)= ($\frac{n}{x}$)/2ⁿ= ($\frac{n}{x}$)($\frac{1}{2}$)ⁿ = ($\frac{n}{x}$)($\frac{1}{2}$)^x × ($\frac{1}{2}$)^n-x

prawdopodobieństwa p(c) p(D)

zdarzeń prostych: p + q =1

Rozkład dwumianowy prawdopodobieństwa zm. X

- Rozkład Bernoulli’ego:

B_n;p = P(x) = ($\frac{n}{x}$) × p^x × q^(n-x)

p = p(c ) statystycznie wynosi 0,514
q = p (D) statystycznie wynosi 0,486

Rozkład prawdopodobieństwa dla X nie będzie symetryczny (im bardziej p ≠ q tym większa asymetria):

x	p=q	p≠q
5 4 3 2 1 0	0,031 0,156 0,313 0,313 0,156 0,031	0,036 0,170 0,321 0,303 0,143 0,027
∑	1	1

0,031

0,156

0,313

0,156

0,031

0,036

0,170

0,321

0,303

0,143

0,027

∑

Wartość oczekiwana zmiennej losowej X,

µ = $\sum_{x = 0}^{n}x$ × P(x) = n×p

(średnia arytmetyczna zmiennej losowej, czy statystycznej)

POJĘCIE PRAWDOPODOBIEŃSTWA

Jeżeli zajścia lub niezajścia zdarzenia nie można przewidzieć i jeżeli powiedzenie, że „zachodzi ono” lub „nie zachodzi” ma zawsze sens, to mówi się, że takie zdarzenie jest zdarzeniem losowym.

Zdarzenia losowe to np. wyniki obserwacji, wyniki doświadczenia itd.
W teorii prawdopodobieństwa pojęcie zdarzenia losowego wprowadzone jest aksjomatycznie.
Nie wszystkie zdarzenia losowe interesują badacza. Zbiór zdarzeń dopuszczalnych generuje jego pytanie badawcze, problem badawczy.
Dla konkretnego problemu badacz konstruuje konkretny model probabilistyczny. Modele mogą być bardzo różne, natomiast „ujęcie problemu szacowania szansy”, filozofia rozwikłania tego zagadnienia- taka sama.
Punktem wyjścia jest określenie zbioru niepodzielnych, nierozkładalnych, pierwotnych zdarzeń losowych.

Jeżeli zdarzenia A nie można przedstawić

CHARAKTERYSTYKA ROZKŁADU PRAWDOPODOBIEŃSTWA ZMIENNEJ LOSOWEJ X

Miary centralne rozkładu: Miary rozproszenia wartości X:

(miary tendencji centralnej) σ² - wariancja

µ - wartość oczekiwana X (σ – odchylenie standardowe)

(średnia arytmetyczna) v- rozpiętość (przedział określoności X)

M – modalna

(wartość najbardziej prawdopodobna)

Me – mediana

Miary skośności
Miary „płaskości” (kurtoza)

PARAMETRY

Statystyka (matematyczna) jest teorią, umożliwiającą porównywanie i analizowanie rozkładów prawdopodobieństwa różnych zmiennych losowych w różnych zbiorowościach generalnych (populacjach).

Przykłady populacji (zbiory obiektów, na których określona jest X)

Rodziny pięciodzietne
Sześciolatki uczęszczające do „zerówki”
Uzależnieni od alkoholu, ...

TRÓJKĄT PASCAL’A

Liczba sposobów ustawienia elementów dwu rodzajów na n- miejscach, gdy elementów pierwszego rodzaju jest X

X 1 2 3 4 5 6 7

0 1 1 1 1 1 1 1

1 1 2 3 4 5 6 7

2 - 1 3 6 10 15 21

3 - 1 4 10 20 35

4 - 1 5 15 35

5 - 1 6 21

6 - 1 7

7 - 1

. –

.

∑= 2ⁿ 2 4 8 16 32 64 128

PRZYKŁAD

Test psychologiczny, składający się z n- pytań z odpowiedziami „tak” lub „nie” (pytania typu rozstrzygnięcia) ma rozkład B_n;p przy założeniu takiej samej szansy odpowiedzi „tak” na każde pytanie konkretnej osoby badanej.

STATYSTYKA OPISOWA X W PRÓBIE

Założenie stałej wartości p (np. stałej szansy odpowiedzi „tak” na każde pytanie w kwestionariuszu psychologicznym) jest zbyt mocne i praktycznie nie do przyjęcia.

Założenie słabsze, prawdziwe- że być może dla niektórych pytań p są identyczne, dla części różne- jest w rzeczywistości nie do sprawdzenia, aczkolwiek, gdyby wszystkie p_i (i = 1,...,n) były znane, łatwo byłoby zbudować model prawdopodobieństwa i znaleźć rozkład prawdopodobieństwa zmiennej losowej X (której znaczenie wyrażone jest treścią pytań testu psych.). byłby to model dość skomplikowany formalnie.

We współczesnym ujęciu przy szacowaniu szansy zrealizowania się konkretnej wartości zmiennej losowej (cechy, wielkości) zdefiniowanej w zbiorowości generalnej (populacji) odwołujemy się do częstości występowania tej wartości w próbie losowej elementów wybranych z tej populacji (oczywiście- skończonej liczbie elementów)

Populacja Próba losowa

Składa się z N elementów: składa się z n elementów

N- skończona n- skończona
N- nieskończona

Frakcja (częstość) występowania wartości x_i w próbie równa f_i/n może szacować szansę realizowania się tej wartości w całej populacji.

p (X = x_i) ≈ f_i/n ,

gdzie f_i – to tzw. „frekwencja” wartości x_i (liczba „wystąpień” x_i w próbie).

[Oznaczamy liczbę pytań testu psychologicznego przez k, dla uniknięcia mylenia oznaczeń]

Licząc frakcję każdej wartości x_i (i= 1,...,k) możemy oszacować rozkład zmiennej losowej w populacji.
Symbol P (X= x_i)- interpretuje się jako prawdopodobieństwo zdarzenia polegającego na tym, że zmienna losowa przyjmuje (lub ma) wartość x_i
Nieznane parametry rozkładu prawdopodobieństwa można oszacować przez ich estymatory liczone w próbie.

WŁASNOŚCI MIAR CENTRUM

Własności średniej arytmetycznej

Jest punktem równowagi odległości wszystkich pomiarów mniejszych od średniej i wszystkich większych od średniej środek ciężkości dla rozkładu

∑ (x_i – x̄) = 0

(suma odchyleń wszystkich pomiarów od średniej arytmetycznej równa jest zeru)

[- jest punktem „środkiem ciężkości” rozkładu frekwencji]

Suma kwadratów wszystkich odchyleń wielkości pomiarowych od ich wielkości średniej jest mniejsza od sumy kwadratów odchyleń tych pomiarów od każdej dowolnej wielkości pomiarowej x_o, x_o≠ x̄, x_o ∈ X.

$\sum_{i = 1}^{n}{(x}$_i- x̄)² < $\sum_{i = 1}^{n}{(x_{i} - \ {x\bar{}}_{0})^{2}\ }$

Jest bardzo zależna (x) od wartości skrajnych (wobec pozostałych).

Własności mediany

Suma bezwzględnych odchyleń wszystkich wartości pomiarowych x_i od ich mediany jest mniejsza od odchyleń tych pomiarów od jakiejkolwiek innej wartości x_o ∈ X, x_o≠ me.

$\sum_{i = 1}^{n}\left| x_{i} - me \right|$ $< \ \sum_{i = 1}^{n}\left| x_{i} - x_{0} \right|$

Jest niezależna od wielkości skrajnych

Własności modalnej – bardzo zależna od rozpiętości h klasy

MIARY SKOŚNOŚCI ROZKŁADU X

I miara

K̂= $\frac{3(x\bar{} - me)}{S}$

Gdy k̂ >0 – rozkład dodatnio skośny; prawo skośny
Gdy k̂ < 0 – rozkład ujemnie skośny; lewo skośny
Gdy k̂= 0 rozkład może być symetryczny x̄= me= m !

WŁASNOŚCI MIAR ROZPROSZENIA

Jeżeli do wszystkich pomiarów x_i zmiennej x doda się taką samą stałą, c, to odchylenie standardowe zmiennej x+c pozostanie niezmienione, równe σ; c ∈ R

W próbie:

S_x = S_x+c

Jeżeli wszystkie pomiary x_i zmiennej X zostaną pomnożone przez pewną, taką samą, wartość stałą, c, to odchylenie standardowe zmiennej c ∙ X zostanie zwiększone o |c| względem odchylenia zmiennej X.

W próbie:

S_{x c}= |c| ∙ S_x

Stąd:

S_x+c² = S_x²

S_{c x}²= c² S_x²

Rozważając różnicę dowolnej pary wartości x_i-x_j, dla i, j= 1,...,n; i≠j, widać, że jest ich $\frac{n\ (n - 1)}{2}$. Okazuje się, że:

Uśredniona suma kwadratów różnic między parą pomiarów równa jest podwojonej wariancji.

$$\frac{\sum_{\begin{matrix} i,j = 1 \\ i \neq j \\ \end{matrix}}^{n}{(x_{i} - x_{j})^{2}}}{\frac{n(n - 1)}{2\not{}}} = \overset{\not{}}{2} \bullet \ s^{2}$$

Stąd:

$s^{2} = \frac{1}{n\left( n - 1 \right)}\sum_{\begin{matrix} i,j = 1 \\ \\ \end{matrix}}^{n}{(x_{i} - x_{j})^{2}}$ , I ≠ j

WYNIKI STANDARDOWE (wyniki standaryzowane)

TRANSFORMACJA STANDARYZACJI.

x_i- wynik surowy zmiennej X

z_i- wynik standardowy zmiennej X

w próbie:

z_i= $\frac{x - x\bar{}}{S}$

Z własności miar rozproszenia wynika, że skoro odchylenie standardowe zmiennej X równe jest s, to odchylenie standardowe zmiennej X-x̄ (x minus stała) równe jest także s
Dalej, ( x-x̄) ∙ $\frac{1}{S}$ (x-x̄ pomnożona przez stałą) ma odchylenie S pomnożone przez stałą, czyli $\frac{s}{s}$= 1. Zmienna „Z” ma odchylenie równe 1
Z postaci wzoru bezpośrednio wynika, że średnia arytmetyczna zmiennej Z równa jest 0
Wyniki standardowe stosuje się w celu porównywania pomiarów otrzymywanych przy użyciu różnych procedur u tego samego badanego, bądź badanych między sobą.
$\sum_{i = 1}^{n}{z_{i}^{2} = \ \sum_{i = 1}^{n}\frac{(x_{i} - \ x\bar{})^{2}}{s^{2}}} = \ \frac{1}{s^{2}}\ \sum_{i = 1}^{n}(x_{i} - \ \overset{\bar{}}{x})^{2} = \ \frac{\sum_{i = 1}^{n}(x_{i} - \ \overset{\bar{}}{x})^{2}}{\left\lbrack \sum_{i = 1}^{n}(x_{i} - \ \overset{\bar{}}{x})^{2} \right\rbrack \bullet \ \frac{1}{(n - 1)}} = n - 1$

$$\sum_{i = 1}^{n}{z_{i}^{2} = n - 1}$$

DYSTRUBUANTA ZMIENNEJ LOSOWEJ

(„skumulowane prawdopodobieństwo”)

Dystrybuantą zmiennej losowej X, F (x) nazywa się funkcję określoną wzorem:

F(x)= P(X≤x)

(dystrybuanta w punkcie x, to prawdopodobieństwo, ze zmienna losowa przyjmie wartości mniejsze, bądź równe x).

Estymatorem dystrybuanty w próbie dla x_i są frekwencje skumulowane podzielone przez liczbę elementów próby, fc_i/n.
Dystrybuanta (ogiva) jest funkcją rosnącą.

NORMALNY ROZKŁAD PRAWDOPODOBIEŃSTWA

„modelowe” rozkłady Bernouliego są rozkładami symetrycznymi, p=q. Gdy n jest bardzo duże (n- długość zdarzenia elementarnego), zmienna losowa X ma bardzo wiele wartości. Jej rozkład zilustrowano niżej.

Widać, że dla n bardzo dużego- ze względu na wygodę liczenia prawdopodobieństwa zdarzeń złożonych, jest sens aproksymować („przybliżyć”) ten rozkład krzywą ciągłą.

Gdy p≠q rozkłady B_n;p będą skośn. Im bardziej p≠q, tym większa skośność tych rozkładów. Przy bardzo dużych n (rzędu kilkadziesiąt) odstępstwa rozkładów skośnych od krzywych symetrycznych (różnice wartości dla każdego x) są bardzo małe; toteż można je zaniedbać (nawet gdy p bardzo różni się od q).
Krzywa ciągła, którą można aproksymować rozkład dwumianowy dla dostatecznie dużych n, to funkcja wykładnicza opisana przez Gaussa;

Rozkład dwumianowy charakteryzuje zmienną losową X, o wartościach naturalnych „to”, dyskretną, z przedziału <o, n>
Rozkład normalny (krzywa Gaussa) charakteryzuje zmienną losową X o wartościach z przedziału (- ∞, +∞), ciągłą.

Postać krzywej Gaussa, lub inaczej funkcji gęstości „normalnej”.

$$P\left( X = x \right) = f\left( x \right) = \ \frac{1}{\sigma \bullet \sqrt{2\Pi}} \bullet e^{- \frac{1}{2}(\frac{x - \mu}{\sigma})^{2}}$$

gdzie e- stała Eulera, podstawa logarytmu naturalnego

Rozkład normalny zależy od dwu parametrów: wartości oczekiwanej i odchylenia standardowego. Jest krzywą symetryczną. Ponieważ jest krzywa ciągłą, to nie suma prawdopodobieństw poszczególnych x∈ X równa jest jedności, ale pole pod krzywa dla całej liczb rzeczywistych równe jest jedności [P(E)=1; E jest zbiorem nieskończonym].
Innymi słowy pytania o szansę zrealizowania pojedynczych wartości zmiennej losowej X (które miały sens przy rozkładzie dwumianowym zmiennej) tu nie maja racji bytu. Sens mają wyłącznie pytania o szansę zrealizowania się zmiennej losowej o wartościach z przedziału (ciągłego) < x₁, x₂>:

P (x₁≤X≤x₂); P (-∞<X<+∞)

[Ten przedział może być bardzo mały, ale nie może być pojedynczym punktem].

Przyjmuje się oznaczenie rozkładu normalnego:

P (X=x) = f(x) = N (µ; σ²)

TRANSFORMACJA STANDARYZACJI

[Przeskalowanie zmiennej X]

X zmienia się na Z

X z = $\frac{x - u}{\sigma}$; w próbie z= $\frac{x - x\bar{}}{S}$

Własności transformacji:

Jest to przesunięcie skali o µ oraz jej zwężenie ( gdy σ jest większe od 1) lub rozszerzenie (gdy σ jest mniejsze od 1)
Wartość oczekiwana zmiennej wystandaryzowanej równa jest 0
Odchylenie standardowe zmiennej wystandaryzowanej Z równe jest 1; wariancja równa jest 1.

Standaryzacja umożliwia interpretacje wyniku osoby badanej w kategoriach:

x= µ + z∙ σ

liczby odchyleń standardowych od średniej, czyli interpretację wyniku pojedynczego osoby w kontekście przeciętnego wyniku grupy.

Wystandaryzować można dowolną zmienną, zarówno dyskretną, jak i ciągłą, przy czym:

Standaryzacja nie zmienia rozkładu prawdopodobieństwa zmiennej dyskretnej;
Standaryzacja zmienia rozkład prawdopodobieństwa zmiennej ciągłej

Niezależnie od wielkości µ i σ dowolnej zmiennej, także jej rozkładu, po transformacji zawsze otrzymuje się zmienną z o identycznych parametrach

µ=0; σ ²=1

Zależność funkcji gęstości oraz dystrybuant zmiennych losowych przed i po- wystandaryzowaniu

W przypadku rozkładu normalnego prawdopod. X

$$f\left( x \right) = \frac{1}{\sigma \bullet \sqrt{2\Pi}}e^{- \frac{1}{2}(\frac{x - \mu}{\sigma})^{2}}$$

1 z

$$g\left( z \right) = \frac{1}{\sqrt{2\Pi}}e^{- \frac{z^{2}}{2}}$$

Znając funkcje gęstości wystandaryzowanego rozkładu normalnego g(x) w prosty sposób wyznacza się wartość f(x) (znając odchylenie standardowe zmiennej), funkcję gęstości dowolnej zmiennej o rozkładzie normalnym.

[ Toteż funkcja g(x) została zapisana w tablicach- patrz TABLICE STATYSTYCZNE dowolnego autora]

W przypadku zmiennej o dowolnym rozkładzie ze względu na konieczność „zachowania pola” pod funkcją gęstości na odpowiadających sobie odcinkach X przed i po- standaryzacji (aby pole dla całej X i Z równe było jedności):

P (x₁≤x≤x₂) = F(x₂) – F(x₁) = P(z₁≤z≤z₂)

W przypadku rozkładu normalnego, dla którego dystrybuanta ma stałe oznaczenie Φ:

P(x₁≤x≤x₂)= Φ(z₂) – Φ(z₁)

Podobnie jak funkcja gęstości, dystrybuanta rozkładu N(0;1) została zapisana w tablicach

WŁASNOŚCI WYSTANDARYZOWANEGO ROZKŁADU NORMALNEGO

Zatem:

Pole na odcinku jednego odchylenia standardowego od średniej (na lewo i prawo) stanowi 68% całego pola w przypadku zmiennej o normalnym rozkładzie prawdopodobieństwa.
Na odcinku dwu odchyleń- 95,5% całego pola, zaś na odcinku 3 odchyleń- 99,7 pola.

TWIERDZENIE MOIVRE’A- LA PLACE’A

Ciąg wystandaryzowanych dystrybuant F_n rozkładu dwumianowego jest, przy n ∞, zbieżny do dystrybuanty rozkładu normalnego standaryzowanego, czyli do Φ(z).

Wniosek:

Dla dostatecznie dużych n (rzędu co najmniej kilkudziesięciu) można szacować:

P(x₁≤X ≤x₂) = P(z₁≤Z ≤z₂) ≈ Φ(z₂) – Φ(z₁)

Przy czym: Z= $\frac{X - np}{\sqrt{\text{n\ } \bullet p \bullet q}}$

PODSTAWY WNIOSKOWANIA

P(a ≤$\text{\ \ }\frac{Y_{(n)}\ - n \bullet p}{\sqrt{n \bullet p \bullet q}}$ ≤ b) = Φ (b) – Φ(a)

µ= n • p w rozkładzie

σ²= n • p • q dwumianowym zmiennej Y_(n)

Parametry- charakterystyki rozkładu prawdopodobieństwa zmiennej losowej (czyli charakterystyki rozkładu w populacji). Np. miary centrum.

Parametry to ustalone wartości.

Ich szacunki w próbach, inaczej estymatory, zależą od konkretnej próby; są zatem zmienne, są przypadkowymi wartościami.

Estymatory to zmienne losowe.

W konkretnej próbie można znaleźć wartość estymatora ustalonego parametru.

Tw. Lindeberga- Levyego: Centralne twierdzenie graniczne

Jeżeli z populacji, w której zmienna losowa X ma dowolny rozkład prawdopodobieństwa ze średnią µ i wariancją σ ² losujemy kolejne próby losowe o coraz większej liczbie elementów n, to wraz ze wzrostem liczby losowań, rozkład estymatora µ, czyli rozkład średniej z próby, X, dąży do rozkładu normalnego ze średnią µ i wariancją σ²/n:

N (µ; σ ²/n)

Wniosek z centralnego twierdzenia granicznego:

Jeżeli z populacji, w której zmienna losowa X ma rozkład normalny ze średnią µ i wariancją σ ² losujemy próby o ustalonej dużej liczebności n, to wraz ze wzrostem liczby losowań rozkład estymatora µ, czyli rozkładu średniej z próby, X, dąży do rozkładu normalnego ze średnią µ i warinacją σ ²/n:

N (µ; σ ²/n)

Błąd mierzący stopień zmienności statystyki (np. średniej arytmetycznej) wywołany czynnikami przypadkowymi, to błąd standardowy tej statystyki.

Def. Błąd standardowy statystyki jest to odchylenie standardowe (w rozkładzie z próby) tej statystyki

Np. σ_x̄ =$\text{\ \ }\frac{\sigma}{\sqrt{n}}$

PRZEDZIAŁY UFNOŚCI

Wiadomo, że dla dowolnej zmiennej losowej X:

z = $\frac{x - u}{\sigma}$ X= µ + z ∙ σ

Toteż:

z = $\frac{x\bar{} - u}{\sigma}$ = $\frac{x\bar{} - u}{\frac{\sigma}{\sqrt{n}}}$ x̄= µ + z ∙ $\frac{\sigma}{\sqrt{n}}$

NORMY

Def. Kwartylem k rzędu m, k= 1,2,...,m, zmiennej losowej X nazywa się wartość x X spełniająca równanie: P(X≤x) = $\frac{k}{m}$, 0< $\frac{k}{m}$ ≤ 1

m= 4 $\frac{k}{4}$ k= 1,2,3,4 - kwartyle

m= 10 $\frac{k}{10}$ k= 1,2,...,5,...,10 - decyle

m= 100 $\frac{k}{100}$ k= 1,2,...,50,...,100- centyle/ percentyle

PODSTAWY WNIOSKOWANIA

P( µ- z_α $\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$ ≤ x ≤ µ+ z_α$\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$) = 1- α

α- wyraża wielkość błędu wnioskowania

Def. Poziom istotności (wnioskowania) α, jest wielkością błędu wnioskowania, polegającego na przypuszczeniu odnośnie parametrów populacji.

Interpretacja: Poziom istotności (wnioskowania) α, w rozkładzie z próby statystyki stanowi ustaloną (przez badacza) „sumę” prawdopodobieństw najmniej prawdopodobnych wartości tej statystyki.

Jest to „łączne” prawdopodobieństwo dla najmniej prawdopodobnych wartości tej statystyki.

Np. α= 0,05

Poziom ufności (wnioskowania o właściwościach parametrów w populacji) jest wielkością równą 1- α
Przedział ufności (w konkretnym rozkładzie z próby statystyki) jest to przedział wartości tej statystyki (zmiennej losowej) odpowiadający poziomowi ufności.
Obszar krytyczny (w konkretnym rozkładzie z próby jest to przedział wartości tej statystyki odpowiadający poziomowi istotności.

TEORIA ESTYMACJI

Oszacowania punktowe (np. nieznanej, prawdziwej wartości µ) nic nie mówią o rzetelności, czy precyzji metody szacunku, która została użyta.

Np. µ≈x̄

Stąd powinny zawsze uzupełnione być informacjami, które pozwoliłyby osądzić ich zalety

Takimi dodatkowymi informacjami, wynikającymi z CTG jest możliwość stwierdzenia z prawdopodobieństwem 1- α, że x̄ będzie się różniła od µ mniej niż $z_{1 - \frac{\alpha}{2}}$ odchyleń standardowych rozkładu średnich.
Inaczej mówiąc, gdy σ jest znane:

x̄ będzie się różniło od µ mniej, niż o $z_{(1 - \frac{\alpha}{2})}$ ∙ $\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$

x̄- µ traktujemy jako błąd, który popełniamy przyjmując x̄ jako oszacowanie wartości µ
Z prawdopodobieństwem 1- α twierdzimy, że wielkość błędu jest mniejsza niż $z_{(1 - \frac{\alpha}{2})}$ ∙ $\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$

Wiedząc, że: $Z_{1 - \frac{0.05}{2}}$ = 1,96

$Z_{1 - \frac{0.02}{2}}$ = 2,33 twierdzić możemy, że; np.:

$Z_{1 - \frac{0.01}{2}}$ = 2,58

„Z prawdopodobieństwem 0,98, błąd szacunku X-µ jest mniejszy niż 2,33 σ/$\sqrt{n}$.”

Toteż: P(|x̄- µ|< $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ )= 1- α

Związaniem równania jest:

- $Z_{\left( 1 - \frac{\alpha}{2} \right)} \bullet \ \frac{\sigma}{\sqrt{n}}$ <x̄ - µ< $Z_{\left( 1 - \frac{\alpha}{2} \right)} \bullet \ \frac{\sigma}{\sqrt{n}}$

Zatem:

x̄ - $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ < µ< x̄ + $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$

Z prawdopodobieństwem 1- α twierdzimy, że nierówność ta jest spełniona dla dowolnej próby.

P(x̄ - $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ < µ< x̄ + $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ ) = 1- α

Gdy σ nie jest znane:

Do powyższego wzoru można zamiast σ można wprowadzić jego oszacowanie na podstawie próby σ≈S

Aby to oszacowanie było „sensowne”, próba musi być duża, n- duże, a i tak nie wiadomo czy różnica obydwu wielkości jest dodatnia, czy ujemna.

$Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{s}{\sqrt{n}}$ i $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$

[czyli, który z błędów jest większy]

Wyłącznie duże próby pozwalają na punktowe szacowanie δ i stosowanie powyższego wzoru.
Przy małych próbach procedura jest inna.

Dygresja:

TEORIA ESTYMACJI (SPOSÓB SZACOWANIA PARAMETRÓW POPULACJI)

Estymacja punktowa
Estymacja przedziałowa

P(x̄ - $z_{\alpha} \bullet \ \frac{\sigma}{\sqrt{n}}$ < µ < x̄ + $Z_{\alpha} \bullet \ \frac{\sigma}{\sqrt{n}}$ ) = 1- α

Gdy σ nie jest znane, szacuje się je punktowo odchyleniem standardowym wyliczonym w próbie σ ≈S

Toteż:

P(x̄ - $z_{\alpha} \bullet \ \frac{s}{\sqrt{n}}$ < µ < x̄ + $Z_{\alpha} \bullet \ \frac{s}{\sqrt{n}}$ ) = 1- α

PODSTAWY WNIOSKOWANIA

Rozkład prawdopodobieństwa t- studenta
Zmiennej losowej t

WNIOSEK Z CENTRALNEGO TWIERDZENIA GRANICZNEGO:

Jeżeli pobieramy kolejno próby losowe o ustalonej i małej liczebności n z populacji, w której zmienna losowa ma rozkład normalny ze średnią µ i nieznaną wariancją σ², to wraz ze wzrostem liczby losowań rozkład średniej z próby dąży do spłaszczonego rozkładu normalnego.

Spłaszczenie jest tym większe, im mniejsza liczebność próby.

Takie rozkłady po wystandaryzowaniu noszą noszą nazwę rozkładów prawdopodobieństwa t- studenta zmiennej (wystandaryzowanej) t.

HIPOTEZA STATYSTYCZNA

Def. Hipoteza statystyczna to jakiekolwiek przypuszczenie dotyczące nieznanego rozkładu populacji generalnej.

Na podstawie próby chce się sprawdzić, czy wysunięta hipoteza jest słuszna. Zadaniem teorii sprawdzania (weryfikowanie) hipotez jest budowa odpowiednich metod rozstrzygania o słuszności hipotezy.
Najczęściej o rozkładzie populacji generalnej mamy pewne informacje a priori, np. że zmienna ma rozkład normalny. Wtedy hipoteza może dotyczyć jednego lub obydwu z jego parametrów.
Czasami tylko wiadomo, że zmienna ma rozkład ciągły (wiedza jest skromna).

Ogólnie – wiedza a priori o rozkładzie zmiennej X w populacji generalnej wyznacza zbiór możliwych rozkładów tej zmiennej.

Zbiór ten nazywa się zbiorem hipotez dopuszczalnych Ω.

Wysuwane hipotezy statystyczne muszą należeć do tego właśnie zbioru (wysuwanie innych nie miałoby sensu).

Jeżeli elementy zbioru Ω (czyli rozkłady) różnią się między sobą co najwyżej wartościami parametrów, to wysuwane hipotezy nazywa się hipotezami parametrycznymi: Ω _p
Jeżeli elementy zbioru Ω różnią się nie tylko wartościami parametrów, ale i postacią funkcji, wówczas hipotezy nazywamy nieparametrycznymi: Ω _n

Każda hipoteza statystyczna ma postać F(x) w, gdzie w jest wyspecyfikowanym podzbiorem zbioru hipotez dopuszczalnych Ω

H: F(x) ⋲ w

Jeżeli podzbiór w składa się tylko z jednego elementu, wtedy H jest hipotezą prostą.

Hipoteza tak w sposób jednoznaczny określa przypuszczalny rozkład populacji generalnej.

Jeżeli do w należy więcej niż jeden rozkład, wtedy H jest hipotezą złożoną.

Np. zbiór hipotez dopuszczalnych Ω, to zbiór rozkładów normalnych, czyli zbiór typu Ω _p. Wysuwamy hipotezę, że µ=2; H: µ=2 z dowolnym odchyleniem standardowym.

Ω składa się z nieskończonej liczby rozkładów normalnych o średniej 2. Jest to hipoteza złożona.

Gdy jednak znamy σ, np. σ =1, wtedy stawiając H: µ=2 identyfikuje się konkretny rozkład normalny; jest to zatem hipotez prosta.

Np. zbiór Ω, to rozkład normalny o σ =1. Przy H: µ > 2, postawiliśmy hipotezę złożona choć parametryczną.

W szczególności hipotezy są postaci, np.

H₀: µ₁ = µ₂ H₀: µ₁ = µ₂

H₁: µ₁ ≠ µ₂ H₁: µ₁ > µ₂

Hipoteza zerowa
Hipoteza alternatywna

H₀ : µ= 15 lub H₀ : µ- 15= 0

H₁: µ< 15 H₁: µ- 15< 0

Hipoteza zerowa jest sprawdzana (weryfikowana) przy założonej decyzji odnośnie postępowania po jej ewentualnym odrzuceniu.
Nie jest obojętne bowiem, czy tę hipotezę odrzuca się na rzecz alternatywnej hipotezy „różnościowej” czy „kierunkowej”
Postać hipotezy alternatywnej determinuje sposób sprawdzania hipotezy zerowej (testowania hipotezy).
Hipotezę zerową sprawdza się (weryfikuje, testuje się)

TESTEM STATYSTYCZNYM:

dwustronnym (przy hipotezie alternatywnej różnościowej)
jednostronnym (przy hipotezie alternatywnej kierunkowej).

BŁĘDY WNIOSKOWANIA

Wydaję się iż:

weryfikowana hipoteza zerowa może zostać potwierdzona lub odrzucona w toku podejmowania decyzji przez badacza

Schemat wnioskowania statystycznego

Racje (założenia) wnioski, następstwa (konkluzje)

A B

Z prawdziwości A zawsze wynika prawdziwość B

A

założenia „o cechach”, czyli o rodzaju pomiaru i skali
założenia „o charakterze” populacji (zależne, niezależne) i o stosowanych metodach pobierania prób (losowe, duże, ...)
założenia o postaci rozkładu zmiennych (cech)
rozumowanie matematyczne konieczne do zbudowania zdań probabilistycznych, dotyczących wiarygodności poszczególnych wyników prób- cała teoria prawdopodobieństwa, statystyka matematyczna (błędy wnioskowania)

[zdania te mówię: gdy A prawdziwe i inne założenia prawdziwe, to w większości przypadków rezultaty z próby znajdują się w pewnym określonym przedziale wyników

wartość statystyki testu znajduje się w przedziale wartości prawdopodobnych (lub nie)

POZIOM BŁĘDÓW WNIOSKOWANIA

DECYZJA D = D₁ D₂	HIPOTEZA zerowa PRAWDZIWA	HIPOTEZA zerowa FAŁSZYWA
PRZYJĄĆ H₀ D₁	O WŁAŚCIWA	BŁĄD II RODZAJU WIELKOŚCI β
ODRZUCIĆ H₀ PRZYJĄĆ H₁ D₂	BŁĄD I RODZAJU WIELKOŚCI α	O WŁAŚCIWA

PRZYJĄĆ H₀

D₁

WŁAŚCIWA

BŁĄD II RODZAJU WIELKOŚCI β

ODRZUCIĆ H₀

PRZYJĄĆ H₁

D₂

BŁĄD I RODZAJU WIELKOŚCI α

WŁAŚCIWA

POZIOM UFNOŚCI WNIOSKOWANIA

DECYZJA D = D₁ D₂	HIPOTEZA zerowa PRAWDZIWA	HIPOTEZA zerowa FAŁSZYWA
PRZYJĄĆ H₀ D₁	1 - α	1 - β
ODRZUCIĆ H₀ PRZYJĄĆ H₁ D₂	1 - α	MOC TESTU 1 - β

PRZYJĄĆ H₀

D₁

1 - α

1 - β

ODRZUCIĆ H₀

PRZYJĄĆ H₁

D₂

1 - α

MOC TESTU

1 - β

BŁĘDY WNIOSKOWANIA

Statystyka dostarcza jedynie niezbędnych kryteriów podziału wszystkich wyników ( wartości statystyk weryfikujących H₀) pomiędzy dwie klasy:

Podział wyników prawdopodobnych, gdy H₀ prawdziwa (PRZEDZIAŁ UFNOŚCI)
Przedział wyników bardzo mało prawdopodobnych (OBSZAR KRYTYCZNY)

Wyniki zaliczane są do jednej albo drugiej klasy w zależności od tego, jakie ryzyko popełnienia błędów I i II rodzaju badacz jest skłonny ponieść

Charakter błędów:

Błąd II rodzaju - wywodzi się z czysto logicznego błędu wnioskowania

AB (Jeżeli B jest prawdziwe, A może być prawdziwe, lub nie. Może istnieć pewna liczba teorii alternatywnych również wywołujących B)

[poszukiwanie racji dla następstwa (gdy kierunek rozumowania i wynikania logicznego jest przeciwny) – to rozumowanie indukcyjne.]

Błąd I rodzaju _α – wywodzi się z probabilistycznego charakteru teorii.

( Jeżeli A jest prawdziwe, to B prawdopodobnie również jest prawdziwe. Dopuszcza się możliwość fałszywości B, gdy prawdziwe A).

Gdy zawsze będziemy odrzucać A, gdy B będzie fałszywe (wynik statystyki testu leży w obszarze krytycznym), ponosić będziemy ryzyko popełnienia błędu polegającego na odrzuceniu hipotezy prawdziwej. Jego wielkość jest równa α.

Test t – studenta

Zmienna X- skala (przynajmniej) przedziałowa
X N (µ; σ²)
Próba losowa n- elementowa
α- określone subiektywnie
H₀ : µ = µ₀

H₁ : µ ≠ µ₀

t = $\frac{x\bar{} - \text{µ\ }}{\sigma_{x\bar{}}}$ = $\frac{x\bar{} - u}{s}$ ∙ $\sqrt{n}$ postać statystyki testu

Gdy |t|> t_α,f H₀⁻ hipotezę zerową odrzuca się z P= 1 – α, przyjmując alternatywną z P=1 – α
Gdy |t|> t_α,f H₀⁺ nie ma podstaw do odrzucenia hipotezy zerowej (1 – β)

Test t – studenta dla dwu populacji niezależnych

Jeżeli pobieramy niezależnie duże próby losowe parami odpowiednio o liczebności n₁ i n₂ zdwu populacji niezależnych o rozkładach (zmiennej X) normalnych:

N (µ₁; σ₁²)

N (µ₂; σ ₂²),

to rozkład z próby różnicy między średnimi (x̄₁ – x̄₂) dąży do rozkładu normalnego ze średnią µ₁ - µ₂ oraz wariancją $\frac{\sigma_{1}^{2}}{n_{1}}$ + $\frac{\sigma_{2}^{2}}{n_{2}}$

Zmienna X- skala (przynajmniej) przedziałowa
Zmienna ma normalny rozkład w 1. – populacji;

N (µ₁; σ ₁²)

Zmienna ma normalny rozkład w 2. – populacji;

N (µ₂; σ ₂²)

Dwie próby losowe o liczebnościach n₁ i n₂
α – określone subiektywnie
H₀ : µ₁ = µ₂ = µ

H₁ : µ₁ > µ₂

Postać statystyki testu t= $\frac{\left( {x\bar{}}_{1} - {x\bar{}}_{2} \right) - \ (u_{1} - u_{2})}{\sigma_{\left( {x\bar{}}_{1} - {x\bar{}}_{2} \right)}}$

t= $\frac{\left( {x\bar{}}_{1} - {x\bar{}}_{2} \right) - \ 0}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}\ + \ \frac{\sigma_{2}^{2}}{n_{2}}}}$ wynik wystandaryzowany

Załózmy: Homogeniczne Heterogeniczne

Test F- Fishera

Założenia:

Skala (przynajmniej przedziałowa)
X N (µ₁; σ ₁²)
X N (µ₂; σ ₂²)
Dwie próby losowe, niezależne
α – określone subiektywnie
H₀ : σ ₁= σ ₂ = σ ²

H₁ : σ ₁ > σ ₂

Statystyka testu Fishera F= $\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \approx \ \frac{s_{1}^{2}}{s_{2}^{2}} \geq 1$

S₁ – wariancja większa (z próby o liczebności n₁), ze stopniami swobody f₁ = n₁- 1
S₂ – wariancja mniejsza (z próby o liczebności n₂), ze stopniami swobody f₂= n₂ – 1

TEST T- STUDENTA

Dla dwu populacji zależnych

Jeżeli pobieramy kolejno zależne próby losowe parami o dużej liczebności n z dwu populacji, w których zmienna x₁ i x₂ mają rozkład normalny, to, gdy D= X₁- X₂ jest zmienną różnic pomiarów (o rozkładzie normalnym ze średnią µ_D i wariancją σ _D), rozkład średniej zmiennej D, X_D, dąży do rozkładu normalnego ze średnią µ_D i wariancją σ _D/n.

Populacje zależne:

X₁, X₂- mierzalne Postać statystyki testu:
X₁ N (µ₁; σ₁²) t= $\frac{{x\bar{}}_{D} - \mu_{D}}{S_{D}}\ \bullet \ \sqrt{n} = \ \frac{{x\bar{}}_{1} - {x\bar{}}_{2}}{\sqrt{\frac{\sum_{i = 1}^{n}{di^{2}} - \ n \bullet \ ({x\bar{}}_{1} - {x\bar{}}_{2})^{2}}{\left( n - 1 \right) \bullet \ n}}}$
X₂ N (µ₂; σ₂²)
X₁, X₂ – zależne, D= X₁- X₂
n- liczebność próby wynik standaryzowany- |t|> t_α,f H₀⁻ f= n-1
α – określone subiektywnie

METODY ANALIZY WARIANCJI

Służą do analizy centrum rozkładów wielu populacji niezależnych lub zależnych (jednej bądź wielu zmiennych).
Gdy analizowana jest jedna zmienna X- mówi się o jednowymiarowej analizie wariancji i wieloczynnikowej (w szczególności jednoczynnik.)

Zmienna A nazywa się czynnikiem kontrolowanym w badaniu, gdy celowo zostały wyróżnione pewne jej poziomy wartości (w skończonej liczbie) na podstawie których populacja została podzielona na podpopulacje

Jednowymiarowa analiza wariancji stosowana jest wyłącznie dla populacji niezależnych. Oprogramowana została w procedurze ANOVA.
X- to zmienna zależna (objaśniona)

A, B ...- to zmienne niezależne (objaśniające)

Gdy interesujemy się wieloma zmiennymi zależnymi x₁, x₂, ..., x_r- używamy wielowymiarowej analizy wariancji (r- wymiar) i wieloczynnikowej MANOVA.

ANALIZA WARIANCJI PROSTA

[jednowymiarowa, jednoczynnikowa analiza wariancji dla populacji niezależnych]

Złożenia:

X – skala (przynajmniej) przedziałowa
X N (µ; σ²)
X N (µ₁; σ ₁²)

N (µ₂; σ ₂²)

N (µ_k; σ _k²)

Próby losowe, duże, równoliczne, niezależne
σ ₁² = σ ₂² = ...= σ _k² = σ ² – homogeniczność wariancji
α- określone subiektywnie
H₀: µ₁= µ₂= ...= µ_k= µ α_i = µ_i - µ ≠ 0

H₁: ≈ H₀ efekt główny działania i- tego poziomu

H₀: $\sum_{i = 1}^{k}{\alpha = 0}$ czynnika A

H₁: ≈ H₀

H₀: α_i = 0

H_1: ≈ H₀

$$\frac{\sigma^{2}}{\sigma^{2}} = F = \ \frac{\frac{1}{k - 1}\ \sum_{i = 1}^{k}{({x\bar{}}_{i} - x\bar{})^{2\ } \bullet \ n_{i}}}{\frac{1}{n - k}\ \lbrack\left( n_{1} - 1 \right)s_{1}^{2} + \left( n_{2} - 1 \right)s_{2}^{2} + \ldots + \left( n_{k} - 1 \right)s_{k}^{2}\ \rbrack}$$

F> F_{α.f ,f} H₀^-

Badanie homogeniczności wariancji odbywa się testem Bartletta

Gdy założenie to jest spełnione,

σ ₁² = σ ₂² = ...= σ _k² = σ ²

wariancję w populacji można szacować estymatorem łącznym wariancji z k- prób

σ ²= s²= $\frac{s_{1}^{2}\ + s_{2}^{2}\ + \ldots + s_{k}^{2}\text{\ \ }}{k} = \frac{1}{n - k}\ \left\lbrack \left( n_{1} - 1 \right)s_{1}^{2} + \left( n_{2} - 1 \right)s_{2}^{2} + \ldots + \left( n_{k} - 1 \right)s_{k}^{2}\ \right\rbrack = \ \frac{1}{n - k}\ \sum_{i = 1}^{k}{\sum_{j = 1}^{n}{(x_{\text{ij}} - {x\bar{}}_{i}\ )^{2}}}$

Gdy prawdziwa jest hipoteza zerowa, z założenia o normalności rozkładu X wynika, iż „rozrzut” średnich grupowych może być szacunkiem wariancji w populacji, gdy próby są równoliczne.

$${\sigma\ }_{x\bar{}}^{2} = \ \sigma^{2}/m$$

$${\sigma\ }^{2} = m \bullet \text{\ \ }\sigma_{x\bar{}}^{2}$$

estymator wariancji średnich jest:

m $\frac{1}{n - k}\ \sum_{i = 1}^{k}{({x\bar{}}_{i} - \ x\bar{})^{2}}$

Iloraz dwu różnych oszacowań wariancji w populacji jest statystyką F- Fishera. Satatystyka ta ma rozkład F- Snedecova.

$$F = \frac{{\sigma\ }_{\text{II}}^{2}}{{\sigma\ }_{I}^{2}} \approx \ \frac{m \bullet \ \sigma_{x\bar{}}^{2}}{\frac{s_{1}^{2}\ + s_{2}^{2}\ + \ldots + s_{k}^{2}\text{\ \ }}{k}}$$

$$F = \ \frac{\frac{m}{k - 1}\ \sum_{i = 1}^{k}{({x\bar{}}_{i} - \ x\bar{})^{2}}}{\frac{1}{n - k}\ \lbrack\sum_{i = 1}^{k}{\sum_{j = 1}^{m}{(x_{\text{ij}} - {x\bar{}}_{i}\ )^{2}}}}$$

Niezbyt poprawnie w literaturze statystycznej dopuszcza się próby o różnej liczebności przy stosowaniu ANOVA’y:

$$F = \ \frac{\frac{1}{k - 1}\ \sum_{i = 1}^{k}{{x\bar{}}_{i} - \ x\bar{})^{2}\text{\ \ } \bullet n_{i}}}{\frac{1}{n - k}\lbrack\sum_{i = 1}^{k}{\sum_{j = 1}^{n}{(x_{\text{ij}} - {x\bar{}}_{i}\ )^{2}}\rbrack}}$$

Nawet, gdy spełnione jest założenie homogeniczności wariancji w podpopulacjach, nie wiadomo jaki rozkład ma statystyka F. Może nie mieć rozkładu centralnego:

INTERAKCJA CZYNNIKÓW I KONTRASTY MIĘDZY PARAMETRAMI

Interakcja czynników lub inaczej współdziałanie czynników (w badaniu) wpływające na zmienność Y, występuje wtedy, gdy kontrolowane są przynajmniej dwa czynniki.

Np. A k=4 - istnieją istotne efekty główne przy braku interakcji czynników

B l=3

B B

µ_ij	1 2 3	µ_i
1 2 3 4	12 14 11,5 11,5 13,5 11 10 12 9,5 8,5 10,5 8	12,5 12 10,5 9
µ_j	10,5 12,5 10	µ=11

12 14 11,5

11,5 13,5 11

10 12 9,5

8,5 10,5 8

12,5

10,5

µ_j

10,5 12,5 10

µ=11

1 2

µ₁₁ - µ₁₂= -2

µ₂₁ - µ₂₂= -2

µ₃₁- µ₃₂= -2

µ₄₁ - µ₄₂= -2
µ₁- µ₂ µ_j µ₁- µ₂= 10,5- 12,5= -2

Podobnie, np.:

µ₃₂- µ₄₁= 1,5 µ_i

µ₃₂- µ₄₂= 1,5 µ₃- µ₄= 10,5- 9= 1,5

µ₃₃- µ₄₃= 1,5

Wszystkie różnice między wierszami, czy kolumnami są stałe (różnią się o stałą). Mówi się, iż średnie są addytywne. A i B- niezależne we wpływie na Y.
Zatem współdziałanie nie może być zdefiniowane w podobny sposób ja efekty główne działania [np. i-tego poziomu czynnika: µ₁- µ], czyli przez różnicę np. średnich: µ_ij- µ (patrz tabela). Widać, że różnica między średnimi µ_ij (z wnętrza tabeli) nie świadczy o współdziałaniu poziomów A i B.
Własność addytywności średnich:

µ_ij- µ_i= µ_j- µ ,oraz

µ_ij- µ_j= µ_i- µ „odcinki parami równe”

- „własność prostokąta”

Po dodaniu stronami:

2 µ_ij – 2 µ_i – 2 µ_j + 2 µ = 0

µ_ij – µ_i – µ_j + µ = 0

Negacja tego równania:

(αβ)_ij = µ_ij – µ_i – µ_j + µ ≠0

- „interakcja” i-tego poziomu czynnika A z j-tym poziomem czynnika B we wpływie na Y;

efekt interakcyjny

np. A k=3 - istnieją efekty interakcyjne przy braku efektów głównych obydwu czynników

B l=3

Analiza efektów interakcyjnych jest niezależna od analizy efektów głównych.

Toteż w dwuczynnikowej analizie wariancji weryfikuje się trzy hipotezy

H₀ : α_i=0 i=1,2,...,k
H₀ : β_j=0 j=1,2,...,l ogólnie hipotez:
H₀ : (αβ)_ij=0 dla i=1,...,k L = 2^c – 1

J=1,...,l c- liczba czynników

KONTRASTY PARAMETRÓW

1 czynnik – A – kontrolowany: α_i - α_i = µ_i - µ_i , dla i≠i. - kontrast „zwykły”, I rzędu.
2 czynniki – A, B – kontrolowane: [(αβ)_ij - (αβ)_ij ] – [((αβ)_{i j} - (αβ)_{i j}] = (µ_ij - µ_ij ) - (µ_{i j} - µ_{i j} ),

dla i≠i , j≠j - kontrast II rzędu

Liczba kontrastów: I rzędu - k

A (k- poziomów) 2

II rzędu

A (k- poziomów)

B (l- poziomów)

STRUKTURA WYNIKU OSOBY BADANEJ O NUMERZE r:

Y_ijr = µ + α_i + β_j +(αβ)_ij + Ε_ijr

Y_ijr= µ_ij + Ε_ijr

ZMIENNOŚĆ CAŁKOWITA WYNIKÓW POMIARÓW

Liczba prób - k × l
Liczebność próby – m
Liczba elementów całej próby $n = m \times k \times l = \sum_{i = 1}^{k}{\sum_{j = 1}^{l}n_{\text{ij}}}$

Y_ijr - µ = Y_ijr - µ_ijr + µ_ijr - µ_i + µ_i - µ_j + µ_j - µ + µ - µ = (µ_i - µ) + (µ_j - µ) + (µ_ij - µ_i - µ_j + µ) + (Y_ijr - µ_ijr)

Podnosząc obydwie strony do kwadratu, następnie sumując wszystkie osoby z całej populacji, a na poziomie próby – wszystkie osoby z próby dostajemy:

STOPNIE SWOBODY WARIANCJI

SS_TOTAL = SS_A + SS_B + SS_AxB + SS_ERROR

(n -1)= (k -1) + (l -1) + (l -1) (k -1) + (n-k l)

$$\frac{SS}{n - 1} \neq \frac{\text{SS}}{k - 1} + \frac{\text{SS}}{l - 1} + \ \frac{\text{SS}}{\left( k - 1 \right)(l - 1)} + \ \frac{\text{SS}}{n - k\ \ l}$$

WARIANCJE:

MS_TOTAL≠ MS_A +MS_B + MS_AxB + MS_ERROR

DWUCZYNNIKOWA ANALIZA WARIANCJI

Założenia:

Y – skala (przynajmniej) przedziałowa
Próby niezależne, losowe, równoliczne
Liczba prób równa iloczynowi poziomów obydwu czynników: k × l
Liczba elementów wszystkich prób n = k × l × m
Y – ma rozkład normalny w całej populacji Y ~ N (µ_i ; σ_i²), i= 1,...,k

Y ~ N (µ_j ; σ_j²),j= 1,...,l

oraz ich przecięcia: Y ~ N (µ_ij ; σ_ij²)

Wariancje wszystkich rozważanych podpopulacji są homogeniczne: σ_ij² = σ_i² = σ_j²= σ²
α – subiektywnie określone

Założenie o homogeniczności należy bezwzględnie zweryfikować testem Bartletta

PROBLEMATYKA PRZEWIDYWANIA WARTOŚCI (OCZEKIWANEJ) ZMIENNEJ, Y, DGY ZNANE SĄ WARTOŚCI INNEYCH ZMIENNYCH

(obniżanie zmieności „niewyjaśnionej” – Y)

REGRESJA

Modele regresji

niech Y oraz X₁, X_2, ..., X_k będą mierzalne

Y- zmienna objaśniana (zależna, kryterium, endogeniczna)

X₁, ... , X_k – zmienne objaśniające (niezależne, predykatory, egzogeniczne)

Poszukuje się modelu najlepiej wyjaśniającego „zachowanie się” Y.

W sensie formalnym- szuka się „najlepszej” funkcji, czyli postaci funkcji: Y= f(X₁, ... , X_k) nie zawsze zależnej od wszystkich argumentów.

W szczególnych przypadkach jest to funkcja liniowa. Mówi się wtedy o:

REGRESJI LINIOWEJ

Populacja: Y= β₁X₁ + β₂X₂ + ... + β_kX_k + α

gdzie α, β_1, β_2, ..., β_k – parametry; współczynniki regresji (do oszacowania)

Próba: Ŷ= b₁X₁ + b₂X₂ + ... + b_kX_k + a,

gdzie a, b₁, ... , b_k – estymatory nieobciążone; szacunki współczynnika regresji

W szczególności, w przypadku jednej zmiennej objaśnianej i jednej objaśniającej ma się do czynienia z ...

PROSTA REGRESJA LINIOWA

Y = βX + α

Kiedy szukanie rozwiązania liniowego ma sens?
Założenia:

W populacji – istnieje dwuwymiarowy rozkład normalny zmiennej (X,Y), czyli: zmienna Y ma rozkład normalny dla każdego punktu x X
Wszystkie rozkłady mają identyczne wariancje- jest to warunek tzw. HOMOSCEDASTYCZNOŚCI WARIANCJI
Średnie (µ) wszystkich rozkładów leżą na jednej prostej;

Wartości oczekiwane zmiennej Y dla różnych wartości zmiennej X leżą na jednej prostej

[ Homoscedastyczność wariancji jest założeniem „każdej” regresji, niekoniecznie liniowej. Jeżeli wartości oczekiwane Y (dla różnych X) leżą na krzywej – poszukiwana krzywa regresji powinna należeć do klasy funkcji „najbliższej” postaci tej funkcji- np. wielomian drugiego stopnia]

SPOSÓB WYZNACZANIA PROSTEJ

-------------------------------------------

Całkowita zmienność Y:

(y_i - ȳ) = y_i -ŷ_i + ŷ_i - ȳ = (y_i -ŷ_i) + (ŷ_i - ȳ)

Po podniesieniu obydwu stron do kwadratu i zsumowaniu po wszystkich osobach otrzyma się podział zmienności całkowitej

$\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2} = \ \sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2} + 2\sum_{i = 1}^{n}{\left( y_{i} - {y\hat{}}_{i} \right)\left( {y\hat{}}_{i} - \text{\ y}\bar{} \right) + \ \sum_{i = 1}^{n}{({y\hat{}}_{i} - \ y\bar{})}^{2}}$

= 0

Ostatecznie:

$\sum_{i = 1}^{n}{{(y_{i}\ - \ y\bar{})}^{2}\text{\ \ \ \ }} = \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2}\ \ \ \ \ \ + \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sum_{i = 1}^{n}{({y\hat{}}_{i} - \ y\bar{})}^{2}$

zmienność całk. Y zmienność Y niewyjaśniona zmienność wyjaśniona

X-em (znajomością zmienności X) X-em (znajomością

zmienności X)

Dzieląc obydwie strony przez wartość lewej strony otrzyma się:

$$1 = \ \frac{\sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2}}{\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2}}\ \ + \text{\ \ }\frac{\sum_{i = 1}^{n}{({y\hat{}}_{i} - \ y\bar{})}^{2}}{\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2}}$$

Część zmienności Y nie- część zmienności Y

wyjaśniona X-em wyjaśniona X-em; świadcząca o „związku” Y z X-em o

stopniu przewidywalności Y z X-a;

dobroci dopasowania prostej do

zbioru punktów

Współczynnik determinacji: $\text{r\ }^{2} = 1 - \ \frac{\sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2}}{\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2}}$

Jak „optymalnie” wpisać prostą w grupę punktów (wyników próbkowych)

Stosuje się tzw. kryterium Legendre’a, polegające na szukaniu rozwiązania (czyli wartości b i a) poprzez minimalizowanie tzw. reszty regresji (licznika cześci zmienności Y niewyjaśnionej X-em):

$$\sum_{i = 1}^{n}{{(y_{i} - {y\hat{}}_{i})}^{2} = min.}$$

Oznacza to równocześnie maksymalizowanie r²

Ta metoda nazywa się metodą najmniejszych kwadratów i jest jedną z metod wyznaczania estymatorów współczynników regresji.
r² – współczynnik determinacji (Y przez X); miara stopnia wyjaśniania zmienności Y przez zmienność X.

0 ≤ r² ≤ 1

r = $\sqrt{r^{2}}$ = $\sqrt{1 - \ \frac{\sum_{i = 1}^{n}\left( y_{i} - {y\hat{}}_{i} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i}\ - \ y\bar{} \right)^{2}}} = \left( po\ zastosowaniu\ metody\ najmniejszych\ kwadratow \right)$

$$- 1 \leq r = \ \frac{\sum_{i = 1}^{n}{\left( x_{i}\ \ - \ x\bar{} \right) \bullet \ (y_{i}\ - \ y\bar{})}}{\left( n - 1 \right) \bullet \ s_{x} \bullet \ s_{y}\ } \leq \ + 1$$

współczynnik liniowej siły związku X i Y; współczynnik korelacji r- Pearsona

r=0 brak związku

korelacja – związek, zależność
kowariancja – współzależność, współzmienność

r_YX = r_{XY =} $\frac{\text{cov}}{\text{S\ \ \ \ \ \ \ S}}$ , gdzie cov_X,Y = $\frac{\sum_{i = 1}^{n}{\left( x_{i}\ \ - \ x\bar{} \right)\ \ \ (y_{i}\ - \ y\bar{})}}{n - 1}$

-1 ≤ r ≤ +1 cov R
Odchylenia standardowe „uśredniona współzmienność”

zmiennych X i Y stanowią dodatnia lub ujemna – to kowariancja X i Y

element normujący r

KOWARIANCJA Y z Y to WARIANCJA Y (podobnie dla dowolnej innej zmiennej)
Po zastosowaniu metody najmniejszych kwadratów estymatory współczynników regresji są postaci:

$$b = \ \frac{\text{cov}}{S_{x}^{2}} = \ \frac{\sum_{i = 1}^{n}{x_{i}y_{i}} - (\sum_{i = 1}^{n}{x_{i})} (\sum_{i = 1}^{n}{y_{i})/n}}{\sum_{i = 1}^{n}x_{i}^{2} - {(\sum_{i = 1}^{n}{x_{i})}}^{2}/n}$$

$a = \overset{\bar{}}{y} - bx\bar{}$ [punkt (x̄,ȳ) leży na prostej regresji, toteż: ȳ = bx̄ + a]

lub: $b = r_{\text{XY}} \ \frac{S_{Y}}{S_{X}}$

$a = \overset{\bar{}}{y} - bx\bar{}$

Toteż Ŷ można inaczej (niż Ŷ= bx + a) przedstawić w postaci:

$\hat{Y} = r \frac{S_{y}}{S_{x}}\left( x - \overset{\bar{}}{x} \right) + y\bar{}$

Zatem, gdy obydwie zmienne są wystandaryzowane:

${Z\hat{}}_{Y} = r Z_{X}$

PROBLEM PREDYKCJI ODWROTNEJ

r_YX = r_XY - wynika bezpośrednio z definicji

ale: b_YX ≠ b_XY oraz a_YX ≠ a_XY

Przy interpretacji krzywej regresji trzeba dokładnie wiedzieć „co” z „czego” jest przewidywane.

Regresja jest jednokierunkowa!

Współczynnik korelacji liniowej r- Pearsona jest niezmiennikiem przekształceń liniowych

tzn.

Niech: X̕ = a X + b

Y̕ = c Y + d

gdy a i c są tego samego znaku (a·c >0)

Odwrotnie jakiekolwiek „przeskalowanie” dowolnej zmiennej zmienia współczynniki regresji (estymatory regresji).

Jakakolwiek transformacja danych, nawet przesunięcie o stałą, zmienia postać równania regresji.

BADANIE SIŁY ZALEŻNOŚCI DWÓCH CECH

X- skala przedziałowa (przynajmniej)
Y- skala przedziałowa (przynajmniej)
X- ma rozkład normalny dla każdej wartości Y (średnie leża na jednej prostej, wariancje homogeniczne)
Y- ma rozkład normalny dla każdej wartości X
Próba duża
H₀ : ρ = 0

H₁ : ρ < 0

$$r = \frac{\sum_{i = 1}^{n}{\left( x_{i} - \overset{\bar{}}{x} \right)(y_{i} - \overset{\bar{}}{y})}}{\left( n - 1 \right) S_{x} S_{y}}$$

MIARA SIŁY ZALEŻNOŚCI DWU ZMIENNYCH PORZĄDKOWYCH

Gdy zmienne, X i Y, są mierzalne, lecz nie ma możliwości sprawdzenia założenia o postaci ich rozkładów (z powodu np. małej próby)
Lub gdy jedna ze zmiennych, lub obydwie nie są mierzalne, lecz są porządkowe, do zweryfikowania hipotezy o niezależności X i Y stosuje się np. test

τ – Kendalla (tau)

Statystyka testu nie jest wyznaczana z wartości „pierwotnych” obydwu zmiennych, a z wartości porangowanych
RANGOWANIE- ustawianie obiektów podlegających rangowaniu w kolejności oraz nadawanie im kolejnych numerów
Ranga- to kolejny numer obiektu, przy czy nie zawsze jest to liczba naturalna.

[Jeżeli wiele wartości pierwotnych zmiennych było identycznych (w próbie) pojawiają się tzw. rangi wiązane, które jako wartości średnie miejsc zajmowanych przez „obiekty” równorzędne- mogą być liczbami rzeczywistymi]

Osoby: · · · · ... Osoby: · · · ·

Rangi: 1 2 3 4 ... Rangi: 1 2,5 2,5 4 6 6 6

(przypisywane

osobom)

Niżej kategorie zmiennej X i Y, charakteryzujące pięć osób badanych, oraz rangi nadawane tym kategoriom (pośrednio- osobom)

Lp.	X	Y	X	Y	R_X	R_Y	S_i⁺	S_i⁻	S_i
1. 2. 3. 4. n=5.	3 4 5 3 3	2 2 4 3 4	5 4 3 3 3	4 2 3 2 4	1 2 4 4 4	1,5 4,5 3 4,5 1,5	3 0 0 0 0	0 2 0 0 0	3 -2 0 0 0
Σ	-	-	-	-	15	15	3	2	S=1

n=5.

1,5

4,5

1,5

-2

S=1

Wartości zmiennej X

zostały uporządkowane $\sum_{}^{n}{R_{X} = \sum_{}^{n}{R_{Y} = \frac{n(n - 1)}{2}}}$

od (diagnostycznie)

„najlepszej” do „najgorszej”

Jaka postać rang świadczy o uporządkowaniach absolutnie zbędnych wartości obydwu zmiennych, [czyli o wysokiej DODATNIEJ (WPROST) sile zależności obydwu zmiennych]

R_X	R_Y	S_i⁺	S_i⁻
1 2 3 . . . n-1 n	1 2 3 . . . n-1 n	n-1 n-2 n-3 . . . 1 0	0 0 0 . . . 0 0
Σ	-	$$\frac{n(n - 1)}{2}$$	0

n-1

n-2

n-3

$$\frac{n(n - 1)}{2}$$

R_X	R_Y	S_i⁺	S_i⁻
1 2 3 . . . n-1 n	n n-1 n-2 . . . 2 1	0 0 0 . . . 0 0	n-1 n-2 n-3 . . . 1 0
$$S = \frac{n(n - 1)}{2}$$	-	0	$$\frac{n(n - 1)}{2}$$

n-1

n-2

n-1

n-2

n-3

$$S = \frac{n(n - 1)}{2}$$

$$\frac{n(n - 1)}{2}$$

Postać rang, świadcząca o uporządkowaniach absolutnie przeciwnych wartości obydwu zmiennych [wysoka siła UJEMNA (ODWROTNA) zależności obydwu zmiennych]

$$S = - \frac{n(n - 1)}{2}$$

S_i⁺- jest (dla ustalonego i-tego obiektu) liczbą tych obiektów spośród wszystkich pozostałych, dla których rangi zmiennej Y- przy wzrastających rangach zmiennej X- także rosną

S_i⁻ - jest (dla ustalonego i- tego obiektu) li liczbą tych obiektów spośród wszystkich pozostałych, dla których rangi zmiennej Y- przy wzrastających rangach zmiennej X- maleją;

jest liczbą inwersji (przestawień wartości Y przy wzrastających wartościach X).

Statystyka $S = \ \sum_{}^{}S_{i}^{+} - \sum_{}^{}S_{i}^{-} = \ S_{+} - \ S_{-}$ wyraża przewagę uporządkowania zgodnego par rang nad uporządkowaniem odwrotnym rang.

Maksymalna wartość S równa jest $\frac{n(n - 1)}{2}$ (z dokładnością do znaku) i świadczy i bardzo wysokiej sile zależności obydwu zmiennych, stąd wystarczy znaleźć iloraz S wyliczonego z danych względem S_max, aby określić unormowaną miarę zależności dwu zmiennych porzadkowych.

${\tau\hat{}}_{A} = \frac{S_{\text{empir}}}{S_{\max}} = \ \frac{S_{\text{empir}}}{\frac{n(n - 1)}{2}}$ $\hat{\tau} = \ \frac{2 S}{n\ (n - 1)}$ ; $- 1 \leq \ \hat{\tau}\ \leq \ + 1$

Test 𝛕- Kendalla

Założenia:

X, Y- skale porządkowe
α
H₀ : τ=0

H₁ : τ<0 lub τ>0, lub τ ≠0

a) ${\tau\hat{}}_{a} = \frac{2S}{n(n - 1)}$, gdy rangi obydwu zmiennych są wolne

b) w przypadku rang wiązanych:

${\tau\hat{}}_{b} = \ \frac{S}{\sqrt{\left( \frac{n\left( n - 1 \right)}{2} - T \right) (\frac{n\left( n - 1 \right)}{2} - U)}}$ , gdzie

T- poprawka wynikająca z liczby węzłów:

$T = \frac{1}{2}\sum_{i = 1}^{l}t_{i}\left( t_{i} - 1 \right) = \sum_{}^{}\frac{t_{i}(t_{i} - 1)}{2}$

l- liczba węzłów X
t_i- liczba rang wiązanych w i-tym węźle, 1 ≤ i ≤ l

U- poprawka wynikająca z liczby węzłów

$U = \frac{1}{2}\sum_{i = 1}^{g}t_{i}\left( t_{i} - 1 \right)\ $

g- liczba węzłów Y

t_i- liczba rang wiązanych w i-tym węźle, 1 ≤ i ≤ g

Jeśli |τ̂|> τ_α,n H₀⁻

τ_α,n – wartość krytyczna testu przy ustalonym poziomie istotności α i wielkości próby n odczytywana z tabel.

ROZKŁAD PRAWDOPODOBIEŃSTWA χ²

Rozkład normalny
Transformacje standaryzacji: $z = \frac{X - u}{\sigma}$
Rozkład normalny wystandaryzowany:
Utwórzmy zmienną losową Z². Jej rozkład:

$$u = \ \frac{\sum_{i = 1}^{n}z_{i}^{2}}{n} = \ \frac{\sum_{i = 1}^{n}{(z_{i}^{} - 0)}^{2}}{n} = \sigma_{z}^{2} = 1$$

Rozważmy sumę k- niezależnych zmiennych Z o rozkładzie normalnym wystandaryzowanym, N (0;1)

χ² _[K]= $\sum_{i = 1}^{n}z_{i}^{2}$ - zmienna losowa o rozkładzie χ² z k – stopniami swobody

k≥ 2; µ=k; m= k – 2 (modalna); σ_[k]² = 2 k

ZASTOSOWANIE ROZKŁADU PRAWDOPODOBIEŃSTWA χ²(CHI- KWADRAT)

Badanie rozkładu:

Badanie zgodności rozkładu empirycznego zmiennej z teoretycznym
Badanie zgodności dwu rozkładów empirycznych zmiennej

Badanie niezależności zmiennych nominalnych
Rozkład χ² jest rozkładem asymptotycznym wielu statystyk różnych od statystyki χ², toteż słuzy do wyznaczania wartości krytycznych różnych statystyk.

TEST CHI – KWADRAT

Oparty na statystyce:

$$\chi^{2} = \sum_{i = 1}^{k}\frac{(f_{o} - \ f_{e})^{2}}{f_{e}}$$

f_o – frekwencje otrzymane

f_e – frekwencje oczekiwane

- służy do badania zgodności rozkładu empirycznego z teoretycznym

Jeżeli H₀ o zgodności rozkładu zmiennej X z konkretnym rozkładem teoretycznym, jest prawdziwa, dla każdej klasy wartości X wyznacza się frekwencje oczekiwane, f_e, na podst. złożonego rozkładu teoretycznego.
Jednakże, aby zbyt małe różnice między f_o i f_e nie były „nieznaczące” przy małych f_e „waży się” je, dzieląc przez frekwencje oczekiwane.

Np.

f_o	f_e	(f_o − f_e)²
2	4	( - 2)²
172	174	( - 2)²

4/ 4 = 1

4/ 174 = 0,023

ALGORYTM OBLICZANIA FREKWENCJI OCZEKIWANYCH PRZY ZAŁOŻENIU NORMALNEGO ROZKŁADU PRAWDOPODOBIEŃSTWA ZMIENNEJ

H₀ : rozkład X jest normalny

H₁ : ~ H₀

X- mierzalna uciąglona. Wprowadza się dodatkową klasę wartości ( - ∞, ∙ >, gdzie ∙ to wartość najmniejsza uzyskana w badaniu, np. 0, lub od niej mniejsza (zależnie od rozpiętości klasy, h). Podobnie, wprowadza się klasę <∙, ∞). Obydwie klasy mają frekwencje empiryczne równe (chyba 0- ucięta kalka).
Oblicza się X̄ i s zmiennej (ze wzorów dla danych sklasyfikowanych).
Standaryzuje się górne granice wszystkich klas.
Z tabel dystrybuanty rozkłady normalnego odczytuje się jej wartości dla wyznaczonych „ z-ów”. Znajduje się prawdopodobieństwo dla wartości X z danej klasy (różnica dystrybuant dla górnej i dolnej granicy po wystandaryzowaniu)
Prawdopodobieństwo przyporządkowane klasom, przez wartości X zamienia się na frekwencje oczekiwane, posługując się szacunkiem:

$p_{i} \approx \ \frac{f_{e_{i}}}{n};\ \ \ f_{e_{i}} \approx \ p_{i}\ \bullet n$, gdzie n – liczebność próby.

x_i	x_{g_i}	z_{g_i}	Φ(z_{g_i})	P_i = Φ(z_{g_i}) − Φ(z_{g_i₋₁})	f_{e_i} = p_i • n
0 9 -11 12 – 14 15 – 17 ∙ ∙ ∙	8.5 11.5 14.5 ∙ ∙ ∙	∙ ∙ ∙ ∙	∙ ∙ ∙ ∙	∙ ∙ ∙	∙ ∙ ∙

9 -11

12 – 14

15 – 17

∙

8.5

11.5

14.5

∙

Dla tabeli typu „2 x 2” (dwie zmienne dychotomizowane lub dychotomiczne; nominalne) wyznaczenie jednej frekwencji oczekiwanej determinuje wartości wszystkich pozostałych.

f_ij			∑
	f_e	∙ - f_e	∙
	o -f_e		x
∑	o	x	n

Jeden stopień swobody przy wyznaczaniu f_{e_ij}

!!!! Statystyka χ² ma jeden stopień swobody.

$\chi^{2} = \ \sum_{i,j}^{2\ x\ 2}\frac{(f_{o_{\text{ij}}} - \ f_{e_{\text{ij}}})^{2}}{f_{e_{\text{ij}}}}$; f = 1

Statystyka χ² ma asymptotyczny rozkład χ²: χ² > χ_α, f² ⇒ H₀⁻

Zmienna X ma k – kategorii, Y – l – kategorii

f_ij	..	∑
1
...	•	∑_i
k
∑	∑_j	n

Frekwencje oczekiwane- przy założeniu prawdziwości hipotezy zerowej- wyznacza się: $f_{e_{\text{ij}}} = \ \frac{\sum_{i}\ \bullet \ \sum_{j}}{n}$

Statystyka χ² ma asymptotyczny rozkład χ² z f = (k – 1) (l – 1) stopniami swobody

Jeśli χ² > χ_α, f² ⇒ H₀⁻
Zmienne są zależne (przy 𝜶 ...)
Powstaje problem wyznaczenia „siły” tej zależności informującej o stopniu współwystępowania konkretnej kategorii X z konkretną kategorią Y.

UWAGA!

We wzorze χ² uwzględnia się tylko te klasy, których frekwencje oczekiwane są większe od 1.

f_{e_i} > 1 , i = 1, ... , k

Jeśli klasy (zwłaszcza skrajne) nie spełniają tego warunku „przyłącza się” je do klas najbliżej położonych.
Żąda się też, by co najwyżej $\frac{1}{5}\ $klas spośród wyznaczonych zawierała f_{o_i} < 5 . W przeciwnym razie łączy się klasy.

Decyzja:

χ² > χ_α, f² ⇒ H₀⁻

f = k – 3 trzy warunki ograniczające : suma p_i równa się 1; średnia i wariancja X

[Badanie zgodności z rozkładem dwuzmiennowym f = k – 2 suma p_i równa się 1; średnia

BADANIE ZGODNOŚCI DWU ROZKŁADÓW EMPIRYCZNYCH

Zmienna X i Y – zdychotymizowane

f_ij	1	2	∑
a			⨀
b			⨂
∑	o	x	n

H₀ : Π₁^a = Π₂^a

H₁ : ~ H₀

H₀ : X i Y są niezależne

H₁ : ~ H₀

Założenie niezależności zdarzeń implikuje:

P_a1 = P(a ⋀ 1) = P (a) ∙ P (1) = $\frac{\bigodot}{n}\ \bullet \ \frac{O}{n}$ f_{e_a1} = P_a1 • n

P_a2 = P(a ⋀ 2) = P (a) ∙ P (2) = $\frac{\bigodot}{n}\ \bullet \ \frac{x}{n}$ f_{e_a2} = P_a2 • n

$f_{e_{\text{ij}}} = \ \frac{\left( \text{suma\ wiersza\ i} \right) \bullet (suma\ kolumny\ j)}{n}$

MIARY KONTYNGENCJI

Tabela typu „2 x 2”:

$$\chi^{2} = \ \frac{{n\ (bc - ad)}^{2}}{\left( a + b \right)\left( c + d \right)\left( a + c \right)(b + d)}$$

f_ij		Y	∑
x	a	b	a+b
	c	d	c+d
∑	a+c	b+d	n

χ_max² = n

Miara kontyngencji φ- Yule’a:

$$0\ \leq \varphi = \ \sqrt{\frac{\chi^{2}}{\chi_{\max}^{2}}} = \sqrt{\frac{\chi^{2}}{n}} \leq 1\ $$

Ponieważ χ² osiąga wartość maksymalną tylko wtedy, gdy rozkłady brzegowe frekwencji (wierszy i kolumn) odpowiadają sobie, φ najczęściej nie ma odniesienia (przy interpretacji) do 1, której nie osiąga.
Proponowana poprawka Cale’go nie jest właściwym rozwiązaniem. [Istnieje „luka teoretyczna”. Czeka na rozwiązanie.]

Tabela typu „k x l”:

(k i l – równocześnie różne od 2)

$\chi^{2} = \ \sum_{i,j}^{}{\frac{f_{o_{\text{ij}}}^{2}}{f_{e_{\text{ij}}}} - \ n}$ |r|= $\sqrt{\frac{9}{1 + 9}}$

Jeżeli k = l ; k≥3 :

χ_max² = (k−1) • n

Miara kontyngencji c – Pearsona:

$$0\ \leq c = \ \sqrt{\frac{\chi^{2}}{\chi^{2} + \ n}} < 1\ $$

Jak widać nigdy nie osiąga jedności.

Wyszukiwarka

Podobne podstrony:
Wybrane przepisy prawne
przepisy zeglarz 2009
Czynności kontrolno rozpoznawcze w zakresie nadzoru nad przestrzeganiem przepisów
Wyklad 2 Eksploatacja przepisy szczegolowe
T7 NASTĘPSTWA PRAWNE NARUSZENIA PRZEPISÓW
1 Znaki i Przepisy Drogowe 1 221
Przepisy na naturalne kosmetyki, porady makijażowe
PRZEPISY KUCHNI ŚRÓDZIEMNOMORSKIEJ
Kilka przepisów na gofry
06 Stosowanie przepisów prawa w działalności socjalnejid 6409
63 w sprawie ogolnych przepisow Nieznany (2)
Piractwo komputerowe a polskie przepisy prawne
06 Stosowanie przepisow prawa i Nieznany
0 0 WYKAZ PRZEPISOW obowiazujacych do egzaminu w sesji wiosennej 2011
Dostosuj zakład do przepisów prawa pracy Komentarz do ankiety kontrolnej bhp na budowie, 2005 cz3

więcej podobnych podstron