kalki przepisane

MIEJSCE STATYSTYKI W NAUCE

np. dla zdań p i q, implikacja pq oznacza „jeśli p, to q”.

Zatem, rozumowanie jest bądź:

  1. Poszukiwaniem następstwa dla racji (gdy kierunek rozumowania zgadza się z kierunkiem wynikania logicznego).

  2. Poszukiwaniem racji dla następstwa (gdy kierunek rozumowania i wynikania logicznego są przeciwne). Jest to tzw. ROZUMOWANIE NIEINDUKCYJNE, INDUKCYJNE.

Noszą one nazwę zdań spostrzeżeniowych lub obserwacyjnych (ang. preceptual statements, obserwation statements)

pq

Szuka się prawa skończona liczba obserwacji

przyrody, którego następstw pewnych

prawdopodobnym skutkiem nieznanych praw przyrody

są następstwa

Jeżeli zajścia lub niezajścia zdarzenia nie można przewidzieć i jeżeli powiedzenie, że „zachodzi ono” lub „nie zachodzi” ma zawsze sens, to mówi się, że takie zdarzenie jest zdarzeniem losowym.

Zdarzenia – w szczególności- dotyczące obserwowanych poziomów własności, cech obiektów badanych (wybranych z całej populacji obiektów).

P(x)= ($\frac{n}{x}$)/2n= ($\frac{n}{x}$)($\frac{1}{2}$)n = ($\frac{n}{x}$)($\frac{1}{2}$)x × ($\frac{1}{2}$)n-x

prawdopodobieństwa p(c) p(D)

zdarzeń prostych: p + q =1

Rozkład dwumianowy prawdopodobieństwa zm. X

- Rozkład Bernoulli’ego:

Bn;p = P(x) = ($\frac{n}{x}$) × px × q(n-x)

Rozkład prawdopodobieństwa dla X nie będzie symetryczny (im bardziej p ≠ q tym większa asymetria):

x p=q p≠q

5

4

3

2

1

0

0,031

0,156

0,313

0,313

0,156

0,031

0,036

0,170

0,321

0,303

0,143

0,027

1 1

Wartość oczekiwana zmiennej losowej X,

µ = $\sum_{x = 0}^{n}x$ × P(x) = n×p

(średnia arytmetyczna zmiennej losowej, czy statystycznej)

POJĘCIE PRAWDOPODOBIEŃSTWA

Jeżeli zajścia lub niezajścia zdarzenia nie można przewidzieć i jeżeli powiedzenie, że „zachodzi ono” lub „nie zachodzi” ma zawsze sens, to mówi się, że takie zdarzenie jest zdarzeniem losowym.

Jeżeli zdarzenia A nie można przedstawić

CHARAKTERYSTYKA ROZKŁADU PRAWDOPODOBIEŃSTWA ZMIENNEJ LOSOWEJ X

(miary tendencji centralnej) σ2 - wariancja

µ - wartość oczekiwana X (σ – odchylenie standardowe)

(średnia arytmetyczna) v- rozpiętość (przedział określoności X)

M – modalna

(wartość najbardziej prawdopodobna)

Me – mediana

PARAMETRY

Przykłady populacji (zbiory obiektów, na których określona jest X)

TRÓJKĄT PASCAL’A

Liczba sposobów ustawienia elementów dwu rodzajów na n- miejscach, gdy elementów pierwszego rodzaju jest X

X 1 2 3 4 5 6 7

0 1 1 1 1 1 1 1

1 1 2 3 4 5 6 7

2 - 1 3 6 10 15 21

3 - 1 4 10 20 35

4 - 1 5 15 35

5 - 1 6 21

6 - 1 7

7 - 1

. –

.

∑= 2n 2 4 8 16 32 64 128

Test psychologiczny, składający się z n- pytań z odpowiedziami „tak” lub „nie” (pytania typu rozstrzygnięcia) ma rozkład Bn;p przy założeniu takiej samej szansy odpowiedzi „tak” na każde pytanie konkretnej osoby badanej.

STATYSTYKA OPISOWA X W PRÓBIE

Założenie słabsze, prawdziwe- że być może dla niektórych pytań p są identyczne, dla części różne- jest w rzeczywistości nie do sprawdzenia, aczkolwiek, gdyby wszystkie pi (i = 1,...,n) były znane, łatwo byłoby zbudować model prawdopodobieństwa i znaleźć rozkład prawdopodobieństwa zmiennej losowej X (której znaczenie wyrażone jest treścią pytań testu psych.). byłby to model dość skomplikowany formalnie.

Populacja Próba losowa

Składa się z N elementów: składa się z n elementów

  1. N- skończona n- skończona

  2. N- nieskończona

Frakcja (częstość) występowania wartości xi w próbie równa fi/n może szacować szansę realizowania się tej wartości w całej populacji.

p (X = xi) ≈ fi/n ,

gdzie fi – to tzw. „frekwencja” wartości xi (liczba „wystąpień” xi w próbie).

[Oznaczamy liczbę pytań testu psychologicznego przez k, dla uniknięcia mylenia oznaczeń]

WŁASNOŚCI MIAR CENTRUM

∑ (xi – x̄) = 0

(suma odchyleń wszystkich pomiarów od średniej arytmetycznej równa jest zeru)

[- jest punktem „środkiem ciężkości” rozkładu frekwencji]

$\sum_{i = 1}^{n}{(x}$i- x̄)2 < $\sum_{i = 1}^{n}{(x_{i} - \ {x\bar{}}_{0})^{2}\ }$

$\sum_{i = 1}^{n}\left| x_{i} - me \right|$ $< \ \sum_{i = 1}^{n}\left| x_{i} - x_{0} \right|$

MIARY SKOŚNOŚCI ROZKŁADU X

K̂= $\frac{3(x\bar{} - me)}{S}$

WŁASNOŚCI MIAR ROZPROSZENIA

W próbie:

Sx = Sx+c

W próbie:

Sx c= |c| ∙ Sx

Stąd:

Sx+c2 = Sx2

Sc x2= c2 Sx2

Uśredniona suma kwadratów różnic między parą pomiarów równa jest podwojonej wariancji.


$$\frac{\sum_{\begin{matrix} i,j = 1 \\ i \neq j \\ \end{matrix}}^{n}{(x_{i} - x_{j})^{2}}}{\frac{n(n - 1)}{2\not{}}} = \overset{\not{}}{2} \bullet \ s^{2}$$

Stąd:

$s^{2} = \frac{1}{n\left( n - 1 \right)}\sum_{\begin{matrix} i,j = 1 \\ \\ \end{matrix}}^{n}{(x_{i} - x_{j})^{2}}$ , I ≠ j

WYNIKI STANDARDOWE (wyniki standaryzowane)

TRANSFORMACJA STANDARYZACJI.

xi- wynik surowy zmiennej X

zi- wynik standardowy zmiennej X

w próbie:

zi= $\frac{x - x\bar{}}{S}$


$$\sum_{i = 1}^{n}{z_{i}^{2} = n - 1}$$

DYSTRUBUANTA ZMIENNEJ LOSOWEJ

(„skumulowane prawdopodobieństwo”)

F(x)= P(X≤x)

(dystrybuanta w punkcie x, to prawdopodobieństwo, ze zmienna losowa przyjmie wartości mniejsze, bądź równe x).

NORMALNY ROZKŁAD PRAWDOPODOBIEŃSTWA

Widać, że dla n bardzo dużego- ze względu na wygodę liczenia prawdopodobieństwa zdarzeń złożonych, jest sens aproksymować („przybliżyć”) ten rozkład krzywą ciągłą.


$$P\left( X = x \right) = f\left( x \right) = \ \frac{1}{\sigma \bullet \sqrt{2\Pi}} \bullet e^{- \frac{1}{2}(\frac{x - \mu}{\sigma})^{2}}$$

gdzie e- stała Eulera, podstawa logarytmu naturalnego

P (x1≤X≤x2); P (-∞<X<+∞)

[Ten przedział może być bardzo mały, ale nie może być pojedynczym punktem].

P (X=x) = f(x) = N (µ; σ2)

TRANSFORMACJA STANDARYZACJI

[Przeskalowanie zmiennej X]

X zmienia się na Z

X z = $\frac{x - u}{\sigma}$; w próbie z= $\frac{x - x\bar{}}{S}$

Własności transformacji:

x= µ + z∙ σ

liczby odchyleń standardowych od średniej, czyli interpretację wyniku pojedynczego osoby w kontekście przeciętnego wyniku grupy.

µ=0; σ 2=1

Zależność funkcji gęstości oraz dystrybuant zmiennych losowych przed i po- wystandaryzowaniu


$$f\left( x \right) = \frac{1}{\sigma \bullet \sqrt{2\Pi}}e^{- \frac{1}{2}(\frac{x - \mu}{\sigma})^{2}}$$

1 z


$$g\left( z \right) = \frac{1}{\sqrt{2\Pi}}e^{- \frac{z^{2}}{2}}$$

Znając funkcje gęstości wystandaryzowanego rozkładu normalnego g(x) w prosty sposób wyznacza się wartość f(x) (znając odchylenie standardowe zmiennej), funkcję gęstości dowolnej zmiennej o rozkładzie normalnym.

[ Toteż funkcja g(x) została zapisana w tablicach- patrz TABLICE STATYSTYCZNE dowolnego autora]

P (x1≤x≤x2) = F(x2) – F(x1) = P(z1≤z≤z2)

P(x1≤x≤x2)= Φ(z2) – Φ(z1)

WŁASNOŚCI WYSTANDARYZOWANEGO ROZKŁADU NORMALNEGO

Zatem:

TWIERDZENIE MOIVRE’A- LA PLACE’A

Wniosek:

Dla dostatecznie dużych n (rzędu co najmniej kilkudziesięciu) można szacować:

P(x1≤X ≤x2) = P(z1≤Z ≤z2) ≈ Φ(z2) – Φ(z1)

Przy czym: Z= $\frac{X - np}{\sqrt{\text{n\ } \bullet p \bullet q}}$

PODSTAWY WNIOSKOWANIA

P(a ≤$\text{\ \ }\frac{Y_{(n)}\ - n \bullet p}{\sqrt{n \bullet p \bullet q}}$ ≤ b) = Φ (b) – Φ(a)

µ= n • p w rozkładzie

σ2= n • p • q dwumianowym zmiennej Y(n)

Parametry- charakterystyki rozkładu prawdopodobieństwa zmiennej losowej (czyli charakterystyki rozkładu w populacji). Np. miary centrum.

Ich szacunki w próbach, inaczej estymatory, zależą od konkretnej próby; są zatem zmienne, są przypadkowymi wartościami.

W konkretnej próbie można znaleźć wartość estymatora ustalonego parametru.

Tw. Lindeberga- Levyego: Centralne twierdzenie graniczne

Jeżeli z populacji, w której zmienna losowa X ma dowolny rozkład prawdopodobieństwa ze średnią µ i wariancją σ 2 losujemy kolejne próby losowe o coraz większej liczbie elementów n, to wraz ze wzrostem liczby losowań, rozkład estymatora µ, czyli rozkład średniej z próby, X, dąży do rozkładu normalnego ze średnią µ i wariancją σ2/n:

N (µ; σ 2/n)

Jeżeli z populacji, w której zmienna losowa X ma rozkład normalny ze średnią µ i wariancją σ 2 losujemy próby o ustalonej dużej liczebności n, to wraz ze wzrostem liczby losowań rozkład estymatora µ, czyli rozkładu średniej z próby, X, dąży do rozkładu normalnego ze średnią µ i warinacją σ 2/n:

N (µ; σ 2/n)

Def. Błąd standardowy statystyki jest to odchylenie standardowe (w rozkładzie z próby) tej statystyki

Np. σ =$\text{\ \ }\frac{\sigma}{\sqrt{n}}$

PRZEDZIAŁY UFNOŚCI

Wiadomo, że dla dowolnej zmiennej losowej X:

z = $\frac{x - u}{\sigma}$ X= µ + z ∙ σ

Toteż:

z = $\frac{x\bar{} - u}{\sigma}$ = $\frac{x\bar{} - u}{\frac{\sigma}{\sqrt{n}}}$ x̄= µ + z ∙ $\frac{\sigma}{\sqrt{n}}$

NORMY

Def. Kwartylem k rzędu m, k= 1,2,...,m, zmiennej losowej X nazywa się wartość x X spełniająca równanie: P(X≤x) = $\frac{k}{m}$, 0< $\frac{k}{m}$ ≤ 1

m= 4 $\frac{k}{4}$ k= 1,2,3,4 - kwartyle

m= 10 $\frac{k}{10}$ k= 1,2,...,5,...,10 - decyle

m= 100 $\frac{k}{100}$ k= 1,2,...,50,...,100- centyle/ percentyle

PODSTAWY WNIOSKOWANIA

P( µ- zα $\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$ ≤ x ≤ µ+ zα $\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$) = 1- α

α- wyraża wielkość błędu wnioskowania

Def. Poziom istotności (wnioskowania) α, jest wielkością błędu wnioskowania, polegającego na przypuszczeniu odnośnie parametrów populacji.

Interpretacja: Poziom istotności (wnioskowania) α, w rozkładzie z próby statystyki stanowi ustaloną (przez badacza) „sumę” prawdopodobieństw najmniej prawdopodobnych wartości tej statystyki.

Jest to „łączne” prawdopodobieństwo dla najmniej prawdopodobnych wartości tej statystyki.

Np. α= 0,05

TEORIA ESTYMACJI

Np. µ≈x̄

Stąd powinny zawsze uzupełnione być informacjami, które pozwoliłyby osądzić ich zalety

x̄ będzie się różniło od µ mniej, niż o $z_{(1 - \frac{\alpha}{2})}$$\frac{\mathbf{\sigma}}{\sqrt{\mathbf{n}}}$

Wiedząc, że: $Z_{1 - \frac{0.05}{2}}$ = 1,96

$Z_{1 - \frac{0.02}{2}}$ = 2,33 twierdzić możemy, że; np.:

$Z_{1 - \frac{0.01}{2}}$ = 2,58

„Z prawdopodobieństwem 0,98, błąd szacunku X-µ jest mniejszy niż 2,33 σ/$\sqrt{n}$.”

Toteż: P(|x̄- µ|< $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ )= 1- α

- $Z_{\left( 1 - \frac{\alpha}{2} \right)} \bullet \ \frac{\sigma}{\sqrt{n}}$ <x̄ - µ< $Z_{\left( 1 - \frac{\alpha}{2} \right)} \bullet \ \frac{\sigma}{\sqrt{n}}$

Zatem:

x̄ - $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ < µ< x̄ + $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$

Z prawdopodobieństwem 1- α twierdzimy, że nierówność ta jest spełniona dla dowolnej próby.

P(x̄ - $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ < µ< x̄ + $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$ ) = 1- α

Do powyższego wzoru można zamiast σ można wprowadzić jego oszacowanie na podstawie próby σ≈S

Aby to oszacowanie było „sensowne”, próba musi być duża, n- duże, a i tak nie wiadomo czy różnica obydwu wielkości jest dodatnia, czy ujemna.

$Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{s}{\sqrt{n}}$ i $Z_{(1 - \frac{\alpha}{2})} \bullet \ \frac{\sigma}{\sqrt{n}}$

[czyli, który z błędów jest większy]

Dygresja:

TEORIA ESTYMACJI (SPOSÓB SZACOWANIA PARAMETRÓW POPULACJI)

P(x̄ - $z_{\alpha} \bullet \ \frac{\sigma}{\sqrt{n}}$ < µ < x̄ + $Z_{\alpha} \bullet \ \frac{\sigma}{\sqrt{n}}$ ) = 1- α

Toteż:

P(x̄ - $z_{\alpha} \bullet \ \frac{s}{\sqrt{n}}$ < µ < x̄ + $Z_{\alpha} \bullet \ \frac{s}{\sqrt{n}}$ ) = 1- α

PODSTAWY WNIOSKOWANIA

WNIOSEK Z CENTRALNEGO TWIERDZENIA GRANICZNEGO:

Jeżeli pobieramy kolejno próby losowe o ustalonej i małej liczebności n z populacji, w której zmienna losowa ma rozkład normalny ze średnią µ i nieznaną wariancją σ2, to wraz ze wzrostem liczby losowań rozkład średniej z próby dąży do spłaszczonego rozkładu normalnego.

Spłaszczenie jest tym większe, im mniejsza liczebność próby.

Takie rozkłady po wystandaryzowaniu noszą noszą nazwę rozkładów prawdopodobieństwa t- studenta zmiennej (wystandaryzowanej) t.

HIPOTEZA STATYSTYCZNA

Def. Hipoteza statystyczna to jakiekolwiek przypuszczenie dotyczące nieznanego rozkładu populacji generalnej.

Ogólnie – wiedza a priori o rozkładzie zmiennej X w populacji generalnej wyznacza zbiór możliwych rozkładów tej zmiennej.

Zbiór ten nazywa się zbiorem hipotez dopuszczalnych Ω.

H: F(x) ⋲ w

Hipoteza tak w sposób jednoznaczny określa przypuszczalny rozkład populacji generalnej.

Jeżeli do w należy więcej niż jeden rozkład, wtedy H jest hipotezą złożoną.

Np. zbiór hipotez dopuszczalnych Ω, to zbiór rozkładów normalnych, czyli zbiór typu Ω p. Wysuwamy hipotezę, że µ=2; H: µ=2 z dowolnym odchyleniem standardowym.

Ω składa się z nieskończonej liczby rozkładów normalnych o średniej 2. Jest to hipoteza złożona.

Gdy jednak znamy σ, np. σ =1, wtedy stawiając H: µ=2 identyfikuje się konkretny rozkład normalny; jest to zatem hipotez prosta.

Np. zbiór Ω, to rozkład normalny o σ =1. Przy H: µ > 2, postawiliśmy hipotezę złożona choć parametryczną.

W szczególności hipotezy są postaci, np.

H0: µ1 = µ2 H0: µ1 = µ2

H1: µ1 ≠ µ2 H1: µ1 > µ2

H0 : µ= 15 lub H0 : µ- 15= 0

H1: µ< 15 H1: µ- 15< 0

TESTEM STATYSTYCZNYM:

BŁĘDY WNIOSKOWANIA

Wydaję się iż:

Schemat wnioskowania statystycznego

Racje (założenia) wnioski, następstwa (konkluzje)

A B

Z prawdziwości A zawsze wynika prawdziwość B

A

[zdania te mówię: gdy A prawdziwe i inne założenia prawdziwe, to w większości przypadków rezultaty z próby znajdują się w pewnym określonym przedziale wyników

B

POZIOM BŁĘDÓW WNIOSKOWANIA

DECYZJA D = D1 D2 HIPOTEZA zerowa PRAWDZIWA HIPOTEZA zerowa FAŁSZYWA

PRZYJĄĆ H0

D1

O

WŁAŚCIWA

BŁĄD II RODZAJU WIELKOŚCI β

ODRZUCIĆ H0

PRZYJĄĆ H1

D2

BŁĄD I RODZAJU WIELKOŚCI α

O

WŁAŚCIWA

POZIOM UFNOŚCI WNIOSKOWANIA

DECYZJA D = D1 D2 HIPOTEZA zerowa PRAWDZIWA HIPOTEZA zerowa FAŁSZYWA

PRZYJĄĆ H0

D1

1 - α 1 - β

ODRZUCIĆ H0

PRZYJĄĆ H1

D2

1 - α

MOC TESTU

1 - β

BŁĘDY WNIOSKOWANIA

Charakter błędów:

AB (Jeżeli B jest prawdziwe, A może być prawdziwe, lub nie. Może istnieć pewna liczba teorii alternatywnych również wywołujących B)

[poszukiwanie racji dla następstwa (gdy kierunek rozumowania i wynikania logicznego jest przeciwny) – to rozumowanie indukcyjne.]

( Jeżeli A jest prawdziwe, to B prawdopodobnie również jest prawdziwe. Dopuszcza się możliwość fałszywości B, gdy prawdziwe A).

Gdy zawsze będziemy odrzucać A, gdy B będzie fałszywe (wynik statystyki testu leży w obszarze krytycznym), ponosić będziemy ryzyko popełnienia błędu polegającego na odrzuceniu hipotezy prawdziwej. Jego wielkość jest równa α.

Test t – studenta

H1 : µ ≠ µ0

t = $\frac{x\bar{} - \text{µ\ }}{\sigma_{x\bar{}}}$ = $\frac{x\bar{} - u}{s}$$\sqrt{n}$ postać statystyki testu

Test t – studenta dla dwu populacji niezależnych

Jeżeli pobieramy niezależnie duże próby losowe parami odpowiednio o liczebności n1 i n2 zdwu populacji niezależnych o rozkładach (zmiennej X) normalnych:

N (µ1; σ12)

N (µ2; σ 22),

to rozkład z próby różnicy między średnimi (x̄1 – x̄2) dąży do rozkładu normalnego ze średnią µ1 - µ2 oraz wariancją $\frac{\sigma_{1}^{2}}{n_{1}}$ + $\frac{\sigma_{2}^{2}}{n_{2}}$

N (µ1; σ 12)

N (µ2; σ 22)

H1 : µ1 > µ2

Postać statystyki testu t= $\frac{\left( {x\bar{}}_{1} - {x\bar{}}_{2} \right) - \ (u_{1} - u_{2})}{\sigma_{\left( {x\bar{}}_{1} - {x\bar{}}_{2} \right)}}$

t= $\frac{\left( {x\bar{}}_{1} - {x\bar{}}_{2} \right) - \ 0}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}\ + \ \frac{\sigma_{2}^{2}}{n_{2}}}}$ wynik wystandaryzowany

Załózmy: Homogeniczne Heterogeniczne

Test F- Fishera

Założenia:

H1 : σ 1 > σ 2

Statystyka testu Fishera F= $\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}} \approx \ \frac{s_{1}^{2}}{s_{2}^{2}} \geq 1$

TEST T- STUDENTA

Dla dwu populacji zależnych

Jeżeli pobieramy kolejno zależne próby losowe parami o dużej liczebności n z dwu populacji, w których zmienna x1 i x2 mają rozkład normalny, to, gdy D= X1- X2 jest zmienną różnic pomiarów (o rozkładzie normalnym ze średnią µD i wariancją σ D), rozkład średniej zmiennej D, XD, dąży do rozkładu normalnego ze średnią µD i wariancją σ D/n.

Populacje zależne:

METODY ANALIZY WARIANCJI

A, B ...- to zmienne niezależne (objaśniające)

ANALIZA WARIANCJI PROSTA

[jednowymiarowa, jednoczynnikowa analiza wariancji dla populacji niezależnych]

Złożenia:

N (µ2; σ 22)

N (µk; σ k2)

H1: ≈ H0 efekt główny działania i- tego poziomu

H1: ≈ H0

H1: ≈ H0


$$\frac{\sigma^{2}}{\sigma^{2}} = F = \ \frac{\frac{1}{k - 1}\ \sum_{i = 1}^{k}{({x\bar{}}_{i} - x\bar{})^{2\ } \bullet \ n_{i}}}{\frac{1}{n - k}\ \lbrack\left( n_{1} - 1 \right)s_{1}^{2} + \left( n_{2} - 1 \right)s_{2}^{2} + \ldots + \left( n_{k} - 1 \right)s_{k}^{2}\ \rbrack}$$

F> Fα.f ,f H0-

  1. Gdy założenie to jest spełnione,

σ 12 = σ 22 = ...= σ k2 = σ 2

wariancję w populacji można szacować estymatorem łącznym wariancji z k- prób

σ 2= s2= $\frac{s_{1}^{2}\ + s_{2}^{2}\ + \ldots + s_{k}^{2}\text{\ \ }}{k} = \frac{1}{n - k}\ \left\lbrack \left( n_{1} - 1 \right)s_{1}^{2} + \left( n_{2} - 1 \right)s_{2}^{2} + \ldots + \left( n_{k} - 1 \right)s_{k}^{2}\ \right\rbrack = \ \frac{1}{n - k}\ \sum_{i = 1}^{k}{\sum_{j = 1}^{n}{(x_{\text{ij}} - {x\bar{}}_{i}\ )^{2}}}$

  1. Gdy prawdziwa jest hipoteza zerowa, z założenia o normalności rozkładu X wynika, iż „rozrzut” średnich grupowych może być szacunkiem wariancji w populacji, gdy próby są równoliczne.


$${\sigma\ }_{x\bar{}}^{2} = \ \sigma^{2}/m$$


$${\sigma\ }^{2} = m \bullet \text{\ \ }\sigma_{x\bar{}}^{2}$$

estymator wariancji średnich jest:

m $\frac{1}{n - k}\ \sum_{i = 1}^{k}{({x\bar{}}_{i} - \ x\bar{})^{2}}$

Iloraz dwu różnych oszacowań wariancji w populacji jest statystyką F- Fishera. Satatystyka ta ma rozkład F- Snedecova.


$$F = \frac{{\sigma\ }_{\text{II}}^{2}}{{\sigma\ }_{I}^{2}} \approx \ \frac{m \bullet \ \sigma_{x\bar{}}^{2}}{\frac{s_{1}^{2}\ + s_{2}^{2}\ + \ldots + s_{k}^{2}\text{\ \ }}{k}}$$


$$F = \ \frac{\frac{m}{k - 1}\ \sum_{i = 1}^{k}{({x\bar{}}_{i} - \ x\bar{})^{2}}}{\frac{1}{n - k}\ \lbrack\sum_{i = 1}^{k}{\sum_{j = 1}^{m}{(x_{\text{ij}} - {x\bar{}}_{i}\ )^{2}}}}$$


$$F = \ \frac{\frac{1}{k - 1}\ \sum_{i = 1}^{k}{{x\bar{}}_{i} - \ x\bar{})^{2}\text{\ \ } \bullet n_{i}}}{\frac{1}{n - k}\lbrack\sum_{i = 1}^{k}{\sum_{j = 1}^{n}{(x_{\text{ij}} - {x\bar{}}_{i}\ )^{2}}\rbrack}}$$

INTERAKCJA CZYNNIKÓW I KONTRASTY MIĘDZY PARAMETRAMI

Np. A k=4 - istnieją istotne efekty główne przy braku interakcji czynników

B l=3

B B

µij 1 2 3 µi

1

2

3

4

12 14 11,5

11,5 13,5 11

10 12 9,5

8,5 10,5 8

12,5

12

10,5

9

µj 10,5 12,5 10 µ=11

1 2

µ11 - µ12= -2

µ21 - µ22= -2

µ31- µ32= -2

µ41 - µ42= -2
µ1- µ2 µj µ1- µ2= 10,5- 12,5= -2

Podobnie, np.:

µ32- µ41= 1,5 µi

µ32- µ42= 1,5 µ3- µ4= 10,5- 9= 1,5

µ33- µ43= 1,5

µij- µi= µj- µ ,oraz

µij- µj= µi- µ „odcinki parami równe”

- „własność prostokąta”

Po dodaniu stronami:

2 µij – 2 µi – 2 µj + 2 µ = 0

µij – µi – µj + µ = 0

Negacja tego równania:

(αβ)ij = µij – µi – µj + µ ≠0

- „interakcja” i-tego poziomu czynnika A z j-tym poziomem czynnika B we wpływie na Y;

efekt interakcyjny

np. A k=3 - istnieją efekty interakcyjne przy braku efektów głównych obydwu czynników

B l=3

Analiza efektów interakcyjnych jest niezależna od analizy efektów głównych.

  1. H0 : αi=0 i=1,2,...,k

  2. H0 : βj=0 j=1,2,...,l ogólnie hipotez:

  3. H0 : (αβ)ij=0 dla i=1,...,k L = 2c – 1

J=1,...,l c- liczba czynników

KONTRASTY PARAMETRÓW

dla i≠i , j≠j - kontrast II rzędu

Liczba kontrastów: I rzędu - k

A (k- poziomów) 2

II rzędu

A (k- poziomów)

B (l- poziomów)

STRUKTURA WYNIKU OSOBY BADANEJ O NUMERZE r:

Yijr = µ + αi + βj +(αβ)ij + Εijr

Yijr= µij + Εijr

ZMIENNOŚĆ CAŁKOWITA WYNIKÓW POMIARÓW

Yijr - µ = Yijr - µijr + µijr - µi + µi - µj + µj - µ + µ - µ = (µi - µ) + (µj - µ) + (µij - µi - µj + µ) + (Yijr - µijr)

STOPNIE SWOBODY WARIANCJI

SSTOTAL = SSA + SSB + SSAxB + SSERROR

(n -1)= (k -1) + (l -1) + (l -1) (k -1) + (n-k l)


$$\frac{SS}{n - 1} \neq \frac{\text{SS}}{k - 1} + \frac{\text{SS}}{l - 1} + \ \frac{\text{SS}}{\left( k - 1 \right)(l - 1)} + \ \frac{\text{SS}}{n - k\ \ l}$$

WARIANCJE:

MSTOTAL≠ MSA +MSB + MSAxB + MSERROR

DWUCZYNNIKOWA ANALIZA WARIANCJI

Założenia:

Y ~ N (µj ; σj2),j= 1,...,l

oraz ich przecięcia: Y ~ N (µij ; σij2)

Założenie o homogeniczności należy bezwzględnie zweryfikować testem Bartletta

PROBLEMATYKA PRZEWIDYWANIA WARTOŚCI (OCZEKIWANEJ) ZMIENNEJ, Y, DGY ZNANE SĄ WARTOŚCI INNEYCH ZMIENNYCH

(obniżanie zmieności „niewyjaśnionej” – Y)

REGRESJA

Modele regresji

Y- zmienna objaśniana (zależna, kryterium, endogeniczna)

X1, ... , Xk – zmienne objaśniające (niezależne, predykatory, egzogeniczne)

W sensie formalnym- szuka się „najlepszej” funkcji, czyli postaci funkcji: Y= f(X1, ... , Xk) nie zawsze zależnej od wszystkich argumentów.

REGRESJI LINIOWEJ

Populacja: Y= β1X1 + β2X2 + ... + βkXk + α

gdzie α, β1, β2, ..., βk – parametry; współczynniki regresji (do oszacowania)

Próba: Ŷ= b1X1 + b2X2 + ... + bkXk + a,

gdzie a, b1, ... , bk – estymatory nieobciążone; szacunki współczynnika regresji

PROSTA REGRESJA LINIOWA

Y = βX + α

Wartości oczekiwane zmiennej Y dla różnych wartości zmiennej X leżą na jednej prostej

[ Homoscedastyczność wariancji jest założeniem „każdej” regresji, niekoniecznie liniowej. Jeżeli wartości oczekiwane Y (dla różnych X) leżą na krzywej – poszukiwana krzywa regresji powinna należeć do klasy funkcji „najbliższej” postaci tej funkcji- np. wielomian drugiego stopnia]

SPOSÓB WYZNACZANIA PROSTEJ

-------------------------------------------

Całkowita zmienność Y:

(yi - ȳ) = yi -ŷi + ŷi - ȳ = (yi -ŷi) + (ŷi - ȳ)

Po podniesieniu obydwu stron do kwadratu i zsumowaniu po wszystkich osobach otrzyma się podział zmienności całkowitej

$\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2} = \ \sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2} + 2\sum_{i = 1}^{n}{\left( y_{i} - {y\hat{}}_{i} \right)\left( {y\hat{}}_{i} - \text{\ y}\bar{} \right) + \ \sum_{i = 1}^{n}{({y\hat{}}_{i} - \ y\bar{})}^{2}}$

= 0

Ostatecznie:

$\sum_{i = 1}^{n}{{(y_{i}\ - \ y\bar{})}^{2}\text{\ \ \ \ }} = \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2}\ \ \ \ \ \ + \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \sum_{i = 1}^{n}{({y\hat{}}_{i} - \ y\bar{})}^{2}$

zmienność całk. Y zmienność Y niewyjaśniona zmienność wyjaśniona

X-em (znajomością zmienności X) X-em (znajomością

zmienności X)

Dzieląc obydwie strony przez wartość lewej strony otrzyma się:


$$1 = \ \frac{\sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2}}{\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2}}\ \ + \text{\ \ }\frac{\sum_{i = 1}^{n}{({y\hat{}}_{i} - \ y\bar{})}^{2}}{\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2}}$$

Część zmienności Y nie- część zmienności Y

wyjaśniona X-em wyjaśniona X-em; świadcząca o „związku” Y z X-em o

stopniu przewidywalności Y z X-a;

dobroci dopasowania prostej do

zbioru punktów

Współczynnik determinacji: $\text{r\ }^{2} = 1 - \ \frac{\sum_{i = 1}^{n}{(y_{i} - {y\hat{}}_{i})}^{2}}{\sum_{i = 1}^{n}{(y_{i}\ - \ y\bar{})}^{2}}$

Jak „optymalnie” wpisać prostą w grupę punktów (wyników próbkowych)


$$\sum_{i = 1}^{n}{{(y_{i} - {y\hat{}}_{i})}^{2} = min.}$$

Oznacza to równocześnie maksymalizowanie r2

0 ≤ r2 ≤ 1


$$- 1 \leq r = \ \frac{\sum_{i = 1}^{n}{\left( x_{i}\ \ - \ x\bar{} \right) \bullet \ (y_{i}\ - \ y\bar{})}}{\left( n - 1 \right) \bullet \ s_{x} \bullet \ s_{y}\ } \leq \ + 1$$

r=0 brak związku

rYX = rXY = $\frac{\text{cov}}{\text{S\ \ \ \ \ \ \ S}}$ , gdzie covX,Y = $\frac{\sum_{i = 1}^{n}{\left( x_{i}\ \ - \ x\bar{} \right)\ \ \ (y_{i}\ - \ y\bar{})}}{n - 1}$

zmiennych X i Y stanowią dodatnia lub ujemna – to kowariancja X i Y

element normujący r


$$b = \ \frac{\text{cov}}{S_{x}^{2}} = \ \frac{\sum_{i = 1}^{n}{x_{i}y_{i}} - (\sum_{i = 1}^{n}{x_{i})} (\sum_{i = 1}^{n}{y_{i})/n}}{\sum_{i = 1}^{n}x_{i}^{2} - {(\sum_{i = 1}^{n}{x_{i})}}^{2}/n}$$

$a = \overset{\bar{}}{y} - bx\bar{}$ [punkt (x̄,ȳ) leży na prostej regresji, toteż: ȳ = bx̄ + a]

lub: $b = r_{\text{XY}} \ \frac{S_{Y}}{S_{X}}$

$a = \overset{\bar{}}{y} - bx\bar{}$

$\hat{Y} = r \frac{S_{y}}{S_{x}}\left( x - \overset{\bar{}}{x} \right) + y\bar{}$

${Z\hat{}}_{Y} = r Z_{X}$

PROBLEM PREDYKCJI ODWROTNEJ

rYX = rXY - wynika bezpośrednio z definicji

ale: bYX ≠ bXY oraz aYX ≠ aXY

Przy interpretacji krzywej regresji trzeba dokładnie wiedzieć „co” z „czego” jest przewidywane.

Regresja jest jednokierunkowa!

tzn.

Niech: X̕ = a X + b

Y̕ = c Y + d

gdy a i c są tego samego znaku (a·c >0)

Jakakolwiek transformacja danych, nawet przesunięcie o stałą, zmienia postać równania regresji.

BADANIE SIŁY ZALEŻNOŚCI DWÓCH CECH

H1 : ρ < 0


$$r = \frac{\sum_{i = 1}^{n}{\left( x_{i} - \overset{\bar{}}{x} \right)(y_{i} - \overset{\bar{}}{y})}}{\left( n - 1 \right) S_{x} S_{y}}$$

MIARA SIŁY ZALEŻNOŚCI DWU ZMIENNYCH PORZĄDKOWYCH

τ – Kendalla (tau)

[Jeżeli wiele wartości pierwotnych zmiennych było identycznych (w próbie) pojawiają się tzw. rangi wiązane, które jako wartości średnie miejsc zajmowanych przez „obiekty” równorzędne- mogą być liczbami rzeczywistymi]

Osoby: · · · · ... Osoby: · · · ·

Rangi: 1 2 3 4 ... Rangi: 1 2,5 2,5 4 6 6 6

(przypisywane

osobom)

Niżej kategorie zmiennej X i Y, charakteryzujące pięć osób badanych, oraz rangi nadawane tym kategoriom (pośrednio- osobom)

Lp. X Y X Y RX RY
Si+

Si
Si

1.

2.

3.

4.

n=5.

3

4

5

3

3

2

2

4

3

4

5

4

3

3

3

4

2

3

2

4

1

2

4

4

4

1,5

4,5

3

4,5

1,5

3

0

0

0

0

0

2

0

0

0

3

-2

0

0

0

Σ - - - - 15 15 3 2 S=1

Wartości zmiennej X

zostały uporządkowane $\sum_{}^{n}{R_{X} = \sum_{}^{n}{R_{Y} = \frac{n(n - 1)}{2}}}$

od (diagnostycznie)

„najlepszej” do „najgorszej”

RX RY
Si+

Si

1

2

3

.

.

.

n-1

n

1

2

3

.

.

.

n-1

n

n-1

n-2

n-3

.

.

.

1

0

0

0

0

.

.

.

0

0

Σ -
$$\frac{n(n - 1)}{2}$$
0
RX RY
Si+

Si

1

2

3

.

.

.

n-1

n

n

n-1

n-2

.

.

.

2

1

0

0

0

.

.

.

0

0

n-1

n-2

n-3

.

.

.

1

0


$$S = \frac{n(n - 1)}{2}$$
- 0
$$\frac{n(n - 1)}{2}$$


$$S = - \frac{n(n - 1)}{2}$$

Si+- jest (dla ustalonego i-tego obiektu) liczbą tych obiektów spośród wszystkich pozostałych, dla których rangi zmiennej Y- przy wzrastających rangach zmiennej X- także rosną

Si - jest (dla ustalonego i- tego obiektu) li liczbą tych obiektów spośród wszystkich pozostałych, dla których rangi zmiennej Y- przy wzrastających rangach zmiennej X- maleją;

jest liczbą inwersji (przestawień wartości Y przy wzrastających wartościach X).

Statystyka $S = \ \sum_{}^{}S_{i}^{+} - \sum_{}^{}S_{i}^{-} = \ S_{+} - \ S_{-}$ wyraża przewagę uporządkowania zgodnego par rang nad uporządkowaniem odwrotnym rang.

${\tau\hat{}}_{A} = \frac{S_{\text{empir}}}{S_{\max}} = \ \frac{S_{\text{empir}}}{\frac{n(n - 1)}{2}}$ $\hat{\tau} = \ \frac{2 S}{n\ (n - 1)}$ ; $- 1 \leq \ \hat{\tau}\ \leq \ + 1$

Test 𝛕- Kendalla

Założenia:

H1 : τ<0 lub τ>0, lub τ ≠0

a) ${\tau\hat{}}_{a} = \frac{2S}{n(n - 1)}$, gdy rangi obydwu zmiennych są wolne

b) w przypadku rang wiązanych:

${\tau\hat{}}_{b} = \ \frac{S}{\sqrt{\left( \frac{n\left( n - 1 \right)}{2} - T \right) (\frac{n\left( n - 1 \right)}{2} - U)}}$ , gdzie

T- poprawka wynikająca z liczby węzłów:

$T = \frac{1}{2}\sum_{i = 1}^{l}t_{i}\left( t_{i} - 1 \right) = \sum_{}^{}\frac{t_{i}(t_{i} - 1)}{2}$

U- poprawka wynikająca z liczby węzłów

$U = \frac{1}{2}\sum_{i = 1}^{g}t_{i}\left( t_{i} - 1 \right)\ $

τα,n – wartość krytyczna testu przy ustalonym poziomie istotności α i wielkości próby n odczytywana z tabel.

ROZKŁAD PRAWDOPODOBIEŃSTWA χ2


$$u = \ \frac{\sum_{i = 1}^{n}z_{i}^{2}}{n} = \ \frac{\sum_{i = 1}^{n}{(z_{i}^{} - 0)}^{2}}{n} = \sigma_{z}^{2} = 1$$

χ2 [K]= $\sum_{i = 1}^{n}z_{i}^{2}$ - zmienna losowa o rozkładzie χ2 z k – stopniami swobody

k≥ 2; µ=k; m= k – 2 (modalna); σ[k]2 = 2   k

ZASTOSOWANIE ROZKŁADU PRAWDOPODOBIEŃSTWA χ2(CHI- KWADRAT)

  1. Badanie rozkładu:

  1. Badanie niezależności zmiennych nominalnych

  2. Rozkład χ2 jest rozkładem asymptotycznym wielu statystyk różnych od statystyki χ2, toteż słuzy do wyznaczania wartości krytycznych różnych statystyk.

TEST CHI – KWADRAT


$$\chi^{2} = \sum_{i = 1}^{k}\frac{(f_{o} - \ f_{e})^{2}}{f_{e}}$$

fo – frekwencje otrzymane

fe – frekwencje oczekiwane

- służy do badania zgodności rozkładu empirycznego z teoretycznym

Np.


fo

fe

(fo −  fe)2
2 4 ( - 2)2
172 174 ( - 2)2

4/ 4 = 1

4/ 174 = 0,023

ALGORYTM OBLICZANIA FREKWENCJI OCZEKIWANYCH PRZY ZAŁOŻENIU NORMALNEGO ROZKŁADU PRAWDOPODOBIEŃSTWA ZMIENNEJ

H0 : rozkład X jest normalny

H1 : ~ H0

  1. X- mierzalna uciąglona. Wprowadza się dodatkową klasę wartości ( - ∞, ∙ >, gdzie ∙ to wartość najmniejsza uzyskana w badaniu, np. 0, lub od niej mniejsza (zależnie od rozpiętości klasy, h). Podobnie, wprowadza się klasę <∙, ∞). Obydwie klasy mają frekwencje empiryczne równe (chyba 0- ucięta kalka).

  2. Oblicza się X̄ i s zmiennej (ze wzorów dla danych sklasyfikowanych).

  3. Standaryzuje się górne granice wszystkich klas.

  4. Z tabel dystrybuanty rozkłady normalnego odczytuje się jej wartości dla wyznaczonych „ z-ów”. Znajduje się prawdopodobieństwo dla wartości X z danej klasy (różnica dystrybuant dla górnej i dolnej granicy po wystandaryzowaniu)

  5. Prawdopodobieństwo przyporządkowane klasom, przez wartości X zamienia się na frekwencje oczekiwane, posługując się szacunkiem:

$p_{i} \approx \ \frac{f_{e_{i}}}{n};\ \ \ f_{e_{i}} \approx \ p_{i}\ \bullet n$, gdzie n – liczebność próby.


xi

xgi

zgi

Φ(zgi)

Pi =  Φ(zgi) −  Φ(zgi−1)

fei =  pi • n

0

9 -11

12 – 14

15 – 17

8.5

11.5

14.5


fij

fe
∙ - fe
o -fe x
o x n

Jeden stopień swobody przy wyznaczaniu feij

!!!! Statystyka χ2 ma jeden stopień swobody.

$\chi^{2} = \ \sum_{i,j}^{2\ x\ 2}\frac{(f_{o_{\text{ij}}} - \ f_{e_{\text{ij}}})^{2}}{f_{e_{\text{ij}}}}$; f = 1

Statystyka χ2 ma asymptotyczny rozkład χ2: χ2 >  χα,  f2 ⇒  H0

Zmienna X ma k – kategorii, Y – l – kategorii


fij
1 .. .. l

1
...
i
k



j
n

Frekwencje oczekiwane- przy założeniu prawdziwości hipotezy zerowej- wyznacza się: $f_{e_{\text{ij}}} = \ \frac{\sum_{i}\ \bullet \ \sum_{j}}{n}$

Statystyka χ2 ma asymptotyczny rozkład χ2 z f = (k – 1) (l – 1) stopniami swobody

UWAGA!

fei > 1 , i = 1, ... , k

Decyzja:

χ2 >  χα,  f2 ⇒  H0

f = k – 3 trzy warunki ograniczające : suma pi równa się 1; średnia i wariancja X

[Badanie zgodności z rozkładem dwuzmiennowym f = k – 2 suma pi równa się 1; średnia

BADANIE ZGODNOŚCI DWU ROZKŁADÓW EMPIRYCZNYCH

  1. Zmienna X i Y – zdychotymizowane


fij
1 2

a

b



o x n

H0 : Π1a =  Π2a

H1 : ~ H0

H0 : X i Y są niezależne

H1 : ~ H0

Założenie niezależności zdarzeń implikuje:

Pa1 = P(a 1) = P (a) ∙ P (1) = $\frac{\bigodot}{n}\ \bullet \ \frac{O}{n}$ fea1 =  Pa1 • n

Pa2 = P(a 2) = P (a) ∙ P (2) = $\frac{\bigodot}{n}\ \bullet \ \frac{x}{n}$ fea2 =  Pa2 • n

$f_{e_{\text{ij}}} = \ \frac{\left( \text{suma\ wiersza\ i} \right) \bullet (suma\ kolumny\ j)}{n}$

MIARY KONTYNGENCJI

  1. Tabela typu „2 x 2”:


$$\chi^{2} = \ \frac{{n\ (bc - ad)}^{2}}{\left( a + b \right)\left( c + d \right)\left( a + c \right)(b + d)}$$


fij
Y

x a b a+b
c d c+d


a+c b+d n

χmax2 = n


$$0\ \leq \varphi = \ \sqrt{\frac{\chi^{2}}{\chi_{\max}^{2}}} = \sqrt{\frac{\chi^{2}}{n}} \leq 1\ $$

  1. Tabela typu „k x l”:

(k i l – równocześnie różne od 2)

$\chi^{2} = \ \sum_{i,j}^{}{\frac{f_{o_{\text{ij}}}^{2}}{f_{e_{\text{ij}}}} - \ n}$ |r|= $\sqrt{\frac{9}{1 + 9}}$

χmax2 = (k−1) • n


$$0\ \leq c = \ \sqrt{\frac{\chi^{2}}{\chi^{2} + \ n}} < 1\ $$


Wyszukiwarka

Podobne podstrony:
Wybrane przepisy prawne
przepisy zeglarz 2009
Czynności kontrolno rozpoznawcze w zakresie nadzoru nad przestrzeganiem przepisów
Wyklad 2 Eksploatacja przepisy szczegolowe
T7 NASTĘPSTWA PRAWNE NARUSZENIA PRZEPISÓW
1 Znaki i Przepisy Drogowe 1 221
Przepisy na naturalne kosmetyki, porady makijażowe
PRZEPISY KUCHNI ŚRÓDZIEMNOMORSKIEJ
Kilka przepisów na gofry
06 Stosowanie przepisów prawa w działalności socjalnejid 6409
63 w sprawie ogolnych przepisow Nieznany (2)
Piractwo komputerowe a polskie przepisy prawne
06 Stosowanie przepisow prawa i Nieznany
0 0 WYKAZ PRZEPISOW obowiazujacych do egzaminu w sesji wiosennej 2011
Dostosuj zakład do przepisów prawa pracy Komentarz do ankiety kontrolnej bhp na budowie, 2005 cz3

więcej podobnych podstron