Statystyka wykład sem3

STATYSTYKA

WYKŁAD

2001/2002

ROK: II

SEMESTR: III

WYŁADOWCA:

dr hab. ANDRZEJ BALICKI

SPIS TREŚCI

ANALIZA WSPÓŁZALEŻNOŚCI

(wykład z 15-09-2001)

WSPÓŁZALEŻNOŚĆ - związki między cechami ilościowymi i jakościowymi.

ANALIZA jest to poznawanie związków między cechami.

W rzeczywistości rzadko jest tak, aby jakaś cecha u obiektów lub zjawisko kształtowało się zupełnie niezależnie od innych cech lub zjawisk.

Już pobieżne obserwacje różnych wielkości pozwalają stwierdzić istnienie pewnych związków lub zgodności między nimi.

Rozważmy sytuację dwóch zmiennych:

Cecha Y - wydatki na żywność

Cecha X - dochody gospodarstw domowych

W przedziale o tych samych dochodach mamy różne wydatki na żywność. Inne cechy gospodarstw domowych wpływają i kreują różne rozkłady wydatków przy danym dochodzie.

Zależności między zjawiskami rzeczywistymi nie mają charakteru funkcyjnego lecz probabilistyczny. Nazywamy je zależnościami stochastycznymi.

ZALEŻNOŚĆ STOCHASTYCZNA

Polega na tym, że jedna ze zmiennych reaguje na zmiany drugiej w ten sposób, że zmienia swój rozkład.

Analiza zależności ma na celu ustalenie siły i kierunku występujących związków między cechami, oraz skwantyfikowania wpływu czynników na badanie zmiennej.

Prezentacja danych w analizie współzależności - wstępna ocena charakteru.

Przyjmijmy, że badamy próbę n elementów. Obiekty obserwujemy ze względu na obie cechy ilościowe x_i , y_i. Każda jednostka jest scharakteryzowana parą liczb (x_i, y_i).

Jeśli n jest małe, tworzymy szereg korelacyjny.

Numer jednostki
( i )

Wartość cechy
( x_i)

Wartość cechy
( y_i)

x₁

x₂

x₃

x_n

y₁

y₂

y₃

y_n

Szereg korelacyjny jest prostym zestawieniem dwóch szeregów wyliczających (szczegółowych).Zazwyczaj jest w jakiś sposób uporządkowany (np. alfabetycznie). Dobrze jest, gdy jedna z cech jesr uporządkowana rosnąco lub malejąco.

Tablica korelacyjna - stosujemy, gdy liczba obserwacji jest duża i trzeba je pogrupować.

Wykres korelacyjny - jest wykresem punktowym. Ocena diagramu korelacyjnego jest ważna dla dalszego toku postępowania. Analiza diagramu ma za zadanie odpowiedzieć na następujące pytania:

czy między zmiennymi występuje zależność ?
jaki jest charakter i siła tej zależności ?

0x01 graphic

Zależność statystyczna (korelacyjna)

Jest to uproszczenie koncepcji zależności stochastycznej. Powiadamy, że zmienne są niezależne statystycznie lub są nieskorelowane, jeśli poszczególnym odmianom jednej zmiennej odpowiadają takie same wartości średnich (warunkowych). W przeciwnym wypadku mówimy, że zmienne są skorelowane.

Ponieważ koncepcja zależności stochastycznej jest znana, to z niezależności stochastycznej wynika niezależność statystyczna (korelacyjna), ale nie odwrotnie, czyli jeżeli stwierdzimy, że zmienne są nieskorelowane, to nie wynika z tego, że są niezależne stochastycznie.

Współczynnik korelacji pearsona

Do badania siły liniowej zależności korelacyjnej służy współczynnik korelacji Pearsona (współczynnik korelacji liniowej, parami, według momentu iloczynowego)

Współczynnik korelacji liniowej:

w populacji ƍ(ro)
w próbie r (-1 ≤ r ≤ 1)

współczynnik korelacji w próbie ma swój rozkład:

r = 0 oznacza nieskorelowanie

r > 0 korelacja dodatnia

r < 0 korelacja ujemna

Rozkład x zależy od liczebności n i współczynnika w populacji ƍ

Może się okazać, że dla małej próby współczynnik korelacji r nieznacznie różni się od zera nawet przy względnie wysokich wartościach tego współczynnika.

Gdy ƍ= 0 to r może być równy 0,5

Współczynnik korelacji musi być testowany:

H₀ i ƍ= 0 (w populacji zmienne są nieskorelowane)

H₁ i ƍ≠0 (są skorelowane)

Statystyka testowa:
~ S_n-2 (+) rozkład t-Studenta z n-2 stopniami swobody

Hipotezę zerową (H₀) odrzucamy jeśli t_obl ∈ R_α

Im mniejsza próba, tym r musi być większe.

WSPÓŁCZYNNIK PEARSONA LICZYMY TYLKO PRZY ZALEŻNOŚCI LINIOWEJ

(wykład z 22-09-2001)

Istota badania dokładności funkcji regresji

Parametry funkcji regresji szacujemy metodą najmniejszych kwadratów (MNK), polegającą na takim doborze parametrów α i β funkcji regresji, które minimalizują sumę kwadratów odchyleń wartości empirycznych zmiennej zależnej y od wartości teoretycznych (regresywnych).

ŷi → α + β_xi

Ocena dokładności funkcji regresji opiera się na analizie wariancji. Bierze się tu za punkt wyjścia następującą tożsamość:

czyli z tego:

zmienność

e_i

Sk_c	=	Sk_e	+	Sk_r
Suma kwadratów całkowita	=	Suma kwadratów reszt (poza regresją)	+	Suma kwadratów w regresji
n-1	=	n-2	+	1

0x01 graphic

współczynnik determinacji, mówiący o stopniu wyjaśniania y przez x

(0 ≤ r² ≤ 1)

współczynnik indeterminacji (zbieżności), mówiący o stopniu nie wyjaśniania y przez x

r² + φ² = 1 (0 ≤ φ² ≤ 1)

wariancja resztowa → S²e

0x01 graphic

Se - błąd standardowy szacunku funkcji regresji

Ve - współczynnik zmienności resztowy

test istotności regresji (Snedecora)

H₀ i β = 0

H₁ i β ≠0

0x08 graphic
0x01 graphic
F-Snedecora z 1; n-2

Zatem istotność regresji można zbudować testem F

t- oznacza rozkład T-studenta z n-2 stopniami swobody

Regresja nieliniowa

Jeżeli układ punktów na diagramie korelacyjnym nie imituje linii prostej, to znaczy to, że regresja zmiennej y względem zmiennej x nie ma charakteru liniowego. Mówimy wówczas o regresji nieliniowej lub krzywoliniowej.

Dokładny charakter nieliniowej zależności można określić na podstawie wykresu korelacyjnego. Należy jednak pamiętać, że do danego rozkładu punktów mogą pasować różne funkcje nieliniowe, albowiem mogą one mieć zbliżony przebieg.

Szacowanie parametrów nieliniowych funkcji regresji odbywa się również metodą najmniejszych kwadratów (MNK). Niejednokrotnie jednak nie daje się ona stosować. W związku z tym, warto jest sięgnąć do takich funkcji, które można sprowadzić do postaci liniowej ze względu na parametry.

Do takich funkcji należy np. funkcja potęgowa

Y=αX^β

lnY = lnα + β lnx czyli:

0x01 graphic

de logarytmujemy i otrzymujemy:

funkcja potęgowa

Y=αX^β

0x01 graphic

funkcja wykładnicza

Y = αβ^x= αe^γx β = e^γ (γ- gamma)

0x01 graphic

korelacja cech jakościowych (niemierzalnych)

Dla cech jakościowych niemierzalnych będziemy wyróżniali dwie kategorie:

Cechy dwudzielcze (dychotomiczne) - tylko dwie wykluczające się kategorie np. płeć (mężczyzna, kobieta); wykształcenie (wyższe, inne); zamieszkanie (wieś, miasto).
Cechy wielodzielne - wiele kategorii wzajemnie się wykluczających np. poziom wykształcenia (podstawowe, średnie, wyższe); typ gospodarstwa domowego.