Statystyka sem3 11 01


STATYSTYKA

WYKŁAD

2001/2002

ROK: II

SEMESTR: III

WYKŁADOWCA:

dr hab. ANDRZEJ BALICKI

SPIS TREŚCI

(wykład z 15-09-2001)

WSPÓŁZALEŻNOŚĆ - związki między cechami ilościowymi i jakościowymi.

ANALIZA jest to poznawanie związków między cechami.

W rzeczywistości rzadko jest tak, aby jakaś cecha u obiektów lub zjawisko kształtowało się zupełnie niezależnie od innych cech lub zjawisk.

Już pobieżne obserwacje różnych wielkości pozwalają stwierdzić istnienie pewnych związków lub zgodności między nimi.

Rozważmy sytuację dwóch zmiennych:

Cecha Y - wydatki na żywność

Cecha X - dochody gospodarstw domowych

0x01 graphic

W przedziale o tych samych dochodach mamy różne wydatki na żywność. Inne cechy gospodarstw domowych wpływają i kreują różne rozkłady wydatków przy danym dochodzie.

Zależności między zjawiskami rzeczywistymi nie mają charakteru funkcyjnego lecz probabilistyczny. Nazywamy je zależnościami stochastycznymi.

    1. ZALEŻNOŚĆ STOCHASTYCZNA

Polega na tym, że jedna ze zmiennych reaguje na zmiany drugiej w ten sposób, że zmienia swój rozkład.

Analiza zależności ma na celu ustalenie siły i kierunku występujących związków między cechami, oraz skwantyfikowania wpływu czynników na badanie zmiennej.

Prezentacja danych w analizie współzależności - wstępna ocena charakteru.

Przyjmijmy, że badamy próbę n elementów. Obiekty obserwujemy ze względu na obie cechy ilościowe xi , yi. Każda jednostka jest scharakteryzowana parą liczb (xi, yi).

Jeśli n jest małe, tworzymy szereg korelacyjny.

Numer jednostki
( i )

Wartość cechy
( xi )

Wartość cechy
( yi )

1

2

3

n

x1

x2

x3

xn

y1

y2

y3

yn

Szereg korelacyjny jest prostym zestawieniem dwóch szeregów wyliczających (szczegółowych).Zazwyczaj jest w jakiś sposób uporządkowany (np. alfabetycznie). Dobrze jest, gdy jedna z cech jest uporządkowana rosnąco lub malejąco.

Tablica korelacyjna - stosujemy, gdy liczba obserwacji jest duża i trzeba je pogrupować.

Wykres korelacyjny - jest wykresem punktowym. Ocena diagramu korelacyjnego jest ważna dla dalszego toku postępowania. Analiza diagramu ma za zadanie odpowiedzieć na następujące pytania:

  1. czy między zmiennymi występuje zależność ?

  2. jaki jest charakter i siła tej zależności ?

0x01 graphic
0x01 graphic

0x01 graphic
0x01 graphic

0x01 graphic

    1. Zależność statystyczna (korelacyjna)

???? (Jest to uproszczenie koncepcji zależności stochastycznej. Powiadamy, że zmienne są niezależne statystycznie lub są nieskorelowane, jeśli poszczególnym odmianom jednej zmiennej odpowiadają takie same wartości średnich (warunkowych). W przeciwnym wypadku mówimy, że zmienne są skorelowane.

Ponieważ koncepcja zależności stochastycznej jest znana, to z niezależności stochastycznej wynika niezależność statystyczna (korelacyjna), ale nie odwrotnie, czyli jeżeli stwierdzimy, że zmienne są nieskorelowane, to nie wynika z tego, że są niezależne stochastycznie.) ????

    1. Współczynnik korelacji pearsona

Do badania siły liniowej zależności korelacyjnej służy współczynnik korelacji Pearsona (współczynnik korelacji liniowej, parami, według momentu iloczynowego)

Współczynnik korelacji liniowej:

współczynnik korelacji w próbie ma swój rozkład:

r = 0 oznacza nieskorelowanie

r > 0 korelacja dodatnia

r < 0 korelacja ujemna

Rozkład x zależy od liczebności n i współczynnika w populacji ρ

Może się okazać, że dla małej próby współczynnik korelacji r nieznacznie różni się od zera nawet przy względnie wysokich wartościach tego współczynnika.

Gdy ρ= 0 to r może być równy 0,5

Współczynnik korelacji musi być testowany:

H0 i ρ= 0 (w populacji zmienne są nieskorelowane)

H1 i ρ0 (są skorelowane)

Statystyka testowa: 0x01 graphic
~ Sn-2 (+) rozkład t-Studenta z n-2 stopniami swobody

Hipotezę zerową (H0) odrzucamy jeśli tobl ∈ Rα

Im mniejsza próba, tym r musi być większe.

WSPÓŁCZYNNIK PEARSONA LICZYMY TYLKO PRZY ZALEŻNOŚCI LINIOWEJ

(wykład z 22-09-2001)

    1. Istota badania dokładności funkcji regresji

Parametry funkcji regresji szacujemy metodą najmniejszych kwadratów (MNK), polegającą na takim doborze parametrów α i β funkcji regresji, które minimalizują sumę kwadratów odchyleń wartości empirycznych zmiennej zależnej y od wartości teoretycznych (regresywnych).

0x01 graphic

ŷi → α + βxi

Ocena dokładności funkcji regresji opiera się na analizie wariancji. Bierze się tu za punkt wyjścia następującą tożsamość:

0x01 graphic

czyli z tego:

0x01 graphic

0x01 graphic

zmienność

ei

Skc

=

Ske

+

Skr

Suma kwadratów całkowita

=

Suma kwadratów
reszt (poza regresją)

+

Suma kwadratów
w regresji

n-1

=

n-2

+

1

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

współczynnik determinacji, mówiący o stopniu wyjaśniania y przez x

0x01 graphic
(0 ≤ r2 ≤ 1)

współczynnik indeterminacji (zbieżności), mówiący o stopniu nie wyjaśniania y przez x

0x01 graphic
r2 + φ2 = 1 (0 ≤ φ2 ≤ 1)

wariancja resztowa → S2e

0x01 graphic

Se - błąd standardowy szacunku funkcji regresji

Ve - współczynnik zmienności resztowy

    1. test istotności regresji (Snedecora)

H0 i β = 0

H1 i β ≠0

0x01 graphic
F-Snedecora z 1; n-2

0x01 graphic

Zatem istotność regresji można zbudować testem F

0x01 graphic

t- oznacza rozkład T-studenta z n-2 stopniami swobody

    1. Regresja nieliniowa

Jeżeli układ punktów na diagramie korelacyjnym nie imituje linii prostej, to znaczy to, że regresja zmiennej y względem zmiennej x nie ma charakteru liniowego. Mówimy wówczas o regresji nieliniowej lub krzywoliniowej.

Dokładny charakter nieliniowej zależności można określić na podstawie wykresu korelacyjnego. Należy jednak pamiętać, że do danego rozkładu punktów mogą pasować różne funkcje nieliniowe, albowiem mogą one mieć zbliżony przebieg.

Szacowanie parametrów nieliniowych funkcji regresji odbywa się również metodą najmniejszych kwadratów (MNK). Niejednokrotnie jednak nie daje się ona stosować. W związku z tym, warto jest sięgnąć do takich funkcji, które można sprowadzić do postaci liniowej ze względu na parametry.

Do takich funkcji należy np. funkcja potęgowa

Y=αXβ

lnY = lnα + β lnx czyli: 0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic
de logarytmujemy i otrzymujemy: 0x01 graphic

      1. funkcja potęgowa

Y=αXβ

0x01 graphic
0x01 graphic
0x01 graphic

      1. funkcja wykładnicza

Y = αβx = αeγx β = eγ (γ- gamma)

0x01 graphic

0x01 graphic

0x01 graphic
0x01 graphic

    1. korelacja cech jakościowych (niemierzalnych)

Dla cech jakościowych niemierzalnych będziemy wyróżniali dwie kategorie: