STATYSTYKA
WYKŁAD
2001/2002
ROK: II
SEMESTR: III
WYŁADOWCA:
dr hab. ANDRZEJ BALICKI
SPIS TREŚCI
ANALIZA WSPÓŁZALEŻNOŚCI
(wykład z 15-09-2001)
WSPÓŁZALEŻNOŚĆ - związki między cechami ilościowymi i jakościowymi.
ANALIZA jest to poznawanie związków między cechami.
W rzeczywistości rzadko jest tak, aby jakaś cecha u obiektów lub zjawisko kształtowało się zupełnie niezależnie od innych cech lub zjawisk.
Już pobieżne obserwacje różnych wielkości pozwalają stwierdzić istnienie pewnych związków lub zgodności między nimi.
Rozważmy sytuację dwóch zmiennych:
Cecha Y - wydatki na żywność
Cecha X - dochody gospodarstw domowych
W przedziale o tych samych dochodach mamy różne wydatki na żywność. Inne cechy gospodarstw domowych wpływają i kreują różne rozkłady wydatków przy danym dochodzie.
Zależności między zjawiskami rzeczywistymi nie mają charakteru funkcyjnego lecz probabilistyczny. Nazywamy je zależnościami stochastycznymi.
ZALEŻNOŚĆ STOCHASTYCZNA
Polega na tym, że jedna ze zmiennych reaguje na zmiany drugiej w ten sposób, że zmienia swój rozkład.
Analiza zależności ma na celu ustalenie siły i kierunku występujących związków między cechami, oraz skwantyfikowania wpływu czynników na badanie zmiennej.
Prezentacja danych w analizie współzależności - wstępna ocena charakteru.
Przyjmijmy, że badamy próbę n elementów. Obiekty obserwujemy ze względu na obie cechy ilościowe xi , yi. Każda jednostka jest scharakteryzowana parą liczb (xi, yi).
Jeśli n jest małe, tworzymy szereg korelacyjny.
Numer jednostki |
Wartość cechy |
Wartość cechy |
1 2 3 n |
x1 x2 x3 xn |
y1 y2 y3 yn |
Szereg korelacyjny jest prostym zestawieniem dwóch szeregów wyliczających (szczegółowych).Zazwyczaj jest w jakiś sposób uporządkowany (np. alfabetycznie). Dobrze jest, gdy jedna z cech jesr uporządkowana rosnąco lub malejąco.
Tablica korelacyjna - stosujemy, gdy liczba obserwacji jest duża i trzeba je pogrupować.
Wykres korelacyjny - jest wykresem punktowym. Ocena diagramu korelacyjnego jest ważna dla dalszego toku postępowania. Analiza diagramu ma za zadanie odpowiedzieć na następujące pytania:
czy między zmiennymi występuje zależność ?
jaki jest charakter i siła tej zależności ?
Zależność statystyczna (korelacyjna)
Jest to uproszczenie koncepcji zależności stochastycznej. Powiadamy, że zmienne są niezależne statystycznie lub są nieskorelowane, jeśli poszczególnym odmianom jednej zmiennej odpowiadają takie same wartości średnich (warunkowych). W przeciwnym wypadku mówimy, że zmienne są skorelowane.
Ponieważ koncepcja zależności stochastycznej jest znana, to z niezależności stochastycznej wynika niezależność statystyczna (korelacyjna), ale nie odwrotnie, czyli jeżeli stwierdzimy, że zmienne są nieskorelowane, to nie wynika z tego, że są niezależne stochastycznie.
Współczynnik korelacji pearsona
Do badania siły liniowej zależności korelacyjnej służy współczynnik korelacji Pearsona (współczynnik korelacji liniowej, parami, według momentu iloczynowego)
Współczynnik korelacji liniowej:
w populacji ƍ(ro)
w próbie r (-1 ≤ r ≤ 1)
współczynnik korelacji w próbie ma swój rozkład:
r = 0 oznacza nieskorelowanie
r > 0 korelacja dodatnia
r < 0 korelacja ujemna
Rozkład x zależy od liczebności n i współczynnika w populacji ƍ
Może się okazać, że dla małej próby współczynnik korelacji r nieznacznie różni się od zera nawet przy względnie wysokich wartościach tego współczynnika.
Gdy ƍ= 0 to r może być równy 0,5
Współczynnik korelacji musi być testowany:
H0 i ƍ= 0 (w populacji zmienne są nieskorelowane)
H1 i ƍ≠0 (są skorelowane)
Statystyka testowa:
~ Sn-2 (+) rozkład t-Studenta z n-2 stopniami swobody
Hipotezę zerową (H0) odrzucamy jeśli tobl ∈ Rα
Im mniejsza próba, tym r musi być większe.
WSPÓŁCZYNNIK PEARSONA LICZYMY TYLKO PRZY ZALEŻNOŚCI LINIOWEJ
(wykład z 22-09-2001)
Istota badania dokładności funkcji regresji
Parametry funkcji regresji szacujemy metodą najmniejszych kwadratów (MNK), polegającą na takim doborze parametrów α i β funkcji regresji, które minimalizują sumę kwadratów odchyleń wartości empirycznych zmiennej zależnej y od wartości teoretycznych (regresywnych).
|
ŷi → α + βxi |
Ocena dokładności funkcji regresji opiera się na analizie wariancji. Bierze się tu za punkt wyjścia następującą tożsamość:
czyli z tego:
zmienność |
ei |
Skc |
= |
Ske |
+ |
Skr |
|||||
Suma kwadratów całkowita |
= |
Suma kwadratów |
+ |
Suma kwadratów |
|||||
n-1 |
= |
n-2 |
+ |
1 |
współczynnik determinacji, mówiący o stopniu wyjaśniania y przez x
(0 ≤ r2 ≤ 1)
współczynnik indeterminacji (zbieżności), mówiący o stopniu nie wyjaśniania y przez x
r2 + φ2 = 1 (0 ≤ φ2 ≤ 1)
wariancja resztowa → S2e
Se - błąd standardowy szacunku funkcji regresji
Ve - współczynnik zmienności resztowy
test istotności regresji (Snedecora)
H0 i β = 0
H1 i β ≠0
F-Snedecora z 1; n-2
Zatem istotność regresji można zbudować testem F
t- oznacza rozkład T-studenta z n-2 stopniami swobody
Regresja nieliniowa
Jeżeli układ punktów na diagramie korelacyjnym nie imituje linii prostej, to znaczy to, że regresja zmiennej y względem zmiennej x nie ma charakteru liniowego. Mówimy wówczas o regresji nieliniowej lub krzywoliniowej.
Dokładny charakter nieliniowej zależności można określić na podstawie wykresu korelacyjnego. Należy jednak pamiętać, że do danego rozkładu punktów mogą pasować różne funkcje nieliniowe, albowiem mogą one mieć zbliżony przebieg.
Szacowanie parametrów nieliniowych funkcji regresji odbywa się również metodą najmniejszych kwadratów (MNK). Niejednokrotnie jednak nie daje się ona stosować. W związku z tym, warto jest sięgnąć do takich funkcji, które można sprowadzić do postaci liniowej ze względu na parametry.
Do takich funkcji należy np. funkcja potęgowa
Y=αXβ
lnY = lnα + β lnx czyli:
de logarytmujemy i otrzymujemy:
funkcja potęgowa
Y=αXβ
funkcja wykładnicza
Y = αβx = αeγx β = eγ (γ- gamma)
korelacja cech jakościowych (niemierzalnych)
Dla cech jakościowych niemierzalnych będziemy wyróżniali dwie kategorie:
Cechy dwudzielcze (dychotomiczne) - tylko dwie wykluczające się kategorie np. płeć (mężczyzna, kobieta); wykształcenie (wyższe, inne); zamieszkanie (wieś, miasto).
Cechy wielodzielne - wiele kategorii wzajemnie się wykluczających np. poziom wykształcenia (podstawowe, średnie, wyższe); typ gospodarstwa domowego.
Tablica czteropolowa asocjacji
asocjacja - współzależność dwóch cech dychotomicznych
|
B |
|
|
A |
a |
b |
a+b |
à |
c |
d |
c+d |
|
a+c |
b+d |
a+b+c |
a,b,c,d - oznaczenia liczebności
pola zaciemnione - liczebności brzegowe
A - czytaj A
à - czytaj NIE A
badanie współzależności - współczynniki
Dwie cechy A,B są niezależne jeżeli znajdziemy taką samą proporcję A wśród B, jak i wśród NIE B.
Proporcja A wśród B:
jeżeli zachodzi taka proporcja, to cechy są niezależne
ad = bc |
jest to postać, w której najlepiej zapisano kryterium niezależności (iloczyny zmiennych na przekątnych tablicy są sobie równe). |
Określa się dwa współczynniki:
współczynnik Yule`a
(-1 ≤ Q ≤ 1) im bliższy 1, tym zależność jest silniejsza
współczynnik φ będący odpowiednikiem współczynnika korelacji Pearsona gdy A i B to 1, a NIE A i NIE B to 0
(-1 ≤ φ ≤ 1)
max. φ zależy od liczebności brzegowych.
1
2
STATYSTYKA WYKŁAD opracowanie: Alicja i Wojciech Makowiec - grupa 201