STATYSTYKA
WYKŁAD
2001/2002
ROK: II
SEMESTR: III
WYKŁADOWCA:
dr hab. ANDRZEJ BALICKI
SPIS TREŚCI
(wykład z 15-09-2001)
ANALIZA WSPÓŁZALEŻNOŚCI
WSPÓŁZALEŻNOŚĆ - związki między cechami ilościowymi i jakościowymi.
ANALIZA jest to poznawanie związków między cechami.
W rzeczywistości rzadko jest tak, aby jakaś cecha u obiektów lub zjawisko kształtowało się zupełnie niezależnie od innych cech lub zjawisk.
Już pobieżne obserwacje różnych wielkości pozwalają stwierdzić istnienie pewnych związków lub zgodności między nimi.
Rozważmy sytuację dwóch zmiennych:
Cecha Y - wydatki na żywność
Cecha X - dochody gospodarstw domowych
W przedziale o tych samych dochodach mamy różne wydatki na żywność. Inne cechy gospodarstw domowych wpływają i kreują różne rozkłady wydatków przy danym dochodzie.
Zależności między zjawiskami rzeczywistymi nie mają charakteru funkcyjnego lecz probabilistyczny. Nazywamy je zależnościami stochastycznymi.
ZALEŻNOŚĆ STOCHASTYCZNA
Polega na tym, że jedna ze zmiennych reaguje na zmiany drugiej w ten sposób, że zmienia swój rozkład.
Analiza zależności ma na celu ustalenie siły i kierunku występujących związków między cechami, oraz skwantyfikowania wpływu czynników na badanie zmiennej.
Prezentacja danych w analizie współzależności - wstępna ocena charakteru.
Przyjmijmy, że badamy próbę n elementów. Obiekty obserwujemy ze względu na obie cechy ilościowe xi , yi. Każda jednostka jest scharakteryzowana parą liczb (xi, yi).
Jeśli n jest małe, tworzymy szereg korelacyjny.
Numer jednostki |
Wartość cechy |
Wartość cechy |
1 2 3 n |
x1 x2 x3 xn |
y1 y2 y3 yn |
Szereg korelacyjny jest prostym zestawieniem dwóch szeregów wyliczających (szczegółowych).Zazwyczaj jest w jakiś sposób uporządkowany (np. alfabetycznie). Dobrze jest, gdy jedna z cech jest uporządkowana rosnąco lub malejąco.
Tablica korelacyjna - stosujemy, gdy liczba obserwacji jest duża i trzeba je pogrupować.
Wykres korelacyjny - jest wykresem punktowym. Ocena diagramu korelacyjnego jest ważna dla dalszego toku postępowania. Analiza diagramu ma za zadanie odpowiedzieć na następujące pytania:
czy między zmiennymi występuje zależność ?
jaki jest charakter i siła tej zależności ?
Zależność statystyczna (korelacyjna)
???? (Jest to uproszczenie koncepcji zależności stochastycznej. Powiadamy, że zmienne są niezależne statystycznie lub są nieskorelowane, jeśli poszczególnym odmianom jednej zmiennej odpowiadają takie same wartości średnich (warunkowych). W przeciwnym wypadku mówimy, że zmienne są skorelowane.
Ponieważ koncepcja zależności stochastycznej jest znana, to z niezależności stochastycznej wynika niezależność statystyczna (korelacyjna), ale nie odwrotnie, czyli jeżeli stwierdzimy, że zmienne są nieskorelowane, to nie wynika z tego, że są niezależne stochastycznie.) ????
Współczynnik korelacji pearsona
Do badania siły liniowej zależności korelacyjnej służy współczynnik korelacji Pearsona (współczynnik korelacji liniowej, parami, według momentu iloczynowego)
Współczynnik korelacji liniowej:
w populacji ρ(ro)
w próbie r (-1 ≤ r ≤ 1)
współczynnik korelacji w próbie ma swój rozkład:
r = 0 oznacza nieskorelowanie
r > 0 korelacja dodatnia
r < 0 korelacja ujemna
Rozkład x zależy od liczebności n i współczynnika w populacji ρ
Może się okazać, że dla małej próby współczynnik korelacji r nieznacznie różni się od zera nawet przy względnie wysokich wartościach tego współczynnika.
Gdy ρ= 0 to r może być równy 0,5
Współczynnik korelacji musi być testowany:
H0 i ρ= 0 (w populacji zmienne są nieskorelowane)
H1 i ρ≠0 (są skorelowane)
Statystyka testowa:
~ Sn-2 (+) rozkład t-Studenta z n-2 stopniami swobody
Hipotezę zerową (H0) odrzucamy jeśli tobl ∈ Rα
Im mniejsza próba, tym r musi być większe.
WSPÓŁCZYNNIK PEARSONA LICZYMY TYLKO PRZY ZALEŻNOŚCI LINIOWEJ
(wykład z 22-09-2001)
Istota badania dokładności funkcji regresji
Parametry funkcji regresji szacujemy metodą najmniejszych kwadratów (MNK), polegającą na takim doborze parametrów α i β funkcji regresji, które minimalizują sumę kwadratów odchyleń wartości empirycznych zmiennej zależnej y od wartości teoretycznych (regresywnych).
|
ŷi → α + βxi |
Ocena dokładności funkcji regresji opiera się na analizie wariancji. Bierze się tu za punkt wyjścia następującą tożsamość:
czyli z tego:
zmienność |
ei |
Skc |
= |
Ske |
+ |
Skr |
|||||
Suma kwadratów całkowita |
= |
Suma kwadratów |
+ |
Suma kwadratów |
|||||
n-1 |
= |
n-2 |
+ |
1 |
współczynnik determinacji, mówiący o stopniu wyjaśniania y przez x
(0 ≤ r2 ≤ 1)
współczynnik indeterminacji (zbieżności), mówiący o stopniu nie wyjaśniania y przez x
r2 + φ2 = 1 (0 ≤ φ2 ≤ 1)
wariancja resztowa → S2e
Se - błąd standardowy szacunku funkcji regresji
Ve - współczynnik zmienności resztowy
test istotności regresji (Snedecora)
H0 i β = 0
H1 i β ≠0
|
|
Zatem istotność regresji można zbudować testem F
t- oznacza rozkład T-studenta z n-2 stopniami swobody
Regresja nieliniowa
Jeżeli układ punktów na diagramie korelacyjnym nie imituje linii prostej, to znaczy to, że regresja zmiennej y względem zmiennej x nie ma charakteru liniowego. Mówimy wówczas o regresji nieliniowej lub krzywoliniowej.
Dokładny charakter nieliniowej zależności można określić na podstawie wykresu korelacyjnego. Należy jednak pamiętać, że do danego rozkładu punktów mogą pasować różne funkcje nieliniowe, albowiem mogą one mieć zbliżony przebieg.
Szacowanie parametrów nieliniowych funkcji regresji odbywa się również metodą najmniejszych kwadratów (MNK). Niejednokrotnie jednak nie daje się ona stosować. W związku z tym, warto jest sięgnąć do takich funkcji, które można sprowadzić do postaci liniowej ze względu na parametry.
Do takich funkcji należy np. funkcja potęgowa
Y=αXβ
lnY = lnα + β lnx czyli:
de logarytmujemy i otrzymujemy:
funkcja potęgowa
Y=αXβ
funkcja wykładnicza
Y = αβx = αeγx β = eγ (γ- gamma)
korelacja cech jakościowych (niemierzalnych)
Dla cech jakościowych niemierzalnych będziemy wyróżniali dwie kategorie:
Cechy dwudzielcze (dychotomiczne) - tylko dwie wykluczające się kategorie np. płeć (mężczyzna, kobieta); wykształcenie (wyższe, inne); zamieszkanie (wieś, miasto).
Cechy wielodzielne - wiele kategorii wzajemnie się wykluczających np. poziom wykształcenia (podstawowe, średnie, wyższe); typ gospodarstwa domowego.
Tablica czteropolowa asocjacji
asocjacja - współzależność dwóch cech dychotomicznych
|
a, b, c, d - oznaczenia liczebności pola zaciemnione - liczebności brzegowe A - czytaj A Ã - czytaj NIE A |
badanie współzależności - współczynniki
Dwie cechy A,B są niezależne jeżeli znajdziemy taką samą proporcję A wśród B, jak i wśród NIE B.
Proporcja A wśród B:
jeżeli zachodzi taka proporcja, to cechy są niezależne
ad = bc |
jest to postać, w której najlepiej zapisano kryterium niezależności (iloczyny zmiennych na przekątnych tablicy są sobie równe). |
Określa się dwa współczynniki:
współczynnik Yule`a
(-1 ≤ Q ≤ 1) im bliższy |1|, tym zależność jest silniejsza
współczynnik φ będący odpowiednikiem współczynnika korelacji Pearsona gdy A i B to 1, a NIE A i NIE B to 0
(-1 ≤ φ ≤ 1)
max φ zależy od liczebności brzegowych.
(wykład z 21-10-2001)
ANALIZA SZEREGÓW CZASOWYCH
POJĘCIE SZEREGU CZASOWEGO
Jest to ciąg wartości zmiennej uporządkowany zgodnie z następstwem momentów lub okresów czasu, których te wartości dotyczą. Jest to zatem zbiór obserwacji statystycznych charakteryzujących zmiany poziomu zjawiska w czasie.
Poszczególne obserwacje nazywamy wyrazami tego szeregu.
Szereg czasowy zapisujemy za pomocą symbolu yt lub y(t) , gdzie t reprezentuje kolejne momenty lub okresy czasu.
Kolejne momenty lub okresy są oznaczone kolejnymi liczbami całkowitymi np. 1992, 1993 itd. W ogólności mogą to być dowolne liczby, z których każda następna jest o 1 większa od poprzedniej.
Zmienna czasowa jako pewna wielkość niezależna jest zmienną ciągłą (czas jest zmienną ciągłą).
Zapis szeregu czasowego w postaci yt ma podkreślać, że zmienne traktowane są jako funkcja czasu.
RODZAJE SZEREGÓW CZASOWYCH
Szereg czasowy momentów - ich wyrazy odpowiadają jednakowo odległym momentom czasu. Podają stan liczebny zbiorowości w ściśle określonych momentach lub sumą wartości pewnej zmiennej posiadanej przez jednostki populacji np. liczba ludności Polski w dniu 31 grudnia każdego kolejnego roku; liczba zarejestrowanych samochodów osobowych w dniu 31 grudnia; liczba statków polskiej floty handlowej (pojemność statków polskiej floty handlowej); moc zainstalowana elektrowni. Dodawanie wyrazów szeregu czasowego momentów jest pozbawione sensu.
Szeregi czasowe okresów - ich wartości odpowiadają okresom czasu o jednakowej długości. Wyrażają one poziom zjawiska lub liczbę faktów, które zaszły w kolejnych okresach np. produkcja TV w Polsce; eksport owoców i warzyw; liczba zgonów. Dodawanie wyrazów szeregu czasowego okresów jest sensowne.
Szeregi czasowe ilustrujemy za pomocą wykresów w układzie współrzędnych, ograniczonych do pierwszej ćwiartki.
Na osi odciętej X - okresy lub momenty czasu, na osi rzędnej Y - wielkości zjawiska.
ZAGADNIENIA OGÓLNE DOTYCZĄCE SZEREGÓW CZASOWYCH
Wyrazy szeregów czasowych powinny być wielkościami jednolitymi w czasie tzn. jednorodnymi i porównywalnymi. W całym analizowanym okresie szereg powinien dotyczyć jednego i tego samego zjawiska lub zbiorowości definiowanego i mierzonego w ten sam sposób.
Powodem, dla którego można utracić jednolitość w czasie jest np. fuzja dwóch przedsiębiorstw, zmiana profilu działalności przedsiębiorstwa, różna długość kalendarzowych jednostek czasowych np. różna długość stycznia i lutego, względy atmosferyczne i klimatyczne.
BADANIE DYNAMIKI ZJAWISKA W CZASIE
Zadaniem tego badania jest określenie zmian zachodzących w poziomie danego zjawiska oraz kierunku, tempa i intensywności tych zmian.
Jednym z narzędzi badania dynamiki są wskaźniki dynamiki.
Jeżeli zjawisko jest jednorodne lub właściwie agregowane to obliczanie wskaźników sprowadza się do dzielenia lub/i odejmowania dwóch wyrazów szeregu czasowego.
Wskaźniki dynamiki mogą być wyznaczane dla dwóch wybranych okresów lub momentów, bądź też dla całej ich sekwencji.
Jeżeli wielkość zjawiska w kolejno po sobie następujących okresach lub momentach odnosimy stale do jednego wybranego wyrazu szeregu to wskaźniki nazywamy jednopodstawowymi.
Jeżeli natomiast wielkość zjawiska w kolejno po sobie następujących okresach lub momentach odnosimy do wielkości zjawiska w okresie lub momencie poprzedzającym to wskaźnik nazywamy łańcuchowym.
Jeżeli chodzi o konstrukcję wskaźników to wyróżniamy:
przyrosty absolutne
yt - y0 przyrost jednopodstawowy
yt - yt-1 przyrost łańcuchowy
Przyrosty absolutne informują o ile jednostek zmieniło się (wzrosło lub zmalało) zjawisko w okresie lub momencie badanym względem okresu lub momentu podstawowego lub poprzedniego.
Jeżeli więc coś wyrażamy w określonych jednostkach to różnica też wyrażana jest w tych jednostkach (przyrost absolutny to liczby mianowane).
przyrosty względne
Uzyskujemy przez dzielenie przyrostu absolutnego przez wielkość zjawiska w okresie lub momencie odniesienia.
przyrost jednopodstawowy
przyrost łańcuchowy
Przyrosty względne informują o ile w wyrażeniu względnym (%) zmieniło się (wzrosło lub zmalało) zjawisko w danym okresie lub momencie w stosunku do okresu lub momentu podstawowego lub poprzedniego.
Jeżeli zjawisko rośnie to przyrost absolutny jest dodatni i przyrost względny też jest dodatni.
Czyli znak wskazuje czy zjawisko ma charakter rosnący czy malejący.
np. yt = 120 jednostek
y0 = 100 jednostek
yt - y0 = 120 - 100 = 20 jednostek
Zjawisko rośnie o 20 jednostek w stosunku do roku zerowego.
Wielkość zjawiska rośnie o 20% podstawy.
INDEKSY DYNAMIKI
Uzyskujemy je dzieląc wielkość zjawiska w danym okresie lub momencie przez wiek zjawiska w okresie lub momencie podstawowym lub poprzednim.
indeks jednopodstawowy
indeks łańcuchowy
Indeksy dynamiki informują ile razy w ujęciu względnym zjawisko w danym okresie lub momencie jest większe lub mniejsze w stosunku do okresu lub momentu podstawowego lub poprzedniego.
np.
Odjęcie od indeksu dynamiki liczby 1 lub 100% da odpowiedni przyrost względny.
Jeżeli zjawisko rośnie to indeks dynamiki jest > 1.
Jeżeli natomiast zjawisko maleje to indeks dynamiki będzie < 1.
Najczęściej stosowanymi są indeksy dynamiki wyrażone w %.
W rocznikach statystycznych szeregi czasowe są często uzupełniane indeksami dynamiki:
indeksami jednopodstawowymi - 1995=100%
indeksami łańcuchowymi - rok poprzedni=100%
AGREGATOWE INDEKSY DYNAMIKI
wykorzystanie indeksów indywidualnych
q - ilość (okres wcześniejszy), p - cena (okres wcześniejszy)
qn - ilość w okresie badania (późniejszym), pn - cena w okresie badania (późniejszym)
indeks wartości, informuje jak zmienia się wartość produkcji czy sprzedaży
Badamy wpływ ceny na dynamikę wartości produkcji lub sprzedaży - ilość przyjmujemy jako stałą
Badamy wpływ ilości na dynamikę wartości - stabilizujemy cenę
Indeksy Laspeyres'a
Indeksy Peasche'go
Iloczyny
Iw = PIq * LIp
Iw = LIq * PIp
(wykład z 21-10-2001)
WYODRĘBNIANIE TENDENCJI ROZWOJOWYCH
Tendencja rozwojowa albo trend jest to długookresowa zmiana w szeregu czasowym, o której zakłada się, że wraz z oscylacjami i składnikami losowymi generuje obserwacje (zachodzi pod wpływem przyczyn głównych).
Zadaniem analizy tendencji rozwojowych jest wyodrębnić przyczyny główne poprzez określenie ogólnej tendencji rozwoju zjawiska.
Są różne sposoby wyodrębniania tendencji rozwojowych. Chodzi o wygładzenie przebiegu zjawiska, żeby linia nie była „poszarpana”, trzeba przefiltrować zjawisko i odrzucić wszystko to co przypadkowe i może zakłócić przebieg zjawiska.
GRUPY METOD WYODRĘBNIANIA TRENDU
metody mechaniczne
średnich podokresów - cały okres dzielimy na podokresy, wyznaczamy średnią i prowadzimy przez nie prostą
średnie ruchome (np. na giełdzie)
metody analityczne - sprowadzają się do dopasowania funkcji matematycznej do zbioru obserwacji na podstawie wykresu szeregu czasowego
metoda najmniejszych kwadratów (MNK)
Na podstawie wykresu szeregu czasowego dokonuje się wyboru funkcji matematycznej, która naszym zdaniem najlepiej oddaje przebieg zjawiska w czasie
|
|
|
Przyjmujemy, że zjawisko y = f(t). Ograniczamy się do funkcji liniowych
yi = α + β*ti + ε |
gdzie: t - zmienna czasowa y - wielkość zjawiska ε - błąd |
Minimalizujemy różnice między wartościami zaobserwowanymi a teoretycznymi:
estymator β
estymator α
Jeśli b> 0 to zjawisko rośnie przeciętnie co rok o wartość b.
Jeśli b<0 to zjawisko maleje przeciętnie co rok o wartość b.
b - odpowiednik średniego rocznego tempa zmian (wartość bezwzględna)
cel WYODRĘBNIANIA TRENDU
Wyodrębnianie trendu służy:
opisaniu rozwoju zjawiska w okresach przeszłych
do przewidywania przebiegu zjawiska w przyszłości
PROGNOZOWANIE TRENDU
Trend będzie taki sam tak długo, jak długo nie zmienią się czynniki główne. Prognozować więc można w niezbyt odległą przyszłość.
Prognozowanie jest też ograniczone przez stopień dopasowania do danych empirycznych.
Trzeba zbadać dopasowanie funkcji do danych empirycznych poprzez:
błąd standardowy szacunku funkcji trendu
współczynnik zbieżności (indeterminacji)
ϕ <=0.1 to funkcja jest dobrze dopasowana
Budując prognozy na przyszłość trzeba liczyć się z możliwością popełnienia błędu w rozmiarze Se.
WAHANIA SEZONOWE
Są trzecim składnikiem szeregu czasowego obok tendencji rozwojowej i wahań przypadkowych.
Polegają one na tym, że przyczyny działające periodycznie powodują, że badane zjawisko powtarza się z jednakowym w przybliżeniu natężeniem w kolejnych jednakowo odległych podokresach jakiegoś dłuższego okresu czasu.
Takie podokresy nazywamy jednoimiennymi.
Wahania sezonowe charakteryzują się tym, że pełny ich cykl zamyka się w okresie rocznym. Wobec tego okresami jednoimiennymi są miesiące, kwartały, ewentualnie półrocza.
Przyczyny, które wywołują wahania sezonowe wynikają z klimatu, z kalendarza, z organizacji życia społecznego i zwyczajów z tym związanych np. rok szkolny, sezon urlopowy.
Żeby móc wykryć wahania sezonowe musimy dysponować odpowiednim szeregiem czasowym np. miesięcznym lub kwartalnym.
Żeby móc uśrednić wahania sezonowe - minimalna liczba okresów 5 lat.
ZASADY WYODRĘBNIANIA WAHAŃ SEZONOWYCH (modele szeregu czasowego)
addytywny (sumacyjny)
gdzie:
- obserwacja w szeregu czasowym w i-tym okresie jednoimiennym w roku j-tym
Odrębnie numerujemy lata i okresy jednoimienne
- wartość trendu w kolejnych okresach np. wyznaczona metodą minimalnych kwadratów
- składnik sezonowy dla i-tego okresu jednoimiennego
- składnik losowy, może zadziałać w każdym roku i w okresie jednoimiennym
multiplikatywny (iloczynowy)
Z typu modelu wynikają wskazówki, jak podchodzić do wyodrębnienia wahań sezonowych (składnika sezonowego) si.
Trzeba rozpoznać więc typ modelu. Ocenia się go na podstawie wykresu.
Bezwzględne wahania w podokresach są takie same
Wahania są coraz większe (amplituda wahań rośnie)
Przy dużych wahaniach lepiej założyć, że model jest multiplikatywny.
METODY WYODRĘBNIANIA WAHAŃ SEZONOWYCH
metoda skrócona (bez eliminacji trendu)
obliczamy średnie wartości zjawiska w okresach jednoimiennych
gdzie n - liczba lat
obliczamy średnią wielkość zjawiska w całym okresie badania
gdzie: k - liczba np. kwartałów
obliczamy wskaźnik sezonowości w formie ilorazów śr4dich dla okresów jednoimiennych i średniej łącznej
Wskaźnik si informuje o tym, ile razy wartości zjawiska w poszczególnych okresach jednoimiennych są wyższe (si > 1) lub niższe (si < 1) od przeciętnej rocznej
sprawdzenie:
lub 100*k
metoda stosunków do trendu
1
19
STATYSTYKA WYKŁAD opracowanie: Alicja i Wojciech Makowiec - grupa 201