STATYSTYKA:
nauka zajmująca się metodami gromadzenia, opracowywania, prezentacji, analizy i interpretacji danych ilościowych dotyczących badanych zbiorowości (osób, rzeczy lub zdarzeń)
dyscyplina traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych
zbiory danych liczbowych dotyczących konkretnego zagadnienia
badanie zmienności
nauka o danych.
Przedmiotem statystyki jest wykrywanie prawidłowości występujących w badanych różnorodnych zbiorowościach (zjawiskach masowych).
OPIS STATYSTYCZNY - liczbowy opis badanej zbiorowości lub zjawisk, występujący w formie tabelarycznej (szeregi, tablice), graficznej (wykresy) i parametrycznej (charakterystyki liczbowe takie jak miary położenia, dyspersji, asymetrii).
METODY ANALIZY:
OPIS STRUKTURY ZBIOROWOŚCI - określenie przeciętnego poziomu, dyspersji, asymetrii i koncentracji cech
OPIS WSPÓŁZALEŻNOŚCI - analiza korelacji i regresji
OPIS ZMIAN ZJAWISK W CZASIE - analiza indeksowa i analiza składników szeregów czasowych (trend, wahania sezonowe i przypadkowe).
WNIOSKOWANIE STATYSTYCZNE - uogólnianie wyników badania części zbiorowości nazywanej próbą losową, na całą zbiorowość (populację), z której ta część pochodzi. Uogólnianie to jest obarczone pewnym błędem, stąd też metody wnioskowania statystycznego oparte są na rachunku prawdopodobieństwa.
Zwykle stosuje się tzw. próbę losową, definiowaną formalnie w teorii statystyki jako ciąg zmiennych losowych o rozkładzie takim jak rozkład populacji.
BADANIE STATYSTYCZNE - ogół prac mających na celu poznanie struktury określonej zbiorowości statystycznej.
ETAPY BADANIA STATYSTYCZNEGO:
PROGRAMOWANIE (PLANOWANIE) BADANIA
OBSERWACJA STATYSTYCZNA - gromadzenie, zbieranie materiału statystycznego, informacji o właściwościach poszczególnych jednostek statystycznych
PREZENTACJA WYNIKÓW OBSERWACJI
ANALIZA STATYSTYCZNA.
ETAP I - PROGRAMOWANIE (PLANOWANIE) BADANIA:
OKREŚLENIE CELÓW BADANIA - ogólnych i cząstkowych
OKREŚLENIE PRZEDMIOTU BADANIA
ZDEFNIOWANIE ZBIOROWOŚCI (POPULACJI) I JEDNOSTEK STATYSTYCZNYCH
WYODRĘBNIENIE CECH - rzeczowej, czasowej, przestrzennej
OKREŚLENIE ZAKRESU BADANIA
WYODRĘBNIENIE CECH - ilościowych, jakościowych
WYBÓR METODY BADANIA STATYSTYCZNEGO - całkowitej (pełnej), częściowej, reprezentacyjnej, monograficznej, ankietowej.
ZBIOROWOŚĆ (POPULACJA) STATYSTYCZNA - zbiór dowolnych elementów (osób, przedmiotów, faktów) nazywanych jednostkami statystycznymi, podobnych pod względem określonych cech i poddanych badaniom statystycznym.
STRUKTURA - budowa wewnętrzna zbiorowości.
JEDNOSTKA STATYSTYCZNA - poszczególny element (obiekt badania) zbiorowości statystycznej podlegający bezpośredniej obserwacji lub pomiarowi.
CECHY STATYSTYCZNE:
STAŁE - wspólne wszystkim jednostkom danej zbiorowości i nie podlegają badaniu, a jedynie decydują o zaliczeniu jednostki do określonej zbiorowości
RZECZOWE (kto? co?)
PRZESTRZENNE (gdzie?)
CZASOWE (kiedy?)
ZMIENNE - właściwości, które różnią poszczególne jednostki statystyczne.
KLASYFIKACJA CECH - określenie wariantów cechy zmiennej.
CECHY ZMIENNE:
JAKOŚCIOWE (CATEGORICAL VARIABLE, opisowe, niemierzalne) - można je wyrazić jedynie na skali nominalnej
DWUDZIELNE (DYCHOTOMICZNE) - np. płeć
WIELODZIELNE - np. wykształcenie, stan cywilny, miejsce zamieszkania
ILOŚCIOWE (QUANTITATIVE VARIABLE, liczbowe, mierzalne) - zależnie od pomiaru można je wyrazić na skali porządkowej, przedziałowej (interwałowej) lub ilorazowej
SKOKOWE - wartość całkowita, np. liczba dzieci w rodzinie
CIĄGŁE - tzw. „liczby z ogonem”, np. czas dojazdu, średnia ocen, waga, wzrost.
ROZKŁAD CECHY - przyporządkowanie liczby obserwacji (liczebności) odpowiednim wartościom cechy zmiennej.
SKALE pomiaru są uporządkowane od najsłabszej do najmocniejszej:
NOMINALNA (NOMINAL) - cechy jakościowe, numer identyfikujący, klasyfikujący obiekt
PORZĄDKOWA (ORDINAL) - cechy jakościowe, numer identyfikujący, szeregujący, porządkujący pozycję obiektu, ale nieokreślający wielkości różnic pomiędzy obiektami
PRZEDZIAŁOWA (INTERVAL, INTERWAŁOWA) - cechy ilościowe, ocena w skali, przedziałach od - do
ILORAZOWA (RATIO, STOSUNKOWA) - cechy ilościowe, coś na coś.
BADANIE STATYSTYCZNE:
PEŁNE (CAŁKOWITE, WYCZERPUJĄCE) - np. powszechny spis ludności, rejestracja urodzeń, zgonów, małżeństw, rozwodów
CIĄGŁE
OKRESOWE
DORAŹNE
CZĘŚCIOWE (PRÓBKOWE)
CIĄGŁE
OKRESOWE
DORAŹNE
DOBÓR LOSOWY - np. badanie reprezentacyjne (badanie budżetów gospodarstw domowych, warunków życia ludności)
DOBÓR NIELOSOWY
DOBÓR PRZYPADKOWY
DOBÓR CELOWY - np. badanie monograficzne
DOBÓR KWOTOWY
INNE.
ETAP II - OBSERWACJA STATYSTYCZNA:
OKREŚLENIE ŹRÓDEŁ POZYSKIWANIA DANYCH:
PIERWOTNE - obserwacja, wywiad, ankieta
WTÓRNE - sprawozdawczość przedsiębiorstw, publikacje statystyczne, spisy.
SPIS - okresowe lub doraźne badanie wszystkich jednostek zbiorowości w ściśle określonym momencie czasu.
INWENTARYZACJA - rodzaj spisu polegający na ustaleniu stanu ilościowego i wartościowego oraz struktury, a także stopnia zużycia majątku trwałego w ściśle określonym momencie czasu.
REJESTRACJA BIEŻĄCA - sukcesywne rejestrowanie wydarzeń, które są przedmiotem badania.
SPRAWOZDAWCZOŚĆ - sporządzana na podstawie danych ewidencyjnych.
KLASYFIKACJA MATERIAŁU STATYSTYCZNEGO - ustalenie (wyodrębnienie) wariantów cechy.
GRUPOWANIE MATERIAŁU STATYSTYCZNEGO - usystematyzowanie, podział zbiorowości na jednorodne podgrupy według cech (szeregi rozdzielcze).
GRUPOWANIE:
TYPOLOGICZNE (JAKOŚCIOWE) - podstawą grupowania jednostek statystycznych jest cecha jakościowa
WARIANCYJNE (ILOŚCIOWE) - podstawą grupowania jednostek statystycznych jest cecha ilościowa.
ETAP III - PREZENTACJA WYNIKÓW OBSERWACJI:
SZEREG STATYSTYCZNY - ciąg wyników obserwacji uporządkowany lub uporządkowany i pogrupowany według określonych kryteriów, przyjętych wariantów cechy.
SZEREGI STATYSTYCZNE:
SZCZEGÓŁOWE (WYLICZAJĄCE, PROSTE) - uporządkowane ciągi wartości badanych cech statystycznych według określonego kryterium
ROZDZIELCZE - uporządkowane i pogrupowane ciągi wartości badanych cech statystycznych według określonego kryterium
STRUKTURALNE - powstają w wyniku grupowania cechy jakościowej
JEDNOSTOPNIOWE (PUNKTOWE) - powstają w wyniku grupowania cechy ilościowej skokowej
WIELOSTOPNIOWE (PRZEDZIAŁOWE) - powstają w wyniku grupowania cechy ilościowej ciągłej, przyjmują bardzo wiele wariantów
CZASOWE (DYNAMICZNE, CHRONOLOGICZNE).
WYKRES STATYSTYCZNY - graficzna, wizualna forma prezentacji materiału statystycznego.
WYKRESY STATYSTYCZNE:
PUNKTOWE - szeregi szczegółowe, rozdzielcze jednostopniowe (punktowe)
POWIERZCHNIOWE (np. słupkowe, kołowe, na planie różnych figur płaskich, histogramy) - szeregi rozdzielcze strukturalne, rozdzielcze wielostopniowe (przedziałowe)
OBRAZKOWE - szeregi rozdzielcze strukturalne
LINIOWE (krzywe, wieloboki liczebności) - szeregi rozdzielcze jednostopniowe (punktowe), rozdzielcze wielostopniowe (przedziałowe)
TWARZE CHERNOFFA
MAPOWE (np. kartogramy, kartodiagramy, szeregi geograficzne)
PIRAMIDY WIEKU
ZŁOŻONE (np. warstwowe, saldowe).
HISTOGRAM - zbiór prostokątów, których podstawy stanowią rozpiętość poszczególnych przedziałów klasowych, natomiast wysokości są określone przez liczebności odpowiadające poszczególnym przedziałom klasowym.
KRZYWA LICZEBNOŚCI - łamana powstała przez połączenie punktów, których współrzędnymi są środki przedziałów klasowych i odpowiadające im liczebności.
ETAP IV - ANALIZA STATYSTYCZNA:
CHARAKTERYSTYKI:
PARAMETRY - dla populacji
STATYSTYKI - dla próby.
ROZKŁAD CECHY - przyporządkowanie liczby obserwacji (liczebności) odpowiednim wartościom cechy zmiennej.
ROZKŁAD EMPIRYCZNY - jeżeli wartości cechy zmiennej X zostaną uporządkowane oraz jeżeli tym wartościom zostaną przyporządkowane jednostki lub grupy jednostek badanej zbiorowości, to mówimy, że dany jest rozkład empiryczny jednej cechy. To opis wartości przyjmowanych przez cechę statystyczną przy pomocy częstości ich występowania.
TYPY ROZKŁADÓW EMPIRYCZNYCH:
SYMETRYCZNY - obserwacje są rozłożone równomiernie (stopień skupienia) po obu stronach osi symetrii (punktu centralnego)
ASYMETRYCZNY
PRAWOSTRONNY - większość obserwacji posiada stosunkowo niskie wartości cechy, niewiele jest obserwacji przy wysokich wartościach
LEWOSTRONNY - większość obserwacji posiada stosunkowo wysokie wartości cechy, niewiele jest obserwacji przy niskich wartościach
BIMODALNY
SIODŁOWY
RÓWNOMIERNY.
WŁASNOŚCI ROZKŁADU EMPIRYCZNEGO:
TENDENCJA CENTRALNA (PRZECIĘTNY POZIOM) - skupianie się jednostek wokół wartości centralnej, występuje w przypadku rozkładów jednomodalnych i zbliżonych do rozkładów symetrycznych
DYSPERSJA (ROZPROSZENIE, ZRÓŻNICOWANIE, ZMIENNOŚĆ, ROZRZUT) - odchylenie od tendencji centralnej, jeżeli wszystkie jednostki znajdują się blisko wartości centralnej, ich zmienność jest mniejsza niż wtedy, gdy oddalają się one znacznie od wartości centralnej
ASYMETRIA (SKOŚNOŚĆ) - odchylenie od symetrii, określa symetryczność bądź niesymetryczność rozkładu liczebności.
WSTĘPNA ANALIZA DANYCH - ma charakter opisowy, obejmuje proste operacje, metody sporządzania tablic i wykresów statystycznych. Ma na celu zrozumienie charakteru struktury danych, a w konsekwencji dobranie odpowiednich modelów statystycznych.
ANALIZA STRUKTURY - ilościowy opis każdej z własności rozkładu.
PARAMETRY ROZKŁADU - charakterystyki liczbowe służące do opisu własności rozkładu:
KLASYCZNE - obliczane są na podstawie wszystkich obserwacji w szeregu, stosowane są głównie do rozkładów charakteryzujących się tendencją centralną (rozkłady symetryczne, o umiarkowanej asymetrii)
POZYCYJNE - wyznaczane są na podstawie miejsca w szeregu lub częstotliwości występowania, stosowane są do badania każdego typu rozkładu, szczególnie przydatne w szeregach silnie asymetrycznych, o otwartych przedziałach, przy braku pełnych informacji o rozkładzie.
MIARY OPISUJĄCE SZEREGI:
BEZWZGLĘDNE, ABSOLUTNE - wartości mianowane, wyrażane w tych samych jednostkach miary, co badana cecha zmienna (m, km, g, kg, osoby, itd.)
WZGLĘDNE, STOSUNKOWE - wartości niemianowane lub np. w %, ułamku.
MIARY POŁOŻENIA:
PRZECIĘTNE - charakteryzują średni lub typowy poziom wartości cechy, są to więc takie wartości, wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy
KWANTYLE - wartości cechy badanej zbiorowości przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek. Części te pozostają do siebie w określonych proporcjach.
KWANTYLE:
KWARTYLE - dzielą zbiorowość na cztery ćwiartki
DECYLE - dzielą zbiorowość na dziesięć części
PERCENTYLE - dzielą zbiorowość na sto części.
MIARY DYSPERSJI (ROZPROSZENIA, ZMIENNOŚCI, ZRÓŻNICOWANIA) [A - absolutne, W - względne]:
KLASYCZNE
WARIANCJA -s2 A
ODCHYLENIE STANDARDOWE - s A
TYPOWY OBSZAR ZMIENNOŚCI - xtyp A
WSPÓŁCZYNNIK ZMIENNOŚCI - V(s) W
POZYCYJNE
ROZSTĘP (OBSZAR ZMIENNOŚCI) - R A
ROZSTĘP KWARTYLOWY - R(Q) A
ROZSTĘP DECYLOWY - R(D) A
ODCHYLENIE ĆWIARTKOWE - Q A
TYPOWY OBSZAR ZMIENNOŚCI - xtyp A
WSPÓŁCZYNNIK ZMIENNOŚCI - V(Q) W.
MIARY ASYMETRII:
MOMENT TRZECI WZGLĘDNY - (miara klasyczna) - α3 ϵ <-2; 2>
WSPÓŁCZYNNIK SKOŚNOŚCI - zbudowany na podstawie np. kwartyli (miara pozycyjna, ocenia asymetrię zawężonej przestrzeni) - A(Q) ϵ <-1; 1>
WSPÓŁCZYNNIK SKOŚNOŚCI - (miara mieszana) - A(xśrednie) ϵ <-1; 1>.
Statystyka dostarcza narzędzi pozwalających wykryć, zmierzyć i ocenić powiązania między cechami. Analizy takiej można dokonać dla dwóch lub większej liczby zmiennych. W dalszych rozważaniach ograniczymy się jedynie do analizy jednej pary zmiennych. Nazwijmy te zmienne X i Y. Jeżeli zmienne X i Y oddziałują na siebie wzajemnie lub współwystępują, to mówimy o korelacji lub współzależności tych cech. Nie mówimy wówczas o przyczynie i skutku, lecz określamy wzajemną relację między cechami.
KORELACJA (WSPÓŁZALEŻNOŚĆ) - wzajemne oddziaływanie lub współwystępowanie dwóch zjawisk lub cech tej samej zbiorowości.
WYKRES KORELACYJNY (DIAGRAM KORELACYJNY, DIAGRAM ROZPROSZENIA, WYKRES ROZRZUTU) (scatterplot) - pozwala zaobserwować i ocenić najważniejsze własności powiązań cech a więc: istnienie związku, rodzaj związku, kierunek zależności i siłę zależności. Analiza wykresu korelacyjnego pozwala również na zaobserwowanie jednostek, które znacznie odbiegają od pozostałych, tzw. outliersów.
KORELACJA:
DODATNIA - wzrostowi/spadkowi wartości jednej cechy (X) odpowiada wzrost/spadek średnich wartości drugiej cechy (Y)
UJEMNA - zmiany wartości cech są różnokierunkowe. Jeżeli wartości jednej cechy (X) wzrastają to wartości drugiej cechy (Y) spadają (i odwrotnie).
KORELACJA:
LINIOWA - punkty na diagramie korelacyjnym rozkładają się wokół linii prostej. Zjawisko takie występuje wtedy, gdy jednakowym zmianom jednej cechy odpowiadają jednakowe zmiany drugiej cechy
KRZYWOLINIOWA - punkty na diagramie rozkładają się wokół innej linii (funkcji) niż liniowa (wykładnicza, potęgowa, hiperboliczna). Jednakowym zmianom jednej cechy towarzyszą różne co do siły lub/i kierunku zmiany drugiej cechy
NIELINOWA - punkty na diagramie korelacyjnym rozkładają się wokół funkcji niesprowadzalnej do liniowej.
KORELACJA:
IDEALNA (FUNKCYJNA) - wszystkie punkty diagramu leżą dokładnie na prostej
SILNA - rozrzut punktów na diagramie korelacyjnym jest mały, punkty układają się niemal idealnie wokół linii prostej
UMIARKOWANA - rozproszenie punktów jest wyraźne
SŁABA - punkty są znacznie rozproszone, jednak nadal wyraźnie widać wokół jakiej linii
BRAK - nie można jednoznacznie zauważyć linii, wokół której rozkładają się punkty.
WSPÓŁCZYNNIKI KORELACJI:
LINIOWEJ PEARSONA - obie cechy ilościowe
RANG SPEARMANA - cechy wyrażone w skali porządkowej, jakościowej, mieszanej
WSPÓŁCZYNNIK KONTYNGENCJI, np. współczynnik zbieżności T-Czuprowa - cechy jakościowe, cechy wyrażone na skali nominalnej.
WSPÓŁCZYNNIK KORELACJI LINIOWEJ PEARSONA - iloraz miary łącznego zróżnicowania cech - kowariancji i iloczynu odchyleń standardowych tych cech. Można go stosować, jeżeli spełnione są jednocześnie dwa założenia: obie cechy są cechami ilościowymi oraz zależność między cechami jest liniowa. Współczynnik ten jest symetryczny, a więc nie ma znaczenia, którą cechę nazwiemy X, a którą Y, ponadto jest bardzo wrażliwy na wartości nietypowe (outliers).
KOWARIANCJA - miara współzależności cech, jednak jej wartość nie jest unormowana. Może przyjąć wartości z przedziału (-∞; +∞). Podzielenie kowariancji przez iloczyn odchyleń standardowych cech normuje jej wartość do przedziału <-1; 1>. Ten unormowany wskaźnik to współczynnik korelacji liniowej Pearsona.
WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA
RANGA - miara ważności, intensywności, kolejności cechy. Badając cechy X i Y w oparciu o rangi możemy mówić o ich zgodnym lub niezgodnym uporządkowaniu. Jeżeli zbadamy uszeregowanie rang dla obu cech możemy stwierdzić, czy są one zgodne, jeżeli tak to w jakim stopniu, czy też nie są zgodne. Współczynnik ten przyjmuje wartości z przedziału <-1; 1>.
MIARY WSPÓŁZALEŻNOŚCI CECH JAKOŚCIOWYCH
W praktyce często zdarza się, że chcemy ocenić współzależności między cechami jakościowymi wyrażonymi w skali nominalnej lub między cechami jakościowymi a ilościowymi. Do oceny współzależności między cechami jakościowymi posługujemy się współczynnikami kontyngencji oceniającymi stopień powiązania (skojarzenia) cech. Ocena skojarzenia cech opiera się na statystyce χ2 (chi-kwadrat).
STATYSTYKA χ2 - mierzy różnicę między liczebnościami zaobserwowanymi empirycznie a teoretycznymi, które powinny się pojawić, gdyby cechy nie były ze sobą w żaden sposób powiązane. Przyjmuje wartości z przedziału <0; n pierwiastków z (k-1)(l-1)>. W przypadku małych różnic pomiędzy wartościami empirycznymi i teoretycznymi statystyka χ2 osiągnie niewielką wartość. Gdy różnice między wartościami empirycznymi i teoretycznymi statystyka χ2 będzie większa.
TABLICA KONTYNGENCJI (contingency table) - powstaje w wyniku grupowania badanej zbiorowości według dwóch cech i składa się z k wierszy odpowiadających wariantom jednej cechy oraz l kolumn odpowiadającym wariantom drugiej. Symbol nij oznacza liczbę jednostek posiadających i-ty wariant jednej cechy i j-ty wariant drugiej (i = 1, 2, ..., k; j = 1, 2, ..., l). Na podstawie tej tablicy wyznacza się statystykę χ2.
TABLICA ASOCJACJI (2x2 contingency table)
W wyniku grupowania zbiorowości w oparciu o dwie cechy jakościowe dychotomiczne powstanie tablica asocjacji (czteropolowa) - o rozmiarach 2x2.
Nie powinniśmy używać statystyki χ2 w przypadku, gdy n < 20 lub gdy 20 < n < 40, a wartości empiryczne są mniejsze niż 5. Jeżeli n > 40, żadna z wartości empirycznych nie powinna być mniejsza od 1. Zwiększenie próby n-krotnie z zachowaniem proporcji powoduje zwiększenie statystyki χ2 dwukrotnie.
MIERNIKI OPARTE NA χ2 - wartość χ2 jest wprost proporcjonalna do n:
WSPÓŁCZYNNIK YULE'A (φ) - w ogólnym przypadku tablicy k x l miernik φ może znacznie przekroczyć jedność, dlatego wyprowadzono inne oparte na χ2 mierniki, których kresem górnym jest jedność. Jednym z nich, dość często stosowanym, jest wskaźnik T-Czuprowa.
WSPÓŁCZYNNIK CZUPROWA (T) - kresem górnym tego miernika jest jedność tylko wówczas, gdy liczby kolumn i wierszy tablicy są równe. W tablicach takich jak np. 2x3 lub 3x5 wartość T musi zawsze być mniejsza od jedności. Gdy liczba kolumn jest znacznie większa lub mniejsza od liczby wierszy, maksymalna wartość T może być znacznie mniejsza od jedności.
WSPÓCZYNNIK CRAMERA (V) - stosowany jest dość rzadko, choć nad Czuprowem ma tę przewagę, że jego wartość maksymalna wynosi 1 niezależnie od liczby kolumn i wierszy. V i T są sobie równe, gdy k = l. W innym przypadku V jest zawsze nieco większe od T. W przypadku tablicy 2x2 oba mierniki są równe φ. Dla tablicy 2xk identyczne są mierniki V i φ.
WSPÓŁCZYNNIK PEARSONA (C) - podobnie jak poprzednie mierniki przyjmuje on wartość zero, gdy cechy są niezależne. Jego kres górny zależy jednak od liczby wierszy i kolumn. Dla tablic 2x2 kres górny współczynnika C wynosi 0,707. Rośnie on ze wzrostem liczby kolumn i wierszy, zawsze jednak jest mniejszy od jedności. Dlatego miernik ten jest trudny do interpretacji, chyba że przeprowadzimy standaryzację dzieląc jego wartość przez max wartość możliwą dla danej liczby wierszy i kolumn (a więc np. przez 0,707, gdy badamy tablicę 2x2).
REGRESJA LINIOWA - statystyczny opis związku przyczynowo-skutkowego między zmienną niezależną (przyczyną) a zmienną zależną (skutkiem). Analityczną postacią tego związku jest formalna konstrukcja nazywana modelem regresji. Model może mieć postać dowolnej funkcji. Szczególnym przypadkiem regresji jest regresja liniowa jako przypadek najprostszy (o łatwo interpretowalnych parametrach), a jednocześnie często spotykany w praktyce.
ZASTOSOWANIE ANALIZY REGRESJI:
rozpoznawanie wielkości wpływu jednej z cech na drugą w związkach przyczynowo-skutkowych
objaśnianie zmienności jednej cechy zmiennością drugiej, co ma szczególne znaczenie przy badaniu współwystępowania zjawisk
szacowanie nieznanych wartości jednej cechy na podstawie znanych lub założonych wartości drugiej cechy.
Jeżeli dwie zmienne X i Y są ze sobą powiązane liniowo i występuje zależność przyczynowo-skutkowa, to zależność tą można przedstawić następująco:
funkcja pokazująca wpływ cechy X na cechę Y - ŷi = f(xi) = a + bxi
funkcja pokazująca wpływ cechy Y na cechę X - dokładnie odwrotnie.
Analiza regresji nie jest symetryczna. Wpływ cechy X na Y nie jest identyczny jak wpływ cechy Y na X. Z tej przyczyny należy dokładnie sprecyzować, która cecha wpływa na którą. Błąd spowoduje rozwiązanie innego zadania niż należało.
Z geometrycznego punktu widzenia współczynnik b to współczynnik kierunkowy prostej (nachylenie) a współczynnik a wskazuje przecięcie prostej z osią OY.
b - informuje o ile przeciętnie zmieni się Y, gdy X wzrośnie o jednostkę
a - informuje jaki poziom osiągnie Y, gdy X będzie równe 0
Jest oczywiste, że empiryczne punkty prawie nigdy nie będą leżały dokładnie na prostej regresji. Pojawi się różnica między wartościami empirycznymi a teoretycznymi wynikającymi z przyjętej funkcji. Chcemy jednak, aby linia regresji przechodziła między punktami empirycznymi jak najbliżej wszystkich tych punktów jednocześnie. Różnice między wartościami empirycznymi (punktami) a teoretycznymi (prosta) nazywamy resztami.
WYZNACZANIE WARTOŚCI WSPÓŁCZYNNIKÓW REGRESJI
Chcemy, aby linia regresji przechodziła między punktami empirycznymi jak najbliżej wszystkich tych punktów jednocześnie. Chcemy więc, aby suma odchyleń wartości empirycznych od teoretycznych była minimalna. Ponieważ jednak odchylenia dodatnie znoszą się z ujemnymi będziemy analizować kwadraty reszt: Σ(yi - ŷi)2 = min dla ŷi = f(xi) [dla x dokładnie odwrotnie]. Kryterium to nazywa się kryterium najmniejszych kwadratów. Podstawiając w równaniu w miejsce wartości teoretycznych funkcję, której parametry chcemy znaleźć, minimalizując to wyrażenie uzyskamy parametry funkcji regresji uzyskane metodą najmniejszych kwadratów.
OCENA DOPASOWANIA REGRESJI
Można powiedzieć, że na cechę Y wpływa cecha X, jednak prawie nigdy nie jest to jedyny czynnik kształtujący wartość cechy Y. Są zwykle jeszcze inne, nieuwzględnione w analizie czynniki (choć mniej istotne). To te inne (nieobserwowane w regresji) czynniki powodują, że regresja nie wyjaśnia „wszystkiego”.
Pomiaru zmienności resztowej dokonuje się w oparciu o odchylenie standardowe składnika resztowego (średni błąd szacunku, odchylenie standardowe reszt). Współczynnik ten mierzy przeciętne odchylenie wartości empirycznych od teoretycznych. Im mniejsza jego wartość, tym udział zmienności resztowej w ogólnej zmienności jest mniejszy, a więc dopasowanie prostej do danych empirycznych lepsze. Średni błąd szacunku ma jedną wadę. Może przyjmować wartości z przedziału (0; +∞), jest więc ograniczony jedynie z dołu. Małe wartości łatwo zinterpretować, duże zaś trudniej. Aby unikać tej niedogodności należy posłużyć się względnym wskaźnikiem wahań przypadkowych - współczynnikiem zmienności resztowej. Pozwala on zinterpretować natężenie wahań przypadkowych w stosunku do przeciętnego poziomu zmiennej zależnej. Wartości bliskie 0 będą oznaczały minimalne natężenie wahań przypadkowych w więc „dobrą” regresję. Wartości bliskie 100% będą oznaczały, że wahania przypadkowe stanowią przeciętnie 100% średniej zmiennej zależnej, a więc są duże i taka regresja nie ma praktycznych zastosowań. Większe wartości wykluczają taką funkcję całkowicie.
Całkowitą zmienność mierzoną sumą kwadratów odchyleń wartości cechy od jej średniej arytmetycznej można zapisać jako sumę zmienności wyjaśnionej przez regresję i zmienności niewyjaśnionej: Σ(yi - ӯ)2 = Σ(ŷi - ӯ)2 + Σ(yi - ŷi)2 R2 + φ2 = 1.
WSPÓŁCZYNNIK DETERMINACJI - przyjmuje wartości z przedziału <0; 1> i informuje jaka część zmienności zmiennej zależnej jest wyjaśniona przez kształtowanie się zmiennej niezależnej. Jego wysokie wartości oznaczają, że wyznaczona prosta dobrze opisuje badane zjawisko. Do zastosowań praktycznych powinien być wyższy niż 0,9, w przeciwnym wypadku analizy oparte na regresji będą jedynie przybliżone i mało dokładne. Na podstawie współczynnika determinacji można wyznaczyć indeks korelacyjny. Pozwala on mierzyć siłę i kierunek współzależności między cechami niezależną i zależną. W regresji jest on co do wartości bezwzględnej równy współczynnikowi korelacji liniowej Pearsona. Znak współczynnika jest taki jak znak współczynnika regresji b. R2 = Σ(ŷi - ӯ)2 / Σ(yi - ӯ)2
WSPÓŁCZYNNIK ZBIEŻNOŚCI (INDETERMINACJI) - przyjmuje wartości z przedziału <0; 1> i informuje jaka część zmienności cechy zależnej jest wywołana innymi czynnikami niż kształtowanie się cechy niezależnej. Wysokie wartości współczynnika oznaczają, że inne czynniki niż zmienna niezależna są ważniejsze w kształtowaniu się cechy zależnej.
FUNKCJA LINIOWA - postaci ŷi = a + bxi. Parametr b funkcji liniowej jest interpretowany jako WSPÓŁCZYNNIK REGRESJI, tzn. jeżeli X wzrośnie o jednostkę, to Y zmieni się (wzrośnie lub spadnie) średnio o b.
FUNKCJA POTĘGOWA - postaci ŷi = axib może być przekształcona do postaci liniowej przez logarytmowanie: log ŷi; = log a + b log xi. Parametr b funkcji potęgowej jest interpretowany jako WSPÓŁCZYNNIK ELASTYCZNOŚCI, tzn. jeżeli zmienna X wzrośnie o 1%, to Y zmieni się (wzrośnie lub spadnie) średnio o b%.
FUNKCJA WYKŁADNICZA - postaci ŷi = abxi może być przekształcona do postaci liniowej przez logarytmowanie: log ŷi; = log a + xi log b. Parametr b funkcji wykładniczej jest interpretowany jako ŚREDNI PRZYROST WZGLĘDNY, tzw. STOPA PRZYROSTU. Jeżeli X wzrośnie o jednostkę, to Y zmieni się (wzrośnie lub spadnie) średnio o (b-1)*100%.
FUNKCJA HIPERBOLICZNA - postaci ŷi = a + b*(1 / xi). Parametr a jest interpretowany jako WSPÓŁCZYNNIK NASYCENIA. Jeżeli X rośnie, to Y utrzymuje się przeciętnie na poziomie a.
SZEREG CZASOWY - szereg statystyczny, w którym kryterium porządkowania jest czas. To ciąg wyników obserwacji uporządkowanych w kolejnych jednostkach czasu. Przedstawia się je na wykresach liniowych lub punktowych.
SZEREGI CZASOWE:
MOMENTÓW - mają charakter zasobów
OKRESÓW - mają charakter strumienia.
Zależnie od celu badania, a także od charakteru zmian występujących w szeregach czasowych, stosujemy różne metody ustalania w nich prawidłowości statystycznych. Jeżeli chcemy badać natężenie zmian jakiegoś zjawiska w poszczególnych okresach (momentach) w odniesieniu do innych okresów (momentów), to stosujemy miary zwane WSKAŹNIKAMI DYNAMIKI. Jeżeli interesują nas prawidłowości rozwojowe w dłuższym czasie (w kilku, kilkunastu lub kilkudziesięciu okresach), to badamy TENDENCJĘ ROZWOJOWĄ (TREND), analizujemy także SEZONOWOŚĆ, gdy informacje liczbowe są podane w kwartałach lub miesiącach.
INDYWIDUALNE WSKAŹNIKI DYNAMIKI
Przyrosty możemy wyznaczyć w sposób bezwzględny (absolutny) lub względny. PRZYROSTY ABSOLUTNE informują nas o zmianach zachodzących w poziomie zjawiska w takich jednostkach jak jednostka badanej cechy. PRZYROSTY WZGLĘDNE przekazują tę samą informację jednak w sposób względny, a więc opisują zmiany w poziomie badanego zjawiska, lecz są to zmiany procentowe.
PRZYROSTY:
ABSOLUTNE
JEDNOPODSTAWOWE
ŁAŃCUCHOWE
WZGLĘDNE
JEDNOPODSTAWOWE
ŁAŃCUCHOWE.
Relatywne zmiany w szeregach czasowych można mierzyć za pomocą WSKAŹNIKÓW DYNAMIKI zwanych INDEKSAMI.
INDEKS - iloraz poziomu zjawiska w okresie badanym do poziomu zjawiska w okresie przyjętym za podstawę porównań.
INDEKSY INDYWIDUALNE:
JEDNOPODSTAWOWE
ŁAŃCUCHOWE.
ŚREDNIE TEMPO ZMIAN - pokazuje średnią względną zmianę (wzrost lub spadek - w zależności od znaku) badanego zjawiska z okresu na okres.
INDEKSY AGREGATOWE
W wielu przypadkach chcielibyśmy badać dynamikę zmian nie jednej badanej cechy, a całego ich zespołu (agregatu). Gdy dodatkowo składniki tego zespołu charakteryzują się niejednorodnością, są wyrażone w różnych jednostkach, to nie można ich zbadać w oparciu o wskaźniki indywidualne, ze względu na niemożliwość ich zsumowania. W sytuacjach takich należy posłużyć się wskaźnikami agregatowymi (zespołowymi). Pomysł polega na tym, aby korzystając z tego, że znamy ceny wszystkich produktów i usług, a także ich ilości, w analizie brać pod uwagę wartość całego agregatu. Podstawa sumowania jest wtedy wspólna dla wszystkich cech (jest nią cena).
Jeżeli cenę oznaczymy symbolem p, a ilość (fizyczną wielkość) dóbr symbolem q, to mnożąc (p · q) otrzymamy WARTOŚĆ. Sumując wartości poszczególnych towarów lub usług, otrzymamy łączną wartość badanego agregatu dóbr, czyli Σqp. Rozwiązanie takie zaproponowali E. Laspeyres i H. Paasche. Następne propozycje przedstawili Tornqvist i Fisher.
INDEKS AGREGATOWY - indeks, który mierzy względne zmiany wartości kilku zmiennych wziętych razem, tworzących pewną kombinację.
INDEKS CEN KONSUMPCYJNYCH - ważony indeks agregatowy ceny kombinacji wielu artykułów konsumpcyjnych.
AGREGATOWY INDEKS WARTOŚCI - informuje o stopniu zmian w wartości badanego zespołu (agregatu) towarów (usług) w okresie badanym w porównaniu z okresem podstawowym. Ponieważ na wartość agregatu wpływają zarówno ceny jak i ilości, znaczenie ma także okres jaki weźmiemy do porównań.
AGREGATOWY INDEKS WARTOŚCI dla agregatu składającego się z j = 1, 2, ..., k, gdzie sumowanie obejmuje wszystkie dobra (towary, usługi) składające się na analizowany agregat, natomiast:
qj0 - ilość dóbr w okresie podstawowym
qjt - ilość dóbr w okresie badanym
pj0 - ceny jednostkowe dóbr w okresie podstawowym
pjt - ceny jednostkowe dóbr w okresie badanym.
AGREGATOWY INDEKS CEN - pokazuje jaki był wpływ zmian cen na dynamikę wartości przy ustabilizowanych ilościach składników badanego agregatu.
AGREGATOWY INDEKS ILOŚCI - pokazuje jaki był wpływ zmian ilości składników agregatu na dynamikę wartości przy ustabilizowanych cenach składników badanego agregatu.
AGREGATOWY INDEKS CEN LASPEYRESA - pokazuje jaki był wpływ zmian cen na dynamikę wartości badanego agregatu przy ustabilizowanych ilościach z okresu podstawowego.
AGREGATOWY INDEKS CEN PAASCHE'EGO - pokazuje jaki był wpływ zmian cen na dynamikę wartości badanego agregatu przy ustabilizowanych ilościach z okresu badanego.
Stałe ilości z okresu podstawowego mają ten walor, że są takie same we wszystkich indeksach liczonych dla kolejnych okresów, natomiast stałe ilości z okresu badanego zmieniają się w każdym kolejnym indeksie - mają więc wadę ograniczonej porównywalności stopnia zmian w cenach. Jednakże walorem stałych ilości z okresu badanego jest ich aktualność.
AGREGATOWY INDEKS CEN FISHERA (INDEKS „IDEALNY”) - w przypadku dużych rozbieżności między indeksem Paasche'ego i Laspeyresa indeks Fishera przestaje być „idealny”. Ma też wówczas niewielką wartość poznawczą.
AGREGATOWY INDEKS ILOŚCI LASPEYRESA - pokazuje jaki był wpływ zmian ilości na dynamikę wartości badanego agregatu przy ustabilizowanych cenach z okresu podstawowego.
AGREGATOWY INDEKS ILOŚCI PAASCHE'EGO - pokazuje jaki był wpływ zmian ilości na dynamikę wartości badanego agregatu przy ustabilizowanych cenach z okresu badanego.
Stałe ceny z okresu podstawowego mają ten walor, że są takie same we wszystkich indeksach liczonych dla kolejnych okresów, natomiast stałe ceny z okresu badanego zmieniają się w każdym kolejnym indeksie - mają więc wadę ograniczonej porównywalności stopnia zmian w ilościach. Jednakże walorem stałych cen z okresu badanego jest ich aktualność.
RÓWNOŚCI INDEKSOWE - między indeksami agregatowymi wartości, ilości i cen zachodzą związki matematyczne, które można zapisać następująco:
Iw = LIp · PIq
Iw = PIp · LIq
Iw = FIp · FIq
SKŁADOWE SZEREGU CZASOWEGO:
TENDENCJA ROZWOJOWA (TREND) - ogólny kierunek zmian badanego zjawiska zachodzący w długim okresie czasu, będący wynikiem oddziaływania określonego zespołu przyczyn głównych; może być wzrostowy, spadkowy lub pozostawać na takim samym niezmiennym poziomie (wtedy mówi się o stałym lub średnim poziomie zjawiska)
WAHANIA OKRESOWE - regularny wzrost lub spadek wartości badanego zjawiska w podobnych okresach czasu; wahania pojawiające się periodycznie w skali dnia, tygodnia, dekady, miesiąca, kwartału, sezonu, roku, itp.
WAHANIA KRÓTKOOKRESOWE - powtarzają się w obrębie miesięcy, tygodni lub dni (np. wahania sprzedaży w hipermarketach spowodowane dużą zmiennością natężenia ruchu nabywców w ciągu tygodnia)
WAHANIA SEZONOWE - mają roczny okres (cykl) wahań (wynikają one z przyczyn naturalnych, np. z przebiegu pór roku oraz z przyczyn konwencjonalnych, np. zwyczajów świątecznych)
KONIUNKTURALNE (CYKLICZNE) - powtarzają się w odstępach dłuższych niż rok i są na ogół związane z cyklem koniunkturalnym gospodarki
WAHANIA NIEREGULARNE - pozostałe wahania niebędące wahaniami cyklicznymi ani sezonowymi, zwykle są to nieregularne odchylenia wartości badanego zjawiska o niewielkim natężeniu
CZYSTO LOSOWE (PRZYPADKOWE) - o określonym rozkładzie prawdopodobieństw zdarzeń losowych
INCYDENTALNE (KATASTROFICZNE) - niepodlegające żadnym prawidłowościom losowym.
DEKOMPOZYCJA SZEREGÓW CZASOWYCH
W pewnym uproszczeniu można przyjąć, że poziom zjawiska rozpatrywanego w czasie (Y) jest funkcją trendu (Ŷ), wahań sezonowych (S) i wahań nieregularnych (E): Y = f(Ŷ, S, E). Wyodrębnienie powyższych składników nosi nazwę DEKOMPOZYCJI SZEREGU CZASOWEGO.
Poszczególne składniki szeregu czasowego są oceniane za pomocą odpowiednich charakterystyk liczbowych. Trend jest opisywany za pomocą średnich ruchomych oraz funkcji analitycznych. Wahania sezonowe są charakteryzowane za pomocą wskaźników sezonowości. Miarą wahań nieregularnych jest wariancja resztowa i współczynnik zbieżności. Na ogół przyjmuje się, że składniki szeregu czasowego mają charakter addytywny, tzn. konkretna obserwacja yt jest traktowana jako suma: yt = ŷt + sti + eti.
WYODRĘBNIANIE TRENDU
W szeregu czasowym występuje trend, jeżeli w dłuższym horyzoncie czasowym jego wartości wykazują tendencję do systematycznego wzrostu lub spadku.
METODY WYODRĘBNIANIA TRENDU Z SZEREGU CZASOWEGO:
MECHANICZNA - wykorzystuje średnie ruchome
ANALITYCZNA - polega na dopasowaniu odpowiedniej funkcji do danych szeregu czasowego.
ANALITYCZNA METODA WYODRĘBNIANIA TRENDU - FUNKCJE TRENDU
Podejście modelowe pozwala na znalezienie parametrów odpowiedniej funkcji, która będzie możliwie najlepiej opisywała zmiany wartości szeregu w czasie. Można tu posłużyć się analogią do analizy regresji. Jeżeli abstrakcyjną zmienną czasową t zapiszemy: t = 1, 2, ..., n, to parametry funkcji trendu można wyznaczyć metodą najmniejszych kwadratów minimalizując wyrażenie F = Σ(yt - ŷt)2 = min. Przyjmujemy tu założenie, że trend jest to pewna funkcja czasu: ŷt = f(t).
LINIOWA FUNKCJA TRENDU
Funkcja liniowa ŷt = a + bt jest stosowana, gdy występują zbliżone zmiany (przyrosty lub spadki) poziomu zjawiska w kolejnych okresach. Parametr b interpretuje się jako średni absolutny przyrost (spadek) z okresu na okres, parametr a jako teoretyczny poziom zjawiska w okresie t = 0.
WYKŁADNICZA FUNKCJA TRENDU
Funkcja wykładnicza ŷt = a · bt jest wykorzystywana, gdy zmiany poziomu zjawiska są coraz szybsze. Parametr a jest również interpretowany jako teoretyczny poziom w okresie, dla którego t = 0, natomiast parametr b po przekształceniu (b - 1)·100% pokazuje średni względny przyrost (spadek) poziomu zjawiska z okresu na okres, a zatem jest to odpowiednik średniego tempa zmian.
HIPERBOLICZNA FUNKCJA TRENDU
Funkcja hiperboliczna ŷt = a + b/t znajduje zastosowanie w sytuacji, gdy zmiany badanego zjawiska są coraz wolniejsze, a jego wielkość dąży asymptotycznie do poziomu określanego przez parametr a.
OCENA DOPASOWANIA FUNKCJI TRENDU DO DANYCH EMPIRYCZNYCH
Po wyznaczeniu parametrów funkcji trendu należy zawsze ocenić jakość dopasowania danych teoretycznych do empirycznych. Analogicznie jak w analizie regresji posłużymy się: średnim błędem szacunku, współczynnikiem zmienności przypadkowej, współczynnikiem zbieżności (indeterminacji) i współczynnikiem determinacji.
EKSTRAPOLACJA TRENDU
Prognozując przyszły poziom zjawiska zmieniającego się w czasie można w pewnych sytuacjach oprzeć się na ekstrapolacji trendu. Te sytuacje to:
występowanie wyraźnego, silnego trendu
niewielkie natężenie wahań systematycznych i przypadkowych.
Prognozowanie szeregów czasowych przez ekstrapolację trendu jest, technicznie rzecz biorąc, zadaniem bardzo łatwym. Wystarczy do funkcji, której parametry oszacowaliśmy, podstawić w miejsce zmiennej czasowej t odpowiednią dla żądanego momentu w przyszłości wartość. ŷt = a + bt
Budując w ten sposób prognozy, spodziewamy się, że będziemy popełniać systematyczne błędy, na średnim poziomie równym Se. Należy więc prognozy wykonywać przedziałowo uwzględniając ten błąd.
SEZONOWOŚĆ - wahania w poziomie badanej cechy, które następują w ciągu roku kalendarzowego.
W szeregach czasowych, w których zjawiska są rejestrowane według miesięcy lub kwartałów, ich poziom z reguły jest określony przez tendencję rozwojową, wahania sezonowe i wahania przypadkowe.
Chcąc wyodrębnić składnik sezonowy należy wyeliminować z szeregu czasowego wpływ tendencji rozwojowej (jeżeli ona występuje) i wahań przypadkowych. Istnieje wiele metod, które pozwalają na wyodrębnienie czystego składnika sezonowości i jego charakterystykę za pomocą miar zwanych wskaźnikami sezonowości. Ocenę sezonowości można przeprowadzić na podstawie kilku cykli rocznych. Wskaźniki sezonowości mogą mieć postać liczb względnych, które najczęściej są wyrażone w procentach, lub też postać liczb absolutnych wyrażonych w tych samych jednostkach miary, co badane zjawisko.
Można spotkać się z opinią, że wskaźniki względne są miarą odpowiednią dla szeregów, w których amplituda wahań zmienia się, a przez to są zachowane stałe relacje poziomu zjawiska w jednoimiennych podokresach w stosunku do linii trendu (tzw. sezonowość multiplikatywna).
Natomiast wskaźniki absolutne są właściwe do oceny sezonowości w tych szeregach, w których amplituda wahań jest stała, co oznacza stałą wielkość różnic w stosunku do trendu w okresach jednoimiennych (tzw. sezonowość addytywna).
Z praktycznego punktu widzenia powyższe rozróżnienie nie ma zbyt dużego znaczenia, ponieważ:
w wielu wypadkach trudno ocenić rodzaj wahań
w ocenie sezonowości w równym stopniu są przydatne oba sposoby opisu - w postaci liczb absolutnych i względnych.
Najprostszym sposobem odróżnienia wahań addytywnych od multiplikatywnych jest sporządzenie odpowiedniego wykresu. Szereg o wahaniach addytywnych będzie się mieścił między dwiema równoległymi liniami. Dla wahań multiplikatywnych będą to linie rozbiegające się lub zbiegające się.
METODY ANALIZY SEZONOWOŚCI:
BEZ ELIMINACJI TRENDU - odnoszenie wahań sezonowych do średniego poziomu zjawiska
Z ELIMINACJĄ TRENDU - odnoszenie wahań sezonowych do wartości szeregu wygładzonego.
Pamiętać należy, że suma wskaźników multiplikatywnych (względnych) jest zawsze równa d lub d*100% - odpowiednio dla kwartałów 4 lub 400%, miesięcy 12 lub 1200%, półroczy 2 lub 200%. ΣWSi = d (d%).
Pamiętać należy, że suma wskaźników addytywnych (absolutnych) jest zawsze równa 0 - odpowiednio dla kwartałów 0, miesięcy 0, półroczy 0. ΣASi = 0.
INTERPRETACJE MIAR:
Średnia arytmetyczna - średnia wartość badanej cechy to...
Odchylenie standardowe - wartość badanej cechy różni się od średniej arytmetycznej średnio o ...
Współczynnik zmienności pokazuje, że zróżnicowanie wartości badanej cechy jest ...
Mediana - połowa zbiorowości ma wartości cechy nie większe niż wartość środkowa, a druga połowa nie mniejsze niż wartość środkowa
Dominanta - dominującą, czyli najczęściej występującą wartością badanej cechy jest ...
Decyl 1 - 10% badanej zbiorowości przyjmuje wartość nie większą niż ..., a 90% nie mniejszą niż ...
Decyl 9 - 90% badanej zbiorowości przyjmuje wartość nie większą niż ..., a 10% nie mniejszą niż ...
Kwartyl 1 - 25% badanej zbiorowości ma wartości nie większe niż ..., a 75% nie mniejsze niż ...
Kwartyl 3 - 75% badanej zbiorowości ma wartości nie większe niż ..., a 25% nie mniejsze niż ...
Rozstęp - różnica między skrajnymi wartościami badanej cechy wynosi ...
Rozstęp decylowy - różnica między skrajnymi wartościami badanej cechy u środkowych 80% wynosi ...
Rozstęp kwartylowy - różnica między skrajnymi wartościami badanej cechy u środkowych 50% wynosi ...