analiza prezentacja danych stat


Metody analizy i prezentacji danych statystycznych
Materiały do wykładu
Dr Adam Kucharski
Spis treści
1 Podstawowe pojęcia statystyczne 2
1.1 Populacja i zbiorowość . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Badanie statystyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Standaryzacja danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Szeregi statystyczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Graficzna prezentacja danych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Analiza szeregu przekrojowego 8
2.1 Miary opisujÄ…ce szereg i jego strukturÄ™ . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Badanie koncentracji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Analiza szeregu czasowego 12
3.1 Analiza dynamiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2 Dekompozycja szeregu czasowego . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 Åšrednia ruchoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.4 Modele trendu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.5 Zmienne zero-jedynkowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6 Wyodrębnianie wahań sezonowych . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.7 Rodzaje prognoz i ich własności . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.8 Ocena jakości prognoz ex post . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4 Szeregi przekrojowo-czasowe 30
Metody analizy (...) Opracował: dr Adam Kucharski
1 Podstawowe pojęcia statystyczne
1.1 Populacja i zbiorowość
W ramach naszego wykładu będziemy wykorzystywać wiedzę uzyskaną podczas zajęć ze Staty-
styki. Dlatego na początek przypomnimy sobie pojęcia poznane na tym przedmiocie. Zaczniemy
od najbardziej podstawowych.
Zbiorowość statystyczna  zbiór osób, przedmiotów lub zjawisk podobnych do siebie, ale
nie identycznych, poddanych badaniu statystycznemu. Pojedynczy element zbiorowości
podlegający bezpośredniemu badaniu to jednostka statystyczna.
Populacja generalna  tworzą ją wszystkie elementy, będące przedmiotem badania, co do
których formułujemy wnioski ogólne. Aby określić ją zgodnie z celem badania wszystkie
jednostki muszą być określone pod względem:
" rzeczowym (co lub kogo badamy);
" przestrzennym (obszar objęty badaniem);
" czasowym (okres lub moment objęty badaniem).
Populacja próbna  podzbiór populacji generalnej, obejmujący elementy wybrane w określony
sposób. Wyniki z jej badania uogólnia się na populację generalną.
Badanie statystyczne pełne  bezpośredniej obserwacji podlegają wszystkie elementy popu-
lacji generalnej.
Badanie statystyczne częściowe  obserwacji podlega tylko część populacji generalnej (tzw.
próba). Wyróżnimy następujące rodzaje badań częściowych:
" reprezentacyjne;
" monograficzne (badany jest indywidualny przypadek np pojedynczy region bÄ…dz fir-
ma);
" ankietowe.
Częściej wykonujemy drugi z wymienionych rodzajów badań. Dzieje się tak ponieważ zwykle
nie możemy zbadać całości populacji generalnej ze względu na jej liczebność oraz/lub związane
z tym koszty. Koszt przeprowadzenia badania częściowego jest niższy a samo badanie trwa
krócej. Powtarzając je co jakiś czas zyskujemy szansę uaktualnienia wyników. Badania częściowe
wykonujemy również wtedy, gdy jednostki statystyczne ulegają zniszczeniu w trakcie samego
badania.
Oba rodzaje badań obarczone są błędami, przy czym w badaniu częściowym dodatkowo po-
jawia się niebezpieczeństwo złego doboru struktury próby1. Próba musi odnosić się do populacji
generalnej z określoną dokładnością. Należy w tym celu spełnić dwa warunki:
1. próba musi być losowa  prawdopodobieństwo znalezienia się w próbie powinno być jed-
nakowe dla każdej jednostki;
2. próba powinna być dostatecznie liczna.
W badaniach ekonomicznych występuje problem z doborem losowym, dlatego ograniczamy
się do pojęcia niezależności jednostek z punktu widzenia wybranych zmiennych.
Jednostki statystyczne różnią się między sobą ze względu na tzw. cechy statystyczne. Wy-
różnimy następujące ich rodzaje:
1
Tą wadą często obarczone są badania oparte na sondażach telefonicznych.
2 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
" cechy mierzalne  warianty cechy wyrażone są za pomocą liczb. Dzielą się one dalej na:
 skokowe  przyjmują skończoną lub przeliczalną liczbę wartości;
 ciągłe  przyjmują dowolną (zależną od dokładności pomiaru) wartość z ustalonego
przedziału;
" cechy niemierzalne  warianty wyrażone są w sposób opisowy;
" cechy quasi-ilościowe (porządkowe)  warianty są przedstawione w sposób opisowy, lecz
można je uporządkować wg natężenia badanej cechy.
1.2 Badanie statystyczne
Postępowanie zmierzające do udzielenia odpowiedzi na postawiony przez nas problem na podsta-
wie materiału statystycznego oraz wykorzystujące stosowne narzędzia tworzy procedurę zwaną
badaniem statystycznym. Przeprowadzając badanie tego rodzaju przechodzimy następujące eta-
py:
1. Przygotowanie badania:
" określenie celu badania;
" określenie zbiorowości i jednostki statystycznej;
" określenie charakteru badania (pełne lub częściowe);
" określenie sposobu pozyskiwania danych i ich zródeł;
" przygotowanie materiałów (formularzy, tablic roboczych itd.);
" przygotowanie planu finansowego;
2. Gromadzenie materiału statystycznego (obserwacja statystyczna), który może pochodzić
ze zródeł:
" pierwotnych (dane zebrane bezpośrednio);
" wtórnych (dane pochodzą z wcześniejszych opracowań);
3. Grupowanie i prezentacja zebranego materiału przy pomocy tabel i wykresów;
4. Analiza wyników i wyciąganie wniosków.
Jeśli chodzi o wtórne zródła danych, to bardzo popularne obecnie jest wykorzystywanie in-
ternetu. Dlatego przyjrzymy siÄ™ kilku wybranym serwisom zawierajÄ…cym dane statystyczne.
Główny Urząd Statystyczny (www.stat.gov.pl)
Strona GUS stanowi obfite zródło danych ekonomicznych, demograficznych i innych. Część z
nich dostępna jest odpłatnie. Dane udostępniane są w postaci elektronicznych wersji publikacji
GUS oraz pogrupowane według kategorii. Pobieżnie omówimy niektóre z nich:
Ceny. Handel Znajdują się tu m.in. dane dotyczące inflacji, cen wybranych produktów czy
niektóre z tablic Rocznika Statystycznego Handlu Zagranicznego.
Ludność Obok elektronicznej wersji Rocznika Demograficznego znajdziemy w tym dziale tablice
trwania życia czy strukturę ludności Polski z punktu widzenia różnych kryteriów.
Praca. Wynagrodzenia Do pobrania udostępniono dane o pracujących, bezrobociu czy ak-
tywności ekonomicznej ludności. Oprócz tego znajdują się tu informacje na temat wyna-
grodzeń klasyfikowanych według wybranych kryteriów.
3 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Przemysł. Budownictwo. Środki trwałe Dział zawiera m.in. produkcję wybranych wyro-
bów czy dane na temat budownictwa mieszkaniowego.
Rachunki narodowe Jako że rachunki narodowe są podstawą obliczania wartości PKB, wła-
śnie tu znajdziemy dane i informacje merytoryczne związane z tą ważną kategorią ekono-
micznÄ….
Środowisko. Energia Dane dotyczące zużycia paliw i energii oraz ochrony środowiska.
Warunki życia Dane na temat budżetów gospodarstw domowych, dochodów ludności itp.
Opracowania zbiorcze Tutaj znajdują się odnośniki do stron związanych z publikacjami GUS.
Warto zajrzeć na przykład do Biuletynu Statystycznego  ukazującego się co miesiąc a za-
wierającego szeregi statystyczne o bardzo różnorodnej tematyce. Urząd publikuje także
roczniki statystyczne z wybranych dziedzin, ale w ich przypadku musimy liczyć się z ogra-
niczeniami ilości udostępnianych informacji.
Statystyka regionalna Dział ten zawiera m.in. dane i opracowania wykonane przez Woje-
wódzkie Urzędy Statystyczne. Rodzaj tych danych zależy od konkretnego urzędu.
Narodowy Bank Polski (www.nbp.pl)
Oficjalna strona NBP zawiera szereg informacji na temat samego banku, jego polityki i wy-
dawanych przepisów prawnych. Znajdują się tam również dane statystyczne m.in. bilans NBP,
instrumenty banku centralnego, kursy walut i inne. W dziale  Publikacje znajduje siÄ™  Biuletyn
Informacyjny NBP , zawierający wiele cennych danych na temat rynku bankowego i pieniężnego
w Polsce. Oprócz tego na stronie znalezć można analizy przygotowane przez pracowników banku.
Dom Maklerski BOŚ S.A. (bossa.pl) oraz Gazeta giełdowa  Parkiet (www.parkiet.com)
W internecie łatwo znalezć dane giełdowe. Wymienione powyżej strony zawierają obszerne
zbiory danych tak bieżących jak i historycznych. Pobrać należy plik tekstowy przygotowany dla
programu Metastock i wczytać go do arkusza kalkulacyjnego przy pomocy odpowiedniego kre-
atora.
Izba ZarzÄ…dzajÄ…cych Funduszami i Aktywami (www.izfa.pl)
Na tej stronie znajdujÄ… siÄ™ dane statystyczne, analizy ekonomiczne i inne informacje zwiÄ…za-
ne z funduszami inwestycyjnymi obecnymi na polskim rynku.
Zgromadzone dane statystyczne (czy to ze zródeł pierwotnych, czy wtórnych) poddaje się gru-
powaniu, którego wyróżnimy dwa rodzaje:
1. typologiczne  polegające na wyodrębnianiu grup odmiennych jakościowo np pod względem
cech terytorialnych bÄ…dz rzeczowych;
2. wariancyjnie  polegajÄ…ce na porzÄ…dkowaniu jednostek i Å‚Ä…czeniu ich w klasy o odpowied-
nich wartościach cechy.
Jeżeli grupowanie w postaci szeregów nam nie wystarczy, dane można przedstawić przy pomocy
tablic wielodzielnych, których szczególnym przypadkiem są tablice dwudzielne (korelacyjne).
Oczywiście publikacje o charakterze statystycznym zostały przez autorów pogrupowane, ale
niekiedy dane z naszego punktu widzenia okazują się zbyt szczegółowe. W takiej sytuacji możemy
dokonać agregacji danych2 przestrzegając jednak, aby grupować podobne warianty cechy.
2
Z działaniem tego typu mamy do czynienia na przykład tworząc szereg rozdzielczy punktowy z szeregu
szczegółowego.
4 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
1.3 Standaryzacja danych
Cechy mierzalne podlegające obserwacji statystycznej zazwyczaj mają miano, które niekiedy
utrudnia porównywanie cech ze sobą. Wyjściem w takiej sytuacji może się stać standaryzacja
zmiennych.
Jednym ze sposobów standaryzacji danych jest podzielenie wszystkich elementów szeregu
przez jego wartość maksymalną. Ma to tę zaletę, że dane po przekształceniu zyskują stały
punkt odniesienia (wartość jeden).
Przykład 1
Rozpatrzmy dostępny na stronie NBP średniomiesięczny kurs euro za pierwsze osiem miesięcy
2008 roku. Tabela 1 zawiera dane przed i po standaryzacji.
Tabela 1: Przykład standaryzacji wykorzystującej wartość maks.
MiesiÄ…c Kurs EUR Kurs wystand.
Styczeń 3,6080 1
Luty 3,5825 0,9929
Marzec 3,5374 0,9804
Kwiecień 3,4444 0,9547
Maj 3,4069 0,9443
Czerwiec 3,3760 0,9357
Lipiec 3,2600 0,9035
Sierpień 3,2884 0,9114
Åšrednia 3,4380 0,9529
Odch. stand. 0,1217 0,0337
zródło: obliczenia własne na podst. danych z www.nbp.pl
Postępowanie przedstawione w tabeli 1 przydaje się m.in. podczas przetwarzania danych
powstających przy zliczaniu wyników pochodzących z ankiet.
1.4 Szeregi statystyczne
Dane liczbowe jakie gromadzimy podczas badania statystycznego najczęściej mają postać sze-
regów statystycznych.
Szereg statystyczny  ciąg wielkości statystycznych, uporządkowanych według określonych
kryteriów.
Podstawowe rodzaje szeregów statystycznych ze względu na sposób prezentacji danych:
" szczegółowy;
" rozdzielczy:
 punktowy;
 z przedziałami klasowymi.
Szeregi rozdzielcze dzielą zbiorowość statystyczną na części (klasy) wg określonej cechy i
podają liczebność lub częstość każdej z klas. Zazwyczaj szeregi punktowe buduje się dla cech
5 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
skokowych zaś te z przedziałami klasowymi dla cech ciągłych choć jeśli liczba obserwacji w
przypadku cechy skokowej jest duża również w jej wypadku sięga się po przedziały.
Podstawowe rodzaje szeregów ze względu na charakter danych:
" czasowe;
" przekrojowe;
" przekrojowo-czasowe.
Szeregi szczegółowe najlepiej nadają się do prezentowania niedużych ilości danych. Kiedy ich
liczba wzrasta przechodzimy na szeregi rozdzielcze. O ile budowa szeregu punktowego nie budzi
wątpliwości, to pojawiają się one już dla szeregu z przedziałami klasowymi. Tworzenie przedzia-
łów może odbywać się w sposób intuicyjny (sama struktura szeregu sugeruje ilość i rozpiętość
przedziałów) lub w oparciu o określone procedury. Poniżej znajdują się etapy postępowania,
które pozwala zamienić szereg szczegółowy na rozdzielczy z przedziałami klasowymi.
1. Ustalenie liczby klas (k): jeżeli przez n oznaczymy ogólną liczebność szeregu, wówczas
liczbę klas można wyznaczyć na podstawie jednego ze wzorów:
"
k H" n (1)
k H" 1 + 3,322 log n (2)
2. Ustalenie rozpiętości przedziałów: Zazwyczaj przyjmuje się jednakowe rozpiętości przedzia-
łów. Dzięki temu liczebności w poszczególnych klasach są porównywalne. Różne rozpiętości
stosujemy, kiedy populacja jest niejednorodna i występuje silna koncentracja obserwacji w
jednej z klas. Niech h oznacza rozpiętość przedziału:
xmax - xmin R
h H" H" (3)
k k
Wartość h często trzeba przybliżyć. Wykorzystujemy wtedy tzw. przybliżenie z nadmiarem:
hk R
3. Ustalanie granic klas: Zwykle jako dolną granicę przyjmuje się xmin lub bliską mu wartość.
Należy też pamiętać, że dla cech ciągłych dolne granice klas następnych powinny być równe
górnym granicom klas poprzednich.
Przykład 2
Spróbujmy skonstruować przykładowy szereg rozdzielczy. Z Małego Rocznika Statystycznego
2008 wybraliśmy dane dotyczące głębokości maksymalnej polskich jezior3, które znalazły się w
tabeli 2.
Dane obejmujÄ… n = 23 jeziora. Na podstawie wzoru (2) ustalamy liczbÄ™ klas:
k H" 1 + 3,322 log(23) H" 5,52
Zaokrąglamy wartość k do 6. Następnie ustalamy rozpiętość przedziałów:
68 - 2,6
h H" H" 10,9
6
Pamiętając o regule przybliżania z nadmiarem, ustalamy rozpiętość przedziału na 11 m.
W ostatnim kroku określamy granice przedziałów, pamiętając o tym, że w naszym przy-
kładzie mamy do czynienia z cechą ciągłą. Jako dolną granicę przyjmiemy 2,5. Efekt końcowy
znalazł się w tabeli 3.
3
Jeziora te uporządkowano malejąco wg powierzchni zwierciadła wody
6 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Tabela 2: Maksymalna głębokość większych jezior w Polsce
Nazwa jeziora Maks. głębokość [m] Nazwa jeziora Maks. głębokość [m]
Miedwie 43,8 Dominickie 17,1
Jeziorak Duży 12 Sasek Mały 3,7
Niegocin 39,7 Chełmżyńskie 27,1
Jamno 3,9 Tajno 6,6
Wdzydze Połud. 68 Raduń 25,1
Raduńskie Dolne 35,4 Chłop 23
Gaładuś 54,8 Przytoczno 12,5
Pogubie Wielkie 2,6 Harsz 47
Wdzydze Półn. 18,8 Wielkie 3,7
Ewingi 3 Gremzdy 14,3
Serwy 41,5 Boczne 17
Zdworskie 5
zródło: Mały Rocznik Statystyczny 2008, tabela 14 s. 44
Tabela 3: Struktura większych jezior Polski wg ich głębokości maksymalnej
Maks. głębokość [m] Liczba jezior
2,5-13,5 9
13,5-24,5 5
24,5-35,5 3
35,5-46,5 3
46,5-57,5 2
57,5-68,5 1
Razem 23
zródło: obliczenia własne
1.5 Graficzna prezentacja danych
Prezentacja danych na wykresie ma wiele zalet. Pozwala na przykład ogarnąć zachowanie się
dużej liczby obserwacji. Analiza wykresu pomaga ocenić własności szeregu (np. asymetrię) i
dobrać stosowne narzędzia dalszej analizy. Z uwagi na to, że zródła i rodzaje danych oraz cele
badań są bardzo różnorodne, istnieje ogromna mnogość rodzajów wykresów. Wymieńmy tylko
niektóre:
" statystyczne:
 rozkład empiryczny;
 histogram;
 wykres ramkowy;
" prezentujące strukturę lub częstość:
 wykres kołowy (pierścieniowy);
7 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
 wykres kolumnowy (grupowany lub skumulowany);
 wykres warstwowy skumulowany;
" opisujące dekompozycję bądz zależność:
 punktowy;
 liniowy o skali równomiernej;
 liniowy o skali logarytmicznej.
Tworząc wykresy warto pamiętać o następujących uwagach:
1. Wykorzystując układ współrzędnych na osi odciętych odkładamy wartości cechy, a na osi
rzędnych liczbę wystąpień danego wariantu.
2. Dla szeregów czasowych oś odciętych zawiera interwały czasowe zaś oś rzędnych wielkości
zjawisk w kolejnych momentach (okresach) czasu.
3. Skale na obu osiach są od siebie niezależne.
2 Analiza szeregu przekrojowego
2.1 Miary opisujÄ…ce szereg i jego strukturÄ™
Dokonując analizy szeregu statystycznego wskazane jest obliczyć komplet miar opisujących jego
strukturę. Oparcie się tylko na jednej lub dwóch nie daje pełnej informacji. Należy przy tym
pamiętać o własnościach użytych miar (przykładowo o tym, że miary klasyczne obliczane są ze
wszystkich elementów szeregu). Do najważniejszych charakterystyk zaliczymy:
" średnią arytmetyczną;
" wariancjÄ™ (odchylenie standardowe);
" współczynnik skośności (lub inną miarę asymetrii);
" dominantÄ™;
" kwartyle;
" rozstęp;
" współczynnik zmienności.
Przykład 3
Rozpatrzmy dane na temat liczby ludności zamieszkującej miasta wszystkich 16 województw
naszego kraju. Dane pochodzÄ… z tablicy 2 zawartej w publikacji pt. Miasta w liczbach 2005-2006
przygotowanej przez Centrum Statystyki Miast Urzędu Statystycznego w Poznaniu, a dostępnej
na internetowej stronie GUS.
Dla danych z tabeli 4 obliczmy podstawowe miary statystyczne. Z wyników zawartych w
tabeli 5 dowiadujemy się, że w polskich miastach na koniec 2006 roku mieszkało średnio 1460,56
tys. osób. Najmniejsza liczba ludności zamieszkiwała miasta województwa opolskiego a najwięk-
sza  śląskiego. W połowie województw mieszkało w miastach nie więcej niż 1217,8 tys. osób
zaś połowa obserwacji mieści się między 815,33 a 1723,35 tys. osób. Odchylenie standardowe
wyniosło 899,05 tys. osób. Wskazuje to na dużą zmienność szeregu, co potwierdza współczynnik
zmienności rzędu niemal 62%.
8 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Tabela 4: Ludność zamieszkująca w miastach poszczególnych województw. Stan na 31 XII 2006.
Województwo Ludność miejska [tys.]
Dolnośląskie 2042,7
Kujawsko-pomorskie 1267,3
Lubelskie 1013,0
Lubuskie 645,6
Aódzkie 1657,3
Małopolskie 1618,1
Mazowieckie 3346,7
Opolskie 547,8
Podkarpackie 849,9
Podlaskie 711,6
Pomorskie 1477,3
ÅšlÄ…skie 3666,1
Świętokrzyskie 579,8
Warmińsko-mazurskie 855,9
Wielkopolskie 1921,5
Zachodniopomorskie 1168,3
zródło: Miasta w liczbach 2005-2006, www.stat.gov.pl
Tabela 5: Zestawienie wyników obliczeń dla danych z tabeli 4
Miara Wartość Miara Wartość
Åšrednia aryt. 1460,56 Q1 815,33
Mediana 1217,8 Q3 1723,35
Wariancja 8, 08 × 105 Wsp. zmiennoÅ›ci 0,616
Odchyl. stand. 899,05 Rozstęp 3118,3
xmin 547,8 Q3 - Q1 908,03
xmax 3666,1 AQ 0,114
zródło: obliczenia własne
Naszą uwagę powinna zwrócić również duża różnica pomiędzy średnią a medianą wskazując
na silną asymetrię prawostronną. Z uwagi na występowanie najliczniejszego wariantu cechy w
skrajnym położeniu nie obliczamy dominanty, a w konsekwencji nie możemy ocenić siły asyme-
trii przy pomocy miar klasycznych. Dlatego obliczony został pozycyjny współczynnik skośności
(AQ). Wskazuje on na niedużą asymetrię prawostronną.
Może to dziwić, gdy spojrzymy na wykres na rysunku 1 gdzie wyraznie widać silną asymetrię
prawostronną. Różnica ta bierze się z faktu, iż AQ mierzy asymetrię 50% środkowych elementów
szeregu, a wśród nich nie występują aż tak duże różnice.
Analiza wykresu na rysunku 1 (dane o liczbie ludności uporządkowano rosnąco) pozwala zna-
lezć przyczynę takiego stanu rzeczy. Dwa województwa: mazowieckie i śląskie bardzo wyraznie
odstają pod względem badanej cechy od pozostałych regionów. Poza tym w sześciu wojewódz-
9 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Rysunek 1: Ludność zamieszkująca miasta poszczególnych województw
zródło: Miasta w liczbach 2005-2006, www.stat.gov.pl
twach liczba ludności miejskiej znajduje się wyraznie poniżej miliona osób. Z tego powodu całą
analizę należy wykonać oddzielnie dla możliwie jednorodnych grup.
Przyjmiemy następujący podział:
1. grupa 1  województwa: opolskie, świętokrzyskie, lubuskie, podlaskie, podkarpackie, warmińsko-
mazurskie;
2. grupa 2  województwa: lubelskie, zachodniopomorskie, kujawsko-pomorskie, pomorskie,
małopolskie, łódzkie, wielkopolskie, dolnośląskie;
3. grupa 3  województwa: mazowieckie, śląskie.
Tabela 6: Zestawienie wyników dla grupy 1
Miara Wartość Miara Wartość
Åšrednia aryt. 698,43 Q1 596,25
Mediana 678,6 Q3 815,33
Wariancja 14577,82 Wsp. zmienności 0,173
Odchyl. stand. 120,74 Rozstęp 308,1
xmin 547,8 Q3 - Q1 219,08
xmax 855,9 AQ 0,248
zródło: obliczenia własne
10 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Przyjrzyjmy się wynikom otrzymanym dla grupy 1, które znalazły się w tabeli 6. Najbardziej
rzuca się w oczy bardzo wyrazny spadek zmienności, podnoszący nasze zaufanie do średniej
arytmetycznej. Zmieniła się również siła asymetrii szeregu. Pozostałe dwa przypadki można
przeanalizować w podobny sposób.
2.2 Badanie koncentracji
Jedną z własności, którą można badać w szeregach jest tzw. koncentracja mierzona m.in. przy po-
mocy kurtozy. Jednakże zmienne ekonomiczne (takie jak dochód) odznaczają się nierównomier-
nym rozłożeniem pomiędzy podmioty gospodarcze. Z tego powodu przydatne staje się przeana-
lizowanie stopnia podziału cechy pomiędzy poszczególne jednostki. Służy do tego współczynnik
koncentracji Lorenza. Przyjmuje on wartości z przedziału 0, 1 . Wartość 0 oznacza równomier-
ny podział (brak koncentracji) zaś 1 całkowitą koncentrację. Jego wartość przybliżoną można
wyznaczyć na podstawie wzoru:
k

zski + zsk-1
KL H" 1 - Éi (4)
2
i=1
Prześledzmy sposób wyznaczania współczynnika Lorenza przy pomocy przykładu.
Przykład 4
Jako zródło danych wykorzystamy Rocznik statystyczny województw 2007 opublikowany na
stronie GUS. Zbadamy czy można powiedzieć, że występuje koncentracja PKB w wojewódz-
twach uporządkowanych ze względu na liczbę ludności, oraz jak jest ona silna. Wykorzystamy
zagregowane dane znajdujÄ…ce siÄ™ w tablicach II A oraz II E. Dane pochodzÄ… z 2005 roku.
Tabela 7: PKB a liczba ludności wytwarzane w województwach
Województwa wg Liczba PKB
liczby ludności [tys.] województw [mln zł]
<2000 6 162249
2000-3000 6 315831
3000-4000 2 164561
4000-5000 1 130442
>5000 1 210219
Razem 16 983302
zródło: Rocznik statystyczny województw 2007, www.stat.gov.pl
Stopień koncentracji ilustruje tzw. krzywa koncentracji (krzywa Lorenza). Na osi odciętych
zaznaczamy skumulowane odsetki dla województw, a na osi rzędnych skumulowane odsetki dla
PKB. AÄ…czÄ…c punkty o współrzÄ™dnych (Éski, zski) otrzymujemy wspomnianÄ… krzywÄ… przedsta-
wionÄ… na rysunku 2.
Krzywa ta wpisuje się w kwadrat, którego przekątną nazywamy linią równomiernego podzia-
łu. W miarę wzrostu koncentracji, krzywa Lorenza oddala się od przekątnej. Rośnie tym samym
pole powierzchni powstałej figury (obszar zaznaczony szarym kolorem na rysunku 2). Stosunek
owego pola do połowy pola kwadratu określa współczynnik Lorenza. Dla naszego przykładu
wartość współczynnika ta wynosi:
KL = 1 - 0,325 = 0,675
11 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Tabela 8: Obliczenie współczynnika Lorenza
Województwa wg Odsetek woj. Odsetek PKB Skumul. odsetki Pole
liczby ludnoÅ›ci [tys.] Éi zi Éski zski figury
<2000 0,375 0,165 0,3750 0,165 0,0309
2000-3000 0,375 0,3212 0,7500 0,4862 0,1221
3000-4000 0,125 0,1674 0,8750 0,6536 0,0450
4000-5000 0,0625 0,1327 0,9375 0,7863 0,3250
>5000 0,0625 0,2138 1 1 0,0558
Razem 1 1 0,325
zródło: obliczenia własne
zski
1
0.8
0.6
0.4
0.2
Éski
0.2 0.4 0.6 0.8 1
Rysunek 2: Krzywa Lorenza dla przykładu z tabeli 8
zródło: obliczenia własne
Stwierdzamy więc, że istnieje dość duży stopień koncentracji wytworzonego PKB w woje-
wództwach. Rzeczywiście, analiza wskazników struktury z tabeli 8 pozwala zauważyć, że naj-
większe udziały wartości PKB występują w dwóch przedziałach: drugim i ostatnim.
3 Analiza szeregu czasowego
3.1 Analiza dynamiki
Szeregi przekrojowe ujmują zjawisko w sposób statyczny. Czas, kiedy dokonano obserwacji jest
w nich ustalony i niezmienny. Statystyka stosuje również podejście dynamiczne, które opiera
się na szeregach czasowych. Podobnie jak szeregi przekrojowe, mogą one być charakteryzowane
przez miary przeciętne (najczęściej średnią arytmetyczną) oraz zróżnicowanie (zwykle wariancję,
odchylenie standardowe, współczynnik zmienności). Należy przy tym pamiętać, że w przypadku
szeregu momentów oblicza się średnią chronologiczną zgodnie ze wzorem:
0,5y1 + y2 + . . . + yn-1 + 0,5yn
ych = (5)
Å»
n - 1
12 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Dla szeregu okresów obliczamy klasyczną wersję tej miary.
Szeregi czasowe stanowią również punkt wyjścia dla (omawianych podczas zajęć ze Staty-
styki opisowej) miar dynamiki. Przypomnijmy, że na bazie indeksów łańcuchowych wyznaczany
średnie tempo zmian zjawiska w czasie przy pomocy średniej geometrycznej:

n-1 n-1
%2Å‚G = in|n-1 · in-1|n-2 · . . . · i2|1 = in|1 (6)
Znając średnią geometryczną szeregu czasowego możemy wyznaczyć średniookresowe tempo
zmian.
Å»
Tn = ych - 1 (7)
Å»
Zwróćmy uwagę na to, że średnia geometryczna indeksów łańcuchowych w rzeczywistości
pomija wartości zawarte między skrajnymi wyrazami. Ma to duże znaczenie przy interpretacji
danych, ponieważ aby podtrzymać jej wiarygodność obserwacje z kolejnych okresów nie powinny
się zbytnio różnić.
Przykład 5
Sięgnijmy do Biuletynu Statystycznego GUS (www.stat.gov.pl) z lipca 2008. W tablicy 11
znajdują się dane kwartalne dotyczące przeciętnego zatrudnienia bez jednostek budżetowych
prowadzących działalność w zakresie obrony narodowej i bezpieczeństwa publicznego. Dokonaj-
my analizy tego szeregu.
Tabela 9: Obliczenia dla szeregu danych kwartalnych  Przeciętne zatrudnienie [tys.](Xt)
Okres Xt it|t-1
2007 I-III 7699 
2007 IV-VI 7777 1,0101
2007 VII-IX 7815 1,0049
2007 X-XII 7912 1,0124
2008 I-III 8034 1,0154
2008 IV-VI 8066 1,0040
Åšrednia arytm. 7883,8330
Odch. stand. 133,4434
Wsp. zmien. [%] 1,69
Åšrednia geom. 1,0094
zródło: obliczenia własne na podst. BS GUS nr 07/2008
Niska wartość współczynnika zmienności pozwala stwierdzić, że średnia arytmetyczna dobrze
opisuje średni poziom przeciętnego zatrudnienia w analizowanym okresie. Kształtowało się ono
na poziomie 7883,8 tys. osób.
Znajdujące się w ostatniej kolumnie tabeli 9 indeksy łańcuchowe wskazują na niewielkie
zmiany w kolejnych okresach. Uznajemy więc, że średnia geometryczna dobrze opisze średnie
tempo zmian, które wyniosło 0,94%. Możemy więc stwierdzić, że między pierwszym kwartałem
2007 a drugim 2008 nie dochodziło do dynamicznych zmian przeciętnego zatrudnienia.
3.2 Dekompozycja szeregu czasowego
Inny kierunek analiz zmierza do dzielenia zachowania szeregu czasowego na poszczególne elemen-
ty. Szereg taki składa się z pewnych powtarzających się elementów, które można zdekomponować
13 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
na:
" Tendencję rozwojową (trend)  długookresową skłonność do jednokierunkowych zmian
wartości zmiennej. Efekt działania stałego zestawu czynników.
" Stały (przeciętny) poziom zmiennej  występujący w szeregu, w którym brak tendencji
rozwojowej. Wartości oscylują wokół pewnego stałego poziomu.
" Wahania cykliczne  długookresowe, rytmiczne wahania wartości zmiennej wokół trendu
lub stałego poziomu.
" Wahania sezonowe  wahania mające skłonność do powtarzania się w określonym czasie
nie przekraczajÄ…cym roku.
" Wahania przypadkowe  losowe zmiany zmiennej o zróżnicowanej sile.
Wymienione wyżej elementy spotykamy praktycznie w dowolnych konfiguracjach (np. małe
wahania losowe, stały poziom zmiennej i wahania sezonowe dla jednego szeregu) czego ilustracją
jest rysunek 3.
yt yt
(a) (b)
t t
Rysunek 3: Przykłady dekompozycji szeregu czasowego: (a)  Wahania przypadkowe i trend
liniowy, (b)  Wahania sezonowe i stały poziom zmiennej.
Wahania przypadkowe można próbować eliminować, zaś trend wyodrębniać z szeregu, uży-
wając do tego celu tzw. metod wygładzania, które podzielimy na następujące grupy:
1. metody mechaniczne (np. średnia ruchoma);
2. metody analityczne (funkcje trendu).
3.3 Åšrednia ruchoma
Zaliczana do grupy metod mechanicznych średnia ruchoma, nie wymaga przyjmowania zbyt
wielu założeń. Ograniczamy się jedynie do określenia liczby obserwacji, na podstawie których
obliczamy średnią ruchomą. Sposoby jej wyznaczania różnią się między sobą. Jeżeli naszym
celem jest jedynie wygładzenie szeregu i wyodrębnienie trendu, wówczas obliczamy tzw. średnią
scentrowaną. Z kolei dla celów prognostycznych wykorzystuje się wariant wyznaczający średnią
wartość dla przyszłych okresów. W obu przypadkach liczbę elementów branych pod uwagę przy
obliczaniu średniej nazywamy stałą wygładzania (k).
14 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
ÅšredniÄ… scentrowanÄ… inaczej wyznacza siÄ™ dla parzystej a inaczej dla nieparzystej liczby
okresów. Załóżmy, że chcemy wygładzić szereg średnią o stałej wygładzania k = 3. Przykładowe
wartości otrzymamy stosując wzory:
y1 + y2 + y3 yn-2 + yn-1 + yn
y2 = yn-1 =
Å» Å»
3 3
Z kolei dla stałej k = 4 należy zastosować:
0,5y1 + y2 + y3 + y4 + 0,5y5 0,5yn-4 + yn-3 + yn-2 + yn-1 + 0,5y5
y3 = yn-2 =
Å» Å»
4 4
Przykład 6
Z tego samego, 7/2008 numeru Biuletynu Statystycznego co w przykładzie poprzednim uży-
jemy danych zawartych w tablicy 47, a obejmujących produkcję sprzedaną przemysłu ogółem w
okresie od maja 2007 do lipca 2008. Wygładzony przy pomocy średniej ruchomej scentrowanej
o k = 3 szereg znalazł się w tabeli 10.
Tabela 10: Produkcja sprzedana przemysłu  wygładzanie szeregu
Okres Prod. sprzed. Åšrednia ruchoma Reszty
[mld zł] k=3 et
2007 V 68,2446
2007 VI 68,4607 68,2008 0,2599
2007 VII 67,8971 68,2543 -0,3572
2007 VIII 68,4051 69,3520 -0,9469
2007 IX 71,7537 72,8648 -1,1111
2007 X 78,4355 74,9691 3,4664
2007 XI 74,7182 73,7987 0,9195
2007 XII 68,2423 71,6797 -3,4374
2008 I 72,0785 71,2823 0,7962
2008 II 73,5260 73,2498 0,2762
2008 III 74,1448 74,8364 -0,6916
2008 IV 76,8385 73,9981 2,8404
2008 V 71,0111 74,2796 -3,2685
2008 VI 74,9892 72,9277 2,0615
2008 VII 72,7829
zródło: obliczenia własne na podst. BS GUS nr 07/2008
Wartości powstałe po użyciu średniej ruchomej pozbawione są części wahań losowych. Jest
to tzw. efekt wygładzania, który rośnie ze wzrostem stałej wygładzania. Płacimy za to utratą
części obserwacji, tym większą, im silniej wygładzamy szereg. Wpływ k na wygładzenie szeregu
na bazie danych z ostatniego przykładu ilustrują wykresy na rysunkach 4 i 5.
Uśredniona wartość z oczywistych powodów odbiega od danych rzeczywistych. Między daną
rzeczywistą a uśrednioną dla odpowiadających sobie okresów obliczamy różnicę (zwaną resztą
i oznaczaną symbolem et), co ilustruje ostatnia kolumna tabeli 10. Reszty wyznaczamy więc
według wzoru:
et = yt - yt (8)
Å»(k)
15 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
gdzie:
yt  obserwacja rzeczywista w okresie t;
yt  wartość k-okresowej średniej ruchomej w okresie t.
Å»(k)
Rysunek 4: Produkcja sprzedana przemysłu wygładzona średnią ruchomą o k=3.
zródło: BS GUS nr 07/2008 oraz obliczenia własne
Rysunek 5: Produkcja sprzedana przemysłu wygładzona średnią ruchomą o k=5.
zródło: BS GUS nr 07/2008 oraz obliczenia własne
Analiza reszt pozwala poznać własności wygładzonego szeregu. Na przykład znaczna przewa-
16 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
ga wartości ujemnych (dodatnich) świadczy o częstym przeszacowywaniu (niedoszacowywaniu)
wyników przez średnią ruchomą.
Średnia ruchoma w wersji prognostycznej zachowuje wszystkie własności średniej scentrowa-
nej. Inna jest jednak filozofia wyznaczania jej wartości. Na użytek prognozowania przyjmuje się,
że wartość zmiennej prognozowanej w okresie prognozy będzie równa średniej arytmetycznej z
k poprzednich wartości tej zmiennej.
Dla danych z tabeli 10 obliczmy średnią ruchomą trójokresową w wariancie prognostycznym.
Przykład 7
Tabela 11: Produkcja sprzedana przemysłu  prognozy
Okres Prod. sprzed. Åšrednia ruchoma Reszty
[mld zł] k=3 et
2007 V 68,2446
2007 VI 68,4607
2007 VII 67,8971
2007 VIII 68,4051 68,2008 0,2043
2007 IX 71,7537 68,2546 3,4994
2007 X 78,4355 69,3520 9,0835
2007 XI 74,7182 72,8648 1,8534
2007 XII 68,2423 74,9691 -6,7268
2008 I 72,0785 73,7987 -1,7202
2008 II 73,5260 71,6797 1,8463
2008 III 74,1448 71,2823 2,8625
2008 IV 76,8385 73,2498 3,5887
2008 V 71,0111 74,8364 -3,8253
2008 VI 74,9892 73,9981 0,9911
2008 VII 72,7829 74,2796 -1,4967
2008 VIII 72,9277
zródło: obliczenia własne na podst. BS GUS nr 07/2008
Średnia z tabeli 11 obliczana jest dla tej samej co w poprzednim przykładzie stałej wygładza-
nia i w konsekwencji daje te same wartości. Zmienia się jednak ich sens merytoryczny. Uśredniona
na podstawie kilku ostatnich obserwacji wartość staje się prognozą w okresie kolejnym. Przestaje
tym samym obowiązywać zasada iż średnia musi znalezć się w przedziale pomiędzy najmniej-
szym a największym wyrazem szeregu. W konsekwencji obserwujemy wyższe (co do wartości
bezwzględnej) reszty. Plusem jednak takiego postępowania jest to, że możemy wyprognozować
poziom zmiennej w okresie, dla którego brak danych.
Jak ilustruje to wykres na rysunku 6 sam efekt wygładzenia również ma inny przebieg. Nie
uległa jednak zmianie reguła, w myśl której im wyższa stała wygładzania tym silniej usuwane są
wahania przypadkowe. Powiemy wtedy, że słabnie wpływ wahań losowych na wartość prognozy.
Z uwagi na jakość otrzymywanych prognoz, duże znaczenie ma dekompozycja szeregu czaso-
wego. Użycie średniej ruchomej do szeregu z wyraznym trendem liniowym doprowadza zawsze
do systematycznego przeszacowywania lub niedoszacowywania prognoz. Najlepiej sprawdza siÄ™
ona w szeregach o stałym poziomie zmiennej, bez wahań sezonowych.
17 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Rysunek 6: Produkcja sprzedana przemysłu prognozowana średnią ruchomą o k=3.
zródło: BS GUS nr 07/2008 oraz obliczenia własne
3.4 Modele trendu
Drugą grupę metod wyodrębniających elementy dekompozycji szeregu czasowego stanowią funk-
cje trendu. Niektóre szeregi mają skłonność do systematycznych zmian w czasie np. stale rosną
lub maleją. Mówimy wówczas, że zawierają trend, który w modelach reprezentuje się przy pomo-
cy sztucznej zmiennej. Zazwyczaj oznacza się ją symbolem t a jako wartości przyjmuje numery
kolejnych okresów (t=1, 2, 3,...,n).
Zmienna t wprowadzana jest jako argument funkcji matematycznej, służącej objaśnianiu
zachowania siÄ™ zmiennej yt zawierajÄ…cej kolejne obserwacje szeregu.
Najprostszą z możliwych postaci jest funkcja liniowa:
yt = Ä… + ²t (9)
Jej parametry znajdujemy wykorzystując metodę najmniejszych kwadratów lub stosując
wzory:
n

Å»
(t - t)yt
t=1
Å»
² = , Ä… = y - ²t (10)
Å»
n

Å»
(t - t)2
t=1
gdzie:
n

1 n + 1
Å»
t = t =
n 2
t=1
18 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Przykład 8
Ponownie sięgnijmy do Biuletynu Statystycznego nr 7/2008. Wykorzystamy zawarte w tablicy
21 (Aktywa krajowe i zagraniczne) dane na temat zadłużenia netto instytucji rządowych szczebla
centralnego. Wyznaczymy dla nich parametry liniowej funkcji trendu.
Tabela 12: Wyznaczanie parametrów trendu liniowego
Okres Zadłużenie Numer okresu
Å» Å» Å»
[mld zł] t t - t (t - t)yt (t - t)2
2007 IX 58,933 1 -4,5 -265,199 20,25
2007 X 60,230 2 -3,5 -210,805 12,25
2007 XI 55,503 3 -2,5 -138,758 6,25
2007 XII 61,939 4 -1,5 -92,909 2,25
2008 I 58,961 5 -0,5 -29,481 0,25
2008 II 66,757 6 0,5 33,379 0,25
2008 III 68,132 7 1,5 102,198 2,25
2008 IV 67,844 8 2,5 169,610 6,25
2008 V 69,913 9 3,5 244,696 12,25
2008 VI 75,538 10 4,5 339,921 20,25
Suma 152,652 82,5
zródło: obliczenia własne na podst. BS GUS nr 07/2008
Parametry równania linii trendu:
152,652
² = = 1,85 Ä… = 64,38 - 1,85 · 5,5 = 54,2
82,5
Gotowe równanie:
wt = 54,2 + 1,85t (11)
 Daszek nad symbolem zmiennej objaśnianej informuje, że mamy do czynienia nie z war-
tością rzeczywistą a teoretyczną, wyznaczoną na podstawie równania 11.
Interpretacja parametrów jest następująca:
" z okresu na okres zadłużenie netto instytucji centralnych wzrastało średnio o 1,85 mld zł;
" niezależny od upływu czasu, stały poziom tego zadłużenia wynosił w badanym okresie 54,2
mld zł.
Graficzna prezentacja linii trendu znalazła się na wykresie zamieszczonym na rysunku 7.
Analizując zachowanie się szeregu stwierdzamy, że liniowa postać funkcji trendu dobrze sprawdza
siÄ™ w tym przypadku. Dopasowanie modelu do danych rzeczywistych sprawdza siÄ™ przy pomocy
współczynnika determinacji (R2):
n n

(wt - y)2 e2
Å»
t
t=1 t=1
R2 = = 1 - (12)
n n

2
(yt - y)2 yt - ny2
Å» Å»
t=1 t=1
19 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Rysunek 7: Zadłużenie netto instytucji centralnych a linia trendu
zródło: obliczenia własne
Współczynnik determinacji przyjmuje wartości z przedziału 0, 1 . Im bliżej jedności, tym
lepsze dopasowanie modelu do danych rzeczywistych. Wyznaczmy współczynnik R2 dla naszego
przykładu. Obliczenia pomocnicze znajdują się w tabeli 13.
Tabela 13: Wyznaczanie współczynnika determinacji
Numer okresu Reszty
2
t yt wt et e2
t
1 3473,10 56,048 2,885 8,32
2 3627,65 57,899 2,331 5,43
3 3080,58 59,749 -4,246 18,03
4 3836,44 61,599 0,340 0,12
5 3476,40 63,450 -4,489 20,15
6 4456,50 65,300 1,457 2,12
7 4641,97 67,151 0,981 0,96
8 4602,81 69,001 -1,157 1,34
9 4887,83 70,851 -0,938 0,88
10 5705,99 72,702 2,836 8,04
Suma 41789,27 0 65,40
zródło: obliczenia własne
20 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
65,4
R2 = 1 - = 0,812
41789,27 - 10 · (64,38)2
Otrzymana wartość informuje, że model w 81,2% opisuje zachowanie szeregu co wskazuje na
jego dobre dopasowanie.
Postać modelu może być różna, a jej wybór zależy od przesłanek dotyczących mechanizmu
rozwojowego zmiennej, zazwyczaj określanego na podstawie analizy wykresu. Z uwagi na wyko-
rzystanie sztucznej zmiennej, istnieje duża mnogość funkcji, które można dopasować do szeregu.
Znalezienie pasującej funkcji trendu wymaga niekiedy sporej ilości obserwacji. Kiedy jest ich
niewiele, do szeregu da się dopasować zwykle więcej niż jeden model. W takiej sytuacji wybieramy
ten o najprostszej postaci analitycznej. Jako kryterium rozstrzygajÄ…ce o wyborze postaci funkcji
używa się zazwyczaj współczynnika determinacji. Oto wybrane nieliniowe modele trendu:
" wykładniczy
yt = eÄ…+²t, ² > 0 (13)
yt = Ä…²t, ² > 1 (14)
W równaniu pierwszym ² a w drugim ln ² jest stopÄ… wzrostu.
" wielomianowy, np. stopnia 2
yt = Ä…0 + Ä…1t + Ä…2t2
Kolejne trzy funkcje stosuje się w sytuacji, kiedy stwierdzamy występowanie zmniejsza-
jących się przyrostów np. dla względnego nasycenia rynku z powodu pojawiających się
produktów konkurencyjnych.
" logarytmiczny
yt = Ä… + ² ln t, ² > 0
" potęgowy
yt = Ä…t², 0 < ² < 1
" ilorazowy
Ä…t
yt = , Ä…, ² > 0
² + t
W przypadku malejÄ…cego przyrostu ryzyko prognozowania jest mniejsze bo zmienne za-
chowują się dość stabilnie.
" logistyczny
Ä…
yt = , Ä… > 0, ´ > 0, ² > 1
1 + ² exp-´t
Funkcji logistycznej używamy kiedy zjawisko jest ograniczone do pewnej przestrzeni (np.
rozwój nowych gałęzi przemysłu). Najpierw następuje szybki wzrost, potem tempo maleje
do asymptoty wyznaczonej przez parametr alfa.
3.5 Zmienne zero-jedynkowe
Modele trendu z uwagi na swoją elastyczność stanowią doskonałe narzędzie analizy i prognozowa-
nia. Zaczynają jednak zawodzić jeżeli problem stanowi samo zachowanie się danych. Przyjrzyjmy
siÄ™ sytuacji przedstawionej na rysunku 8.
Jedna z obserwacji przyjęła wartość nietypowo wysoką w porównaniu z pozostałymi. Za-
stosowanie MNK oraz liniowej postaci funkcji trendu doprowadzi do modelu o bardzo niskim
21 z 32
Metody analizy (...) Opracował: dr Adam Kucharski

Y
"
"
"
"
"
"
"

X
Rysunek 8: Nietypowe zachowanie danych
współczynniku determinacji. Winę za to ponosi jedna z obserwacji, a ponieważ ich ogólna licz-
ba jest niewielka, nie jest możemy pozwolić sobie na rezygnację z części danych, aby ominąć
problem.
Jeżeli spojrzeć na to szerzej, nie powinniśmy sprawiać wrażenia zaskoczonych. Zjawiska eko-
nomiczne podlegają w niektórych okresach (takich jak wojny, gwałtowne recesje lub boom go-
spodarczy) raptownym wahaniom. Przyjmują wtedy wartości skrajnie odbiegające od okresów,
które w tej sytuacji można nazwać  normalnymi lub typowymi. Wyróżnimy 3 grupy nietypo-
wych zachowań:
1. obserwacje nietypowe występujące w pojedynczych, nieregularnych okresach;
2. obserwacje nietypowe trwające przez kilka okresów z rzędu;
3. obserwacje nietypowe regularnie siÄ™ powtarzajÄ…ce.
Zazwyczaj nie jesteśmy w stanie zrezygnować z danych dotyczących nietypowych okresów.
Ewentualne skrócenie próby ma daleko idące konsekwencje podczas estymacji. Z drugiej stro-
ny brak kroków zaradczych oznacza modele o słabych własnościach statystycznych i meryto-
rycznych. Jako wyjście proponuje się zastosowanie zmiennych zero-jedynkowych, zdefiniowanych
następująco:

0, dla obserwacji typowych;
Ut = (15)
1, dla obserwacji nietypowych.
Zmienne zero-jedynkowe powstają w sztuczny sposób, zgodnie z naszymi potrzebami4. Wpro-
wadza się je następnie do równania i szacuje parametry w tradycyjny sposób. Mogą one wywołać
zmianę parametrów w wybranych okresach. Równanie (16) prezentuje korektę wyrazu wolnego:
yt = Ä…0 + Ä…1Ut + ²t (16)
Przykład 9
W znanym nam już numerze 7/2008 Biuletynu Statystycznego znajduje się tablica 37 zawie-
rająca przeciętne ceny skupu ważniejszych produktów rolnych. Wykorzystamy dane na temat
przeciętnej ceny 1 kg żywca bydła rzeznego. Dane obejmowały kolejne miesiące od maja 2007
do lipca 2008. Na poczÄ…tek przyjrzyjmy siÄ™ wykresowi wspomnianej zmiennej znajdujÄ…cemu siÄ™
na rysunku 9.
Oszacowana funkcja trendu liniowego dla danych z rysunku 9 dała w rezultacie równanie:
wt = 3,89 + 0,013t R2 = 0,373 (17)
4
Należy jednak zachowywać umiar przy wprowadzaniu zmiennych zero-jedynkowych. Ich użycie musi być
odpowiednio umotywowane.
22 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Rysunek 9: Przeciętna cena skupu żywca bydła rzeznego
Zauważamy jednak, że w następujących okresach: IX 2007, XI 2007 i VI 2008 wystąpiły
nietypowo wysokie bądz niskie (w porównaniu z resztą obserwacji) ceny skupu. Konstruujemy
więc trzy zmienne zero-jedynkowe:

1, dla IX 2007 1, dla XI 2007
U0907t = U1107t =
0, dla pozostałych okresów 0, dla pozostałych okresów

1, dla VI 2008
U0608t =
0, dla pozostałych okresów
Wstawiamy je do równania, które przed oszacowaniem ma postać:
yt = Ä…0 + Ä…1U0907t + Ä…2U1107 + Ä…3U0608t + ²t (18)
Po oszacowaniu otrzymamy:
wt = 3,899 + 0,137U0907t - 0,154U1107t + 0,14U0608t + 0,011t R2 = 0,855 (19)
Tym co skłania nas do wyboru równania (19) jest o wiele wyższa niż w (17) wartość współ-
czynnika determinacji.
Zmienne zero-jedynkowe  uruchamiają się w odpowiednich okresach i korygują wartość
wyrazu wolnego. W pozostałych okresach są równe zero i nie wpływają na żaden z oszacowanych
parametrów.
23 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
3.6 Wyodrębnianie wahań sezonowych
Ze zjawiskiem sezonowości spotykamy się często korzystając z danych kwartalnych. Jest to sytu-
acja regularnego powtarzania się obserwacji nietypowych (jako przykład może posłużyć wzrost
spożycia napojów gazowanych w okresie letnim). Możemy wyróżnić dwa rodzaje wahań sezono-
wych:
" addytywne  wahania sezonowe mają przybliżoną wartość;
" multiplikatywne  wahania sezonowe w kolejnych okresach zwiększają się lub zmniejszają.
Występowanie sezonowości wymaga szczególnego podejścia do wygładzania i prognozowania
ponieważ stajemy wobec istotnego czynnika wpływającego na zachowanie się szeregu. Wyodręb-
nienia wahań sezonowych można dokonać wstawiając do modelu trendu zmienne zero-jedynkowe,
które w przypadku sezonowości kwartalnej tworzą następującą macierz:
îÅ‚ Å‚Å‚
1 0 0 0
ïÅ‚0 1 0 0śł
ïÅ‚ śł
ïÅ‚0 0 1 0śł
ïÅ‚ śł
ïÅ‚0 0 0 1śł
ïÅ‚ śł
ïÅ‚1 0 0 0śł
U =
ïÅ‚ śł
ïÅ‚0 1 0 0śł
ïÅ‚ śł
ïÅ‚0 0 1 0śł
ïÅ‚ śł
ïÅ‚0 0 0 1śł
ðÅ‚ ûÅ‚
. . . .
. . . .
. . . .
Jak widać jedynka powtarza się z częstotliwością równą okresowi wahań sezonowych. Do modelu
wprowadzamy co najwyżej m - 1 zmiennych zero-jedynkowych (gdzie m oznacza okres wahań
sezonowych, w powyższym przykładzie m = 4).
Innym sposób to skorzystanie z metody wskazników. Jest to metoda analizy wahań sezono-
wych, która przechodzi przez następujące etapy:
1. Eliminacja trendu;
2. Eliminacja wahań przypadkowych (surowe wskazniki sezonowości);
3. Wyznaczenie czystych wskazników sezonowości;
4. Obliczenie prognoz.
Na początek szacujemy parametry funkcji trendu, która najczęściej (choć nie zawsze) ma po-
stać liniową. Etapy wymienione powyżej różnią się nieco w zależności od tego czy model jest
addytywny czy multiplikatywny. Tabela 14 podpowiada sposób postępowania w zależności od
rodzaju sezonowości.
Przykład 10
Na podstawie danych z kolejnych Biuletynów Statystycznych zgromadziliśmy dane na te-
mat kwartalnego produktu krajowego brutto (tablica 2, mld zł). Dane obejmowały okres od 1
kwartału 2006 do 2 kwartału 2008. Jest to zmienna charakteryzująca się wyraznie wyższymi
wartościami w ostatnim kwartale każdego roku oraz trendem liniowym.
Na początek oszacowaliśmy parametry liniowego modelu trendu otrzymując:
wt = 243,3165 + 7,4096t (20)
24 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Tabela 14: Etapy metody wskazników
Etap Addytywna sez. Multiplikatywna sez. Komentarz
yt
Ad1 zt = yt - wt zt = wciąż pozostają wahania sezo-
wt
nowe i przypadkowe
k-1 k-1

1 1
Ad2 si = zi+j·k si = zi+j·k k  liczba faz wahaÅ„ w cyklu
k k
j=0 j=0
r

si 1
Ad3 ci = si - q ci = q = si
q r
i=1
" "
Prognoza yti = wti + ci yti = wtici t > n
Tabela 15: Kwartalne PKB  usuwanie trendu
Okres Trend PKB [mld zł] wt zt = yt - wt
2006 I-III 1 242,7144 250,7261 -8,0117
2006 IV-VI 2 255,1247 258,1358 -3,0111
2006 VII-IX 3 261,5098 265,5454 -4,0356
2006 X-XII 4 300,8451 272,9550 27,8901
2007 I-III 5 269,6860 280,3647 -10,6787
2007 IV-VI 6 282,5914 287,7743 -5,1829
2007 VII-IX 7 290,6577 295,1839 -4,5262
2007 X-XII 8 332,3312 302,5936 29,7376
2008 I-III 9 295,3344 310,0032 -14,6688
2008 IV-VI 10 309,9002 317,4129 -7,5127
2008 VII-IX 11 324,8225
2008 X-XII 12 332,2321
zródło: obliczenia własne
Na podstawie równania (20) wyznaczamy wartości teoretyczne znajdujące się w czwartej
kolumnie tabeli 15.
W ostatniej kolumnie tabeli 15 dokonujemy eliminacji trendu. Ponieważ mamy do czynienia
z sezonowością addytywną, sprowadza się to do obliczenia różnic między rzeczywistą wartością
PKB w kwartale a tą wynikającą z równania 20. Ponieważ mamy w planach wykonanie prognoz
ex ante, wyznaczyliśmy poziomy produktu krajowego brutto wynikające z samego trendu dla 3
i 4 kwartału 2008.
Następny etap to obliczenie surowych wskazników sezonowości. W tym celu uśredniamy war-
tości z ostatniej kolumny dla jednoimiennych okresów (czyli dla wszystkich pierwszych, drugich,
trzecich i czwartych kwartałów).
-8,0117 - 10,6787 - 14,6688 -4,0356 - 4,5262
s1 = = -11,1197 s3 = = -4,2809
3 2
-3,0111 - 5,1829 - 7,5127 29,8901 + 29,7376
s2 = = -5,2356 s4 = = 28,8139
3 2
25 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Tabela 16: Prognozy PKB metodą wskazników
Okres Prognoza
"
ci yti = wti + ci
2006 I-III -13,1641 237,5620
2006 IV-VI -6,3253 250,8558
2006 VII-IX -7,2800 259,2201
2006 X-XII 26,7694 299,7244
2007 I-III -13,1641 267,2006
2007 IV-VI -6,3253 280,4943
2007 VII-IX -7,2800 288,8586
2007 X-XII 26,7694 329,3630
2008 I-III -13,1641 296,8391
2008 IV-VI -6,3253 310,1329
2008 VII-IX -7,2800 318,7972
2008 X-XII 26,7694 359,0015
zródło: obliczenia własne
Rysunek 10: Zastosowanie metody wskazników dla kwartalnego PKB Polski
Przed obliczeniem czystych wskazników sezonowości uśredniamy wskazniki surowe:
-11,1197 - 5,2356 - 4,2809 + 28,8139
q = = 2,0444
4
26 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Czyste wskazniki sezonowości:
c1 = -11,1197 - 2,0444 = -13,1641 c3 = -4,2809 - 2,0444 = -6,3253
c2 = -5,2356 - 2,0444 = -7,28 c4 = 28,8139 - 2,0444 = 26,7694
Wreszcie przyszedł czas na wygładzenie sezonowości i obliczenie prognoz. W przypadku mode-
lu addytywnego powstają one jako suma wartości teoretycznej z równania (20) oraz czystego
wskaznika sezonowości dla odpowiedniego kwartału (patrz tabela 16).
Dopasowanie do danych oraz prognozÄ™ przedstawiamy na wykresie znajdujÄ…cym siÄ™ na ry-
sunku 10. Jak widać uzyskaliśmy wyniki bardzo dobrej jakości. Efekt wahań sezonowych został
zachowany również w prognozach.
3.7 Rodzaje prognoz i ich własności
W prezentowanych do tej pory przykładach kilkakrotnie już wspominaliśmy o prognozowaniu,
a nawet dokonywaliśmy odpowiednich obliczeń. Nie wspominaliśmy jednak o własnościach tego
procesu.
Prognoza odnosi się do określonego obiektu np. kraju, w którym zachodzą zjawiska dające się
opisać za pomocą zmiennych (bywa, że losowych). Jakość prognozy da się zweryfikować dopiero
po jej wygaśnięciu.
W klasycznej logice wszystkie sądy dzielimy na prawdziwe lub fałszywe natomiast w przy-
padku prognozowania powiemy, że są one trafne lub nietrafne. Nieznajomość tego faktu jest
częstą przyczyną nieporozumień w sytuacji niesprawdzenia się wcześniejszych przewidywań.
Prognozowanie ściśle wiąże się z upływem czasu. Ze względu na horyzont czasowy, prognozy
możemy podzielić na:
" krótkookresowe;
" średniookresowe;
" długookresowe.
Co nazwiemy jednak krótkim, a co długim okresem zależy od charakteru prognozowanego zja-
wiska.
W naszym przypadku mamy do czynienia z tzw. prognozowaniem niestrukturalnym, które
opiera się na szeregach czasowych. Niezależnie jednak od użytej metody, prognozy podzielimy
na:
" ex post;
" ex ante.
Różnicę między nimi wyjaśnia rysunek 11.
Upraszczając sprawę: prognozy ex post wykonywane są dla dostępnych danych z przeszłości.
Ich podstawowy cel to określenie, czy użyta metoda sprawdza się przed wykonaniem głównego
celu badania czyli prognozy ex ante. W jej bowiem przypadku oceny jakości dokonać możemy
dopiero w momencie wygaśnięcia prognozy, co jest szczególnie niewygodne w przypadku prognoz
długookresowych.
3.8 Ocena jakości prognoz ex post
Kwestia oceny jakości prognoz ex post ma duże znaczenie, ponieważ na jej podstawie określa-
my przydatność użytej metody. Naturalnym wyborem stają się reszty, które wyznaczymy bez
problemu dla każdego okresu, w którym dysponujemy prognozą ex post. W przypadku funkcji
27 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
przeszłość przyszłość


ex post
ex ante

próba czas
dziÅ›
Rysunek 11: Prognozy ex post a prognozy ex ante.
trendu możemy wykorzystać oparty na nich współczynnik determinacji, ale nie jest to już możli-
we kiedy obliczamy średnią ruchomą. Na szczęście istnieje grupa miar przeznaczonych specjalnie
do określania poprawności użytej metody prognozowania. Zanim jednak do nich przejdziemy,
omówimy kilka zagadnień dotyczących własności reszt.
Wiemy już, że wykonując prognozę liczymy się z możliwością popełnienia błędu. Można go
zmierzyć dopiero kiedy upłynie okres czasu, na który ustalono prognozę. Podstawową miarą
oceny jest tutaj reszta z prognozy, do tej pory wyznaczana jako przyrost bezwzględny, czyli:
"
e(1) = yt - yt (21)
t
"
gdzie yt oznacza wartość prognozy otrzymaną wybraną metodą.
Ma ona miano analizowanej zmiennej i nie jest z góry określona co do znaku. Do porównania
kilku prognoz lepiej nadaje się reszta obliczana jako przyrost względny:
"
yt - yt
e(2) = (22)
t
yt
Można ją wyrazić w procentach, a jej znak również jest dowolny.
Przyjęcie wzorów (21) oraz (22) oznacza, że dla prognoz przeszacowanych reszty przyjmują
wartości ujemne, a dla niedoszacowanych dodatnie. Lepsza z dwóch to ta prognoza, dla której
występują mniejsze błędy. Oceniając jakość dłuższych szeregów czasowych, za lepszą uznajemy
tę z metod, dla której mniejsze błędy występują pod koniec próby.
Ogólnie rzecz biorąc, błędy prognoz ex post dadzą się podzielić na dwie grupy:
1. systematyczne;
2. różnokierunkowe.
Różnice między nimi ilustruje rysunek 12.
Zarówno na podstawie wzoru (21) jak i (22) wyznacza się różne miary oceny jakości prognoz
ex post, które łączy fakt uśredniania reszt z okresów objętych prognozami ex post. Jeżeli obli-
czymy średnią arytmetyczną reszt względnych otrzymamy średni błąd procentowy (ang. MPE):
S
"

1 yt - yt
MP E = (23)
S yt
t=1
gdzie S oznacza liczbę okresów objętych prognozą ex post.
Wartość otrzymaną ze wzoru (23) interpretujemy jako średnie przeszacowanie (lub niedosza-
cowanie) prognozy wyrażone w procentach. Im niższy MPE, tym lepszą otrzymaliśmy prognozę.
28 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
yt yt
"
yt
yt
(a) (b)
"
yt
yt
t t
Rysunek 12: Rodzaje błędów w prognozie ex post: (a)  systematyczne, (b)  różnokierunkowe.
Ponieważ średni błąd procentowy obliczamy bezpośrednio na podstawie reszt danych wzo-
rem (22), podobnie jak one nie jest z góry określony co do znaku. Staje się więc wrażliwy na
wzajemne znoszenie się reszt dodatnich z ujemnymi co sprawia problem szczególnie wtedy, kie-
dy zarówno dodatnie jak i ujemne reszty przyjmują duże wartości. W skrajnym wypadku może
to doprowadzić do radykalnego zaniżenia wartości miary i fałszywego wyobrażenia o jakości
prognozy.
Wady tej pozbawiony jest średni absolutny błąd procentowy (ang. MAPE)  jedna z najpo-
pularniejszych miar tego rodzaju. Wyznaczamy go na podstawie wzoru:

S
"

yt - yt
1

MAP E = (24)

S yt
t=1
Interpretuje się go jako średni co do wartości bezwzględnej błąd popełniany podczas pro-
gnozy. Przyjęło się traktować jako dobre takie prognozy, dla których MAPE nie przekracza
5%.
Wykorzystanie modułów reszt chroni nas przed przypadłością charakterystyczną dla błędów
różnokierunkowych, a mianowicie kompensowaniem (znoszeniem) się reszt dodatnich i ujemnych.
Analizę reszt można poszerzyć o średniokwadratowy błąd procentowy (ang. MSPE). Niekie-
dy wykorzystuje się jego wersję po wyciągnięciu pierwiastka (ang. RMSPE).
2
S
"

1 yt - yt
MSP E = (25)
S yt
t=1
"
RMSP E = MSP E (26)
Błąd średniokwadratowy przyjmuje wysokie wartości jeżeli wśród reszt z prognoz ex post
znalazły się nietypowo wysokie wartości. Miara ta reaguje nawet na pojedyncze odstępstwa od
normy. Zauważenie niekorzystnego zachowania prognoz ułatwia porównanie wartości MAPE i
RMSPE. W prognozach dobrej jakości oba błędy kształtują się na zbliżonym poziomie. Istotna
różnica między nimi oznacza, że w okresie ex post wystąpiły reszty o nietypowej wysokości.
Przykład 11
Dokonamy teraz oceny jakości prognoz ex post otrzymanych metodą wskazników.
29 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Tabela 17: Miary błędów prognoz ex post  obliczenia cząstkowe
2
yt - wt yt - wt yt - wt

Okres PKB [mld zł] Prognozy
yt yt yt
2006 I-III 242,7144 237,5620 0,0212 0,0212 0,0004
2006 IV-VI 255,1247 250,8558 0,0167 0,0167 0,0003
2006 VII-IX 261,5098 259,2201 0,0088 0,0088 0,0001
2006 X-XII 300,8451 299,7244 0,0037 0,0037 0,0000
2007 I-III 269,6860 267,2006 0,0092 0,0092 0,0001
2007 IV-VI 282,5914 280,4943 0,0074 0,0074 0,0001
2007 VII-IX 290,6577 288,8586 0,0062 0,0062 0,0000
2007 X-XII 332,3312 329,3630 0,0089 0,0089 0,0001
2008 I-III 295,3344 296,8391 -0,0051 0,0051 0,0000
2008 IV-VI 309,9002 310,1329 -0,0008 -0,0008 0,0000
Suma 0,0762 0,0880 0,0011
zródło: obliczenia własne
0,0762
MP E = = 0,00762
10
0,088
MAP E = = 0,0088
10
0,0011
MSP E = = 0,00011
10
RMSP E = 0,00011 = 0,0105
Wszystkie błędy średnie przyjęły okazały się bardzo niskie, co świadczy o właściwym wyborze
metody wskazników jako narzędzia prognozowania.
Zbliżone wartości MPE i MAPE wskazują na brak kompensacji reszt ex post. Ze spokoj-
nym sumieniem możemy więc twierdzić, że prognozy są średnio niedoszacowane o 0,76%. Z
kolei porównanie MAPE i RMSPE wskazuje, że gdzieś pojawiły się pojedyncze reszty odbie-
gające swoimi wartościami od pozostałych. Rzeczywiście, w pierwszych dwóch okresach metoda
wskazników nieco bardziej odbiegła od trajektorii rzeczywistej zmiennej. Nastąpiło to jednak
na początku próby, a i same błędy są niewielkie, dlatego uznajemy otrzymane prognozy za
wiarygodne.
4 Szeregi przekrojowo-czasowe
Ujęcie obserwacji z punktu widzenia przekroju przez obiekty lub dynamiki w kolejnych okresach
zwykle wystarcza do analiz. Niekiedy jednak konieczne staje się połączenie tych dwóch podejść
w jedno. Mamy wówczas do czynienia z szeregami przekrojowo-czasowymi. Dane tego rodzaju
można przedstawić przy pomocy tablicy dwudzielnej, takiej jak w następnym przykładzie.
Przykład 12
Zgromadzmy dane na temat PKB wytworzonego w czterech kolejnych kwartałach przez kra-
je tzw.  Nowej Unii będące naszymi sąsiadami czyli Czechy, Słowację i Litwę. Dane pochodzą
z tablicy 65 (Podstawowe dane o krajach Unii Europejskiej) znanego nam już Biuletynu Staty-
stycznego GUS nr 7/2008.
30 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Tabela 18: PKB kwartalne dla wybranych krajów [mln EUR]
2 kw. 2007 3 kw. 2007 4 kw. 2007 1 kw. 2008 Suma
Czechy 31927,0 32147,1 34617,0 34939,9 133631,0
SÅ‚owacja 13444,7 14368,1 14865,2 14288,0 58966,0
Litwa 6859,7 7542,3 7884,7 7007,0 29293,7
Suma 52231,4 54057,5 57366,9 56234,9 219890,7
zródło: obliczenia własne na podst. BS GUS nr 07/2008
Z tabeli 18 można dowiedzieć się ile wynosiło PKB danego kraju w wybranym okresie.
Podsumowania wierszy daję informację o wartości wytworzonego produktu krajowego w ciągu
roku przez poszczególne państwa. Sumy pojedynczych kolumn to łączna wartość tej zmiennej
ekonomicznej wytworzona przez wszystkie brane pod uwagę państwa w danym okresie. Wreszcie
dowiadujemy się o całkowitej wartości PKB otrzymanej dla wszystkich państw razem przez
cztery kolejne kwartały łącznie.
Taka analiza niesie ze sobą szereg ciekawych informacji, lecz ma pewną wadę. Tabele o więk-
szych rozmiarach, obejmujące dłuższe okresy czasu oraz większą liczbę obiektów mogą przytła-
czać ilością zgromadzonych w nich danych. Z tego powodu szeregi przekrojowo-czasowe przed-
stawia się również w postaci pojedynczego szeregu, w którym najczęściej obserwacje grupuje się
według obiektów. Zilustruje to tabela 19.
Tabela 19: Grupowanie danych z tabeli 18
Okres Kraj PKB
[mln EUR]
2 kw. 2007 Czechy 31927,0
3 kw. 2007 Czechy 32147,1
4 kw. 2007 Czechy 34617,0
1 kw. 2008 Czechy 34939,9
2 kw. 2007 SÅ‚owacja 13444,7
3 kw. 2007 SÅ‚owacja 14368,1
4 kw. 2007 SÅ‚owacja 14865,2
1 kw. 2008 SÅ‚owacja 14288,0
2 kw. 2007 Litwa 6859,7
3 kw. 2007 Litwa 7542,3
4 kw. 2007 Litwa 7884,7
1 kw. 2008 Litwa 7007,0
zródło: na podst. tab. 18
Już pobieżna analiza sugeruje, że między krajami występują istotne różnice w wytworzonym
PKB. Wykonajmy wykres na podstawie danych z tabeli 19.
Sytuacja obserwowana na rysunku 13 to zjawisko często spotykane w przypadku szeregów
przekrojowo-czasowych. Mówimy wówczas o niejednorodności danych. W naszym przypadku
mamy do czynienia z trzema wyraznie wyodrębnionymi grupami, które z uwagi na ograniczenie
się do niewielkiej liczby obiektów pokrywają się z pojedynczymi krajami.
31 z 32
Metody analizy (...) Opracował: dr Adam Kucharski
Rysunek 13: Kwartalne PKB dla wybranej grupy krajów  Nowej Unii
zródło: na podst. tabeli 19
Dalsza analiza (np. obliczanie średniej czy odchylenia standardowego) powinna odbywać się w
ramach wyodrębnionych, jednorodnych grup. W przeciwnym wypadku otrzymamy zafałszowane
wyniki.
32 z 32


Wyszukiwarka

Podobne podstrony:
Analiza stat ścianki szczelnej
Analiza 2z3 prezentacja
Sopot stat 11 wyklad 9 Analiza kowariancji i ogolny model liniowy
6 stat analiza wynikow
Analiza stat wytrz ściany szczelinowej rez HYATT
001 analiz param sieci prezentacja?000
Sposoby przeliczen i prezentacji wynikow analizy geochemicznej
Antygona i Kreon prezentacje postaw, analiza motywów
Analiza warunków technicznych elementów nawierzchni kolejowej oraz graficzna prezentacja
Imperfekcje w analizie stężeń Prezentacja
Analiza kinematyczna mechanizmów Metoda wektorowa równań konturowych prezentacja
05 analiza stat www przeklej plidV37
Analiza Matematyczna 2 Zadania
instrukcja prezentacja2
analiza
Prezentacja MG 05 2012
ANALIZA KOMPUTEROWA SYSTEMÓW POMIAROWYCH — MSE

więcej podobnych podstron