WYKŁAD 1 30.09.2006
dr ZYGMUNTA BARAŃSKA
Literatura:
L. Hryniewicka „Ćw statystyczne w naukach ekonomicznych” ODDK, 2003
A. Komosa „Statystyka zbiór zadań”
PODSTAWOWE POJĘCIA
Statystyka:
Zestaw liczb zebranych i zinterpretowanych do przedstawienia określonego problemu
Wartości (parametry) wyliczane na podstawie badań próbnych
Nauka zajmująca się zbieraniem, prezentacją i analizą zebranego materiału (przeważnie liczbowego)
STATYSTYKA
Statystyka opisowa
proste przeliczenia arytmetyczne, nie wymagające znajomości rachunku prawdopodobieństwa; dotyczy sytuacji gdy badane są wszystkie występujące zdarzenia
Statystyka matematyczna
procedury oparte na matematyce, a w szczególności na rachunku prawdopodobieństwa, stosowana w sytuacji gdy badamy przedstawicieli określonej grupy biorącej udział w badaniu
Zbiorowość statystyczna - ogół osób lub rzeczy, które podlegają badaniu, składa się z jednostek statystycznych
Zjawiska masowe - służą do zauważenia prawidłowości statystycznych
ANALIZA ETAPÓW BADAŃ STATYSTYCZNYCH
I. PROGRAMOWANIE BADANIA
Określenie celu badania:
cele ogólne
cele szczególne (hipotezy szczegółowe)
Określenie przedmiotu badana - tj. określenie zbiorowości statystycznej i jednostki statystycznej; zbiorowość statystyczną określamy trzema stałymi cechami:
kto jest badany (cecha rzeczowa)
kiedy jest badany (cecha czasowa)
gdzie jest badany (cecha przestrzenna)
Zbiorowości:
statyczne - badane w pewnym momencie
dynamiczne - badane w pewnym okresie czasu
przeliczalne - zawierają konkretną liczbę jednostek
nieprzeliczalne - nie można określić liczby jednostek
jednorodne
niejednorodne - dzielimy na podzbiorowości jednorodne
Określenie zakresu badania (wyodrębnienie cech badanych u jednostek statystycznych)
Każda jednostka statystyczna różni się od pozostałych pewnymi właściwościami cech (poziomem cech)
CECHY ZMIENNE
Ilościowe
można przedstawić w formie liczb, mierzalne
Jakościowe
właściwości, które można określić tylko słownie
Skokowa
z pewnego przedziału liczbowego przyjmuje tylko określone wartości liczbowe; np. {2,4,5,7,8}
Ciągła
z pewnego przedziału liczbowego może przyjmować dowolną liczbę wartości; np. (2,8)
Dwudzielna
może przyjmować tylko dwie kategorie; np. płeć = kobieta lub mężczyzna
Wielodzielna
może przyjmować więcej niż dwie kategorie; np. ukończona szkoła średnia = liceum lub technikum lub zawodówka, it
Wybór zakresu obserwacji / wybór typu badania:
badanie całkowite (pełne) - do badania bierzemy wszystkie jednostki wchodzące w skład zbiorowości (np. spis ludności, spis gospodarstw rolnych, rejestracja urodzeń i zgonów, inwentaryzacja środków trwałych w przedsiębiorstwie)
badanie częściowe - badamy tylko część jednostek zbiorowości
▪ dobór jednostek w sposób losowy (każda jednostka ma znane prawdopodobieństwo wejścia do grupy badanej; stosowany odpowiedni schemat losowania)
▪ dobór jednostek w sposób nielosowy (przeprowadzający badanie sam decyduje kto bierze udział w badaniu)
badanie monograficzne - jedna wybrana jednostka zostaje opisana wszechstronnie
Organizacja obserwacji statystycznej:
jednorazowa
powtarzalna
ciągła
Wybór techniki zbierania danych
wywiad osobisty
samospisywanie (ankieta pocztowa)
bezpośrednia obserwacja lub pomiar
rejestry i dane sprawozdawcze
II. OBSERWACJA STATYSTYCZNA
Gromadzenie danych statystycznych
Materiał pierwotny
zebrany ściśle do celów badania
Materiał wtórny
zebrany do innych celów, a wykorzystywany m.in. do danego badania
Kontrola materiału statystycznego
ilościowa (kompletności)
merytoryczna (poprawnosci)
III. OPRACOWANIE DANYCH
Ustalenie zasad klasyfikacji:
porządkowanie
grupowanie statystyczne:
wariancje - dla cech ilościowych wyodrębniamy warianty liczbowe
typologie - dla cech jakościowych wyodrebniamy grupy typologiczne
Budowa szeregów statystycznych - powstają w wyniku grupowania i porządkowania
Szereg statystyczny - ciąg wartości licznowych i nieliczbowych badanej cechy uporządkowany wg określonych kryteriów
Rodzaje szeregów statystycznych:
szczegółowe (wyliczające)
rozdzielcze z cechą jakościową (strukturalne)
rozdzielcze z cechą ilościową (punktowe = jednostopniowe, przedziałowe = wielostopniowe)
kumulacyjne
geograficzne (przestrzenne)
czasowe (dynamiczne, chronologiczne)
♦ szereg rozdzielczy strukturalny
poziom wykształcenia |
liczba osób |
podstawowe zasadnicze zawodowe średnie ... |
6 26 19 ... |
♦ szereg rozdzielczy punktowy
liczba dzieci na utrzymaniu xi |
liczba osób ni |
0 1 ... |
34 26 ... |
♦ szereg rozdzielczy jednopunktowy (np. odziały banku wg ilości stanowisk)
ilość stanowisk |
ilość oddziałów |
... ... |
... ... |
♦ szereg rozdzielczy przedziałowy
wiek w latach <xi0,xi1) |
liczba osób ni |
15,0 - 25,0 25,0 - 35,0 ... |
14 32 ... |
stosowany dla cechy ciągłej lub dla cechy skokowej gdy jest duża liczba wariantów i duża liczba obserwacji
<xi0,xi1): xi0 - dolna granica przedziału czasowego; xi1 - górna granica przedziału czasowego
szeregi zamknięte: 15,0 - 25,0; 25,0 - 35,0...45,0 - 55,0
szeregi otwarte: poniżej 25,0; 25,0 - 35,0; ...; 45,0 - 55,0; powyżej 55,0
♦ szereg geograficzny
województwo |
przeciętne miesięczne wynagrodzenie |
... ... ... |
... ... ... |
♦ szereg dynamiczny
grupy wiekowe |
ludność w tyś. |
||
|
1970 |
1980 |
1990 |
przedprodukcyjny produkcyjny ... |
x a ... |
y b ... |
z c ... |
♦ szereg szczegółowy - szereg tylko uporządkowany, nie pogrupowany = szereg prosty
SYMBOLE
R - obszar zmienności / rozstęp
n - liczebność / ogólna liczba obserwacji
k - ilość przedziałów klasowych
c - rozpiętość przedziału klasowego
IV. PREZENTACJA GRAFICZNA - zbudowanie wykresu statystycznego dla kolejnych szeregów statystycznych.
Rodzaje wykresów:
punktowe
liniowe
powierzchniowe (najczęściej dla szeregów rozdzielczych strukturalnych)
bryłowe
dla szeregu rozdzielczego jednopunktowego najczęściej słupkowy diagram odcinkowy
szeregi rozdzielcze przedziałowe - wykres liniowy, powierzchniowy
jeśli rozpiętości przedziałów klasowych są równe to:
♦ dla wykresy powierzchniowego - histogram:
na osi ox granice przedziałów
na osi oy liczba obserwacji
♦ dla wykresu liniowego
na osi ox środki przedziałów klasowych (
)
na osi oy liczba obserwacji
szeregi czasowe na wykresach liniowych lub powierzchniowych
na osi ox lata
na osi oy badana cecha
WYKŁAD 2 01.10.2006
Tablica statystyczna - przedstawienie jednego lub więcej szeregów jednocześnie; część liczbowa tablicy składa się z odpowiednich kolumn i wierszy a część opisowa z tytułu (określenie zbiorowości) i wierszy (boczek tablicy); każdy wiersz tablicy musi być wypełniony nazwą kolumn (główka tablicy); pod każdą tablicą musi być podane źródło danych; pod tablicą mogą być zamieszczone informacje dodatkowe.
W tablicach używa się następujących znaków umownych:
kropka (∙) - oznacza zupełny brak wiarygodnych informacji
zero (0) - oznacza, że dane zjawisko występuje ale w ilościach mniejszych niż pół jednostki miary przyjętej w tablicy
kreska (-) - oznacza, że dane zjawisko nie występuje
gwiazdka (*) - stawiana jest obok liczby, która została zmieniona w stosunku do poprzednio opublikowanej
napis „w tym” - oznacza, że nie podaje się wszystkich składników sumy ogólnej
iks (x) - oznacza, że rubryki nie można wypełnić ze względu na układ tablicy
Rodzaje tablic:
tablice proste
tablice złożone
tablice kombinowane
tablice specjalne
Tablica prosta - zawiera tylko jeden szereg
makroregion |
współczynnik aktywności zawodowej |
Stołeczny Północny ... |
58,6 56,4 ... |
Tablica złożona - zawiera więcej niż jeden szereg
|
ludność w tyś |
||
|
1970 |
1980 |
1990 |
przedprodukcyjny produkcyjny ... |
a b ... |
c d ... |
e f ... |
Tablica kombinowana - ma przeliczenia lub doliczenia, może mieć więcej niż jeden szereg
grupy wiekowe |
razem |
M |
K |
przedprodukcyjny produkcyjny ... |
5 3 ... |
2 1 ... |
3 2 ... |
ANALIZA STATYSTYCZNA
Analiza statystyczna - wyliczenie pewnych parametrów na podstawie zbudowanych szeregów w celu określenia pewnych prawidłowości w badanej zbiorowości
Analizę statystyczną rozpatrujemy wg pojęć:
analiza struktury
analiza korelacji
analiza szeregów dynamicznych i ich dekompozycja
I. ANALIZA STRUKTURY
wyliczanie miar tendencji centralnej
obliczanie miar dyspersji (rozproszenia)
obliczanie miar skośności (asymetrii)
obliczanie miar koncentracji
Analiza struktury dla cech ilościowych:
budujemy szereg
nanosimy dane na wykres - wykres może mieć różne rozkłady:
1. Miary tendencji centralnej = miary położenia
miary klasyczne
jest to średnia arytmetyczna; liczone są dla szeregów rozdzielczych o zamkniętych przedziałach klasowych; nie liczymy dla szeregów skrajnie asymetrycznych, bimodalnych, u-towych;
miary pozycyjne
liczymy tylko z określonych wartości szeregu; należą do nich: mediana (Me), dominanta (D), kwartyle: pierwszy (Q1), trzeci (Q3), decyle: pierwszy (D1), dziewiąty (D9)
Właściwości średniej arytmetycznej (= wartości przeciętnej)
liczona z wszystkich wartości szeregu
∑ odchyleń każdego x od średniej daje wartość 0:
Me (mediana) - wartość środkowa badanej cechy (szeregu), dzieli szereg w ten sposób, że:
50% zbiorowości ma wartości cechy nie większe niż mediana
50% zbiorowości ma wartości cechy nie mniejsze niż mediana
D (dominanta) - wartość w szeregu występująca najliczniej
Q1, Q3 (kwartyle) - dzielą zbiorowość na cztery części
Q1 - dzieli szereg w ten sposób, że:
25% zbiorowości ma wartości cechy nie większe niż Q1
75% zbiorowości ma wartości cechy nie mniejsze niż Q1
Q3 - dzieli szereg w ten sposób, że:
75% zbiorowości ma wartości cechy nie większe niż Q3
25% zbiorowości ma wartości cechy nie mniejsze niż Q3
D1, D9 (decyle) - dzielą zbiorowość na dziesięć części
D1 - dzieli szereg w ten sposób, że:
10% zbiorowości ma wartości cechy nie większe niż D1
90% zbiorowości ma wartości cechy nie mniejsze niż D1
D9 - dzieli szereg w ten sposób, że:
90% zbiorowości ma wartości cechy nie większe niż D9
10% zbiorowości ma wartości cechy nie mniejsze niż D9
Zależność pomiędzy D, D1, D9, Q1, Q3, Me,
:
Aby liczyć miary pozycyjne szereg musi być liczny
MEDIANA Me
szereg szczegółowy
5, 5, 6, 6, 7, 7, 8, 9, 10
Me = 7 (bo 7 leży po środku szeregu)
5, 5, 6, 6, 7, 7, 8, 9
szereg rozdzielczy jednostopniowy
xi |
ni |
nsk |
5 |
2 |
2 |
6 |
2 |
4 (=2+2) |
7 |
2 |
6 (=4+2) |
8 |
1 |
7 (=6+1) |
9 |
1 |
8 (=7+1) |
10 |
1 |
9 (=8+1) |
xi - wydajność
ni - ilość pomiarów
aby wyliczyć Me należy zbudować szereg kumulowany (skumulować szereg): nsk
w szeregu skumulowanym szukamy pozycji mediany (pMe):
(piąta obserwacja w szeregu jest medianą, szukamy obserwacji równej lub pierwszej większej); czyli
szereg rozdzielczy wielostopniowy
xi |
ni |
nsk |
0-2 |
10 |
10 |
2-4 |
20 |
30 (=10+20) |
4-6 |
10 |
40 (=30+10) |
6-8 |
10 |
50 (=40+10) |
8-10 |
10 |
60 (=50+10) |
kumulujemy szereg
pozycja mediany (pMe):
mediana:
, gdzie: ci - rozpiętość przedziału mediany,
ni - liczebność w przedziale mediany
;
;
;
Środkowa wartość cechy wynosi 4,1
DOMINANTA D
szereg szczegółowy
5, 5, 6, 6, 7, 7, 8, 9, 10
W tym szeregu dominanty brak (bo żadna wartość pomiaru nie występuje częściej niż inna)
5, 5, 6, 6, 7, 7, 7, 8, 9, 10
D = 7 (bo 7 występuje najczęściej)
szereg rozdzielczy jednostopniowy
xi |
ni |
5 |
2 |
6 |
2 |
7 |
3 |
8 |
1 |
9 |
1 |
10 |
1 |
D = 7 (bo 7 występuje najczęściej)
szereg rozdzielczy wielostopniowy
xi |
ni |
0-2 |
10 |
2-4 |
20 |
4-6 |
10 |
6-8 |
10 |
8-10 |
10 |
Aby można było policzyć dominantę to przedział dominanty, przedział ją poprzedzający i następujący po niej muszą mieć tą samą rozpiętość:
KWARTYLE Q1, Q3
szereg rozdzielczy jednostopniowy
xi |
ni |
nsk |
0 |
20 |
20 |
1 |
50 |
70 (=50+20) |
2 |
20 |
90 (=70+20) |
3 |
10 |
100 (=90+10) |
4 |
5 |
105 (=100+5) |
kumulujemy szereg
pozycja Q1:
kwartyl Q1:
(czyli ten xi dla którego jest pQ1)
Q3 - analogicznie jak Q1:
szereg rozdzielczy wielostopniowy
xi |
ni |
nsk |
10-20 |
20 |
20 |
20-30 |
50 |
70 |
30-50 |
20 |
90 |
50-70 |
10 |
10 |
70-100 |
10 |
110 |
kumulujemy szereg
pozycja Q1 (Q3)
Q1 (Q3)
DECYLE D1, D9
Liczymy analogicznie jak kwartyle, gdzie:
Miary rozproszenia / dyspersji
Dyspersja - rozproszenie (odległość) poszczególnych wartości od średniej (
); dzielimy ją na:
miary klasyczne (bezwzględne, względne)
miary pozycyjne (bezwzględne, względne)
MIARY KLASYCZNE DYSPERSJI:
Wariancja s2 - bezwzględna
Odchylenie standardowe s - bezwzględna - mówi o przeciętnym odchyleniu poszczególnych wartości na „+” lub „-” od średniej
Współczynnik zmienności V(s) - względny - służy do porównywania szeregów,
MIARY POZYCYJNE DYSPERSJI:
Rozstęp R - bezwzględny,
Odchylenie ćwiartkowe Q - bezwzględny,
- dyspersja dla wartości pomiędzy ćwiartką 3 i 1; połowa obszaru pomiędzy ćwiartką 1 i 3; przeciętne odchylenie od mediany od Q1 do Q3.
Współczynnik zmienności V(Q) - względny,
; dyspersja w % pomiędzy Q1 i Q3.
Dyspersja: do 10% - małe zróżnicowanie zbiorowości
10% do 35% - przeciętne zróżnicowanie
35%< - duże zróżnicowanie
WYKŁAD 3 21.10.2006
W rozkładach symetrycznych odchylenie ćwiartkowe wynosi
odchylenia standardowego:
.
Jeśli mamy wybór to lepsze są metody klasyczne - obejmują cały szereg.
3. Miary asymetrii - skośności
Miary klasyczne
Miary pozycyjne
Miary mieszane
Asymetria = skośność - nierównomierne rozłożenie liczebności wokół średniej:
Rozkłady symetryczne - 50% jednostek leży poniżej i 50% jednostek leży powyżej średniej
Asymetria prawostronna (dodatnia) - ponad 50% obserwacji ma wartości poniżej średniej (
); lub inaczej: dominująca grupa obserwacji ma wartości poniżej średniej
Asymetria lewostronna (ujemna) - ponad 50% obserwacji leży powyżej średniej (
); lub inaczej: dominująca grupa obserwacji ma wartości powyżej średniej
MIARY KLASYCZNE
moment trzeci centralny
jeśli:
to mówimy, że rozkład jest symetryczny
- asymetria lewostronna
- asymetria prawostronna
Moment trzeci centralny liczymy gdy można policzyć średnią arytmetyczną
współczynnik asymetrii
,
mówi o sile asymetrii:
- rozkład symetryczny
- asymetria lewostronna
- asymetria prawostronna
- asymetria niewielka
- asymetria umiarkowana
- asymetria wyraźna
- mamy do czynienia ze zbiorowością niejednorodną
MIARY POZYCYJNE
współczynnik asymetrii A(Q)
gdzie
dla:
- rozkład symetryczny
- asymetria prawostronna
- asymetria lewostronna
- mamy do czynienia ze zbiorowością niejednorodną
Jest to asymetria dla obszaru od
do
, NIE obejmuje wszystkich wartości szeregu
Współczynnik asymetrii A(Q) liczymy gdy nie można policzyć średniej arytmetycznej
współczynnik asymetrii A(D)
gdzie
Liczony jeśli nie można wyliczyć
, mówi o asymetrii w obszarze od
do
MIARY MIESZANE
współczynnik asymetrii
gdzie
Aby go policzyć, musi być możliwość policzenia D, interpretacja jak wyżej (przy A(Q))
współczynnik asymetrii A(Me)
gdzie
Liczony jeśli nie można wyliczyć D
4. Miary skupienia - kurtozy
Skupienie (kurtoza) - rozpatrywanie jak leżą określone wartości wokół średniej skupienie wartości wokół średniej)
Liczymy tyko gdy rozkłady są symetryczne, lub zbliżone do symetrycznych:
Rozkład normalny - jest rozkładem teoretycznym; pierwszym pkt-em przegięcia jest odchylenie standardowe
Badamy na ile dane skupienie jest większe/mniejsze od rozkładu normalnego
moment czwarty centralny
NIE INTERPRETUJEMY
współczynnik skupienia
jeśli:
rozkład o spłaszczeniu takim jak rozkład normalny
rozkład wysmukły
rozkład spłaszczony
Skupienie -3 = ekses (
) spotykane w literaturze
W statystyce istnieją moment centralne (
) i momenty zwykłe (m)
Moment centralny r-tego rzędu
Moment zwykły r-tego rzędu:
Koncentracja
Koncentracja - nie równomierny podział rozpatrywanej cechy
Omawiamy na przykładzie:
Miarą koncentracji jest
metoda graficzna: krzywa Lorentza
współczynnik koncentracji Pearsona
Rozkład wynagrodzeń w sektorze edukacji (99r)
|
wysokość trapezu |
oś x na diagramie |
|
|
|
oś y na diagramie (podstawy kolejnych trapezów) |
suma podstaw poszczególnych trapezów dzielona na 2 |
pola poszczególnych trapezów (niw% = wysokość trapezu) |
|
|
|
|
|
|
( |
|
|
300-540 |
5,3 |
5,3 |
420 |
2226 |
2,3 |
2,3 |
1,15 |
6,1 |
540-700 |
18 |
23,3 |
620 |
11160 |
11,4 |
13,7 |
8 |
144 |
700-780 |
9,1 |
32,4 |
740 |
6784 |
6,9 |
20,6 |
17,5 |
156,07 |
780-860 |
10,3 |
42,7 |
820 |
8446 |
8,6 |
29,2 |
24,9 |
256,47 |
860-940 |
10,8 |
53,5 |
900 |
9720 |
9,9 |
39,1 |
34,2 |
369,36 |
940-1020 |
10,2 |
63,7 |
980 |
9996 |
10,2 |
49,3 |
44,2 |
450,84 |
1020-1200 |
16,7 |
80,4 |
1110 |
18537 |
18,9 |
68,2 |
58,8 |
981,96 |
1200-1500 |
13,5 |
93,9 |
1350 |
18255 |
18,6 |
86,8 |
77,5 |
1046,25 |
1500-2000 |
4,3 |
98,2 |
1750 |
7525 |
7,7 |
94,5 |
90,7 |
390,01 |
2000-4000 |
1,8 |
100 |
3000 |
5400 |
5,5 |
100 |
97,3 |
175,14 |
|
100 |
|
|
97969 |
|
|
|
Pole b = 3976,06 |
=(
w%)sk
Koncentracja będzie mała gdyż krzywa koncentracji leży blisko linii równomiernego rozkładu
WSPÓŁCZYNNIK KONCENTRACJI PEARSONA:
gdzie
Aby obliczyć K musimy znać wartość pola a i pola b:
(pole trójkąta leżącego pod linią równomiernego rozkładu)
stąd:
otrzymujemy:
Ponieważ nie znamy f-cji opisującej krzywą koncentracji musimy w przybliżeniu obliczyć pole b. Po zrzutowaniu wszystkich pkt-ów na oś ox i założeniu że odległości pomiędzy kolejnymi pkt-ami na krzywej koncentracji są mierzone po linii prostej otrzymujemy pole b jako sumę pól trapezów
Otrzymujemy b = 3976,06 więc:
INTERPRETACJA:
K = 0,2 - mała koncentracja, mały odsetek osób ma 20% ogółu wynagrodzeń, zaś duża liczba pozostałych ma ok. 80% wszystkich wynagrodzeń.
METODY ANALIZY CECH JAKOŚCIOWYCH
Wskaźnik struktury (frakcja, częstość względna)
,
- udział procentowy
Dla cech jakościowej można policzyć tylko wi.
Względny wskaźnik podobieństwa struktur:
gdzie
jeśli:
- struktury są identyczne
- struktury są zupełnie różne
- struktury średnio podobne
Wskaźnik natężenia
lub
lub
WYKŁAD 4 28.10.2006
W analizie struktury rozpatrujemy 4 obszary:
1. rozstęp:
2. typowy obszar zmienności
,
3. rozstęp kwartylowy
4. rozstęp decylowy
Graficzne wyznaczanie dominanty (D), mediany (Me), kwartyli (
,
) i decyli (
,
)
|
|
|
0-2 |
10 |
10 |
2-4 |
20 |
30 |
4-6 |
30 |
60 |
6-8 |
10 |
70 |
8-10 |
10 |
80 |
Dominanta - wyznaczamy za pomocą histogramu
Mediana - wyznaczamy przy pomocy krzywej kumulacyjnej
Analogicznie wyznaczamy kwartyle - szukając pozycji Q1 i Q3 oraz decyle - szukając pozycji D1 i D9
KORELACJA = związek cech
wielowymiarowy - nie omawiamy
dwuwymiarowy - omawiamy
Związki dwuwymiarowe dla cech ilościowych:
funkcyjny [y = f(x)] - zawsze zapisywany w postaci funkcji jednej zmiennej (konkretnej wartości jednej zmiennej odpowiada konkretna wartość drugiej zmiennej)
stochastyczny - jednej wartości y może odpowiadać szereg wartości x [y = f(x1, x2, x3)]
staż pracy |
wydajność w sztukach |
2 |
2 |
2 |
3 |
2 |
1 |
korelacyjny - jednej wartości y odpowiada wartość średnia x [
]
jednostronne
dwustronne
METODY ANALIZY ZWIĄZKÓW KORELACYJNYCH
współczynniki korelacji
analiza regresji
Wyliczenie współczynników, które mówią o kierunku i sile zależności między dwoma cechami
CECHY ILOŚCIOWE → WSPÓŁCZYNNIK KORELACJI r - PEARSONA
współczynnik korelacji Pearsona (r) - można go stosować tylko jeśli rozrzut pkt-ów jest liniowy
dla
gdzie: n - liczba par obserwacji
sx - odchylenie standardowe dla x
sy - odchylenie standardowe dla y
co najmniej 100 obserwacji
INTERPRETACJA:
- korelacja bardzo słaba (mało znacząca dla mniej niż 100 obserwacji)
- korelacja niska, mała
- korelacja umiarkowana
- korelacja znaczna, wyraźna
- korelacja wysoka, pewna
- korelacja przechodzi w związek funkcyjny
PRZYKŁAD
wiek |
cena auta |
|
|||||||
|
|
|
|
|
|
|
|
|
|
1 |
40 |
1 |
1600 |
40 |
36,13 |
3,87 |
14,96 |
15,44 |
283,39 |
2 |
32 |
4 |
1024 |
64 |
31,96 |
0,04 |
0,00 |
7,44 |
55,35 |
2 |
33 |
4 |
1089 |
66 |
31,96 |
1,04 |
1,07 |
8,44 |
71,23 |
3 |
27 |
9 |
729 |
81 |
27,80 |
-0,80 |
0,63 |
2,44 |
5,95 |
3 |
25 |
9 |
625 |
75 |
27,80 |
-2,80 |
7,82 |
0,44 |
0,19 |
3 |
26 |
9 |
676 |
78 |
27,80 |
-1,80 |
3,23 |
1,44 |
2,07 |
5 |
17 |
25 |
289 |
85 |
19,46 |
-2,46 |
6,05 |
-7,56 |
57,15 |
7 |
12 |
49 |
144 |
84 |
11,12 |
0,88 |
0,77 |
-12,56 |
157,75 |
8 |
9 |
64 |
81 |
72 |
6,96 |
2,04 |
4,18 |
-15,56 |
242,11 |
34 |
221 |
174 |
6257 |
645 |
221 |
X |
38,71 |
X |
830,22 |
y - cecha zależna (cena auta zależy od wieku auta)
x - cecha niezależna (wiek auta nie zależy od jego ceny)
r - można też liczyć ze wzoru:
→
- korelacja wysoka
SKALA PORZADKOWA → WSPÓŁCZYNNIK KORELACJI rs - SPEARMANA
wiek |
cena auta |
|
|
|
|
|
|
|
|
1 |
40 |
1 |
9 |
64 |
2 |
32 |
2,5 |
7 |
20,25 |
2 |
33 |
2,5 |
8 |
30,25 |
3 |
27 |
5 |
6 |
1 |
3 |
25 |
5 |
4 |
1 |
3 |
26 |
5 |
5 |
0 |
5 |
17 |
7 |
3 |
16 |
7 |
12 |
8 |
2 |
36 |
8 |
9 |
9 |
1 |
64 |
34 |
221 |
X |
X |
232,5 |
NADAWANIE NR RANGOWYCH:
Nadajemy wartościom x i y nr zgodnie z przyjętym porządkiem (rosnącym - u nas, lub mającym). Najmniejsza wartość x będzie miała nr 1, druga w kolejności nr 2, trzecia w kolejności nr 3, itd. Jeśli jednak jest więcej niż jeden identyczny x to nr tworzymy następująco:
pierwsza 2 powinna mieć nr 2
druga 2 powinna mieć nr 3
więc: 2+3=5
5:2(bo były dwie 2)=2,5 → każda dwójka będzie miała nr 2,5
pierwsza 3 powinna mieć nr 4
druga 3 powinna mieć nr 5
trzecia 3 powinna mieć nr 6
więc 4+5+6=15
15:3(bo były trzy 3)=5 → każda trójka będzie miała nr 5
W ten sposób powstają rangi wiązane.
Z y postępujemy analogicznie: y=9 jest najmniejszy więc ma nr 1, a y=40 jest największy więc ma nr 9
współczynnik Spearmana (mniej dokładny niż współczynnik Pearsona):
, gdzie n - liczba par obserwacji
rs = -0,94 → interpretacja taka sama jak przy wsp. Pearsona
Jeśli ponad 25% jest rang wiązanych to liczymy współczynnik Spearmena z poprawką na rangi wiązane:
przy czym:
gdzie: Tx poprawka na rangi wiązane x;
Ty - poprawka na rangi wiązane y;
t - ilość wspólnych wiązań
PRZYKŁAD
x |
y |
rangi x |
rangi y |
|
|
36 27 40 19 26 35 37 28 27 26 46 34 40 34 23 38 20 24 12 |
27 25 39 17 21 22 29 17 17 18 39 21 27 29 15 38 21 19 10 |
6 11,5 2,5 18 13,5 7 5 10 11,5 13,5 1 8,5 2,5 8,5 16 4 17 15 19 |
6,5 8 1,5 16 11 9 4,5 16 16 14 1,5 11 6,5 4,5 18 3 11 13 19 |
-0,5 3,5 1 2 2,5 -2 0,5 -0,6 -4,5 -0,5 -0,5 -2,5 4 4 -2 1 6 2 0 |
0,25 12,25 1 4 6,25 4 0,25 36 20,25 0,25 0,25 6,25 16 16 4 1 36 4 0 |
X |
X |
X |
X |
0 |
168 |
Rangi wiązane x |
2,5 |
8,5 |
11,5 |
13,5 |
|
ti |
2 |
2 |
2 |
2 |
|
|
6 |
6 |
6 |
6 |
|
Rangi wiązane y |
1,5 |
4,5 |
6,5 |
11 |
16 |
|
ti |
2 |
2 |
2 |
3 |
3 |
|
|
6 |
6 |
6 |
24 |
24 |
|
CECHY JAKOŚCIOWE → WSPÓŁCZYNNIK Q - KENDALLA; T - CZUPROWA; C - PEARSONA
Dane muszą być przedstawione w formie tablicy.
PRZYKŁAD:
Czy płeć determinuje posiadanie karty bankomatowej?
karta bankomatowa |
płeć |
|
|||
|
K |
M |
|
||
posiada |
20 |
a |
90 |
b |
110 |
nie posiada |
110 |
c |
30 |
d |
140 |
|
130 |
120 |
250 |
Jeśli obie cechy są dwudzielne to tablica nazywa się dwa na dwa - przyjmujemy wtedy współczynnik asocjacji (Kendalla) Q:
dla
INTERPRETACJA:
- słabe / umiarkowane powiązanie
- wyraźne powiązanie
- silne powiązanie
- mamy wyraźną zależności płci i posiadania karty bankomatowej, karty posiadają gł. mężczyźni
współczynnik asocjacji jest najmniej dokładny, lepiej liczyć
współczynnik kontyngencji (Pearsona ) C:
dla
- jest najdokładniejszy
lub
współczynnik Czuprowa T
dla
gdzie: n - liczba obserwacji
w - liczba wierszy tablicy
k - liczba kolumn tablicy
Statystyka dla tablicy 2×2 i n>40:
→
Otrzymujemy: T = 0,6 i C = 0,51 → zależność umiarkowana
WYKŁAD 5 04.11.2006
Statystyka dla tablicy większej niż 2×2
lub
gdzie:
- liczebność empiryczna tablicy
- liczebność teoretyczna, taka, która byłaby, gdyby był brak korelacji
- liczba obserwacji
gdzie:
- i-ty wiersz ;
- i-ta kolumna
PRZYKŁAD:
Jakość |
A |
B |
C |
|
Dobra |
45 |
72 |
36 |
153 |
Zła |
15 |
48 |
54 |
117 |
|
60 |
120 |
90 |
270 |
n11 = 45 n12 = 72 n13 = 36
n21 = 15 n22 = 48 n23 = 54
n = 270
I metoda |
II metoda |
||||
|
|
|
|
|
|
45 |
34 |
11 |
121 |
3,5588 |
59,5588 |
15 |
26 |
-11 |
121 |
4,6538 |
8,6538 |
72 |
68 |
4 |
16 |
0,2353 |
76,2353 |
48 |
52 |
-4 |
16 |
0,3078 |
44,3078 |
36 |
51 |
-15 |
225 |
4,4118 |
25,4118 |
54 |
39 |
15 |
225 |
5,7692 |
74,7692 |
|
|
|
|
|
|
Im większa wartość
tym większe prawdopodobieństwo korelacji.
Współczynnik korelacji T-Czuprowa
INTERPRETACJA: Słaba zależność pomiędzy metodą produkcji a ilością dobrych i złych produktów
Współczynnik korelacji C-Pearsona (kontyngencji)
INTERPRETACJA: Słaba zależność pomiędzy metodą produkcji a ilością dobrych i złych produktów
CECHY ILOŚCIOWA I JAKOŚCIOWA
Jeśli dane ułożone są w tablicy można wyliczyć
i obliczyć T lub C ale dokładniejsze są współczynniki Pearsona (rbis i rpbis):
gdzie:
- średnia arytmetyczna wydajności w pierwszej grupie typologicznej
- średnia arytmetyczna wydajności w drugiej grupie typologicznej
p - udział (%) osób w pierwszej grupie
q - udział (%) osób w drugiej grupie
- odchylenie standardowe dla wszystkich łącznie
y - odczytana z tablic rozkładu normalnego wartość rzędnej dla większej z proporcji p i q
Jeśli podział na grupy typologiczne jest sztuczny - stosujemy rbis jeśli podział na grupy typologiczne jest naturalny (np. M,K) stosujemy rpbis.
PRZYKŁAD
Analizujemy wydajność w sztukach (cecha ilościowa) w dwóch grupach typologicznych (cecha jakościowa). Czy wiek determinuje wydajność?
wiek |
wydajność w sztukach |
∑ |
||
|
5 (y1) |
10 (y2) |
15 (y3) |
|
do 35 (p) |
20 |
40 |
40 |
100 |
35 i więcej (q) |
30 |
50 |
20 |
100 |
∑ |
50 (n1) |
90 (n2) |
60 (n3) |
200 |
→
→
y = 0,3989
|
|
-5,25 |
1378,125 |
-0,25 |
5,625 |
4,75 |
1353,75 |
|
∑ = 2737,5 |
INTERPRETACJA: Między wydajnością a wiekiem jest słaba zależność
Ad II. ANALIZA REGRESJI
Jest to drugi stopień analizy korelacji
REGRESJA - zapis związku korelacyjnego przy pomocy f-cji matematycznej
Regresja I rodzaju - wybór postaci f-cji na podstawie rozrzutu pkt-ów (=wykresu korelacyjnego)
Regresja II rodzaju - oszacowanie parametrów f-cji = zapis f-cji
Regresja I rodzaju
Jeśli pkt-y układają się w prostą mamy do czynienia z regresją liniową:
gdzie
- współczynnik losowy
lub
(używany przez nas zapis, z pominięciem współczynnika losowego)
b - współczynnik regresji (najważniejszy do interpretacji)
b = 0 - korelacji brak
x - zmienna niezależna
y - zmienna zależna
INTERPRETACJA: Jeśli x rośnie o jednostkę to średnio y zmienia się o wartość b
(b > 0 to y↓; b < 0 to y↓)
Regresja wykładnicza
lub
lub postać liniowa:
b - współczynnik regresji = stopa przyrostu
INTERPRETACJA: Jeśli x rośnie o jednostkę to średnio y zmienia się o (b-1)∙100%
Regresja hiperboliczna
lub
a - poziom stabilności (= nasycenia)
INTERPRETACJA: Wraz ze wzrostem x przy pewnym jego poziomie y będzie utrzymywał się na stałym poziomie
Regresja potęgowa
lub
lub postać liniowa
b - współczynnik elastyczności
INTERPRETACJA: Jeśli x rośnie o 1% to średnio y zmienia się o b%
Regresja II rodzaju
Parametry f-cji szacujemy metodą najmniejszych kwadratów
Niech:
i
to:
Aby znaleźć minimum f-cji należy znaleźć miejsca zerowe pochodnych cząstkowych:
Jeśli
to
Z powyższego układu r-nań znajdujemy wartości a i b → patrz tablice stat.
Analogicznie szacuje się parametry dla korelacji krzywoliniowych = regresji potęgowej hiperbolicznej i wykładniczej.
Przy rozpatrywaniu linii regresji analizuje się odległości:
- zmienność całkowita
- zmienność niewyjaśniona linią regresji
- zmienność wyjaśniona linią regresji
Czy f-cja dobrze oszacowana?
współczynnik zbieżności = indeterminacji
Ile zmienności jest niewyjaśnionych f-cją regresji - im bliżej zera tym lepiej - tym dokładniejsza f-cja regresji; do 5% może być
współczynnik determinacji
Wyjaśnienie f-cji regresji; im większy tym lepiej; dobrze gdy >95%; mówi w ilu % wyjaśnia zależność
- współczynnik korelacji
odchylenie standardowe reszt (błąd standardowy szacunku)
gdzie: n - liczba par obserwacji
k - liczba szacowanych parametrów f-cji; u nas k = 2
Mówi o ile przeciętnie odchylają się wartości empiryczne od teoretycznych (in+/in-)
WYKŁAD 6 25.11.2006
REGRESJA C.D.
Im większa zmienność wyjaśniona tym silniejsza korelacja
Przy korelacji krzywoliniowej analizę można zacząć od linii regresji, policzyć współczynnik determinacji i współczynnik korelacji R = współczynnik regresji
współczynnik zmienności przypadkowej:
Ile % średniej arytmetycznej stanowi składnik losowy. (Przyjęto, że
- zmienność przypadkowa jest duża.)
PRZYKŁAD
|
wiek |
cena auta |
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
1 |
40 |
1 |
1600 |
40 |
36,13 |
3,87 |
14,96 |
15,44 |
283,39 |
|
2 |
32 |
4 |
1024 |
64 |
31,96 |
0,04 |
0,00 |
7,44 |
55,35 |
|
2 |
33 |
4 |
1089 |
66 |
31,96 |
1,04 |
1,07 |
8,44 |
71,23 |
|
3 |
27 |
9 |
729 |
81 |
27,80 |
-0,80 |
0,63 |
2,44 |
5,95 |
|
3 |
25 |
9 |
625 |
75 |
27,80 |
-2,80 |
7,82 |
0,44 |
0,19 |
|
3 |
26 |
9 |
676 |
78 |
27,80 |
-1,80 |
3,23 |
1,44 |
2,07 |
|
5 |
17 |
25 |
289 |
85 |
19,46 |
-2,46 |
6,05 |
-7,56 |
57,15 |
|
7 |
12 |
49 |
144 |
84 |
11,12 |
0,88 |
0,77 |
-12,56 |
157,75 |
|
8 |
9 |
64 |
81 |
72 |
6,96 |
2,04 |
4,18 |
-15,56 |
242,11 |
∑ |
34 |
221 |
174 |
6257 |
645 |
221 |
X |
38,71 |
X |
830,22 |
(już zostało wyliczone na wykładzie 4)
Jakiej obniżki ceny należy się spodziewać przy wzroście wieku auta - oszacowanie linii regresji.
y - zależna (cena); x - niezależna (wiek)
Otrzymujemy:
Wzrost wieku auta o 1rok spowoduje spadek ceny przeciętnie o 4,17tys zł
Współczynnik indeterminacji
W 5% f-cja regresji nie wyjaśnia zależności ceny od wieku auta. (Zmienność y nie jest wyjaśniona f-cją regresji w 5%)
Współczynnik determinacji:
W 95% f-cja regresji wyjaśnia zależność ceny auta od jego wieku
Współczynnik korelacji:
(znak ustalamy na podstawie wsp. b, mamy „─” bo b<0 czyli korelacja ujemna)
Odchylenie standardowe reszt:
Wartości teoretyczne y przeciętnie różnią się od empirycznych o
2,35tys zł. (Szacując cenę auta na podstawie f-cji regresji można się pomylić o
2,35tys zł)
Jakiej ceny auta należy się spodziewać zakładając f-cję linii prostej jeśli auto będzie miało 9lat?
PROGNOZA
[tys zł]
błąd szacunku wynosi
więc granice ceny auta 9-letniego:
[tys zł]
Cena auta 9-letniego mieści się w przedziale od 0,42tys zł do 5,12tys zł.
Jeśli uwzględniamy tylko 1błąd f-cji regresji to stawiamy prognozę w minimalnym marginesie. Margines maksymalny:
PRZYKŁAD 2
Przeciętne m-czne spożycie serów w kg/osobę w wybranych gospodarstwach pracowniczych kształtuje się następująco:
l. osób w gosp. domowym [xi] |
spożycie serów kg/osoba [yi] |
|
|
|
|
|
|
1 |
1,53 |
1,00 |
1,00 |
1,53 |
1,62 |
0,0081 |
0,25 |
2 |
1,31 |
0,50 |
0,25 |
0,66 |
1,13 |
0,0324 |
0,0784 |
3 |
1,05 |
0,33 |
0,11 |
0,35 |
0,96 |
0,0081 |
0,0004 |
4 |
0,85 |
0,25 |
0,06 |
0,21 |
0,88 |
0,0009 |
0,0324 |
5 |
0,76 |
0,20 |
0,04 |
0,15 |
0,83 |
0,0049 |
0,0729 |
6 |
0,70 |
0,17 |
0,03 |
0,12 |
0,8 |
0,01 |
0,1089 |
∑ |
6,20 |
2,45 |
1,49 |
3,02 |
|
0,0644 |
0,543 |
korelacja ujemna bo y↑ a x↓
Otrzymujemy:
Wraz ze wzrostem liczby osób w gospodarstwie domowym spożycie serów nie spadnie poniżej 0,63 kg/osobę m-cznie.
Współczynnik indeterminacji
W 12% f-cja regresji hiperbolicznej nie wyjaśnia spożycia serów w zależności od liczby osób w rodzinie (f-cja słabo dopasowana)
Współczynnik determinacji:
W 88% f-cja regresji hiperbolicznej wyjaśnia spożycie serów w zależności od liczby osób w rodzinie (f-cja słabo dopasowana)
Odchylenie standardowe reszt:
Wartości teoretyczne spożycia serów w zależności od liczby osób w rodzinie przeciętnie różnią się od empirycznych o
0,127kg/osobę.
PRZYKŁAD 3
xi |
yi |
|
|
|
|
|
|
12,8 |
8,3 |
0,9190 |
163,84 |
11,7630 |
12,9270 |
21,4090 |
818,5320 |
21 |
18,4 |
1,2650 |
441 |
26,5650 |
15,4120 |
8,9280 |
342,6200 |
25,2 |
18,8 |
1,2740 |
635,04 |
32,1050 |
16,8650 |
3,7440 |
327,9720 |
35,8 |
26,8 |
1,4280 |
1281,64 |
51,1220 |
21,1700 |
31,6970 |
102,2120 |
50,5 |
31 |
1,4910 |
2550,25 |
75,2960 |
29,0170 |
3,9320 |
34,9280 |
51,8 |
27,8 |
1,4440 |
2683,24 |
74,7990 |
29,8370 |
4,1490 |
82,9920 |
66,9 |
46,4 |
1,6670 |
4475,61 |
111,5220 |
41,2480 |
26,5430 |
90,0600 |
82,1 |
52 |
1,7160 |
6740,41 |
140,8840 |
57,1460 |
26,4810 |
227,7080 |
92,9 |
66,7 |
1,8240 |
8630,41 |
169,4500 |
72,0420 |
28,5370 |
887,4440 |
94,4 |
72,9 |
1,8630 |
8911,36 |
175,8670 |
74,3970 |
2,2410 |
1295,2800 |
533,4 |
|
14,891 |
36512,8 |
869,373 |
|
157,661 |
4209,748 |
xi - dochód; yi - koszty
stąd:
stąd:
Otrzymujemy:
Jeśli dochód wzrośnie o 1mln zł to koszty zmienią się (wzrosną)o
.
Współczynnik indeterminacji
W 3,7% f-cja regresji wykładniczej nie wyjaśnia kosztów w zależności od dochodu (f-cja bardzo dobrze dopasowana)
Współczynnik determinacji:
W 96,3% f-cja regresji wykładniczej wyjaśnia koszty w zależności od dochodu (f-cja bardzo dobrze dopasowana)
Odchylenie standardowe reszt:
Wartości teoretyczne kosztów w zależności od dochodu przeciętnie różnią się od empirycznych o
4,439.
Współczynnik zmienności przypadkowej:
12,03% średniej arytmetycznej kosztów stanowi składnik losowy.
Współczynnik korelacji:
WYKŁAD 7 02.12.2006
PRZYKŁAD
Badano ilość sprzedanych egzemplarzy gazety (xi) w tyś sztuk i wiązano to z przychodem zawartych w gazecie reklam (yi) w mln zł.
xi [tyś szt] |
yi [mln zł] |
5,4 |
1,4 |
7,1 |
1,8 |
11,0 |
2,9 |
13,5 |
3,7 |
15,5 |
3,6 |
23,5 |
6,8 |
24,1 |
9,2 |
Oszacowano funkcje regresji:
REGRESJA |
FUNKCJA |
[%] |
[%] |
[mln zł] |
[%] |
linii prostej |
|
8,4 |
91,6 |
0,892 |
21,2 |
|
|||||
potęgowa |
|
8,6 |
91,4 |
0,908 |
21,6 |
|
|||||
wykładnicza |
|
5,0 |
95,0 |
0,691 |
16,5 |
|
Najlepiej dopasowana jest f-cja wykładnicza (najmniejszy % niewyjaśnienia)
Do prognozowania najlepiej nadaje się f-cja potęgowa. Mimo że lepiej dopasowana jest f-cja wykładnicza, to jednak f-cja potęgowa lepiej pasuje logicznie - przychody z reklam po pewnym czasie będą słabnąć (wygasać)
ANALIZA SZEREGÓW DYNAMICZNYCH
podział szeregów dynamicznych
analiza szeregów dynamicznych
obliczanie przeciętnego poziomu cechy
obliczanie przyrostów absolutnych i względnych (jednopodstawowych i łańcuchowych)
obliczanie przeciętnej wartości przyrostu
analiza szeregów przy pomocy indeksów indywidualnych (jednopodstawowych i łańcuchowych)
analiza szeregów przy pomocy indeksów agregatowych (indeksy agregatowe wielkości absolutnych i wielkości stosunkowych)
dekompozycja szeregów dynamicznych (wyodrębnianie części składowych)
wyodrębnianie tendencji rozwojowej (trendu)
wyodrębnianie wahań sezonowych
określanie wahań losowych (przypadkowych)
określanie wahań cyklicznych
PODZIAŁ SZEREGÓW DYNAMICZNYCH
Szeregi dynamiczne = chronologiczne = czasowe
Momentu - stan na dzień...
Rok |
liczba ludności na dzień 31 XII (w tys.) |
1995 |
38609,4 |
1996 |
38639,3 |
1997 |
38660 |
1998 |
38667 |
Okresów
Rok |
Urodzenia żywe |
1995 |
436312 |
1996 |
431211 |
1997 |
415166 |
1998 |
398103 |
WYKRES
Na osi poziomej zawsze czas
Na osi poziomej badana cecha
Lepszy wykres liniowy niż słupkowy
ANALIZA SZEREGÓW DYNAMICZNYCH
obliczanie przeciętnego poziomu cechy
ŚREDNIA ARYTMETYCZNA
, gdzie n - liczba momentów/okresów
interpretacja:
Średni poziom badanej cechy na dzień .... wynosi ...←do szeregu momentów
Średni poziom badanej cechy w badanym okresie czasu wynosi ... ←do szeregu okresów
ŚREDNIA CHRONOLOGICZNA
Stosowana dla szeregów momentu - „uwalnia” od określonego momentu
ŚREDNIA GEOMETRYCZNA
Liczona dla szeregów dynamicznych okresów gdy zjawisko jest wyrażone w liczbie względnej
obliczanie przyrostów absolutnych i względnych (jednopodstawowych i łańcuchowych)
PRZYROST ABSOLUTNY [j] przyrost zjawiska w jednostkach mianowanych (podanych w zadaniu)
jednopodstawowy
łańcuchowy
PRZYROST WZGLĘDNY [%]
jednopodstawowy
łańcuchowy
obliczanie przeciętnej wartości przyrostu
ŚREDNI PRZYROST ABSOLUTNY
, gdzie:
lub
analiza szeregów przy pomocy indeksów indywidualnych (jednopodstawowych i łańcuchowych)
INDEKSY INDYWIDUALNE - wartość względna
jednopodstawowy
łańcuchowy
interpretacja:
jeśli i>100% - wszystko ponad 100 jest wzrostem (np. i=125% - nastąpił wzrost o 25%)
jeśli i<100% - wszystko co brakuje do 100 jest spadkiem (np. i=98% - nastąpił spadek o 2%)
PRZYKŁAD:
lata |
wydatki Gd w mln zł |
przyrost absolutny |
przyrost względny |
indeks |
|||
|
|
jedno-podstawowy |
łańcuchowy |
jedno-podstawowy |
łańcuchowy |
jedno-podstawowy |
łańcuchowy |
1995 |
334,196 |
0 |
─ |
0 |
─ |
100 |
─ |
1996 |
478,648 |
144,452 |
144,452 |
43,22 |
43,22 |
143,22 |
143,22 |
1997 |
639,818 |
305,622 |
161,170 |
91,45 [3] |
33,67 |
191,45 |
133,67 |
1998 |
800,082 |
465,886 [1] |
160,264 |
139,40 |
25,05 |
239,40 |
125,05 |
1999 |
886,094 |
551,898 |
86,012 [2] |
165,14 |
10,75 |
265,14 |
110,75 |
2000 |
975,387 |
641,191 |
89,293 |
|
10,08 [4] |
291,86 |
110,08 |
[1] w roku 98 w porównaniu z 95 wydatki wzrosły o 465,886 mln zł
[2] w roku 99 w porównaniu z 98 wydatki wzrosły o 86,012 mln zł
[3] w roku 97 w porównaniu z 95 wydatki wzrosły o 91,45%
[4] w roku 2000 w porównaniu z 99 wydatki wzrosły o 10,08%
ŚREDNIE TEMPO WZROSTU (PRZYROSTU)
:
gdzie:
lub
Zmiana indeksów:
jednopodstawowych na łańcuchowe
łańcuchowych na jednopodstawowe
analiza szeregów przy pomocy indeksów agregatowych (indeksy agregatowe wielkości absolutnych i wielkości stosunkowych)
Indeksy agregatowe wielkości absolutnych - stosowane, gdy mamy do czynienia z niejednorodnym zestawem towarów
p0 - cena z okresu podstawowego
q0 - ilość z okresu podstawowego
pt - cena z okresu badanego
qt - ilość z okresu badanego
- ilość
INDEKS WARTOŚCI
Jak zmieniła się wartość badanej grupy towarów w stosunku do roku podstawowego z powodu zmiany ceny i ilości; powyżej 100 - wzrost; brakuje do 100 - spadek
INDEKSY CEN |
INDEKSY WARTOŚCI |
||
|
|
||
Laspeyresa |
Paaschego |
Laspeyresa |
Paaschego |
stabilizuje ilość z okresu podstawowego |
stabilizuje ilość z okresu badanego |
stabilizuje cenę z okresu podstawowego |
stabilizuje cenę z okresu badanego |
ŚREDNI INDEKS FISHERA |
ŚREDNI INDEKS FISHERA |
||
średni wpływ ceny na wartość |
średni wpływ ilości na wartość |
Równość indeksowa
37
STATYSTYKA WYKŁADY
Utworzony przez Ania Marzec
1 szereg
2 szereg
Symetria normalna
Symetria spłaszczona
Symetria wysmukła
Asymetria zdecydowana lewostronna (ujemna)
Asymetria skrajna lewostronna (ujemna)
Asymetria umiarkowana lewostronna (ujemna)
Asymetria zdecydowana prawostronna (dodatnia)
Asymetria skrajna prawostronna (dodatnia)
Asymetria umiarkowana prawostronna (dodatnia)
Rozkład u-towy (siodłowy)
Rozkład równomierny
Rozkład bimodalny
D
Me
Rozkład wielomodalny
Rozkład jednopunktowy
D Me
Rozkład dwupunktowy (dla cechy dwudzielnej)
10%
Me D
100%
10%
100%
krzywa koncentracji
a
b
linia równomiernego rozkładu = brak koncentracji
w%
(
w%)sk
Im dalej od przekątnej leży krzywa koncentracji tym większa koncentracja
III
II
I
D
Me
D Me
Me D
asymetria lewostronna (ujemna)
asymetria prawostronna (dodatnia)
rozkład symetryczny
I rozkład spłaszczony = platokurtyczny
II rozkład wysmukły = leptokurtyczny
III rozkład spłaszczony jak rozkład normalny
30
s
-s
p.p.
p.p.
20
10
10
8
6
4
2
xi
ni
D
Me
ni
xi
2
4
6
8
10
10
20
30
70
60
40,5
80
k = 2
(dwie cechy)
skale pomiarowe
obie cechy są jakościowe
skale nominalne
cechy ilościowe i jakościowe wyrangowane
skale porządkowe
obie cechy są ilościowe
skala interwałowa i ilorazowa
cecha jakościowa i ilościowa
współczynniki korelacji
T - Czuprowa
Q - Kendalla (asocjacji)
C - Pearsona (kontyngencji)
są jeszcze 2 - nie zajmujemy się nimi
rs - Spearmana
są jeszcze 2 - nie zajmujemy się nimi
r - Pearsona
jest jeszcze 1 - nie zajmujemy się nim
są 2 Pearsona:
rbis i rpbis
h)
g)
f)
e)
d)
c)
b)
a)
r=-0,9
r=0,6
r=0,4
x rośnie i y rośnie - korelacja prostoliniowa dodatnia
x rośnie y maleje - korelacja prostoliniowa ujemna
x rośnie y nie wykazuje wyraźnych zmian - korelacji brak
korelacja prostoliniowa ujemna ale słabsza niż w przypadku b) - im większy rozrzut pkt-ów tym słabsza korelacja
korelacja prostoliniowa dodatnia - słabsza niż w przypadku a)
korelacja prostoliniowa ujemna - silniejsza niż w d) słabsza niż w b)
korelacja prostoliniowa dodatnia - bardzo słaba
korelacja krzywoliniowa
r=-0,8
40
- nr rangowy x
- nr rangowy y
- różnica w rangach x i y
r=1
r=-1
korelacja liniowa ujemna
6
7
8
ni
xi
1
3
2
4
5
10
20
30
r=0
A
B
C
b < 0
b > 0
100%
100%
100%
b = 0
x
x
x
y
y
y
x
y
y
x
b < 1
b > 1
y
x
y
x
a
a
b > 0
b < 0
y
x
b >1
-1 < b < 0
0 < b < 1
Regresja hiperboliczna
Korelacja wykładnicza