Statystyka Wykłady

WYKŁAD 1 30.09.2006

dr ZYGMUNTA BARAŃSKA

Literatura:

L. Hryniewicka „Ćw statystyczne w naukach ekonomicznych” ODDK, 2003

A. Komosa „Statystyka zbiór zadań”

PODSTAWOWE POJĘCIA

Statystyka:

Zestaw liczb zebranych i zinterpretowanych do przedstawienia określonego problemu
Wartości (parametry) wyliczane na podstawie badań próbnych
Nauka zajmująca się zbieraniem, prezentacją i analizą zebranego materiału (przeważnie liczbowego)

0x08 graphic
STATYSTYKA

Statystyka opisowa
proste przeliczenia arytmetyczne, nie wymagające znajomości rachunku prawdopodobieństwa; dotyczy sytuacji gdy badane są wszystkie występujące zdarzenia

Statystyka matematyczna
procedury oparte na matematyce, a w szczególności na rachunku prawdopodobieństwa, stosowana w sytuacji gdy badamy przedstawicieli określonej grupy biorącej udział w badaniu

Zbiorowość statystyczna - ogół osób lub rzeczy, które podlegają badaniu, składa się z jednostek statystycznych

Zjawiska masowe - służą do zauważenia prawidłowości statystycznych

ANALIZA ETAPÓW BADAŃ STATYSTYCZNYCH

I. PROGRAMOWANIE BADANIA

Określenie celu badania:

cele ogólne
cele szczególne (hipotezy szczegółowe)

Określenie przedmiotu badana - tj. określenie zbiorowości statystycznej i jednostki statystycznej; zbiorowość statystyczną określamy trzema stałymi cechami:

kto jest badany (cecha rzeczowa)
kiedy jest badany (cecha czasowa)
gdzie jest badany (cecha przestrzenna)

Zbiorowości:

statyczne - badane w pewnym momencie
dynamiczne - badane w pewnym okresie czasu
przeliczalne - zawierają konkretną liczbę jednostek
nieprzeliczalne - nie można określić liczby jednostek
jednorodne
niejednorodne - dzielimy na podzbiorowości jednorodne
Określenie zakresu badania (wyodrębnienie cech badanych u jednostek statystycznych)

Każda jednostka statystyczna różni się od pozostałych pewnymi właściwościami cech (poziomem cech)

CECHY ZMIENNE

Ilościowe
można przedstawić w formie liczb, mierzalne

Jakościowe
właściwości, które można określić tylko słownie

Skokowa
z pewnego przedziału liczbowego przyjmuje tylko określone wartości liczbowe; np. {2,4,5,7,8}

Ciągła
z pewnego przedziału liczbowego może przyjmować dowolną liczbę wartości; np. (2,8)

Dwudzielna
może przyjmować tylko dwie kategorie; np. płeć = kobieta lub mężczyzna

Wielodzielna
może przyjmować więcej niż dwie kategorie; np. ukończona szkoła średnia = liceum lub technikum lub zawodówka, it

Wybór zakresu obserwacji / wybór typu badania:

badanie całkowite (pełne) - do badania bierzemy wszystkie jednostki wchodzące w skład zbiorowości (np. spis ludności, spis gospodarstw rolnych, rejestracja urodzeń i zgonów, inwentaryzacja środków trwałych w przedsiębiorstwie)
badanie częściowe - badamy tylko część jednostek zbiorowości
▪ dobór jednostek w sposób losowy (każda jednostka ma znane prawdopodobieństwo wejścia do grupy badanej; stosowany odpowiedni schemat losowania)
▪ dobór jednostek w sposób nielosowy (przeprowadzający badanie sam decyduje kto bierze udział w badaniu)
badanie monograficzne - jedna wybrana jednostka zostaje opisana wszechstronnie

Organizacja obserwacji statystycznej:

jednorazowa
powtarzalna
ciągła

Wybór techniki zbierania danych

wywiad osobisty
samospisywanie (ankieta pocztowa)
bezpośrednia obserwacja lub pomiar
rejestry i dane sprawozdawcze

II. OBSERWACJA STATYSTYCZNA

Gromadzenie danych statystycznych

Materiał pierwotny
zebrany ściśle do celów badania

Materiał wtórny
zebrany do innych celów, a wykorzystywany m.in. do danego badania

Kontrola materiału statystycznego

ilościowa (kompletności)
merytoryczna (poprawnosci)

III. OPRACOWANIE DANYCH

Ustalenie zasad klasyfikacji:

porządkowanie
grupowanie statystyczne:

wariancje - dla cech ilościowych wyodrębniamy warianty liczbowe
typologie - dla cech jakościowych wyodrebniamy grupy typologiczne

Budowa szeregów statystycznych - powstają w wyniku grupowania i porządkowania

Szereg statystyczny - ciąg wartości licznowych i nieliczbowych badanej cechy uporządkowany wg określonych kryteriów

Rodzaje szeregów statystycznych:

szczegółowe (wyliczające)
rozdzielcze z cechą jakościową (strukturalne)
rozdzielcze z cechą ilościową (punktowe = jednostopniowe, przedziałowe = wielostopniowe)
kumulacyjne
geograficzne (przestrzenne)
czasowe (dynamiczne, chronologiczne)

♦ szereg rozdzielczy strukturalny

poziom wykształcenia

liczba osób

podstawowe

zasadnicze zawodowe

średnie

...

♦ szereg rozdzielczy punktowy

liczba dzieci na utrzymaniu x_i

liczba osób n_i

...

♦ szereg rozdzielczy jednopunktowy (np. odziały banku wg ilości stanowisk)

ilość stanowisk

ilość oddziałów

...

♦ szereg rozdzielczy przedziałowy

wiek w latach <x_i0,x_i1)

liczba osób n_i

15,0 - 25,0

25,0 - 35,0

...

stosowany dla cechy ciągłej lub dla cechy skokowej gdy jest duża liczba wariantów i duża liczba obserwacji
<x_i0,x_i1): x_i0 - dolna granica przedziału czasowego; x_i1 - górna granica przedziału czasowego
szeregi zamknięte: 15,0 - 25,0; 25,0 - 35,0...45,0 - 55,0
szeregi otwarte: poniżej 25,0; 25,0 - 35,0; ...; 45,0 - 55,0; powyżej 55,0

♦ szereg geograficzny

województwo

przeciętne miesięczne wynagrodzenie

...

♦ szereg dynamiczny

grupy wiekowe

ludność w tyś.

1970

1980

1990

przedprodukcyjny

produkcyjny

...

♦ szereg szczegółowy - szereg tylko uporządkowany, nie pogrupowany = szereg prosty

SYMBOLE

R - obszar zmienności / rozstęp

n - liczebność / ogólna liczba obserwacji

k - ilość przedziałów klasowych

c - rozpiętość przedziału klasowego

IV. PREZENTACJA GRAFICZNA - zbudowanie wykresu statystycznego dla kolejnych szeregów statystycznych.

Rodzaje wykresów:

punktowe
liniowe
powierzchniowe (najczęściej dla szeregów rozdzielczych strukturalnych)
bryłowe

dla szeregu rozdzielczego jednopunktowego najczęściej słupkowy diagram odcinkowy
szeregi rozdzielcze przedziałowe - wykres liniowy, powierzchniowy
jeśli rozpiętości przedziałów klasowych są równe to:

0x08 graphic
♦ dla wykresy powierzchniowego - histogram:

na osi ox granice przedziałów

na osi oy liczba obserwacji

♦ dla wykresu liniowego

0x08 graphic
na osi ox środki przedziałów klasowych (
)

na osi oy liczba obserwacji

szeregi czasowe na wykresach liniowych lub powierzchniowych

na osi ox lata

na osi oy badana cecha

WYKŁAD 2 01.10.2006

Tablica statystyczna - przedstawienie jednego lub więcej szeregów jednocześnie; część liczbowa tablicy składa się z odpowiednich kolumn i wierszy a część opisowa z tytułu (określenie zbiorowości) i wierszy (boczek tablicy); każdy wiersz tablicy musi być wypełniony nazwą kolumn (główka tablicy); pod każdą tablicą musi być podane źródło danych; pod tablicą mogą być zamieszczone informacje dodatkowe.

W tablicach używa się następujących znaków umownych:

kropka (∙) - oznacza zupełny brak wiarygodnych informacji

zero (0) - oznacza, że dane zjawisko występuje ale w ilościach mniejszych niż pół jednostki miary przyjętej w tablicy

kreska (-) - oznacza, że dane zjawisko nie występuje

gwiazdka (*) - stawiana jest obok liczby, która została zmieniona w stosunku do poprzednio opublikowanej

napis „w tym” - oznacza, że nie podaje się wszystkich składników sumy ogólnej

iks (x) - oznacza, że rubryki nie można wypełnić ze względu na układ tablicy

Rodzaje tablic:

tablice proste
tablice złożone
tablice kombinowane
tablice specjalne

Tablica prosta - zawiera tylko jeden szereg

makroregion

współczynnik aktywności zawodowej

Stołeczny

Północny

...

58,6

56,4

...

Tablica złożona - zawiera więcej niż jeden szereg

0x08 graphic
grupy wiekowe

ludność w tyś

1970

1980

1990

przedprodukcyjny

produkcyjny

...

Tablica kombinowana - ma przeliczenia lub doliczenia, może mieć więcej niż jeden szereg

grupy wiekowe

razem

przedprodukcyjny

produkcyjny

...

ANALIZA STATYSTYCZNA

Analiza statystyczna - wyliczenie pewnych parametrów na podstawie zbudowanych szeregów w celu określenia pewnych prawidłowości w badanej zbiorowości

Analizę statystyczną rozpatrujemy wg pojęć:

analiza struktury
analiza korelacji
analiza szeregów dynamicznych i ich dekompozycja

I. ANALIZA STRUKTURY

wyliczanie miar tendencji centralnej
obliczanie miar dyspersji (rozproszenia)
obliczanie miar skośności (asymetrii)
obliczanie miar koncentracji

Analiza struktury dla cech ilościowych:

budujemy szereg
nanosimy dane na wykres - wykres może mieć różne rozkłady:

1. Miary tendencji centralnej = miary położenia

miary klasyczne
jest to średnia arytmetyczna; liczone są dla szeregów rozdzielczych o zamkniętych przedziałach klasowych; nie liczymy dla szeregów skrajnie asymetrycznych, bimodalnych, u-towych;

miary pozycyjne
liczymy tylko z określonych wartości szeregu; należą do nich: mediana (Me), dominanta (D), kwartyle: pierwszy (Q₁), trzeci (Q₃), decyle: pierwszy (D₁), dziewiąty (D₉)

Właściwości średniej arytmetycznej (= wartości przeciętnej)

liczona z wszystkich wartości szeregu
∑ odchyleń każdego x od średniej daje wartość 0:

Me (mediana) - wartość środkowa badanej cechy (szeregu), dzieli szereg w ten sposób, że:

50% zbiorowości ma wartości cechy nie większe niż mediana
50% zbiorowości ma wartości cechy nie mniejsze niż mediana

D (dominanta) - wartość w szeregu występująca najliczniej

Q₁, Q₃ (kwartyle) - dzielą zbiorowość na cztery części

Q₁ - dzieli szereg w ten sposób, że:

25% zbiorowości ma wartości cechy nie większe niż Q₁
75% zbiorowości ma wartości cechy nie mniejsze niż Q₁

Q₃ - dzieli szereg w ten sposób, że:

75% zbiorowości ma wartości cechy nie większe niż Q₃
25% zbiorowości ma wartości cechy nie mniejsze niż Q₃

D₁, D₉ (decyle) - dzielą zbiorowość na dziesięć części

D₁ - dzieli szereg w ten sposób, że:

10% zbiorowości ma wartości cechy nie większe niż D₁
90% zbiorowości ma wartości cechy nie mniejsze niż D₁

D₉ - dzieli szereg w ten sposób, że:

90% zbiorowości ma wartości cechy nie większe niż D₉
10% zbiorowości ma wartości cechy nie mniejsze niż D₉

Zależność pomiędzy D, D₁, D₉, Q₁, Q₃, Me,
:

Aby liczyć miary pozycyjne szereg musi być liczny

MEDIANA Me

szereg szczegółowy

5, 5, 6, 6, 7, 7, 8, 9, 10

Me = 7 (bo 7 leży po środku szeregu)

5, 5, 6, 6, 7, 7, 8, 9

szereg rozdzielczy jednostopniowy

x_i	n_i	n_sk
5	2	2
6	2	4 (=2+2)
7	2	6 (=4+2)
8	1	7 (=6+1)
9	1	8 (=7+1)
10	1	9 (=8+1)

x_i - wydajność

n_i - ilość pomiarów

aby wyliczyć Me należy zbudować szereg kumulowany (skumulować szereg): n_sk
w szeregu skumulowanym szukamy pozycji mediany (pMe):

(piąta obserwacja w szeregu jest medianą, szukamy obserwacji równej lub pierwszej większej); czyli

szereg rozdzielczy wielostopniowy

x_i	n_i	n_sk
0-2	10	10
2-4	20	30 (=10+20)
4-6	10	40 (=30+10)
6-8	10	50 (=40+10)
8-10	10	60 (=50+10)

kumulujemy szereg
pozycja mediany (pMe):
mediana:

, gdzie: c_i - rozpiętość przedziału mediany,
n_i - liczebność w przedziale mediany

;
;
;

Środkowa wartość cechy wynosi 4,1

DOMINANTA D

szereg szczegółowy

5, 5, 6, 6, 7, 7, 8, 9, 10

W tym szeregu dominanty brak (bo żadna wartość pomiaru nie występuje częściej niż inna)

5, 5, 6, 6, 7, 7, 7, 8, 9, 10

D = 7 (bo 7 występuje najczęściej)

szereg rozdzielczy jednostopniowy

x_i	n_i
5	2
6	2
7	3
8	1
9	1
10	1

D = 7 (bo 7 występuje najczęściej)

szereg rozdzielczy wielostopniowy

x_i	n_i
0-2	10
2-4	20
4-6	10
6-8	10
8-10	10

Aby można było policzyć dominantę to przedział dominanty, przedział ją poprzedzający i następujący po niej muszą mieć tą samą rozpiętość:

KWARTYLE Q₁, Q₃

szereg rozdzielczy jednostopniowy

x_i	n_i	n_sk
0	20	20
1	50	70 (=50+20)
2	20	90 (=70+20)
3	10	100 (=90+10)
4	5	105 (=100+5)

kumulujemy szereg
pozycja Q₁:
kwartyl Q₁:
(czyli ten x_i dla którego jest pQ₁)

Q₃ - analogicznie jak Q₁_:

szereg rozdzielczy wielostopniowy

x_i	n_i	n_sk
10-20	20	20
20-30	50	70
30-50	20	90
50-70	10	10
70-100	10	110

kumulujemy szereg
pozycja Q₁ (Q₃)

Q₁ (Q₃)

DECYLE D₁, D₉

Liczymy analogicznie jak kwartyle, gdzie:

Miary rozproszenia / dyspersji

Dyspersja - rozproszenie (odległość) poszczególnych wartości od średniej (
); dzielimy ją na:

miary klasyczne (bezwzględne, względne)
miary pozycyjne (bezwzględne, względne)

MIARY KLASYCZNE DYSPERSJI:

Wariancja s² - bezwzględna
Odchylenie standardowe s - bezwzględna - mówi o przeciętnym odchyleniu poszczególnych wartości na „+” lub „-” od średniej
Współczynnik zmienności V(s) - względny - służy do porównywania szeregów,

MIARY POZYCYJNE DYSPERSJI:

Rozstęp R - bezwzględny,
Odchylenie ćwiartkowe Q - bezwzględny,
- dyspersja dla wartości pomiędzy ćwiartką 3 i 1; połowa obszaru pomiędzy ćwiartką 1 i 3; przeciętne odchylenie od mediany od Q₁ do Q₃.
Współczynnik zmienności V(Q) - względny,
; dyspersja w % pomiędzy Q₁ i Q₃.

Dyspersja: do 10% - małe zróżnicowanie zbiorowości
10% do 35% - przeciętne zróżnicowanie
35%< - duże zróżnicowanie

WYKŁAD 3 21.10.2006

W rozkładach symetrycznych odchylenie ćwiartkowe wynosi
odchylenia standardowego:

.

Jeśli mamy wybór to lepsze są metody klasyczne - obejmują cały szereg.

3. Miary asymetrii - skośności

Miary klasyczne
Miary pozycyjne
Miary mieszane

Asymetria = skośność - nierównomierne rozłożenie liczebności wokół średniej:

Rozkłady symetryczne - 50% jednostek leży poniżej i 50% jednostek leży powyżej średniej

Asymetria prawostronna (dodatnia) - ponad 50% obserwacji ma wartości poniżej średniej (
); lub inaczej: dominująca grupa obserwacji ma wartości poniżej średniej

Asymetria lewostronna (ujemna) - ponad 50% obserwacji leży powyżej średniej (
); lub inaczej: dominująca grupa obserwacji ma wartości powyżej średniej

MIARY KLASYCZNE

moment trzeci centralny

jeśli:
to mówimy, że rozkład jest symetryczny

- asymetria lewostronna

- asymetria prawostronna

Moment trzeci centralny liczymy gdy można policzyć średnią arytmetyczną

współczynnik asymetrii

,
mówi o sile asymetrii:

- rozkład symetryczny

- asymetria lewostronna

- asymetria prawostronna

- asymetria niewielka
- asymetria umiarkowana
- asymetria wyraźna
- mamy do czynienia ze zbiorowością niejednorodną

MIARY POZYCYJNE

współczynnik asymetrii A(Q)

gdzie

dla:
- rozkład symetryczny

- asymetria prawostronna

- asymetria lewostronna

- mamy do czynienia ze zbiorowością niejednorodną

Jest to asymetria dla obszaru od
do
, NIE obejmuje wszystkich wartości szeregu

Współczynnik asymetrii A(Q) liczymy gdy nie można policzyć średniej arytmetycznej

współczynnik asymetrii A(D)

gdzie

Liczony jeśli nie można wyliczyć
, mówi o asymetrii w obszarze od
do

MIARY MIESZANE

współczynnik asymetrii

gdzie

Aby go policzyć, musi być możliwość policzenia D, interpretacja jak wyżej (przy A(Q))

współczynnik asymetrii A(Me)

gdzie

Liczony jeśli nie można wyliczyć D

4. Miary skupienia - kurtozy

Skupienie (kurtoza) - rozpatrywanie jak leżą określone wartości wokół średniej skupienie wartości wokół średniej)

Liczymy tyko gdy rozkłady są symetryczne, lub zbliżone do symetrycznych:

Rozkład normalny - jest rozkładem teoretycznym; pierwszym pkt-em przegięcia jest odchylenie standardowe

0x08 graphic
Badamy na ile dane skupienie jest większe/mniejsze od rozkładu normalnego

moment czwarty centralny

NIE INTERPRETUJEMY

współczynnik skupienia

jeśli:

rozkład o spłaszczeniu takim jak rozkład normalny

rozkład wysmukły

rozkład spłaszczony

Skupienie -3 = ekses (
) spotykane w literaturze

W statystyce istnieją moment centralne (
) i momenty zwykłe (m)

Moment centralny r-tego rzędu

Moment zwykły r-tego rzędu:

Koncentracja

Koncentracja - nie równomierny podział rozpatrywanej cechy

Omawiamy na przykładzie:

Miarą koncentracji jest

metoda graficzna: krzywa Lorentza
współczynnik koncentracji Pearsona

Rozkład wynagrodzeń w sektorze edukacji (99r)

	wysokość trapezu	oś x na diagramie				oś y na diagramie (podstawy kolejnych trapezów)	suma podstaw poszczególnych trapezów dzielona na 2	pola poszczególnych trapezów (n_iw% = wysokość trapezu)
	w%	w%			w%	( w%)_sk		w%
300-540	5,3	5,3	420	2226	2,3	2,3	1,15	6,1
540-700	18	23,3	620	11160	11,4	13,7	8	144
700-780	9,1	32,4	740	6784	6,9	20,6	17,5	156,07
780-860	10,3	42,7	820	8446	8,6	29,2	24,9	256,47
860-940	10,8	53,5	900	9720	9,9	39,1	34,2	369,36
940-1020	10,2	63,7	980	9996	10,2	49,3	44,2	450,84
1020-1200	16,7	80,4	1110	18537	18,9	68,2	58,8	981,96
1200-1500	13,5	93,9	1350	18255	18,6	86,8	77,5	1046,25
1500-2000	4,3	98,2	1750	7525	7,7	94,5	90,7	390,01
2000-4000	1,8	100	3000	5400	5,5	100	97,3	175,14
	100			97969				Pole b = 3976,06

=(
w%)_sk

0x08 graphic

Koncentracja będzie mała gdyż krzywa koncentracji leży blisko linii równomiernego rozkładu

WSPÓŁCZYNNIK KONCENTRACJI PEARSONA:

gdzie

Aby obliczyć K musimy znać wartość pola a i pola b:

(pole trójkąta leżącego pod linią równomiernego rozkładu)

stąd:
otrzymujemy:

Ponieważ nie znamy f-cji opisującej krzywą koncentracji musimy w przybliżeniu obliczyć pole b. Po zrzutowaniu wszystkich pkt-ów na oś ox i założeniu że odległości pomiędzy kolejnymi pkt-ami na krzywej koncentracji są mierzone po linii prostej otrzymujemy pole b jako sumę pól trapezów

0x01 graphic

Otrzymujemy b = 3976,06 więc:

INTERPRETACJA:

K = 0,2 - mała koncentracja, mały odsetek osób ma 20% ogółu wynagrodzeń, zaś duża liczba pozostałych ma ok. 80% wszystkich wynagrodzeń.

METODY ANALIZY CECH JAKOŚCIOWYCH

Wskaźnik struktury (frakcja, częstość względna)

,
- udział procentowy

Dla cech jakościowej można policzyć tylko w_i.

Względny wskaźnik podobieństwa struktur:

0x01 graphic
gdzie

jeśli:
- struktury są identyczne

- struktury są zupełnie różne

- struktury średnio podobne

Wskaźnik natężenia

lub
lub

WYKŁAD 4 28.10.2006

W analizie struktury rozpatrujemy 4 obszary:

1. rozstęp:

2. typowy obszar zmienności
,

3. rozstęp kwartylowy

4. rozstęp decylowy

Graficzne wyznaczanie dominanty (D), mediany (Me), kwartyli (
,
) i decyli (
,
)


0-2	10	10
2-4	20	30
4-6	30	60
6-8	10	70
8-10	10	80

Dominanta - wyznaczamy za pomocą histogramu

Mediana - wyznaczamy przy pomocy krzywej kumulacyjnej

0x08 graphic
0x01 graphic

Analogicznie wyznaczamy kwartyle - szukając pozycji Q₁ i Q₃ oraz decyle - szukając pozycji D₁ i D₉KORELACJA = związek cech

wielowymiarowy - nie omawiamy
dwuwymiarowy - omawiamy

Związki dwuwymiarowe dla cech ilościowych:

funkcyjny [y = f(x)] - zawsze zapisywany w postaci funkcji jednej zmiennej (konkretnej wartości jednej zmiennej odpowiada konkretna wartość drugiej zmiennej)
stochastyczny - jednej wartości y może odpowiadać szereg wartości x [y = f(x₁, x₂, x₃)]

staż pracy	wydajność w sztukach
2	2
2	3
2	1

korelacyjny - jednej wartości y odpowiada wartość średnia x [
]

jednostronne
dwustronne

METODY ANALIZY ZWIĄZKÓW KORELACYJNYCH

współczynniki korelacji
analiza regresji

Wyliczenie współczynników, które mówią o kierunku i sile zależności między dwoma cechami

0x08 graphic

CECHY ILOŚCIOWE → WSPÓŁCZYNNIK KORELACJI r - PEARSONA

współczynnik korelacji Pearsona (r) - można go stosować tylko jeśli rozrzut pkt-ów jest liniowy

0x01 graphic
dla

gdzie: n - liczba par obserwacji

s_x - odchylenie standardowe dla x

s_y - odchylenie standardowe dla y

co najmniej 100 obserwacji

INTERPRETACJA:

- korelacja bardzo słaba (mało znacząca dla mniej niż 100 obserwacji)

- korelacja niska, mała

- korelacja umiarkowana

- korelacja znaczna, wyraźna

- korelacja wysoka, pewna

- korelacja przechodzi w związek funkcyjny

PRZYKŁAD

wiek	cena auta

1	40	1	1600	40	36,13	3,87	14,96	15,44	283,39
2	32	4	1024	64	31,96	0,04	0,00	7,44	55,35
2	33	4	1089	66	31,96	1,04	1,07	8,44	71,23
3	27	9	729	81	27,80	-0,80	0,63	2,44	5,95
3	25	9	625	75	27,80	-2,80	7,82	0,44	0,19
3	26	9	676	78	27,80	-1,80	3,23	1,44	2,07
5	17	25	289	85	19,46	-2,46	6,05	-7,56	57,15
7	12	49	144	84	11,12	0,88	0,77	-12,56	157,75
8	9	64	81	72	6,96	2,04	4,18	-15,56	242,11
34	221	174	6257	645	221	X	38,71	X	830,22

y - cecha zależna (cena auta zależy od wieku auta)

0x08 graphic
x - cecha niezależna (wiek auta nie zależy od jego ceny)

r - można też liczyć ze wzoru:

0x01 graphic
→
- korelacja wysoka

SKALA PORZADKOWA → WSPÓŁCZYNNIK KORELACJI r_s - SPEARMANA

wiek	cena auta

1	40	1	9	64
2	32	2,5	7	20,25
2	33	2,5	8	30,25
3	27	5	6	1
3	25	5	4	1
3	26	5	5	0
5	17	7	3	16
7	12	8	2	36
8	9	9	1	64
34	221	X	X	232,5

NADAWANIE NR RANGOWYCH:

Nadajemy wartościom x i y nr zgodnie z przyjętym porządkiem (rosnącym - u nas, lub mającym). Najmniejsza wartość x będzie miała nr 1, druga w kolejności nr 2, trzecia w kolejności nr 3, itd. Jeśli jednak jest więcej niż jeden identyczny x to nr tworzymy następująco:

pierwsza 2 powinna mieć nr 2
druga 2 powinna mieć nr 3
więc: 2+3=5
5:2(bo były dwie 2)=2,5 → każda dwójka będzie miała nr 2,5
pierwsza 3 powinna mieć nr 4
druga 3 powinna mieć nr 5
trzecia 3 powinna mieć nr 6
więc 4+5+6=15
15:3(bo były trzy 3)=5 → każda trójka będzie miała nr 5

W ten sposób powstają rangi wiązane.

Z y postępujemy analogicznie: y=9 jest najmniejszy więc ma nr 1, a y=40 jest największy więc ma nr 9

współczynnik Spearmana (mniej dokładny niż współczynnik Pearsona):

0x01 graphic
, gdzie n - liczba par obserwacji

r_s = -0,94 → interpretacja taka sama jak przy wsp. Pearsona

Jeśli ponad 25% jest rang wiązanych to liczymy współczynnik Spearmena z poprawką na rangi wiązane:

0x01 graphic

przy czym:
gdzie: T_x poprawka na rangi wiązane x;
Ty - poprawka na rangi wiązane y;
t - ilość wspólnych wiązań

PRZYKŁAD

rangi x

rangi y

11,5

2,5

13,5

11,5

13,5

8,5

2,5

8,5

6,5

1,5

4,5

1,5

6,5

4,5

-0,5

3,5

2,5

-2

0,5

-0,6

-4,5

-0,5

-2,5

-2

0,25

12,25

6,25

0,25

20,25

0,25

6,25

168

Rangi wiązane x	2,5	8,5	11,5	13,5
t_i	2	2	2	2
	6	6	6	6

Rangi wiązane y	1,5	4,5	6,5	11	16
t_i	2	2	2	3	3
	6	6	6	24	24

CECHY JAKOŚCIOWE → WSPÓŁCZYNNIK Q - KENDALLA; T - CZUPROWA; C - PEARSONA

Dane muszą być przedstawione w formie tablicy.

PRZYKŁAD:
Czy płeć determinuje posiadanie karty bankomatowej?

karta bankomatowa	płeć
		K		M
posiada	20	a	90	b		110
nie posiada	110	c	30	d	140
	130		120		250

Jeśli obie cechy są dwudzielne to tablica nazywa się dwa na dwa - przyjmujemy wtedy współczynnik asocjacji (Kendalla) Q:

dla

INTERPRETACJA:
- słabe / umiarkowane powiązanie

- wyraźne powiązanie

- silne powiązanie

- mamy wyraźną zależności płci i posiadania karty bankomatowej, karty posiadają gł. mężczyźni

współczynnik asocjacji jest najmniej dokładny, lepiej liczyć

współczynnik kontyngencji (Pearsona ) C:

0x01 graphic
dla
- jest najdokładniejszy

lub

współczynnik Czuprowa T

0x01 graphic
dla
gdzie: n - liczba obserwacji
w - liczba wierszy tablicy
k - liczba kolumn tablicy

Statystyka dla tablicy 2×2 i n>40:

0x01 graphic
→

Otrzymujemy: T = 0,6 i C = 0,51 → zależność umiarkowana

WYKŁAD 5 04.11.2006

Statystyka dla tablicy większej niż 2×2

0x01 graphic
lub

gdzie:
- liczebność empiryczna tablicy

- liczebność teoretyczna, taka, która byłaby, gdyby był brak korelacji

- liczba obserwacji

gdzie:
- i-ty wiersz ;
- i-ta kolumna

PRZYKŁAD:

Jakość	A	B	C
Dobra	45	72	36	153
Zła	15	48	54	117
	60	120	90	270

n₁₁ = 45 n₁₂ = 72 n₁₃ = 36

n₂₁ = 15 n₂₂ = 48 n₂₃ = 54

0x08 graphic
n = 270

I metoda					II metoda

45	34	11	121	3,5588	59,5588
15	26	-11	121	4,6538	8,6538
72	68	4	16	0,2353	76,2353
48	52	-4	16	0,3078	44,3078
36	51	-15	225	4,4118	25,4118
54	39	15	225	5,7692	74,7692
				18,9367	288,9367-n 18,9367

Im większa wartość
tym większe prawdopodobieństwo korelacji.

Współczynnik korelacji T-Czuprowa

0x01 graphic

INTERPRETACJA: Słaba zależność pomiędzy metodą produkcji a ilością dobrych i złych produktów

Współczynnik korelacji C-Pearsona (kontyngencji)

0x01 graphic

INTERPRETACJA: Słaba zależność pomiędzy metodą produkcji a ilością dobrych i złych produktów

CECHY ILOŚCIOWA I JAKOŚCIOWA

Jeśli dane ułożone są w tablicy można wyliczyć
i obliczyć T lub C ale dokładniejsze są współczynniki Pearsona (r_bis i r_pbis):

0x01 graphic

gdzie:
- średnia arytmetyczna wydajności w pierwszej grupie typologicznej

- średnia arytmetyczna wydajności w drugiej grupie typologicznej
p - udział (%) osób w pierwszej grupie
q - udział (%) osób w drugiej grupie

- odchylenie standardowe dla wszystkich łącznie
y - odczytana z tablic rozkładu normalnego wartość rzędnej dla większej z proporcji p i q

Jeśli podział na grupy typologiczne jest sztuczny - stosujemy r_bis jeśli podział na grupy typologiczne jest naturalny (np. M,K) stosujemy r_pbis.

PRZYKŁAD

Analizujemy wydajność w sztukach (cecha ilościowa) w dwóch grupach typologicznych (cecha jakościowa). Czy wiek determinuje wydajność?

wiek	wydajność w sztukach			∑
wiek		5 (y₁)	10 (y₂)	∑	15 (y₃)
do 35 (p)	20	40	40	100
35 i więcej (q)	30	50	20	100
∑	50 (n₁)	90 (n₂)	60 (n₃)	200

0x01 graphic

→

y = 0,3989


-5,25	1378,125
-0,25	5,625
4,75	1353,75
	∑ = 2737,5

0x01 graphic

INTERPRETACJA: Między wydajnością a wiekiem jest słaba zależność

Ad II. ANALIZA REGRESJI

Jest to drugi stopień analizy korelacji

REGRESJA - zapis związku korelacyjnego przy pomocy f-cji matematycznej

Regresja I rodzaju - wybór postaci f-cji na podstawie rozrzutu pkt-ów (=wykresu korelacyjnego)
Regresja II rodzaju - oszacowanie parametrów f-cji = zapis f-cji

Regresja I rodzaju

Jeśli pkt-y układają się w prostą mamy do czynienia z regresją liniową:

gdzie
- współczynnik losowy

lub

(używany przez nas zapis, z pominięciem współczynnika losowego)

b - współczynnik regresji (najważniejszy do interpretacji)

b = 0 - korelacji brak

x - zmienna niezależna

y - zmienna zależna

INTERPRETACJA: Jeśli x rośnie o jednostkę to średnio y zmienia się o wartość b
(b > 0 to y↓; b < 0 to y↓)

Regresja wykładnicza

lub

lub postać liniowa:

b - współczynnik regresji = stopa przyrostu

INTERPRETACJA: Jeśli x rośnie o jednostkę to średnio y zmienia się o (b-1)∙100%

Regresja hiperboliczna

lub

a - poziom stabilności (= nasycenia)

INTERPRETACJA: Wraz ze wzrostem x przy pewnym jego poziomie y będzie utrzymywał się na stałym poziomie

Regresja potęgowa

lub

lub postać liniowa

b - współczynnik elastyczności

INTERPRETACJA: Jeśli x rośnie o 1% to średnio y zmienia się o b%

Regresja II rodzaju

Parametry f-cji szacujemy metodą najmniejszych kwadratów

Niech:

i
to:

Aby znaleźć minimum f-cji należy znaleźć miejsca zerowe pochodnych cząstkowych:

Jeśli
to 0x01 graphic

Z powyższego układu r-nań znajdujemy wartości a i b → patrz tablice stat.

Analogicznie szacuje się parametry dla korelacji krzywoliniowych = regresji potęgowej hiperbolicznej i wykładniczej.

0x08 graphic
Przy rozpatrywaniu linii regresji analizuje się odległości:

- zmienność całkowita

- zmienność niewyjaśniona linią regresji

- zmienność wyjaśniona linią regresji

Czy f-cja dobrze oszacowana?

współczynnik zbieżności = indeterminacji

0x01 graphic

Ile zmienności jest niewyjaśnionych f-cją regresji - im bliżej zera tym lepiej - tym dokładniejsza f-cja regresji; do 5% może być

współczynnik determinacji

Wyjaśnienie f-cji regresji; im większy tym lepiej; dobrze gdy >95%; mówi w ilu % wyjaśnia zależność

- współczynnik korelacji

odchylenie standardowe reszt (błąd standardowy szacunku)

0x01 graphic
gdzie: n - liczba par obserwacji
k - liczba szacowanych parametrów f-cji; u nas k = 2

Mówi o ile przeciętnie odchylają się wartości empiryczne od teoretycznych (in+/in-)

WYKŁAD 6 25.11.2006

REGRESJA C.D.

Im większa zmienność wyjaśniona tym silniejsza korelacja
Przy korelacji krzywoliniowej analizę można zacząć od linii regresji, policzyć współczynnik determinacji i współczynnik korelacji R = współczynnik regresji

współczynnik zmienności przypadkowej:

Ile % średniej arytmetycznej stanowi składnik losowy. (Przyjęto, że
- zmienność przypadkowa jest duża.)

PRZYKŁAD

	wiek	cena auta

		1	40	1	1600	40	36,13	3,87	14,96	15,44	283,39
		2	32	4	1024	64	31,96	0,04	0,00	7,44	55,35
		2	33	4	1089	66	31,96	1,04	1,07	8,44	71,23
		3	27	9	729	81	27,80	-0,80	0,63	2,44	5,95
		3	25	9	625	75	27,80	-2,80	7,82	0,44	0,19
		3	26	9	676	78	27,80	-1,80	3,23	1,44	2,07
		5	17	25	289	85	19,46	-2,46	6,05	-7,56	57,15
		7	12	49	144	84	11,12	0,88	0,77	-12,56	157,75
		8	9	64	81	72	6,96	2,04	4,18	-15,56	242,11
∑	34	221	174	6257	645	221	X	38,71	X	830,22

(już zostało wyliczone na wykładzie 4)

Jakiej obniżki ceny należy się spodziewać przy wzroście wieku auta - oszacowanie linii regresji.

y - zależna (cena); x - niezależna (wiek)

0x01 graphic

Otrzymujemy:

Wzrost wieku auta o 1rok spowoduje spadek ceny przeciętnie o 4,17tys zł

Współczynnik indeterminacji

0x01 graphic

W 5% f-cja regresji nie wyjaśnia zależności ceny od wieku auta. (Zmienność y nie jest wyjaśniona f-cją regresji w 5%)

Współczynnik determinacji:

W 95% f-cja regresji wyjaśnia zależność ceny auta od jego wieku

Współczynnik korelacji:

(znak ustalamy na podstawie wsp. b, mamy „─” bo b<0 czyli korelacja ujemna)

Odchylenie standardowe reszt:

0x01 graphic

Wartości teoretyczne y przeciętnie różnią się od empirycznych o
2,35tys zł. (Szacując cenę auta na podstawie f-cji regresji można się pomylić o
2,35tys zł)

Jakiej ceny auta należy się spodziewać zakładając f-cję linii prostej jeśli auto będzie miało 9lat?
PROGNOZA

[tys zł]

błąd szacunku wynosi
więc granice ceny auta 9-letniego:

0x01 graphic
[tys zł]

Cena auta 9-letniego mieści się w przedziale od 0,42tys zł do 5,12tys zł.

Jeśli uwzględniamy tylko 1błąd f-cji regresji to stawiamy prognozę w minimalnym marginesie. Margines maksymalny:

PRZYKŁAD 2

Przeciętne m-czne spożycie serów w kg/osobę w wybranych gospodarstwach pracowniczych kształtuje się następująco:

l. osób w gosp. domowym [x_i]	spożycie serów kg/osoba [y_i]
1	1,53	1,00	1,00	1,53	1,62	0,0081	0,25
2	1,31	0,50	0,25	0,66	1,13	0,0324	0,0784
3	1,05	0,33	0,11	0,35	0,96	0,0081	0,0004
4	0,85	0,25	0,06	0,21	0,88	0,0009	0,0324
5	0,76	0,20	0,04	0,15	0,83	0,0049	0,0729
6	0,70	0,17	0,03	0,12	0,8	0,01	0,1089
∑	6,20	2,45	1,49	3,02		0,0644	0,543

korelacja ujemna bo y↑ a x↓

0x08 graphic
0x01 graphic

0x01 graphic

Otrzymujemy:

0x01 graphic

Wraz ze wzrostem liczby osób w gospodarstwie domowym spożycie serów nie spadnie poniżej 0,63 kg/osobę m-cznie.

Współczynnik indeterminacji

0x01 graphic

W 12% f-cja regresji hiperbolicznej nie wyjaśnia spożycia serów w zależności od liczby osób w rodzinie (f-cja słabo dopasowana)

Współczynnik determinacji:

W 88% f-cja regresji hiperbolicznej wyjaśnia spożycie serów w zależności od liczby osób w rodzinie (f-cja słabo dopasowana)

Odchylenie standardowe reszt:

0x01 graphic

Wartości teoretyczne spożycia serów w zależności od liczby osób w rodzinie przeciętnie różnią się od empirycznych o
0,127kg/osobę.

PRZYKŁAD 3

x_i	y_i
12,8	8,3	0,9190	163,84	11,7630	12,9270	21,4090	818,5320
21	18,4	1,2650	441	26,5650	15,4120	8,9280	342,6200
25,2	18,8	1,2740	635,04	32,1050	16,8650	3,7440	327,9720
35,8	26,8	1,4280	1281,64	51,1220	21,1700	31,6970	102,2120
50,5	31	1,4910	2550,25	75,2960	29,0170	3,9320	34,9280
51,8	27,8	1,4440	2683,24	74,7990	29,8370	4,1490	82,9920
66,9	46,4	1,6670	4475,61	111,5220	41,2480	26,5430	90,0600
82,1	52	1,7160	6740,41	140,8840	57,1460	26,4810	227,7080
92,9	66,7	1,8240	8630,41	169,4500	72,0420	28,5370	887,4440
94,4	72,9	1,8630	8911,36	175,8670	74,3970	2,2410	1295,2800
533,4		14,891	36512,8	869,373		157,661	4209,748

0x08 graphic
x_i - dochód; y_i - koszty

0x01 graphic

stąd:

Otrzymujemy:

Jeśli dochód wzrośnie o 1mln zł to koszty zmienią się (wzrosną)o
.

Współczynnik indeterminacji

0x01 graphic

W 3,7% f-cja regresji wykładniczej nie wyjaśnia kosztów w zależności od dochodu (f-cja bardzo dobrze dopasowana)

Współczynnik determinacji:

W 96,3% f-cja regresji wykładniczej wyjaśnia koszty w zależności od dochodu (f-cja bardzo dobrze dopasowana)

Odchylenie standardowe reszt:

0x01 graphic

Wartości teoretyczne kosztów w zależności od dochodu przeciętnie różnią się od empirycznych o
4,439.

Współczynnik zmienności przypadkowej:

12,03% średniej arytmetycznej kosztów stanowi składnik losowy.

Współczynnik korelacji:

WYKŁAD 7 02.12.2006

PRZYKŁAD

Badano ilość sprzedanych egzemplarzy gazety (x_i) w tyś sztuk i wiązano to z przychodem zawartych w gazecie reklam (y_i) w mln zł.

x_i [tyś szt]	y_i [mln zł]
5,4	1,4
7,1	1,8
11,0	2,9
13,5	3,7
15,5	3,6
23,5	6,8
24,1	9,2

Oszacowano funkcje regresji:

REGRESJA	FUNKCJA	[%]	[%]	[mln zł]	[%]
linii prostej		8,4	91,6	0,892	21,2
jeśli nakład gazety wzrośnie o tysiąc sztuk to przeciętnie przychody z reklam wzrosną o 0,367mln zł w 8,4% zmienność przychodów nie jest wyjaśniona zmiennością sprzedaży gazet w 91,6% zmienność przychodów z reklam jest wyjaśniona zmiennością sprzedaży gazet wartości empiryczne różnią się od wartości teoretycznych przeciętnie o ±0,892 mln zł 21,2% średniej wartości przychodu z reklam stanowi odchylenie standardowe reszt
potęgowa		8,6	91,4	0,908	21,6
jeśli ilość sprzedanych egzemplarzy gazety wzrośnie o 1% to średnio przychód z reklam zmieni się o 1,362% w 8,6% zmienność przychodów nie jest wyjaśniona zmiennością sprzedaży gazet w 91,4% zmienność przychodów z reklam jest wyjaśniona zmiennością sprzedaży gazet wartości empiryczne różnią się od wartości teoretycznych przeciętnie o ±0,908 mln zł 21,6% średniej wartości przychodu z reklam stanowi odchylenie standardowe reszt
wykładnicza		5,0	95,0	0,691	16,5
jeśli ilość sprzedanych egzemplarzy gazety wzrośnie o tyś sztuk to przychód z reklam średnio zmieni się o 9,4% w 5% zmienność przychodów nie jest wyjaśniona zmiennością sprzedaży gazet w 95% zmienność przychodów z reklam jest wyjaśniona zmiennością sprzedaży gazet wartości empiryczne różnią się od wartości teoretycznych przeciętnie o ±0,691 mln zł 16,5% średniej wartości przychodu z reklam stanowi odchylenie standardowe reszt

Najlepiej dopasowana jest f-cja wykładnicza (najmniejszy % niewyjaśnienia)
Do prognozowania najlepiej nadaje się f-cja potęgowa. Mimo że lepiej dopasowana jest f-cja wykładnicza, to jednak f-cja potęgowa lepiej pasuje logicznie - przychody z reklam po pewnym czasie będą słabnąć (wygasać)

ANALIZA SZEREGÓW DYNAMICZNYCH

podział szeregów dynamicznych
analiza szeregów dynamicznych

obliczanie przeciętnego poziomu cechy
obliczanie przyrostów absolutnych i względnych (jednopodstawowych i łańcuchowych)
obliczanie przeciętnej wartości przyrostu
analiza szeregów przy pomocy indeksów indywidualnych (jednopodstawowych i łańcuchowych)
analiza szeregów przy pomocy indeksów agregatowych (indeksy agregatowe wielkości absolutnych i wielkości stosunkowych)

dekompozycja szeregów dynamicznych (wyodrębnianie części składowych)

wyodrębnianie tendencji rozwojowej (trendu)
wyodrębnianie wahań sezonowych
określanie wahań losowych (przypadkowych)
określanie wahań cyklicznych

PODZIAŁ SZEREGÓW DYNAMICZNYCH

Szeregi dynamiczne = chronologiczne = czasowe

Momentu - stan na dzień...

Rok	liczba ludności na dzień 31 XII (w tys.)
1995	38609,4
1996	38639,3
1997	38660
1998	38667

Okresów

Rok	Urodzenia żywe
1995	436312
1996	431211
1997	415166
1998	398103

WYKRES

Na osi poziomej zawsze czas
Na osi poziomej badana cecha
Lepszy wykres liniowy niż słupkowy

ANALIZA SZEREGÓW DYNAMICZNYCH

obliczanie przeciętnego poziomu cechy

ŚREDNIA ARYTMETYCZNA

0x01 graphic
, gdzie n - liczba momentów/okresów

interpretacja:

Średni poziom badanej cechy na dzień .... wynosi ...←do szeregu momentów
Średni poziom badanej cechy w badanym okresie czasu wynosi ... ←do szeregu okresów

ŚREDNIA CHRONOLOGICZNA

Stosowana dla szeregów momentu - „uwalnia” od określonego momentu

ŚREDNIA GEOMETRYCZNA

Liczona dla szeregów dynamicznych okresów gdy zjawisko jest wyrażone w liczbie względnej

obliczanie przyrostów absolutnych i względnych (jednopodstawowych i łańcuchowych)

0x08 graphic

PRZYROST ABSOLUTNY [j] przyrost zjawiska w jednostkach mianowanych (podanych w zadaniu)

jednopodstawowy

łańcuchowy

0x08 graphic
PRZYROST WZGLĘDNY [%]

jednopodstawowy

łańcuchowy

obliczanie przeciętnej wartości przyrostu

ŚREDNI PRZYROST ABSOLUTNY

0x01 graphic
, gdzie:
lub

analiza szeregów przy pomocy indeksów indywidualnych (jednopodstawowych i łańcuchowych)

0x08 graphic

INDEKSY INDYWIDUALNE - wartość względna

jednopodstawowy

łańcuchowy

interpretacja:

jeśli i>100% - wszystko ponad 100 jest wzrostem (np. i=125% - nastąpił wzrost o 25%)
jeśli i<100% - wszystko co brakuje do 100 jest spadkiem (np. i=98% - nastąpił spadek o 2%)

PRZYKŁAD:

lata	wydatki Gd w mln zł	przyrost absolutny		przyrost względny		indeks
lata	wydatki Gd w mln zł			jedno-podstawowy	łańcuchowy	jedno-podstawowy	łańcuchowy	jedno-podstawowy	łańcuchowy
1995	334,196	0	─	0	─	100	─
1996	478,648	144,452	144,452	43,22	43,22	143,22	143,22
1997	639,818	305,622	161,170	91,45^[³^]	33,67	191,45	133,67
1998	800,082	465,886^[¹^]	160,264	139,40	25,05	239,40	125,05
1999	886,094	551,898	86,012^[²^]	165,14	10,75	265,14	110,75
2000	975,387	641,191	89,293	191,86	10,08^[⁴^]	291,86	110,08

^[¹^] w roku 98 w porównaniu z 95 wydatki wzrosły o 465,886 mln zł

^[²^] w roku 99 w porównaniu z 98 wydatki wzrosły o 86,012 mln zł

^[³^] w roku 97 w porównaniu z 95 wydatki wzrosły o 91,45%

^[⁴^] w roku 2000 w porównaniu z 99 wydatki wzrosły o 10,08%

ŚREDNIE TEMPO WZROSTU (PRZYROSTU)
:

gdzie:

lub 0x01 graphic

Zmiana indeksów:

jednopodstawowych na łańcuchowe

łańcuchowych na jednopodstawowe

analiza szeregów przy pomocy indeksów agregatowych (indeksy agregatowe wielkości absolutnych i wielkości stosunkowych)

Indeksy agregatowe wielkości absolutnych - stosowane, gdy mamy do czynienia z niejednorodnym zestawem towarów

p₀ - cena z okresu podstawowego

q₀ - ilość z okresu podstawowego

p_t - cena z okresu badanego

q_t - ilość z okresu badanego

- ilość

INDEKS WARTOŚCI

0x01 graphic

Jak zmieniła się wartość badanej grupy towarów w stosunku do roku podstawowego z powodu zmiany ceny i ilości; powyżej 100 - wzrost; brakuje do 100 - spadek

INDEKSY CEN		INDEKSY WARTOŚCI
jak zmieniła się wartość towarów w roku badanym w stosunku do podstawowego jeśli stabilizowaliśmy ilość na tym samym poziomie a zmieniała się cena jak zmieniła się wartość z powodu zmiany ceny przy stałej ilości q = const		jak zmieniła się wartość towarów w roku badanym w stosunku do podstawowego jeśli stabilizowaliśmy cenę na tym samym poziomie a zmieniała się ilość jak zmieniła się wartość z powodu zmiany ilości przy stałej cenie; p = const
Laspeyresa	Paaschego	Laspeyresa	Paaschego
stabilizuje ilość z okresu podstawowego	stabilizuje ilość z okresu badanego	stabilizuje cenę z okresu podstawowego	stabilizuje cenę z okresu badanego
ŚREDNI INDEKS FISHERA		ŚREDNI INDEKS FISHERA
średni wpływ ceny na wartość		średni wpływ ilości na wartość

Równość indeksowa

STATYSTYKA WYKŁADY

Utworzony przez Ania Marzec

1 szereg

2 szereg

Symetria normalna

Symetria spłaszczona

Symetria wysmukła

Asymetria zdecydowana lewostronna (ujemna)

Asymetria skrajna lewostronna (ujemna)

Asymetria umiarkowana lewostronna (ujemna)

Asymetria zdecydowana prawostronna (dodatnia)

Asymetria skrajna prawostronna (dodatnia)

Asymetria umiarkowana prawostronna (dodatnia)

Rozkład u-towy (siodłowy)

Rozkład równomierny

Rozkład bimodalny

Rozkład wielomodalny

Rozkład jednopunktowy

D Me

Rozkład dwupunktowy (dla cechy dwudzielnej)

10%

Me D

100%

10%

100%

krzywa koncentracji

linia równomiernego rozkładu = brak koncentracji

(
w%)_sk

Im dalej od przekątnej leży krzywa koncentracji tym większa koncentracja

III

D Me

Me D

asymetria lewostronna (ujemna)

asymetria prawostronna (dodatnia)

rozkład symetryczny

I rozkład spłaszczony = platokurtyczny

II rozkład wysmukły = leptokurtyczny

III rozkład spłaszczony jak rozkład normalny

-s

p.p.

x_i

n_i

x_i

40,5

k = 2

(dwie cechy)

skale pomiarowe

obie cechy są jakościowe

skale nominalne

cechy ilościowe i jakościowe wyrangowane

skale porządkowe

obie cechy są ilościowe

skala interwałowa i ilorazowa

cecha jakościowa i ilościowa

współczynniki korelacji

T - Czuprowa

Q - Kendalla (asocjacji)

C - Pearsona (kontyngencji)

są jeszcze 2 - nie zajmujemy się nimi

r_s - Spearmana

są jeszcze 2 - nie zajmujemy się nimi

r - Pearsona

jest jeszcze 1 - nie zajmujemy się nim

są 2 Pearsona:

r_bis i r_pbis

r=-0,9

r=0,6

r=0,4

x rośnie i y rośnie - korelacja prostoliniowa dodatnia
x rośnie y maleje - korelacja prostoliniowa ujemna
x rośnie y nie wykazuje wyraźnych zmian - korelacji brak
korelacja prostoliniowa ujemna ale słabsza niż w przypadku b) - im większy rozrzut pkt-ów tym słabsza korelacja
korelacja prostoliniowa dodatnia - słabsza niż w przypadku a)
korelacja prostoliniowa ujemna - silniejsza niż w d) słabsza niż w b)
korelacja prostoliniowa dodatnia - bardzo słaba
korelacja krzywoliniowa