STATYSTYKA
Wykładowca - dr Muzalewska
Statystyka - nauka o metodach badania zjawisk masowych
Zbiór nieskończoności _______________________________
Im zbór bardziej liczny tym prawidłowość wyraźniejsza
Zjawiska masowe - zbiorowość statystyczna lub populacja generalna - jest to zbiór jednorodnych elementów objętych badaniem statystycznym
Skład zbiorowości statystycznej :
jednostki statystyczne są to elementy wchodzące w skład zbioru
Jednostki statystyczne występują w dwóch rodzajach :
jednostki proste - są niepodzielnie, nie mogące utworzyć nowej
zbiorowości
jednostki złożone - są podzielne - mogące utworzyć nową zbiorowość
statystyczną ( np. województwa Polski w 2003r. -
można wyodrębnić np. miasta i powiaty )
Liczebność - N - jest to liczba jednostek wchodzących w skład
zbioru
CECHY - są to właściwości charakteryzujące jednostki badanej zbiorowości .
OKREŚLANIE PRAWIDŁOWOŚCI
( tylko dla cech zmiennych statystycznych )
Cechy stałe służą do dokładnego określania danej zbiorowości .
przykład :
pracownicy wg wynagrodzenia
____________________________________________________
____________________________________________________
społeczeństwo ubogie
___________________________________________________
społeczeństwo bogate
(x), (y), (z) itp. - zmienne , które można zmierzyć
wariant zmiennej - jest to odmiana zmiennej
zmienna płeć - kobieta lub mężczyzna
zmienna marka samochodu - fiat, mercedes, audi itp.
WARUNKI WYODREBNIANIA ZBIOROWOŚCI STATYSTYCZNEJ
Aby grupę osób, zwierząt lub przedmiotów lub zdarzeń można było nazwać zbiorowością statystyczną muszą być spełnione następujące warunki :
Zbiór musi być dostatecznie liczny ( liczebność określa prawo wielkich liczb )
Musi występować cecha stała w ujęciu rzeczowym , czasowym, przestrzennym ( trzeba określić kto lub co jest przedmiotem , kiedy i gdzie występuje )
Musi występować przynajmniej jedna cecha zmienna ( statystyczna) aby można było dla niej określić prawidłowości
Grupowanie statystyczne wg zmiennej jakościowej niemierzalnej
- grupowanie statystyczne polega na podziale jednostek statystycznych wg przyjętego
kryterium zmienności ( zmienna jakościowa)
grupując jednostki wg zmiennej jakościowej , budujemy schemat klasyfikacyjny, który jest wyszczególnieniem wariantów zmiennej jakościowej w oparciu o zebrany materiał statystyczny oraz o definicję zmiennej.
Schemat klasyfikacyjny zmiennej jakościowej musi spełniać następujące warunki :
przejrzystości - nazwy wariantów muszą być podane w sposób czytelny i zrozumiały dla odbiorcy,
rozłącznego podziału - nazwy wariantów w schemacie klasyfikacyjnym muszą wykluczać się wzajemnie
muszą wykluczać się wzajemnie
=
musi występować brak stosunku zamienności pojęć
W schemacie klasyfikacyjnym nie może mieć miejsca stosunek nadrzędności
i podrzędności
np. A- wojewoda
B - urzędnik
tzn. wojewoda jest urzędnikiem, ale nie każdy urzędnik jest wojewodą
wyczerpującego podziału - wszystkie jednostki budowanej zbiorowości muszą mieścić się w podanym schemacie klasyfikacyjnym . Jeśli nie mieszczą się w wymienionych nazwach należy wprowadzić wariant tzw. „otwarty” np. „inne” , „pozostałe”
Przykład tabelaryczny
pracownicy sp jawnej „KOGA” w Poznaniu wg wykształcenia na dzień 30.06.2003r.
wykształcenie |
pracowników |
Odsetek pracowników |
Podstawowe |
8 |
10,2 |
Zasadnicze zawodowe |
12 |
15,4 |
Średnie techniczne* |
7 |
|
Średnie |
29 |
46,2 |
Wyższe zawodowe* |
13 |
|
Wyższe |
9 |
28,2 |
ogółem |
78 |
100 = suma musi być równa 100!!! |
* musimy wykreślić te wiersze gdyż nie spełniają one warunku rozłączności podziału - wykształcenie np. wyższe zawodowe zawiera się w zawodowym
Pod tabelą umieszczamy :
Źródło : dane umowne , ćwiczeniowe np. badania własne
CHARAKTERYSTYKA PRZEDMIOTU BADANIA :
zbiorowość statystyczna - pracownicy sp. jawnej „KOGA” stan na dzień 30.06.2003r.
jednostka statystyczna - pracownik - jednostka prosta
liczebność zbioru - N = liczba pracowników = 78
suma liczebności cząstkowych ni
„i” - numer wariantu od ni do nk
„k” - ostatni numer wariantu
na liczebność zbioru złożyła się suma ∑ liczebności cząstkowych
k
N = ∑ ni
i=1
zmienna - wykształcenie pracowników ( zmienna jakościowa - porządkowa-rangowa)
* spełniony warunek - rozłącznego podziału - po wprowadzonej korekcie
Wskaźnik struktury :
tj. Odsetka liczebności
ni
Ws = N x 100 %
Graficzna prezentacja zmiennej jakościowej :
Wykres kołowy
legenda : N = 78 - 360o
ni = 8 - x
x = 37%
podstawowe 37%
zawodowe 55%
średnie 166%
wyższe -
GRUPOWANIE STATYSTYCZNE WG ZMIENNEJ ILOŚCIOWEJ - MIERZALNEJ
część logiczna - celem jest budowa schematu klasyfikacyjnego zmiennej ilościowej (x)
Określenie zbiorowości statystycznej oraz jednostki
Określenie cechy zmiennej ilościowej za kryterium klasyfikacji oraz wskazanie postaci liczbowej
Określenie liczebności zbioru
Obliczenie obszaru zmienności ( rozstęp) R = xmax - xmin
Wybór metody grupowania statystycznego :
metoda grupowania WARIANCYJNEGO ( wariacyjna) - polega na podziale wartości zmiennych na równe co do wielkości przedziały klasowe dołem i górą zamknięte , w oparciu o przesłanki , w oparciu o przesłanki formalno-matematyczne
np. koszty administracyjne 10-13 tys. zł
14-17 tys. zł
18-21 tys. zł
22-25 tys. zł ( co 4 tys. zł)
klasy te są zamknięte górą i dołem oraz są równej wielkości .
metoda grupowania TYPOLOGICZNEGO - polega na podziale wartości zmiennych na nierówne typowe klasy w oparciu o przesłanki społeczno-ekonomiczne
np. wiek ludności (x)
poniżej 18 lat - wiek przedprodukcyjny
18 - 65 lat - wiek produkcyjny
65 lat i więcej - wiek poprodukcyjny
Pojęcia i rodzaje przedziałów klasowych oraz zasady ich budowy
przedział klasowy - ( klasa) jest to liczbowa postać wariantów zmiennej ilościowej ( np. 18-65 )
Rodzaje klas :
a)
a.1. wielowariantowe - buduje się dla zmiennej ilościowej ciągłej oraz dla
zmiennej skokowej o bardzo dużym rozstępie
a.2. jednowariantowe - buduje się dla zmiennej ilościowej skokowej o małym
rozstępie
np. ilość popełnionych błędów w teście :
1.............
2.............
3............. w jednej klasie tylko jeden wariant
R= 3-1 = 2
a.3. mieszane - buduje się dla zmiennej ilościowej skokowej o dużym rozstępie
np. (x) - absencja chorobowa 2,3,4,5dni, 6-15dni,16-40 dni - przedziały
mieszane - obok przedziałów jednowartościowych przedziały o jakimś rozstępie
b) pojęcia związane z przedziałem klasowym wielowariantowym :
b.1. dolna granica klasy xDi
i - numer klasy = 1 .....k ( aż po „k-tą” klasę )
jest to zmienna, która rozpoczyna klasę
b.2. górna granica klasy xGi
jest to zmienna, która kończy , zamyka klasę
b.3. środek klasy x'i
jest to zmienna, która znajduje się dokładnie w środku klasy
b.4. wielkość klasy Ci
jest to rozpiętość między granicami klas ( nie jest to różnica tylko
rozpiętość)
c) zasady budowy przedziałów klasowych wielowariantowych :
c.1. zasada statystyczna : tworzy się granice wynikowe, które cechują się tym ,
że górna granica przedziału klasowego poprzedniego nie jest taka sama jak
dolna granica przedziału następnego . Granice wynikowe służą do
tabelarycznego przedstawiania danych
Obliczanie środka klasy X`i
i wielkości klasy Ci dla zmiennej ilościowej ciągłej
XDi + XDi+1
X'i = ____________
2
Ci =XDi+1- XDi
Lp |
|
X'i |
Ci |
1 |
10-13 |
12 |
4 |
2 |
14-17 |
16 |
4 |
3 |
18-21 |
20 |
4 |
4 |
22-25 |
24 |
4 |
Obliczenie : X'i Ci
1 (10+14 ):2=12 14-10=4
2 (14+18 ):2=16 18-14=4
3 (18+22 ):2=20 22-18=4
4 (22+26 ):2=24 26-22=4
Obliczanie środka klasy Xi'
i wielkości klasy Ci dla zmiennej ilościowej skokowej
XDi + XGi
X'i = ____________
2
Ci =XDi+1- XD
Lp |
Liczba zatr. pracowników |
X'i |
Ci |
1 |
1-7 |
4 |
7 |
2 |
8-14 |
11 |
7 |
3 |
15-21 |
18 |
7 |
4 |
22-28 |
25 |
7 |
Obliczenie : X'i Ci
1 (7+1 ):2=4 8-1=7
2 (8+14 ):2=11 15-8=7
3 (15+21 ):2=18 22-15=7
4 (22+28 ):2=25 29-22=7
c.2. zasada matematyczna - tworzy granice dokładne ( matematyczne) , które cechują się tym, że górna granica przedziału klasowego poprzedniego musi być taka sama jak dolna granice przedziału następnego .
Granice dokładne służą do graficznej prezentacji wyniku grupowania oraz do analizy statystycznej.
Obliczanie środka klasy Xi'
i wielkości klasy Ci dla zmiennej ilościowej skokowej i ciągłej
XDi + XGi
X'i = ____________
2
Ci =XGi- XDi
Lp |
Koszty adm.w tys. zł |
X'i |
Ci |
1 |
10-14 |
12 |
4 |
2 |
14-18 |
16 |
4 |
3 |
18-22 |
20 |
4 |
4 |
22-26 |
24 |
4 |
Obliczenie : X'i Ci
1 (10+14 ):2=12 14-10=4
2 (14+18 ):2=16 18-14=4
3 (18+22 ):2=20 22-18=4
4 (22+26 ):2=25 26-22=4
7 .Określenie liczby klas „k” oraz obliczenie wielkości klasy Ci ( przedziały klasowe
jeszcze nie zostały utworzone)
Liczba klas k - zależy od liczebności zbioru N oraz od żądanej dokładności wyników
opracowania
4 < k < 5 log N
liczba klas powinna być większa lub co najmniej równa 4 ( minimalna liczba klas dla ustalenia szeregu statystycznego) i mniejsza lub równa 5 logarytmów dziesiętnych liczebności zbioru K = N
R ( rozstęp)
Ci = ______
k ( zaproponowana liczba klas)
Obliczenie dolnej granicy pierwszego przedziału klasowego X Di
Xmin > XDi > Xmin - ½ Ci
Np. xmin = 10
Ci = 4
10-1/2 x4 < XDi < 10
8 < XDi< 10
XDi = 8,9,10
Wykorzystując ustalenia i obliczenia punktów 1-8 budujemy przedziały klasowe tj. schemat klasyfikacyjny zmiennej ilościowej
II . CZĘŚĆ TECHNICZNA :
Budowa makiety tablicy roboczej w oparciu o zbudowany schemat klasyfikacyjny zmiennej ilościowej .
Zaliczanie i zliczanie jednostek w poszczególnych przedziałach klasowych
Budowa tablicy wynikowej tj. szeregu rozdzielczego o cesze ilościowej
Graficzna prezentacja wyników grupowania za pomocą histogramu i diagramów
y
0 5 10 15 20 x
wykres słupkowy
Budowę szeregu akceptujemy wówczas, gdy rozkład liczebności cząstkowych n zbliżony jest do rozkładu normalnego tzn. posiada jedno maximum zlokalizowane mniej więcej w środku szeregu .
Akceptujemy
Nie akceptujemy gdy :
występują dwa lub więcej maxima obok siebie
wartość max znajduje się w pierwszej lub w ostatniej klasie - wykres wygląda następująco :
K, Ci , XDi - są to elementy , które mogą ulegać zmianie , aby uzyskać rozkład zbliżony do
normalnego
SZEREGI STATYSTYCZNE I ICH KLASYFIKACJA
Z PUNKTU WIDZENIA BUDOWY
Szereg statystyczny - zawiera informacje o jednej zbiorowości statystycznej wg jednego kryterium zmienności
Szeregi statystyczne wg budowy
szereg statystyczny prosty szereg statystyczny rozdzielczy
( szczegółowy, wyliczający) ( strukturalny )
- taki, w którym kolejno wyszczególnione - taki, który powstał w wyniku grupowania
są wszystkie jednostki zbioru od jednostki statystycznego , przedstawia strukturę zbioru
pierwszej po ostatnią n-tą
np. 1
2
3
.
.
.
n-ta
jakościowy ilościowy jakościowy ilościowy
- każdej jednostce - każdej jednostce
statyst. przyporząd- statyst. przyporządko-
kowany jest jeden wany jest wariant
wariant zmiennej zmiennej ilościowej
jakościowej
np. 1 - LO 1.- 28 lat jednowariantowy mieszany
2 - Technikum 2.- 32 lata
3 - LO 3 - 18 lat
. . wielowariantowy
. .
n-ta - LO n-ta - 19 lat
wariancyjny typologiczny
- zbudowany metodą grupowania - zbudowany metodą
wariancyjnego grupowania typolo-
gicznego
w oparciu o zasadę w oparciu o zasadę w oparciu o zasadę w oparciu o zasadę
matematyczną statystyczną matematyczną statystyczną
Przykłady szeregów statystycznych w oparciu o budowę
Przyklad 1.
Banki w Szczecinie wg ilości oddziałów na dzień 1 .09.2003r.
Banki |
ilość oddziałów Xi |
1 2 3 4 5 6 |
2 4 5 3 2 2 |
źródło : dane ćwiczeniowe
Charakterystyka przedmiotu badania :
zbiorowość statystyczna - banki w Szczecinie stan nadzień 01.09.2003r.
jednostka statystyczna - bank - jednostka złożona
liczebność zbioru N=6
zmienna xi - ilość oddziałów - zmienna ilościowa skokowa
budowa szeregu - szereg prosty ilościowy
Przykład 2
Banki w Warszawie wg ilości oddziałów na dzień 30.06.2003r.
ilość oddziałów xi |
liczba banków ni |
skumulowane liczebności ni |
1 2 3 4 5 6 |
2 4 5 3 2 2 |
2 6 11 14 16 18 |
ogółem : |
18 |
|
źródło : dane ćwiczeniowe
Charakterystyka przedmiotu badania :
zbiorowość statystyczna - banki w Warszawie na dzień 30.06.2003r.
jednostka statystyczna - bank - jednostka złożona - ni
liczebność zbioru - N = 18
zmienna - xi - ilość oddziałów - zmienna ilościowa skokowa
budowa szeregu - szereg rozdzielczy ilościowy jednowariantowy
Przykład 3.
Nakłady inwestycyjne spółek jawnych powiatu poznańskiego w pierwszym półroczu 2003r.
nakłady inwestycyjne w tys. zł xi |
odsetki spółek jawnych ni |
środek klasy
xi' |
wielkość klasy
ci |
skumulowane liczebności ni |
1 |
2 |
3 |
4 |
5 |
31 - 36 37 - 42 43 - 48 49 - 54 55 - 60 |
8 12 30 35 15 |
34 40 46 52 58 |
6 6 6 6 6 |
8 20 50 85 100 |
ogółem : |
N = 100 |
|
|
|
źródło : dane ćwiczeniowe
Polecenie :
Przeprowadzić charakterystykę przedmiotu badania
Obliczyć środki klas i wielkości klas
skumulować liczebności cząstkowe i przedstawić je graficznie.
ad. 1.
Charakterystyka przedmiotu badania :
zbiorowość statystyczna - spółki jawne powiatu poznańskiego w I półroczu 2003r.
jednostka statystyczna - spółka jawna - jednostka złożona
liczebność zbioru N= 100
zmienna - nakłady inwestycyjne - zmienna ilościowa ciągła
budowa szeregu - szereg rozdzielczy ilościowy wielowariantowy wariancyjny grupowany w oparciu o zasadę statystyczną ( tzn. dolna granica przedziału następnego jest większa od górnej granicy przedziału poprzedzającego - patrz rubryka 1 tabeli)
ad 2.
Obliczenia środków klas dla zmiennej ilościowej ciągłej :
XDi + XDi+1
Xi'= -----------------
2
środek klasy dla zmiennej ilościowej ciągłej = suma dolnej granicy umownego przedziału i dolnej granicy przedziału następnego - podzielona przez dwa
(31 + 37 ) : 2 = 34
(37 + 43) : 2 = 40
( 43 + 49) : 2 = 46
( 49 + 55) : 2 = 52
( 55 + 61*) : 2 = 58
* 61 - dolna granica następnego przedziału umownie otwartego
Obliczenia wielkości klas dla zmiennej ilościowej ciągłej :
Ci = XDi+1 - XDi
wielkość klasy dla zmiennej ilościowej ciągłej = różnicy dolnej granicy umownego przedziału i dolnej granicy przedziału go poprzedzającego
37 - 31 = 6
43-37 = 6
49-43 = 6
55 - 49 = 6
61* - 55 = 6
* 61 - dolna granica następnego przedziału umownie otwartego
ad 3. Graficzne przedstawienie skumulowanych odsetek sp. jawnych
l. skum
odsetek
sp. jawn. 100
85
50
20
8
0 31 37 43 55 61 nakłady inwestycyjne
źródło : tabela wynikowa
uwagi techniczne :
na osi OX - umownie przerywamy przedział 0 - 31
na osi OX - oznaczamy dolne granice przedziałów , jako ostatnia oznaczamy dolną granicę przedziału umownie otwartego tj. 61
punkty zaznaczamy na końcach przedziałów tj. 37 - 8
43- 20
55 - 50 itd.
3. punkty łączymy krzywą
Przykład 4.
Pracownicy sp. jawnej w miejscowości A wg stażu pracy na koniec 2003r.
staż pracy w latach xi |
liczba prac. ni |
wielkość klasy ci |
uwagi |
0 - 5 |
3 |
5 |
zasada matematyczna 5-0=5 |
5 - 12 |
8 |
8 |
zasada statystyczna 13 - 5 = 8 |
13 - 20 |
15 |
7 |
zasada matematyczna 20 - 13 = 7 |
20 - 30 |
6 |
10 |
zasada matematyczna 30 - 20 = 10 |
30 i więcej |
4 |
|
wielkości klasy nie można obliczyć , gdyż jest to przedział górą otwarty |
ogółem : |
36 |
|
|
źródło : dane ćwiczeniowe
Polecenie : Przeprowadzić charakterystykę przedmiotu badania
zbiorowość statystyczna - pracownicy spółki jawnej w miejscowości A na koniec 2003r.
jednostka statystyczna - pracownik - jednostka prosta
liczebność zbioru - N= 36
zmienna - staż pracy - zmienna ilościowa ciągła ( staż pracy stale wzrasta )
budowa szeregu - szereg statystyczny rozdzielczy ilościowy wielowariantowy typologiczny ( klasy mieszane tj. budowane w oparciu o zasadę matematyczną i zasadę statystyczną - trzeba obliczyć wielkości klas zgodnie z zasadą w oparciu której była one budowane )
ci - dla zasady matematycznej dla zmiennej ilościowej ciągłej
Ci = XGi - XDi
ci - dla zasady statystycznej dla zmiennej ilościowej ciągłej
Ci= XDi+1 - XDi
ANALIZA STRUKTURY :
07.03.2004 - wykład
Analiza struktury - dotyczy jednej zbiorowości statystycznej wg jednego kryterium zmienności
Szeregi proste :
- analiza przeciętna
- analiza dyspersji ( zmienności lub zróżnicowania)
- rozkład normalny
___________________________________________
analiza rozkładu ( asymetrii) - o ile nasz rozkład różni się od rozkładu normalnego
Szeregi rozdzielcze :
- analiza przeciętna
- analiza dyspersji
- analiza rozkładu
Analiza struktury szeregów prostych
Miary analizy struktury stosowane w szeregach prostych ( miary proste )
zakres analizy |
szeregi proste ilościowe |
analiza przeciętna |
średnie klasyczne ___ X , Ch przeciętne pozycyjne
Me, D |
analiza dyspersji ( zmienności ) |
miary absolutne R , s miary względne V |
średnie klasyczne - obliczane są w oparciu o wszystkie wartości zmienne badanej populacji
( jest ich bardzo wiele)
___
a) X - średnia arytmetyczna ( X „ z daszkiem”)
informuje o wartości średniej badanej populacji
N
∑ xi
___ i=1....n
X = --------------
N N - liczebność zbioru
b) Ch - średnia chronologiczna
- stosowana do określania poziomu średniego jednostek czasowych
1/2 x1+ x2+ .........+1/2 xn
Ch = --------------------------------
N - 1
Przeciętne pozycyjne - uwzględniają wartości zmienne, stojące na określonych pozycjach , miejscach
a) Me - mediana - jest to ta zmienna, która znajduje się na pozycji środkowej , znajduje się w środku
_________ Me___________
wartości < Me < wartości
mniejsze/równe większe/równe
Aby wyznaczyć medianę w szeregach prostych należy uporządkować rosnąco lub malejąco wartości zmienne a następnie wyznaczyć numer ( miejsce) mediany
- w szeregu o nieparzystej liczbie jednostek znajduje się tylko jedna zmienna - ma tylko 1 numer
N + 1
Nr mediany Nr Me = -------
2
Medianą będzie ta wartość zmienna x, która znajduje się w szeregu uporządkowanym na tym właśnie miejscu
Me = X N+1
2
- w szeregu o parzystej liczbie jednostek w środku znajdują się dwie zmienne - wyznaczamy dwa numery
N
Nr 1 i Nr 2 mediany Nr 1 Me = ------
2
N
Nr 2 Me = ------ + 1
2
Mediana - to średnia arytmetyczna zmiennych z miejsc Nr1 i Nr2
XN + X N +1
2 2
Me =----------------------
2
W szeregu uporządkowanym parzystym - średnia arytmetyczna dwóch zmiennych , które są dokładnie w pierwszym ( Nr 1 ) i drugim ( Nr 2) miejscu
b) D - dominanta - modalna - jest to ta zmienna , która znajduje się na pozycji dominującej tzn. zmienna , która jest najczęściej najliczniej spotykana
MIARY ABSOLUTNE
R = X max - X min rozstęp
b) s - odchylenie standardowe
- najdokładniejsza miara
- określa absolutne zróżnicowanie wartości zmiennych ( empirycznych)
w porównaniu ze średnią arytmetyczną
- ma zawsze wartość dodatnią
N
∑ xi2
i=1....n __
s = -------------- - ( x )2
N
MIARY WZGLĘDNE
V - współczynnik zmienności
s
V = ------- x 100 %
X
V - współczynnik zmienności informuje o (%) procentowym zróżnicowaniu wartości zmiennych w stosunku do średniej arytmetycznej oraz o stopniu jednorodności badanej zbiorowości
V < 35 % - populacja jest jednorodna
35 % < V < 65 % - populacja jest średniojednorodna
V > 65 % - populacja nie jest jednorodna
Przykłady na analizę struktury w szeregach prostych :
Przykład 1.
Przestępstwa drogowe w 2002r. w podregionach województwa wielkopolskiego
podregiony |
liczba przestępstw drogowych - xi |
uporządkowane xi |
( xi)2 |
pilski poznański kaliski koniński Miasto Poznań |
206 612 431 222 336 |
206 222 336=Me 431 612 |
42 436 374 544 185 761 49 284 112 896 |
∑ |
1 807 |
x |
764 921 |
Przeprowadzić analizę kompleksową liczby przestępstw drogowych w podregionach województwa wielkopolskiego
Charakterystyka przedmiotu analizy :
zbiorowość statystyczna - podregiony województwa wielkopolskiego w 2002r.
jednostka statystyczna - podregion - jednostka złożona
liczebność zbioru : n = 5
zmienna - liczba przestępstw drogowych - jest to zmienna ilościowa skokowa
budowa szeregu - jest to szereg prosty ilościowy
cel analizy : analiza kompleksowa liczby przestępstw drogowych w podregionach woj.
wielkopolskiego
cele szczegółowe -
Analiza przeciętna liczby przestępstw drogowych w woj. wielkopolskim
Analiza dyspersji - zróżnicowania liczby przestępstw drogowych w wielkopolsce
Miary analizy :
ad 1. X, Me, D
ad 2. s, V
ad. 1 .
N
∑ xi
___ i=1....n
X = --------------
N
__ 1807
X = -------- = 361,4 = 361
5
komentarz : średnio w podregionie woj. wielkopolskiego w 2002r. popełniono
361 przestępstw drogowych
N + 1
Nr Me = -------
2
Nr Me =6/2=3
tj. Me = x3= 336
komentarz : w połowie podregionów woj. wielkopolskiego popełniono 336 przestępstw
drogowych i mniej, a w połowie podregionów woj. wielkopolskiego popełniono
336 przestępstw i więcej.
D - dominanty wyznaczyć nie można , ponieważ żadna wartość zmiennej nie wystąpiła więcej niż 1 raz.
Ad 2.
s
N
∑ xi2
i=1....n __
s = ------------ - ( x )2
N
764 921
S = -------------- - ( 361,4 )2 = 149,58 ( tylko dla celów interpretacji
5 możemy tę liczbę zaokrąglić do 150)
komentarz : liczba przestępstw drogowych popełnionych w podregionach województwa wielkopolskiego w 2002 r. różniła się średnio od średniej liczby przestępstw drogowych tj. średniej arytmetycznej o 150 przestępstw drogowych
V
s
V = ------- x 100 %
X
149,58
V = ------- x 100 % = 41,39 % 35% < 41,39 < 65%
361
komentarz : Podregiony województwa wielkopolskiego ze względu na liczbę przestępstw drogowych stanowiły populację średniojednorodną , ponieważ procentowe zróżnicowanie liczby przestępstw drogowych w stosunku do średniej liczby przestępstw drogowych wynosiło 41,39%
Przykład 2
Produkcja w spółce jawnej KORA w koninie w latach 1993-1999 kształtowała się następująco :
lata |
produkcja w mln ton |
1993 1994 1995 1996 1997 1998 1999 |
38 34 31 33 36 40 42 |
Obliczyć średnią produkcję w roku w badanej spółce
Charakterystyka przedmiotu analizy :
zbiorowość statystyczna - lata 1993-1999 w spółce KORA w Koninie
jednostka statystyczna - 1 rok - jednostka złożona
liczebność zbioru N= 7
zmienna - produkcja w mln ton - zmienna ilościowa ciągła
budowa szeregu - szereg prosty ilościowy
cel analizy - obliczenie średniej rocznej produkcji w badanej spółce za lata 1993-99
miara analizy - jednostki są jednostkami czasowymi
Ch - średnia chronologiczna
1/2 x1+ x2+ .........+1/2 xn
Ch = --------------------------------
N - 1
˝ x 38+34+31+33+36+40+1/2x42
Ch= ----------------------------------------- = 35,67 mln t
7 - 1
komentarz : średnia roczna wielkość produkcji w badanej spółce w latach 1993-99 wynosiła 35,67 mln t
Przykład 3
Gminy północne woj.wielkopolskiego wg miesięcznych wydatków na kulturę w tys. zł w styczniu 2000r.
gminy |
miesięczne wydatki na kulturę w tys.zł - xi |
uporządkowane xi |
A B C D E F G H |
18 20 17 21 15 17 19 17 |
15 17 17 D=17 17 18 19 20 21 |
polecenie :
Przeprowadzić analizę przeciętną za pomocą miar przeciętnych pozycyjnych w zakresie miesięcznych wydatków na kulturę
Charakterystyka przedmiotu analizy :
zbiorowość statystyczna - gminy północne województwa wielkopolskiego w 2000r.
jednostka statystyczna - gmina - jednostka złożona
liczebność zbioru N= 8
zmienna - miesięczne wydatki na kulturę - zmienna ilościowa ciągła xi
budowa szeregu - szereg prosty ilościowy
cel analizy : określenie poziomu przeciętnego miesięcznych wydatków na kulturę
miary analizy : Me,
Me N 8
Nr 1 i Nr 2 mediany Nr 1 Me = ----= --- = 4
2 2
N 8
Nr 2 Me = ------ + 1= ------ +1= 5
2
x4 + x5 17 +18
Me = ------------------ = ----------- = 17,5 tys. zł
2
komentarz : w połowie gmina północnych województwa wielkopolskiego wydatki na kulturę w styczniu 200r. wynosiły 17,5 zł i mniej, a połowie gmin 17,5 tys. zł i więcej
D = 17 tys. zł
komentarz : dominującą kwotą przeznaczoną na kulturę w gminach północnych woj. wielkopolskiego to 17 tys. zł ( tylko jedna wartość może dominować !!!)
ANALIZA STRUKTURY SZEREGÓW ROZDZIELCZYCH
Miary analizy struktury stosowane w szeregach rozdzielczych ( miary ważone)
Zakres analizy |
Szeregi rozdzielcze ilościowe |
|
|
|
|
analiza przeciętna |
średnie klasyczne ____ X - ważona |
średnie klasyczne
------------------* |
|
przeciętne pozycyjne Me, Q1, Q3, D |
przeciętne pozycyjne # Me, Q1,Q3 , D* |
analiza dyspersji ( zmienności, zróżnicowania) |
miary absolutne s |
miary absolutne Q |
|
miary względne s V = ------ x 100% X |
miary względne Q V = --------- x 100% Me |
analiza rozkładu (asymetrii) |
__ X - D As = ----------- S |
Q1 + Q3 - 2 Me As = ------------------------ 2 Q |
* żadna
X - średnia arytmetyczna ważona
wagami są odpowiadające liczebności cząstkowe , które wskazują ile razy dana wartość zmienna się powtórzyła
xi |
wagi n |
x1 x2 . . . xK |
n1 n2 . . . nK |
i = 1, ..... k
wartość zmienna x1 powtórzyła się n1 razy
średnia arytmetyczna ważona :
k
∑ xi . ni
i=1....k
X = --------------
N
N
Me - mediana
¾ ¼
½ Me ½
______ _______________________________
1/4 3/4
Mediana należy do grupy miar zwartych :
kwartyle ( z łac. kwarta - ¼)
Q1- kwartyl I - dzieli zbiór na ¼ i ¾ ¼ < Q1 < ¾
Q3 - kwartyl III - znajduje się na pozycji ¾ ¾ < Q3 < ¼
decyl -dzieli zbiór na części dziesiąte
centyl - dzieli zbiór na części setne
Aby wyznaczyć medianę i kwartyle w szeregu rozdzielczym należy skumulować liczebności cząstkowe a następnie wyznaczyć pozycję parametrów
N
pozycja Q1 = -------
4
N
pozycja Me = -----
2
3N
pozycja Q3= ------
4
nie ma w tym szeregu znaczenia czy N jest parzyste czy nie
*W szeregu rozdzielczym ilościowym z przedziałami jednowartościowymi
medianą Me i Q1, Q3 kwartylami są te wartości zmienne, które odpowiadają skumulowanym liczebnościom zawierającym pozycję parametrów
*W szeregu rozdzielczym ilościowym wielowariantowym wariancyjnym
medianę Me i Q1, Q3 kwartyle należy oszacować wzorami interpolacynymi szacunkowymi
N - skumulowana liczebność n -1
2
Me = XDo + ------------------------------------------------------------------------- x Co
( lub XDi- dolna no
granica przedziału mediany)
skumulowana liczebność n -1
no - liczebność przedziału mediany
Do - dolna granica przedziału mediany
N
tj. pozycja mediany
skumulowana liczebność poprzedzająca przedział mediany
no - liczebność przedziału mediany
co- wielkość przedziału mediany
Wzór interpolacyjny na Q1 i Q3
N - n-1,1 ( tj. skumulowaną liczebność poprzedzającą przedział klasowy,
4 w którym znajduje się Q1)
Q1= XD1 + ---------------------------------------------------------------- . C1
n1
3 N - n-1,3 ( tj. skumulowaną liczebność poprzedzającą przedział klasowy,
4 w którym znajduje się Q3)
Q3= XD3 + ---------------------------------------------------------------- . C3
n1
Graficzne wyznaczenie mediany i kwartyli
Aby wyznaczyć graficznie medianę i kwartyle należy sporządzić wykres skumulowanych liczebności :
skum.
ni
40
30 -------------------------------------------
20 ---------------------------
10------------
0 Q1 4 Me 8 Q3 12 16 x
N 40
poz. Me = ---- = -------= 20
2
N 40
poz. Q1 = ---- = -------= 10
4 4
3 N 3 x 40
poz. Q3 = ---- = -------= 30
4 4
D - dominanta - w szeregu rozdzielczym ilościowym jednowariantowym dominantą jest ta wartość zmienna , która powtórzyła się w zbiorowości najwięcej razy tzn. odpowiada największej liczebności cząstkowej.
- w szeregu rozdzielczym ilościowym z przedziałami wielowariantowymi dominantę należy oszacować wzorem interpolacyjnym ( szacunkowym) :
no - n -1
D = XDo + ----------------------------- . Co
( no - n1 ) + ( no - n +1)
XDo - dolna granica przedziału dominującego
no - liczebność przedziału dominującego
n -1 - liczebność przedziału poprzedzającego przedział dominujący
n +1 - liczebność przedziału następnego po przedziale dominującym
co - wielkość przedziału dominującego
Dominantę można wyznaczyć graficznie
Graficzne wyznaczanie dominanty
n
x
D
n - liczebności cząstkowe
najwyższy słupek - słupek dominujący
z jego wierzchołków wyprowadzamy przekątne do wierzchołków sąsiadujących - punkt ich przecięcia - prostopadła do osi x - UWAGA !!! - dominanta znajduje się na osi x ( to jest wartość zmiennej na osi X)
ANALIZA DYSPERSJI
Miary absolutne
s - odchylenie standardowe ważone
k
∑ x12 . n1
i = 1 ----
s = --------------------- - ( X) 2
N
Miary względne
s
V = ----- . 100 % ( wzór znajduje się też w tablicy )
X
Analiza rozkładu asymetrii
As - średnia asymetryczna
-
W rozkładzie normalnym średnia arytmetyczna = dominanta = mediana
As= Me = D
As = 0 jeśli nie ma symetrii
As < 0 ( ujemny)
Me
- X < D
rozkład lewostronny - po lewej stronie znajduje się większa część powierzchni pola
As > 0 ( dodatni )
Me
- D < X
- rozkład prawostronny - po prawej stronie większa część powierzchni po prawej stronie
# dominantę w szeregach rozdzielczych ilościowych z przedziałami wielowariantowymi typologicznymi i mieszanymi stosujemy wówczas, gdy wielkość przedziału dominującego i dwóch sąsiadujących jest tej samej wielkości
x1 |
ni |
|
5-10 |
3 |
c-1 = 6 |
11-16 |
10 |
co= 6 |
17-22 |
5 |
c+1= 6 |
23 i więcej |
4 |
|
11- 16 przedział dominujący - można wyznaczyć dominantę
x1 |
ni |
|
1-5 |
1 |
c-1 = 7 |
6-12 |
3 |
co= 3 |
13-15 |
4 |
c+1= ? |
16 i powyżej |
2 |
|
13-15 przedział dominujący - dominanty nie można wyznaczyć
Miary absolutne
Q - odchylenie ćwiartkowe
-informuje o przeciętnym zróżnicowaniu wartości zmiennych w porównaniu z medianą tj. wartością środkową
Q3 - Q1
Q =
2
Miary względne
Q
V = --------- . 100 %
Me
Analiza rozkładu
Q1 + Q2 - 2 Me
As = ----------------------
2Q
Przykłady na analizę struktury w szeregach rozdzielczych
Przykład I
Biblioteki w powiecie złotowskim z podziałem na gminy wg stanu na dzień 30.09.2003r.
Liczba xi bibliotek |
odsetek gmin w % ni |
Xi . ni |
skumulowane ni |
Xi2 |
Xi2 . ni |
3 |
8 |
24 |
8 |
9 |
72 |
4=Q1 |
23 |
92 |
31 |
16 |
368 |
D=5=Me |
34 |
170 |
65 |
25 |
850 |
6=Q3 |
21 |
126 |
86 |
36 |
756 |
7 |
14 |
98 |
100 |
49 |
686 |
Ogółem |
100=N |
510 |
x |
x |
2732 |
Przeprowadzić analizę kompleksową liczby bibliotek w gminach powiatu złotowskiego na dzień 30.09.2003r.
Charakterystyka :
zbiorowość statystyczna - Gminy powiatu złotowskiego na dzień 30.09.2003r.
jednostka statystyczna - Gmina - jednostka złożona- liczebność zbioru N = 100
zmienna - liczba bibliotek - zmienne ilościowa skokowa
budowa szeregu - jest to szereg rozdzielczy ilościowy jednowariantowy ( ponieważ w jednej
klasie - tylko jeden wariant)
cel analizy - analiza kompleksowa liczby bibliotek w gminach powiatu złotowskiego
cel szczegółowy analizy :
analiza przeciętna liczby bibliotek w gminach powiatu złotowskiego
analiza dyspersji - zróżnicowania liczby bibliotek w gminach powiatu złotowskiego
analiza rozkładu gmin wg liczby bibliotek
Miary analizy :
__
X - średnia arytmetyczna ważona
ad.1 - Me, Q1 , Q3 , D
ad 2 - s V
ad. 3 - As
___
ad1. X
k
∑ xi . ni
i=1....k 510
X = -------------- = -------- = 5,1 ( zmienna skokowa do interpretacji można ja zaokrąglić)
N 100
komentarz : średnio w gminach powiatu złotowskiego było 5 bibliotek ( stan na dzień
30.09.2004r)
Me
N 100 (sprawdzamy w skumulowanych liczebnościach i przyrównujemy do
Me = ---- = ----- = 50 wartości Xi)
2 2 Me = 5
komentarz : W połowie gmin powiatu złotowskiego było 5 bibliotek i mniej , a w połowie
gmin 5 bibliotek i więcej
Q1
N 100 ( lokalizujemy w skumulowanych liczebnościach
poz. Q1 = ---- = -------= 20 i przyrównujemy do wartości Xi)
4
Q1= 4 biblioteki
komentarz : W jednej czwartej gmin powiatu złotowskiego były 4 biblioteki i mniej , a w ¾ gmin były 4 biblioteki i więcej
3 N 3 x 100
poz. Q3 = ---- = -------= 75 ( postępujemy j.w.)
4
Q3 = 6 bibliotek
komentarz : W ¾ gmin powiatu złotowskiego było 6 i mniej bibliotek ,a w ¼ gmin było 6 bibliotek i więcej
D
( sprawdzić w tabeli - rubryka liczebności cząstkowych )
Najwięcej razy powtórzyło się 5 bibliotek
D = 5
komentarz : Najwięcej razy w gminach powiatu złotowskiego było 5 bibliotek
ANALIZA DYSPERSJI :
s
k
∑ x12 . n1
i = 1 ----
s = --------------------- - ( X) 2
N
2732
s = --------------------- - ( 5,1) 2 = 1,14 bibl. ( zmienna skokowa do interpretacji można ją
100 zaokrąglić )
komentarz : Liczba bibliotek w gminach powiatu złotowskiego różniła się średnio od średniej
liczby bibliotek w gminach tj. średniej arytmetycznej o około 1 bibliotekę
V współczynnik zmienności
Q
V = --------- . 100 %
Me
1,14
V = --------- . 100 % = 22,35 %
5,1
komentarz : Gminy powiatu złotowskiego ze względu na liczbę działających bibliotek stanowiły zbiorowość ( populację ) jednorodną , ponieważ średnie procentowe zróżnicowanie liczby bibliotek w stosunku do średniej arytmetycznej liczby bibliotek wynosiło 22,35%
As miara rozkładu
__
X - D
As = -----------
S
5,1 + 5
As = --------- = 0,09 = 0,1 As > 0
1,14
________________________________________________
__
D = 5 X =5,1
5< 5,1
Rozkład gmin powiatu złotowskiego ze względu na liczbę bibliotek jest nieznacznie prawostronny, co oznacza, że dominująca liczba gmin miała bibliotek mniej niż średnia liczba bibliotek
ANALIZA KORELACJI - WSPÓŁZALEŻNOŚCI
zmienne X , Y
związek korelacyjny - jest to niepełny związek przyczynowo-skutkowy ,
który cechuje się tym , że wartościom jednej zmiennej
przyporządkowane są średnie wartości drugiej zmiennej
Rodzaje związków korelacyjnych :
1 Związek zgodności - korelacja dodatnia
y
y2
y1
x1 x2
Pasmo punktów rozrzutu pochylone jest w kierunku prawym
zmienna X - maleje - to następuje średni spadek zmiennej Y
zmienna X - wzrasta - to następuje średni wzrost zmiennej Y
obliczony współczynnik korelacji będzie dodatki
X X Y
Y X Y
2. związek niezgodności - przeciwieństwa - korelacja ujemna
- wzrostowi zmiennej X towarzyszy średni spadek zmiennej Y
y
y4
y3
y2
y1
x4 x3 x2 x1
pasmo punktów rozrzutu pochylone jest w kierunku lewym
zmienna X maleje - następuje średni wzrost zmiennej Y
zmienna X rośnie - to następuje średni spadek zmiennej Y
obliczony współczynnik korelacji będzie ujemny
X X Y
Y X Y
związek niezależności - zmienna X i Y nie maja ze sobą nic wspólnego
y
x
Pasmo rozrzutu praktycznie nie istnieje - układ punktów rozrzutu jest koncentryczny
X nie mają żadnego punktu styczności
Y
METODY ANALIZY KORELACJI
1. Współczynnik r Pearsona
i analiza regresji
Współczynnik r Pearsona - stosuje się dla dwóch zmiennych ilościowych , gdy pasmo punktów rozrzutu wygładza funkcja prostoliniowa
y
x
dwie zmienne są ilościowe i wygładza pasmo rozrzutu linia prosta
to współczynnik r Pearsona :
1
------ Σ x y - x y
N
r (x,y) = r (y,x) = ---------------------------------------------
sx sy
Współczynnik korelacji przyjmuje wartości z przedziału :
<( -1 ; 1)>
r (x,y) = 1 - jest to korelacja doskonała , idealna , pełna
gdy współczynnik korelacji wynosi +1 - jest to korelacja doskonała dodatnia
punkty rozrzutu na linii prostej pochylonej w stronę prawą
r=1
45o
45o
gdy współczynnik korelacji wynosi -1 - jest to doskonała korelacja ujemna
pasmo na linii prostej pochylone w kierunku lewym
450 r = - 1
450
r (x,y) = 0 - zmienne są niezależne
0, 7 < r (x,y) < 1 - jest to bardzo silna korelacja
gdy „-„ bardzo silna korelacja ujemna
gdy „+” bardzo silna korelacja dodatnia
0, 5 < r (x,y) < 0,7 - jest to silna korelacja
gdy „-„ silna korelacja ujemna
gdy „+” silna korelacja dodatnia
0, 3 < r (x,y) < 0,5 - jest to słaba korelacja
gdy „-„ słaba korelacja ujemna
gdy „+” słaba silna korelacja dodatnia
0 < r (x,y) < 0,3 - jest to bardzo słaba niewyraźna korelacja
gdy „-„ bardzo słaba niewyraźna korelacja ujemna
gdy „+” bardzo słaba niewyraźna korelacja dodatnia
Współczynnik determinacji d :
informuje w jakim stopniu zmienna x wyjaśnia zmienną y i odwrotnie
d= r(x,y) 2 . 100 %
przeciwieństwem determinacji jest :
Współczynnik indeterminacji i :
określa w jakim stopniu na zmienną x lub y wpłynęły inne zmienne, które w tym badaniu nie miały miejsca
i = 100 % - d
Współczynnik korelacji liniowej Pearsona informuje o charakterze i sile związku między badanymi zmiennymi natomiast nie pozwala określić jaki będzie poziom jednej zmiennej przy określonym poziomie wartości drugiej zmiennej . Nie określa również o ile średnio zmienia się wartość jednej zmiennej, gdy druga zmienna wzrośnie o jednostkę.
Na te pytania odpowiedzi udziela ANALIZA REGRESJI
tj. ANALIZA REGRESJI - określa jaki będzie poziom jednej zmiennej przy określonym poziomie wartości drugiej zmiennej , określa o ile średnio zmienia się wartość jednej zmiennej , gdy druga zmienna wzrasta o jednostkę .
y'- teoretyczna wartość zmiennej y , przy znanej wartości zmiennej x
y'(x) = ay + by . x
sy
parametr kierunkowy by by = r(x,y) . -----
sx
wyraz wolny ay ay = y - by . x
standardowy błąd szacunku regresji zmiennej y przy znanej zmiennej x
sy/x = sy 1 - r(x,y) 2
x'(y) - teoretyczna wartość zmiennej x przy znanej zmiennej y
x'(y) = ax + bx . y
sx
parametr kierunkowy bx bx = r(x,y) . -----
sy
wyraz wolny ax ax = x - bx . y
standardowy błąd szacunku regresji zmiennej x względem y
sx/y = sx 1 - r(x,y) 2
Przykład :
Rodziny w Kaliszu w ramach badania budżetów rodzinnych wg dochodów miesięcznych na członka rodziny i wydatków na zakup prasy w I 2003r.
Tablice dwóch szeregów prostych :
Rodziny |
dochód na 1 osobę x |
wydatki na zakup prasy y |
x . y |
x2 |
rodzina1 |
320 |
4,50 |
1440 |
102400 |
rodzina2 |
240 |
4,00 |
960 |
57600 |
rozdina3 |
380 |
3,50 |
1330 |
144400 |
rodzina4 |
690 |
6,30 |
4347 |
476100 |
rodzina5 |
920 |
10,50 |
9660 |
846400 |
rodzina6 |
390 |
3,80 |
1482 |
152100 |
rodzina7 |
1100 |
12,20 |
13420 |
1210000 |
todzina8 |
750 |
6,90 |
5175 |
562500 |
rodzina9 |
830 |
7,20 |
5976 |
688900 |
rodzina10 |
630 |
4,00 |
2520 |
396900 |
rodzina11 |
670 |
14,40 |
9715 |
448900 |
ogółem |
6620 |
77,40 |
56025 |
5086200 |
Polecenie :
Wykorzystując podane informacje :
Zbadać zależność między dochodami i wydatkami na prasę badanej grupie rodzin
Określić w jakim stopniu wydatki na prasę wyjaśnione są uzyskiwanymi dochodami
Oszacować wydatki i dochody dla zmiennych minimalnych i maxymalnych oraz wyznaczyć linię regresji
Oszacować wydatki na prasę, gdy dochody na członka rodziny wynoszą 200 zł
Obliczyć standardowy błąd oszacowania dochodów i wydatków
Charakterystyka przedmiotu analizy :
Zbiorowość statystyczna - rodziny objęte badaniem budżetów rodzinnych w Kaliszu w I 2003r.
Jednostka statystyczna - rodzina - jednostka złożona
Liczebność zbioru N=11
Zmienne :
1 - dochody na osobę - zmienne ilościowa ciągła X
2. wydatki na prasę - zmienna ilościowa ciągła Y
Budowa tablicy - tablica zespołu dwóch szeregów prostych
Cel analizy zawarty w poleceniach .
ad.1 - sporządzamy pasmo punktów rozrzutu
Y
25
15
12 Y' - teoretyczna wartość
zmiennej Y dla zmiennej X = 1100
9
6
3
200 400 600 800 1000 1100 1200 X
Współczynnik korelacji będzie dodatni
1
------ Σ x y - x y
N
r (x,y) = r (y,x) = ---------------------------------------------
sx sy
1 1
------ = ----------
N 11
Σ x y = 56.025
__ Σ x 6620
X = ------ = ---------- = 601,82
N 11
__ Σ y 77,70
Y = ------ = ---------- = 7,04
N 11
Σ x2
Sx = ------------------ - ( X )2 =
N
5.086.200
Sx = ------------------ - ( 601,82 )2 = 316,54
11
Sy= 3,60
r (x,y) = 0,75
Komentarz : Między dochodami na osobę , a wydatkami na zakup prasy zachodziła bardzo silna korelacja dodatnia co oznaczało, że rosnącym dochodom odpowiadały średnio wyższe wydatki na zakup prasy .
ad. 2 - wyznaczamy współczynnik determinacji :
d = ( 0,57)2 x 100 % = 56,25%
i = 100 - 56,25 % = 43,75 %
komentarz : Wydatki na zakup prasy w 56,25% wyjaśnione były dochodami na osobę w rodzinie , natomiast na poziom wydatków na zakup prasy 43,75 % wpłynęły inne zmienne, które w tym badaniu nie wystąpiły
ad. 3 -
y'x=min= 240 = ay +by . 240
sy 3,60
by = r(x,y) . -------- = 0,75 . ------- = 0,0085
sx 316,54
__ __
ay = y - by x = 7,04 - 0,0085 . 601,82 = 1,92
y'x=240 = 1,92 + 0,0085 . 240 = 3,96 y'x=max=1100 = 11,27 ( obliczenie j.w.)
Obliczyć : x'y=max , x'y=min ( linie muszą się przeciąć)
Obliczyć standardowe błędy oszacowania
KORELACJA DWÓCH ZMIENNYCH JAKOŚCIOWYCH
współczynnik zbieżności φ ( fi) Pearsona
stosuje się dla dwóch zmiennych jakościowych przy czym każda ze zmiennych posiada tylko dwa warianty, układ tablicy jest czteropolowy
I zmienna |
II zmienna |
Σ |
|
|
1 |
2 |
|
1 |
|
b |
a+b |
2 |
c |
d |
c+d |
Σ |
a+c |
b+d |
|
N = liczebność zbioru
a . d - b . c
φ = ------------------------------
( a+b)(c+d)(a+c)(b+d)
φ - przyjmuje wartości - 1 < φ < +1
nie interpretuje się kierunku ( znaku ) przy zmiennej jakościowej tylko siłę związku
2. współczynnik kontyngencji C
stosuje się do zbadania zależności dwóch zmiennych jakościowych , przy czym jedna ze zmiennych lub obie zmienne mają więcej niż dwa warianty, układ tablicy jest wielopolowy tj. posiada więcej niże 4 pola
n - liczba cząstkowa
I zmienna |
II zmienna |
Σ |
||
|
1 |
2 |
3 |
|
1 |
n1,1 |
n1,2 |
n1,3 |
k=3 Σ =n1,j j=1 |
2 |
n2,1 |
n2,2 |
n2,3 |
k Σ =n2,j j=1 |
Σ |
2 Σ =ni,1 i=1 |
2 Σ =ni,2 i=1 |
2 Σ =ni,3 i=1 |
N
|
numery wierszy = i= 1,......r
numery kolumn = j = 1,.......k
N - liczebność zbioru
χ2
C = ---------------
χ2 + N
χ2( hi) - wartość statystyki ( nie jest liczbą )
χ2 = Σ ( ni,j - n'i,j)2
n'
ni,j - liczebności empiryczne i-tego wiersza j-tej kolumny (konkretne wartości n z tablicy)
n'i,j - liczebności teoretyczne i-tego wiersza
Liczebności teoretyczne - oblicza się w oparciu o sumy brzegowe wierszy , sumy brzegowe kolumn oraz liczebność zbioru
Cs- skorygowany współczynnik kontyngencji
C
Cskor = -----------
Cmax ( współczynnik kontyngencji maxymalny)
Cmax r + Cmax k
Cmax = -----------------------
2
r - 1
Cmax r = --------
r
k - 1
Cmax k = --------
k
0 < Cskor < 1 ( nie mówimy o korelacji dodatniej- nie interpretuje się kierunku tylko siłę związku dla zmiennej jakościowej )
Przykład 1 .
Zbadano 1240 osób odwiedzających Urząd Miasta w Koninie w ciągu pierwszego tygodnia marca 2003r.. Wyniki tego badania przedstawiono w tablicy :
Ocena pracy urzędu |
wiek odwiedzających urząd |
Σ |
|
|
młodzi |
dojrzali i starsi |
|
pozytywna |
610 a |
50 b |
660 |
negatywna |
200 c |
380 d |
580 |
Σ |
810 |
430 |
1240 |
Zbadać zależność oceny pracy urzędu od wieku osób korzystających z usług tego urzędu :
a . d - b . c
φ = ------------------------------
( a+b)(c+d)(a+c)(b+d)
610 . 380 - 50 . 200
φ = ------------------------------ = 0,61 - współczynnik zbieżności
( 660)(580)(810)(430)
Ocena pracy urzędu przez petentów zależy od wieku petentów w stopniu silnym , bo
φ = 0,61 tj. wiek petenta w silnym stopniu decyduje o ocenie pracy urzędu
Przykład 2
Studentów pewnego kierunku AB poddano badaniu w zakresie wyników sesji egzaminacyjnej i metody przygotowania się do sesji , wyniki były następujące :
wynik sesji egzaminacyjnej |
metoda nauki |
Σ |
||
|
przed egzam. |
system |
brak stałej metody |
|
pozytywny |
7 1,1 |
35 1,2 |
10 1,3 |
52 |
negatywny |
16 2,1 |
5 2,2 |
6 2,3 |
27 |
Σ |
23 |
40 |
16 |
79 |
Zbadać zależność między wynikami sesji egzaminacyjnej a metodą nauki :
χ2
C = ---------------
χ2 + N
χ2 = Σ ( ni,j - n'i,j)2
n'i,j
nr wierszy i kolumn |
ni,j |
n'i,j |
( ni,j - n'i,j)2
|
( ni,j - n'i,j)2
n'i,j |
1,1 |
7 |
15,1 |
-8,1 |
4,3450 |
1,2 |
35 |
26,3 |
8,7 |
2,8779 |
1,3 |
10 |
10,5 |
-0,5 |
0,0238 |
2,1 |
16 |
7,9 |
8,1 |
8,3051 |
2,2 |
5 |
13,7 |
-8,7 |
5,5248 |
2,3 |
6 |
5,5 |
0,5 |
0,0455 |
Σ |
79 = |
79 |
|
21,1221 |
musi = 0
Obliczenie : n'i,j
n'1,1 = ( 52x23) : 79 = 15,1
n'1,2 = ( 52 x 40):79= 26,3
n'1,3 = ( 52x16):79= 10,5
n'2,1 = (27x23):79= 7,9
n'2,2 = (27x40):79= 13,7
n'2,3= (27x16):79= 5,5
suma n i,j = sumie n'i,j suma empirycznych liczebności jest taka sama jak suma liczebności teoretycznych
( 8,1)2 : 15,1 = 4,3450
wartość statystyki χ2 = 21,1221
χ2
C = --------------- = 0,4593
χ2 + N
C 0,4593
Cskor = ----------- = ------------------ = 0,60
Cmax 0,7615
Obliczenie :
r - 1 2-1
Cmax r = -------- = ------------- = 0,707
r 2
k - 1 3 - 1
Cmax k = -------- = ------------- = 0,816
k 3
współczynnik kontyngencji maxymalny
Cmax r + Cmax k 0,707 + 0,816
Cmax = ----------------------- = ------------------- = 0,7615
2 2
Komentarz :
Wynik sesji egzaminacyjnej badanej populacji studentów w silnym stopniu zależał od metody przygotowywania się do sesji egzaminacyjnej.
Zastosowanie współczynnika korelacji punktowodwuseryjnej
rp bis
rp bis - stosuje się dla dwóch zmiennych przy czym zmienna jakościowa posiada dwa warianty, natomiast zmienna ilościowa występuje w postaci przedziałów jednowariantowych lub wielowariantowych wariancyjnych
rp bis = x p - x q . p . q
sx gdy : p + q = 1
N p - liczba jednostek wariantu pierwszego
p = -------
N - liczba jednostek całej zbiorowości statystycznej
N q - liczba jednostek wariantu drugiego
q = -------
N - liczba jednostek całej zbiorowości statystycznej
Przyjmuje wartości z przedziału :
- 1 < rp bis < +1
nigdy nie interpretujemy kierunku zależności ( tam gdzie pojawia się zmienna jakościowa ) - interpretujemy tylko siłę związku
Przykład 1.
Bezrobotni zarejestrowani w powiatowym urzędzie pracy w miejscowości A w lutym 2003r. wg płci i wieku :
Zbadać zależność pomiędzy wiekiem i płcią bezrobotnych .
Charakterystyka :
zmienna ilościowa x
przedziały klasowe wielowariantowe wariancyjne
płeć |
Wiek ( x) |
Σ |
|||
|
18 - 29 |
30- 41 |
42 - 53 |
54- 65 |
|
K (p) |
38 |
53 |
52 |
21 |
164 |
M (q) |
37 |
41 |
43 |
20 |
141 |
Σ |
75 |
94 |
95 |
41 |
305 |
x'( śr.klas) |
24 |
36 |
48 |
|
|
x' . n(p) |
24x38=912 |
36x53=1908 |
48x52=2496 |
60x21=1260 |
6576 |
x' . n(q) |
24x37=888 |
36x41=1476 |
48x43=2064 |
|
5628 |
x'2 |
576 |
1296 |
2304 |
3600 |
|
x'2. ni |
576x75=43200 |
1296x94= 121824 |
23304x95= 218880 |
3600x41= 147600 |
531504 |
N = 305
N p
p = ------- = 164:305 = 0,54
N
- spełniony jest warunek p+q= 1 ( 0,54 + 0,46)
N q
q = ------- = 141:305 = 0,46
N
x = (6576+5628) :305 = 40,01
rp bis = x p - x . p . q
sx
Σ x' . n (p)
x (p) = --------------------- = 6576:164=40,1
N(p)
Σ x' . n (q)
x (q) = --------------------- = 5628:141= 39,91
N(q)
Σ x2
Sx = ------------------ - ( X )2 =
N
531504
Sx = ------------------ - ( 40,01 )2 = 11,91
305
rp bis = x p - xq . p . q = (40,1-39,91):11,91 x 0,54x0,46=0,008
sx
komentarz :
W badanej populacji bezrobotnych między płcią a wiekiem zachodziła śladowa ( nieznaczna) korelacja( zależność)
ANALIZA DYNAMIKI
dotyczy badania zjawiska w czasie
pokazuje jak zmienia się dana zmienna w czasie
Y - zmienna analizy dynamiki
n - okres badany
o - okres podstawowy ( bazowy)
Mierniki analizy dynamiki :
INDEKSY - informują o procentowych zmianach zjawiska w czasie
jednopodstawowe ( o podstawie stałej „i”n/o tj. indeks jednopodstawowy okresu
badanego do okresu podstawowego)
Y
i n/o = -------- . 100 %
Yo
łańcuchowy ( o podstawie zmiennej „i”n/n-1 tj. indeks łańcuchowy okresu badanego
do okresu poprzedzającego okres badany)
Yn
i n/n-1 = -------- . 100 %
Yn-1
i - 100 = (+) tzn. mamy do czynienia ze wzrostem badanej zmiennej Y
i - 100 = (-) tzn. mamy do czynienia ze spadkiem , zmniejszeniem wartości Y
ŚREDNIE TEMPO ZMIAN - informuje o zmianach w czasie w ujęciu procentowym w poszczególnych okresach czasu
można obliczać dwoma sposobami
SPOSÓB 1.
__ Σ log i n/n-1
log Δ = ---------------
__ N - 1
Δ - średni przyrost
__
średnie tempo zmian T = Δ - 100 = ... % ( procent średniego tempa zmian)
SPOSÓB 2.
Wykorzystujemy wielkości empiryczne dla ostatniego i pierwszego okresu
Yn
log -----
__ Y1
log Δ = ---------------
N - 1
Yn - wartość zmienna w okresie ostatnim zmiennym
Y1 - wartość zmienna w okresie pierwszym
__
Δ - średni przyrost
___
średnie tempo zmian T = ( Δ - 1) . 100 % = ...% ( średnie tempo procentowe zmian)
Przykład :
Pracujący w gospodarce narodowej w miastach województwa kuj.-pom. w latach 1996-2002 stan na 31.12
lata |
pracuj. w tys. |
in/o 1996=100 |
i n/n-1 rok poprzedni=100 |
log in/n-1 |
podst. 1996 |
377,9 |
100,0 |
-------------- |
------------- |
1997 |
385,1 |
101,9 |
101,9 |
2,0082 |
1998 |
400,1 |
105,9 |
103,9 |
2,0166 |
1999 |
402,9 |
106,6 |
100,7 |
2,0030 |
2000 |
401,3 |
106,2 |
99,6 |
1,9983 |
2001 |
401,6 |
106,3 |
100,1 |
2,0004 |
2002 |
400,2 |
105,9 |
99,7 |
1,99987 |
Σ |
|
|
|
12,0252 |
Polecenie :
Na podstawie podanych inf. przeprowadzić analizę dynamiki za pomocą indeksów jednopodstawowych przyjmując za podstawę dane z roku 1996 , indeksów łańcuchowych oraz obliczyć średnie roczne tempo zmian poziomu zatrudnienia w miastach woj. kuj. -pom. w latach 1996-2002
Y
i n/o = -------- . 100 %
Yo
i n/o 1997 - ( 385,1: 377,9)x 100 = 101,9
( 400,1: 377,9)x100 = 105,9
( 402,9 : 377,9) x 100 = 106,6 itd.
Komentarz -
W miastach woj. kuj.-pom. liczba zatrudnionych w latach 1997-2002 był wyższa o : 1,9%, 5,9%, 6,6%, 6,2%, 6,3%, 5,9% w porównaniu z zatrudnionymi w 1996r.
i n/n-1
Yn
i n/n-1 = -------- . 100 %
Yn-1
1996 - nie możemy obliczyć , bo nie mamy danych z 1995r.
- ( 385,1: 377,9)x 100% = 101,9
- ( 400,1 : 385,1)x 100% = 103,9
- ( 402,9 : 400,1 ) x 100% = 100,7 itd.
Komentarz :
W latach 1997-1999 z roku na rok w miastach woj. kuj.-pom. wzrastała liczba pracujących w gospodarce o : 1,9%, 3,9%, 0,7%.
Natomiast w roku 2000 w porównaniu z rokiem 1999 spadła liczba zatrudnionych o ( 99,6 - 100%) 0,4% z kolei w roku 2001 odnotowano wzrost zatrudnionych w porównaniu z zatrudnieniem roku 2002 o 0,1% , by
w roku 2002 w porównaniu z rokiem poprzednim odnotować spadek zatrudnionych o 0,3%.
SPOSÓB 1.
__ Σ log i n/n-1
log Δ = --------------- = 12,0252 : (7-1) = 2,0042 ( 7 tj. liczba lat)
N - 1
wykonać działanie odwrotne do log :
__
Δ = 100,97
__
T = ( Δ - 1) . 100 % = 100,97 - 100 = 0,97%
Komentarz :
W miastach woj. kuj.-pom. Liczba pracujących średniorocznie w latach 1996- 2002 wzrastała o 0,97%
SPOSÓB 2
Yn
log -----
__ Y1
log Δ = --------------- =( log 400,2:377,9) : (7-1) = 0,0249 :6 = 0,00415
N - 1
__
Δ = 1,0097
__
T = ( Δ - 1) . 100 % = ( 1,0097 - 1) x 100 % = 0,0097 x 100% = 0,97 %
komentarz : j.w.
11
CECHY
CECHY STAŁE :
- właściwości wspólne dla wszystkich jednostek budowanej zbiorowości,
CECHY ZMIENNE
- cechy statystyczne- są to właściwości różniące jednostki między sobą
STAŁE RZECZOWE
( przedmiotowe ) odpowiadają na pytanie : kto ? , co?
jest przedmiotem zbioru , definiują jednostkę w zbiorze
STAŁE CZASOWE
odpowiadają na pytanie : kiedy?
Określają czas, występowanie zbioru
Cecha wspólna dla każdej jednostki zbioru
STAŁE PRZESTRZENNE
( geograficzne)
odpowiadają na pytanie gdzie ? określają miejsce występowania zbioru np. Akad.Bydg. dla każdego studenta
ZMIENNE JAKOŚCIOWE
( niemierzalne)
-właściwości opisane słowem ( nie można ich zważyć, zmierzyć, ani przedstawić za pomocą liczby )
ZMIENNE ILOŚCIOWE
- właściwości wyrażone liczbą , można je zważyć, zmierzyć
JAKOŚCIOWE NOMINALNE -
-opisane słowem w skali nominalnej ( skala najniższego rzędu) np. kierunek kształcenia : administracja , medycyna
-nie występuje hierarchia ważności
JAKOŚCIOWE PORZĄDKOWE
( rangowe) - mają pewien porządek (rangę- skala wyższego rzędu) np. wykształcenie :
- podstawowe,
- zasadnicze zawodowe
- średnie
- wyższe
ILOŚCIOWE SKOKOWE -
-właściwości zmieniające się w sposób skokowy tzn. nie przyjmują wartości pośrednich np. zaliczony rok studiów I, II lub III lub IV itd.
ILOŚCIOWE CIĄGŁE
- właściwości przyjmujące wartości z przedziału liczbowego np. wiek studentów 19-35 , np. wynagrodzeni , koszty itd.
A
B
A
B