STATYSTYKA OPISOWA WYKŁAD 3, GODZINY 5-6 (18.10.2008)
c.d. wykładu 2
4. Opisowe miary kurtozy (spiczastości i spłaszczenia
5. Opisowe porównania strukturalne (synteza)
WPROWADZENIE DO WNIOSKOWANIA STATYSTYCZNEGO
1. Częstość a prawdopodobieństwo.
2. Rozkład normalny.
3. Zastosowanie praktyczne (STATISTICA, v.8).
Miary kurtozy.
Wykres 1. zrzutowane maksimum na osi X - linia czasowa.
(miara kurtozy Cx > 0 = spiczastość bardzo wyraźna)
2. symetryczny z łagodnym maksimum zrzutowanym na oś X.
(brak kurtozy, łagodne maksimum, miara kurtozy Cx = 0)
3. maksimum rozmyte, rozmazane kształt wykresu świadczy o
spłaszczeniu.
(przypadek niepokojący - spłaszczenie rozkładu Cx < 0)
UWAGA!!!
Rozkłady o wyraźnym spłaszczeniu (kurtoza ujemna) mogą świadczyć o występowaniu w zbiorze obserwowanych jednostek nietypowych (odstających). Umownie uważa się, że jeżeli współczynnik kurtozy jest < -2 (ostrożniej od - 3), to wtedy daną zbiorowość statystyczną można uważać (z tego punktu widzenia) jako statystycznie niejednorodną.
Nie są niebezpieczne sytuacje 1 i 2, niebezpiecznie sygnalizująca możliwość występowania jednostek nietypowych = 3.
1 n _
Cx = ----------------- ∑ (xj - X)4 > 0 (algorytm bazowy)
n S4 x J = 1
Współczynnik kurtozy (klasyczny)
Komputerowy algorytm wymaga, aby współczynnik kurtozy informował także o kierunku (+ , - ) i dlatego:
n _
n (n + 1) ∑ (xj - X) - 3K
Ĉx = ------------J=1------------------ (- ∞ , + ∞)
(n - 1) (n - 2) (n - 3) Ŝx 4
Współczynnik kurtozy (klasyczny, ale bez obciążenia)
n _
K = (n - 1) [ ∑ (xj - X) 2 ] 2
J = 1
suma kwadratów odchyleń od średniej arytemtycznej |
Mierzenie rozmiarów kurtozy - w 4 potędze nie ma liczb ujemnych
SYNTEZA PRZYKŁADU NUMERYCZNEGO
(27 krajów UE, badanych ze względu na rozmiary czasu pracy i płacy)
Statystyki |
Praca X1 |
Płaca X2 |
Podsumowanie |
zbiorowość |
27 |
27 |
Liczebności zbiorowości tych samych krajów badanych ze względu na X1 i X2. |
średnia arytmetyczna |
40,5 h
40,4 h |
2813 e
2531 e |
Nie porównywalne (różne jednostki miary) j.w. |
mediana |
|
|
|
Odchylenie standardowe |
1,0 h
0,95 h
2,6%
2,4 % |
1875 e
1932 e
66,7 %
76,3 % |
j.w.
j.w.
Przeciętne względne (w stosunku do średniej arytmetycznej) klasyczne zróżnicowanie płac jest relatywnie wysokie (ok. 67%) i wielokrotnie wyższe od niskiego zróżnicowania czasu pracy (ok. 3%) j.w. (ale względem mediany) |
Odchylenie ćwiartkowe |
|
|
|
Współczynnik zmienności (klasyczny) |
|
|
|
Współczynnik zmienności (pozycyjny) |
|
|
|
Maksimum rozkładu |
jedno |
dwa |
Dla X2 na niskich i wysokich poziomach |
Współczynnik skośności (klasyczny)
Współczynnik skośności (pozycyjny) |
+ 0,26
- 0,05
|
+ 0,21
- 0,17
|
Dla wszystkich krajów asymetria rozkładów czasu pracy i płac jest dodatnia (większość krajów ma relatywnie niskie warianty obu cech), ale też i jej siła jest wyraźnie słaba
Dla 50% najbardziej typowych krajów, asymetria rozkładu czasu pracy i płac jest ujemna (większość krajów ma relatywnie wysokie warianty obu cech) , ale siła tej skośności jest nadal wyraźnie słaba |
Współczynnik kurtozy (klasyczny) |
- 0,82 |
- 1,57 |
Dla obu cech rozkłady empiryczne posiadają wyraźne spłaszczenie (C < 0), które jest około dwukrotnie wyższe w przypadku rozkładu płac |
Standaryzowane warianty (min. i max.) |
- 1, 49
+ 1,87 |
- 1, 27
+ 1, 68 |
Dla obu cech, nie przekraczają granic przedziału od - 2 do + 2 |
WNIOSEK OGÓLNY |
xxxxxxxxx xxxxxxxxx |
xxxxxxxxx |
Rozkład czasu pracy jest statystycznie jednorodny *, natomiast rozkład płac nie ma takiej jednorodności (m.in. dwa maksima i wysokie zróżnicowanie) |
* dlatego, że występuje niskie zróżnicowanie, niska skośność, niska kurioza, jak także dlatego, że występuje jedno wyraźnie zaznaczone maksimum.
WPROWADZENIE DO WNIOSKOWANIA STATYSTYCZNEGO
Informacje liczbowe o zbiorowościach generalnych są nieznane. Mogą być znane liczbowo jedynie informacje z prób losowych.
n liczebność zbiorowości statystycznej = 1 doświadczenie
Liczba niezależnych doświadczeń losowych (prób losowych)
X cecha statystyczna (i jej warianty xj)
zmienna losowa (i jej realizacja xj)
Częstości empiryczne (wi) *
teoretyczne (pi) **
wskazówki struktury (znane liczbowo)
** prawdopodobieństwa (nieznane liczbowo)
lim P ( | wi - pi | < ε ) = 1 ZŁOTE TWIERDZENIE BERNOULLIEGO
n ∞
Prawa wielkich liczb - seria twierdzeń matematycznych (jedne z tzw. twierdzeń granicznych), opisujących związek między liczbą wykonywanych doświadczeń a faktycznym prawdopodobieństwem wystąpienia zdarzenia, którego te doświadczenia dotyczą. Najprostszą i historycznie najwcześniejsza postać prawa wielkich liczb to prawo Bernoulliego sformułowane przez szwajcarskiego matematyka Jakoba Bernoulliego w książce Ars Conjectandi (1713). Prawo Bernoulliego orzeka, że: |
Wzrostowi liczby doświadczeń lodowych odpowiada spadek różnicy (ściślej modułu = wartości bezwzględnej) pomiędzy częstością empiryczną a prawdopodobieństwem teoretycznym.
PEWNIKI (aksjomaty) KOŁMOGOROWA
(nie można udowodnić ani obalić, trzeba je tylko zapamiętać)
1°. Prawdopodobieństwo zdarzenia losowego A = p z przedziału od 0 do 1.
P (A) = p
2°. Jeżeli zdarzenie B jest pewne, to jego prawdopodobieństwo wynosi 1.
P (B) = 1
(nie zajmujemy się w praktyce statystyki)
3°. Jeżeli zdarzenia losowe A1 , A2 , A3 , … są parami rozłączne, to prawdopodobieństwo ich sumy równa się sumie ich prawdopodobieństw.
P (A1 + A2 + A3 + …) = P (A1 ) + P (A2 ) + P (A 3 ) + …
-------------------------
pod warunkiem, że zdarzenie jest rozłączne
Aksjomaty Kołmogorowa to zbiór aksjomatów leżących u podstaw teorii prawdopodobieństwa. Ich twórcą jest rosyjski matematyk Andriej Kołmogorow. Prawdopodobieństwo zdarzenia E (oznaczane jako P(E)) jest określone na pewnym σ-ciele podzbiorów zbioru przestrzeni Ω wszystkich zdarzeń elementarnych w taki sposób, że musi spełniać wszystkie aksjomaty Kołmogorowa. Pierwszy aksjomat Dla każdego zbioru E należącego do σ-ciała zachodzi:
Oznacza to, że prawdopodobieństwo zdarzenia E jest liczbą rzeczywistą większą lub równą 0. (Oprócz tego z aksjomatów można wyprowadzić również nierówność Drugi aksjomat (aksjomat unormowania)
czyli prawdopodobieństwo, że wystąpi dowolne zdarzenie elementarne w przestrzeni wynosi 1. Innymi słowy: prawdopodobieństwo jest miarą skończoną. Ten aksjomat jest często pomijany w błędnych obliczeniach: jeśli nie możemy określić zbioru Ω, nie jesteśmy też w stanie zdefiniować prawdopodobieństwa na tym zbiorze. Trzeci aksjomat (aksjomat przeliczalnej addytywności) Dla każdego przeliczalnego (skończonego lub nieskończonego) ciągu parami wykluczających się (rozłącznych) zdarzeń E1, E2, ... zachodzi równość:
To znaczy: prawdopodobieństwo zdarzenia, które jest sumą rozłącznych zdarzeń, obliczamy jako sumę prawdopodobieństw tych zdarzeń. Tę własność nazywamy też σ-addytywnością. Jeśli zdarzenia składowe nie są rozłączne, tzn. jest możliwe równoczesne zajście dwu lub więcej spośród zdarzeń E1, E2..., ten związek nie zachodzi. |
Rozkład empiryczny (obserwowany)
teoretyczny (nałożony)
Przyporządkowanie wektora [Wi] wektorowi [xi ] lub [x 0i , x1i] określana jest jako rozkład empiryczny cechy X (takie rozkłady są znane z obserwacji.
Rozkład empiryczny badanej cechy - Nazywamy przyporządkowanie kolejnym wartościom cechy, odpowiadającym im liczebnościom. Szereg rozdzielczy dla cechy ilościowej to właśnie tabelaryczna forma przedstawienia rozkładu empirycznego badanej cechy zbiorowości statystycznej. |
Przyporządkowanie wektora [Pi ] wektorom [xi ] lub [x 0i , x1i] nazywamy rozkładem teoretycznym:
i = 1,2,3, … , k
liczba powtarzających się wariantów (lub realizacji) gdzie k < n
Do podstawowych rozkładów teoretycznych (użytecznych przy konstrukcji metod wnioskowania) zaliczamy:
moduł: kalkulator prawdopodobieństwa
procedura: rozkłady
opcje: (Z) normalny - rozkład Gaussa - Laplace'a
Podstawowym teoretycznym rozkładem zmiennych losowych ciągłych XC jest rozkład normalny, zwany rozkładem Gaussa - Laplace'a. Jego znaczenie metodologiczne i analityczne wynika z trzech jego najważniejszych właściwości:
W niektórych sytuacjach badawczych ale w badaniach zjawisk ekonomicznych raczej rzadko, rozkłady empiryczne obserwowanych zmiennych mogą być zbliżone swoim kształtem do rozkładu normalnego. Wtedy też prawidłowości statystyczne ujawniają się w swojej najczystszej postaci, ale może mieć to miejsce tylko wtedy, kiedy badane zjawisko podlega wpływowi bardzo wielu czynników, działających mniej więcej równomierni, przyczyn głównych, a także i w tym zjawisk losowych, Dlatego właśnie stwierdzono, że badane zjawiska ekonomiczna, a także społeczne i demograficzne mają na ogół rozkłady empiryczne znacząco odkształcone od rozkładu normalnego.
|
Rozkład (T) studenta - rozkład Gosetta
Drugi bardzo ważny rozkład zmiennej losowej ciągłej to rozkład t-Studenta (pseudonim angielskiego statystyka W. Gosseta). Stosowany jest głównie do testowania małych prób. Pozwala zaoszczędzić czas, który w przypadku próby o dużej liczebności byłby długi. Rozkład ten zależy tylko od jednego parametru (v), zwanego liczbą stopni swobody, i jest związany z liczbą niezależnych obserwacji. Krzywa gęstości rozkładu t-Studenta jest podobna do krzywej standardowego rozkładu normalnego N(0, 1). Jest ona symetryczna (z osią symetrii t = 0) i tylko bardziej spłaszczona. Dla dużej liczby stopni swobody (v > 120) rozkład t jest praktycznie nieodróżnialny od standardowego rozkładu normalnego. Przykładowy wykres takiej krzywej (dla parametru v = 2) przedstawia
|
Rozkład χ 2 (chi) - Pearsona (F) - Fishera (Fishera - Snedecora)
Rozkład Fishera i Snedecora Rozkład ten często spotykamy w analizie wariancji. Zmienna z nim związana została sformułowana przez Fishera, a jej rozkład opisał Snedecor. Rozkład ten ma dwa parametry: v1 , v2, zwane stopniami swobody. Rysunek 4. pokazuje, jak zmienia się funkcja gęstości rozkładu Fishera i Snedecora przy zmianie jej parametrów.
Rozkład chi-kwadrat
Rozkład chi-kwadrat (
Rys.5 Rozkład Istnieje cała gama rozkładów teoretycznych stosowanych w analizie statystycznej. Wymieniliśmy tylko najbardziej znane. Co nam daje ich znajomość? Korzystając z dokładnego matematycznego opisu, możemy dokładnie obliczyć prawdopodobieństwo, z jakim zmienna losowa przyjmuje wartości z dowolnie określonego przedziału. Powierzchnia pod krzywą rozkładu odzwierciedla bowiem częstość względną wyników (prawdopodobieństwo), tj. odsetek wyników mieszczący się w podanym zakresie wartości. Całkowite pole powierzchni pod krzywą wynosi 1 (100% wyników). Przykładowy przedział pokazany jest na rysunku 1. (wartość prawdopodobieństwa to miara zakreskowanego pola). A to w statystyce bardzo cenna informacja. |
Rozkład normalny = bazowy, co wynika z kilku ważnych przyczyn:
1. jest to rozkład graniczny ( przy n ∞ - przy liczbie doświadczeń) dla wszystkich innych rozkładów teoretycznych (skokowych jak i ciągłych)
2. jest to rozkład błędów losowych jakie popełniamy w procedurach wnioskowania statystycznego.
3. jest podstawą teoretyczną konstrukcji metod wnioskowania statystycznego
4. niektóre obserwowane zmienne losowe mają w przybliżeniu rozkłady empiryczne podobne do rozkładu normalnego (rzadko w ekonomii).
Kształt rozkładu normalnego, który zawsze jest symetryczny określany jest 2 parametrami:
- wartością oczekiwaną E (X) = m
pewna liczba
Wartość oczekiwana (przeciętna, średnia), nadzieja matematyczna - w rachunku prawdopodobieństwa wartość opisująca spodziewany (średnio) wynik doświadczenia losowego. Wartość oczekiwana to inaczej pierwszy moment zwykły. Estymatorem wartości oczekiwanej rozkładu cechy w populacji jest średnia arytmetyczna.
Wartością oczekiwaną nazywa się sumę iloczynów wartości tej zmiennej losowej oraz prawdopodobieństw, z jakimi są one przyjmowane. |
- odchyleniem standardowym D (X) = δ , co zapisujemy jako
X N (m , δ ) (którego kształt jest określany parametrami m , δ)
rozkład normalny G-L
Parametry m , δ oraz inne są nieznane liczbowo, ale możliwe do statystycznego oszacowania.
WYKŁAD 4 , GODZINY 7 -8 - 19.10.2008
ESTYMACJA PARAMETRÓW
1. Rozkład normalny c.d.
2. Własności estymatora wartości oczekiwanej.
3. Przedział ufności dla wartości oczekiwanej.
4. Precyzja przedziałowej estymacji.
5. Zastosowanie praktyczne (przykłady 2,3).
Zdj. 16.10
f (x) - funkcja gęstości
m - parametr
Jeżeli zmienna losowa ma rozkład normalny, to rzadko zdarza się aby m > - 3,
δ < - 3 .
odchylenie standardowe - 2 + 2 = norma
(zamienimy zmienną losową X na zmienną standaryzowaną U -obie układ normalny).
Jeżeli zmienna losowa X ma rozkład normalny, to zmienna standaryzowana U również ma rozkład normalny.
x - m
U = ------------
Δ
(każdy rozkład normalny musi być transponowany)
U S N ( 0, 1 )
rozkład standaryzowany normalny 1 - λ - prawdopodobieństwo sukcesu
λ / 2 - prawdopodobieństwo porażki
( poziom istotności)
zdj. 16.15
UWAGA:
W analizach ekonomicznych prawdopodobieństwo porażki ( λ ) przyjmuje się zazwyczaj od 0,01 do 0,10.
Stąd wniosek, że prawdopodobieństwa sukcesu ( 1 - λ ) deklarowane są w ekonomii na poziomie od 0,90 do 0,99.
Odczyty wartości krytycznych (przyznanych prawdopodobieństwach) lub prawdopodobieństw (przyznanych wartościach krytycznych) dokonywane są z 2 źródeł:
- z tablic statystycznych (mniej dokładnie i z licznymi ograniczeniami)
- z kalkulatora prawdopodobieństwa (bardziej dokładnie i bez żadnych ograniczeń formalnych).
Zdj. 16.30.
Dystrybuanta - funkcja nie malejąca ( 0, 1)
Dystrybuanta - w rachunku prawdopodobieństwa, statystyce i dziedzinach pokrewnych, funkcja rzeczywista jednoznacznie wyznaczająca rozkład prawdopodobieństwa (tj. miarę probabilistyczną określoną na σ-ciele borelowskich podzbiorów prostej[1]), a więc zawierająca o nim wszystkie informacje. Dystrybuanty są efektywnym narzędziem badania prawdopodobieństwa ponieważ, z matematycznego punktu widzenia, są obiektem prostszym niż rozkłady prawdopodobieństwa. Dystrybuanta rozkładu próby zwana jest dystrybuantą empiryczną.
Niech
nazywamy dystrybuantą rozkładu Własności
|
F (x) = P (X ≤ x ) = P (U ≤ u ) + F ( u ) 0 ≤ F ≤ 1
dystrybuanta dla X = x
F (u2) - F (u1) F ( -u) = 1 - F ( +u)
Jeśli byśmy dodali F (-u) + F (+u) = 1 , stąd radzimy sobie przy odczycie z tablic , F (-u) = 1 - F(+u) - odczytujemy +u.
Zdj. 16.30 wykresy
1 = 3 - 2 - rachunek różnic dystrybuant.
PRZYKŁAD nr 2
(rachunek różnic dystrybuant)
Podjęto decyzję aby kwartalny fundusz premiowy w dużym zakładzie przemysłowym został rozdzielony wśród pracowników według kryterium rozkładu normalnego z parametrami: wartość oczekiwana - 1020 zł, odchylenie standardowe - 310 zł.
Określić liczbowo, ile osób, na każdych 100 losowanych pracowników, otrzyma premie kwartalne z przedziału od 900 - 1200 z.
Podać także, jaki jest poziom dystrybuanty dla premii równej dokładnie 1020 zł:
a) 29, ¾ , b) , 37, ½ , c) 44, ¼ , d) 82, 2/5 ?
900 - 1020 / 310 = - 0,39
1200 - 1020 / 310 = + 0,58
0,7190 z tablic dystrybuanta dla 0,58 = 37 *
Zdj. 16.51
* jeżeli rozkład premii miał być normalny z parametrami m = 1020, δ = 310 zł, to na każdych 100 niezależnie losowanych pracowników ok. 37 otrzyma premie z przedziału 900 - 1020 zł.
F (1020) = P ( x ≤ 1020 ) = P (U ≤ 0 ) = ½ (zawsze)
Bezpośredni odczyt z kalkulatora prawdopodobieństwa *
* moduł: kalkulator prawdopodobieństwa
procedura: rozkłady
opcje : Z (normalny) średnia m = 1020, odchylenie standardowe δ = 310
900/1020 1020/1200
nie są takie same różnice X = 1200 X ≤ 1200 (oblicz odwrotnie niż
w tablicach)
F = 1200 = 0,719260
X = 900
F = 900 = 0,349342
0,719260 - 0,349342 = 0,369118
ESTYMACJA PARAMETRÓW
Nieznane liczbowo parametry szacowane są poprzez użycie ich estymatorów (funkcja wyników obserwacji prób losowych).
E (x) = m
Szacowany nieznany liczbowo parametr (wartość oczekiwana zmiennej losowej)
Estymator jest statystyką służącą do szacowania wartości parametru rozkładu. Celem zastosowania estymatora jest znalezienie parametru rozkładu cechy w populacji.
Przykładowo badamy rozkład wzrostu ludności w Polsce. Zakładamy, że rozkład tej cechy X w populacji jest rozkładem normalnym, zaś szukaną wielkością jest wartość oczekiwana m. Wartość m jest zatem szukanym parametrem rozkładu cechy X. W celu oszacowania tych wielkości zbieramy dane z próby losowej o liczebności n. Następnym krokiem będzie znalezienie wygodnej statystyki |
_
X n estymator parametru m
_
X średnia arytmetyczna z 1 próby losowej
_
P (X = m) = 0
(nawet jeśli trafimy w parametr to nie wiemy, że trafiliśmy, albo nie trafimy)
P (X1 < m < X2) = 1 - λ (prawdopodobieństwo sukcesu - deklarowany poziom
ufności)
górna końcówka przedziału ufności
dolna końcówka przedziału ufności
Przedział ufności Nejmana
Przedział ufności jest podstawowym narzędziem estymacji przedziałowej. Pojęcie to zostało wprowadzone do statystyki przez amerykańskiego matematyka polskiego pochodzenia Jerzego Spławę-Neymana.
Niech cecha X ma rozkład w populacji z nieznanym parametrem θ. Z populacji wybieramy próbę losową (X1, X2, ..., Xn). Przedziałem ufności (θ - θ1, θ + θ2) o współczynniku ufności 1 - α nazywamy taki przedział (θ - θ1, θ + θ2), który spełnia warunek: P(θ1 < θ < θ2) = 1 − α gdzie θ1 i θ2 są funkcjami wyznaczonymi na podstawie próby losowej. Podobnie jak w przypadku estymatorów definicja pozwala na dowolność wyboru funkcji z próby, jednak tutaj kryterium wyboru najlepszych funkcji narzuca się automatycznie - zazwyczaj będziemy poszukiwać przedziałów najkrótszych. Współczynnik ufności 1 - α jest wielkością, którą można interpretować w następujący sposób: jest to prawdopodobieństwo, że rzeczywista wartość parametru θ w populacji znajduje się w wyznaczonym przez nas przedziale ufności. Im większa wartość tego współczynnika, tym szerszy przedział ufności, a więc mniejsza dokładność estymacji parametru. Im mniejsza wartość 1 - α, tym większa dokładność estymacji, ale jednocześnie tym większe prawdopodobieństwo popełnienia błędu. Wybór odpowiedniego współczynnika jest więc kompromisem pomiędzy dokładnością estymacji a ryzykiem błędu. W praktyce przyjmuje się zazwyczaj wartości: 0,99; 0,95 lub 0,90, zależnie od parametru. |
Odległości x1 do m - m do x2 są jednakowe.
Każdy estymator (w tym także Xn) powinien spełniać określone własności
Własności _ estymatora Xn |
Bez obciążenia |
Zgodność
|
Efektywność
|
|
_ E (Xn) = m |
lim P (√Xn - m | < ε = 1 n ∞ |
_ D2 (Xn) = minimum |
Najlepszy estymator, który spełnia te 3 wartości
_ n
Xn = 1/n ∑ Xj N (m , δ/ √n )
J = 1
SEE - standard error of estimation
δ
SEE = -------
√ n
liczebność (im > tym lepiej)
Średni losowy błąd oszacowania parametru m
Im > zróżnicowanie, tym > błąd, im > liczba losowych prób, tym < błąd
Xn - m
Un = ------------- = S N (0 , 1)
δ / √ n
_
Xn - m
P (uα < ------------- < + uα ) = 1 - α
δ/ √n
drugi wzór
X1 - dolna końcówka
M - szacowany parametr
X2 - górna końcówka
1 - α - deklarowany poziom ufności
Przekształcamy ostatecznie co jest przedziałem ufności Nejmana
3 wzór
Interpretacje końcówek x1 x2 :
błędna z prawdopodobieństwa 1 - α parametr m znajduje się w przedziale od x1
do x2
prawidłowa na poziomie ufności 0,95 te przedziały, które …………. na m do
tych, które nie ……….. jak 1 : 95
Z prawdopodobieństwa 1 - α należy oczekiwać, że przedział liczbowy o końcówkach x 1 x2 należy do podzbioru takich przedziałów ufności, które pokrywają szacowany parametr m.