Statystyka to nauka zajmująca się ilościowymi metodami analizy zjawisk masowych. Przy czym masowość zjawiska polega na jego wykorzystaniu dla dużej liczby jednostek statystycznych (obiektów), dzięki temu możliwe jest wykrycie za pomocą metod statystycznych różnego rodzaju prawidłowości występujących w ekonomii, np. skłonności ludzi do oszczędzania, polityka kredytowa banków, zachowania przedsiębiorstw.
Przedmiotem badań w statystyce jest zbiór jednostek statystycznych podobnych pod względem określonych własności, nazywanych populacją (zbiorowością statystyczną). Ponieważ bezpośrednie badania populacji są zbyt kosztowne i czasochłonne, a często wręcz niemożliwe, zatem w statystyce do analizy wykorzystuje się najczęściej próbę, która stanowi podzbiór populacji.
Statystyczne metody analizy (opisu i wnioskowania) mogą być użyteczne w liczbowym rozpoznaniu struktury, współzależności i dynamiki zjawisk występujących masowo. Niezależnie od pola zastosowań metod statystycznych, prowadzone obserwacje zawsze dotyczą jednostek zbiorowości rozpatrywanych z punktu widzenia wariantów cech statystycznych (mierzalnych i niemierzalnych).
Podstawowe pojęcia statystyczne
- zbiorowość statystyczna- (n) określamy taki zbiór jednostek, który podlega obserwacji statystycznej i który charakteryzuje się takimi samymi wariantami przynamniej jednej cechy stałej oraz różnymi wariantami przynajmniej jednej cechy zmiennej.
-zbiorowość generalna- zbiorowość statystyczna, w której badane są wszystkie jednostki
-zbiorowość próbna- zbiorowość statystyczna, w której badane są jednostki losowo wybrane
-średnia arytmetyczna- suma wariantów obserwowanej mierzalnej cechy zmiennej w przeliczeniu na jedną jednostkę zbiorowości statystycznej, tzn. jako:
‗ 1 n
x = — ∑ xj
n j=1
‗
gdzie zawsze zachodzi, że xmin< x < xmax
‗ n n ‗
n x = ∑ xj oraz ∑ (xj - x ) = 0
j=1 j=1
-dyspersja- zróżnicowanie jednostek zbiorowości ze względu na wartość badanej cechy. Siłę dyspersji ocenia się za pomocą pozycyjnych i klasycznych miar zmienności. Do miar klasycznych zaliczamy: odchylenie przeciętne, wariancję, odchylenie standardowe oraz współczynnik zmienności.
-wariancja- średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy do średniej arytmetycznej całej zbiorowości. Im zbiorowość jest bardziej zróżnicowana tym wyższa jest wartość wariancji.
1 n ‗
Sx²= ———— Σ (xj - x )² Ŝx² - wariancja bez obciążenia*
n-1 j=1
‗
gdzie x jest średnia arytmetyczną.
Przy czym zawsze zachodzi, że S²x>0 oraz
n _ n _
∑ ( xj - x ) ² < ∑ (xj - c)² , gdzie x ≠ c
j=1 j=1
-odchylenie standardowe- przeciętne zróżnicowanie (dyspersja) wariantów cechy względem średniej arytmetycznej. Odchylenie standardowe określa o ile wszystkie jednostki danej zbiorowości różnią się średnio od średniej arytmetycznej badanej zmiennej.
Sx = √ Sx² >0 Ŝx - odchylenie standardowe z wariancji bez obciążenia*
-współczynnik zmienności- iloraz odchylenia standardowego i średniej w danym rozkładzie. Współczynnik ten często wyraża się procentowo aby określić jaki procent średniej stanowi odchylenie standardowe w rozkładzie.
Sx ^
Vx=——— 100 % >0 Vx - współczynnik zmienności bez obciążenia*
‗
x
Umownie przyjmuje się, że jeżeli Vx jest wyraźnie wyższy od 50%, to dana zbiorowość jest (z punktu widzenia zróżnicowania) niejednorodna statystycznie (w jej składzie są jednostki nietypowe).
*) Uwaga!
Współczesne przetwarzanie danych jednostkowych w postać statystyk opisowych odbywa się komputerowo poprzez zastosowanie profesjonalnych pakietów statystycznych (np. Statgraphics, SPSS, Statistica itp.).
We wszystkich pakietach statystycznych kalkulacja statystyk opisowych (poza średnią arytmetyczną) odbywa się w sposób odciążony.
-asymetria (skośność) rozkładu- określa liczbę badanych jednostek znajdujących się powyżej lub poniżej przeciętnego poziomu badanej cechy. Asymetrię rozkładu najłatwiej jest określić poprzez porównanie dominanty, mediany i średniej arytmetycznej. W rozkładach symetrycznych wszystkie wyżej wymienione średnie są sobie równe:
‗
X = Dx= Mx
W rozkładach asymetrycznych wymienione średnie kształtują się na różnych poziomach.
Jeżeli zachodzi nierówność:
‗
X > Dx > Mx to rozkład charakteryzuje się asymetrią prawostronną.
Jeżeli zaś zachodzi nierówność:
‗
X < Dx < Mx to mówimy o asymetrii lewostronnej
-wskaźnik asymetrii (skośności)- określa kierunek asymetrii (prawo-, lewostronna) nie wskazując na jej siłę.
‗
Ws = x - Dx
- przy rozkładzie symetrycznym wskaźnik skośności równy jest 0 :
(Q3 - Q2) - (Q2 - Q1) = 0
- przy rozkładzie o asymetrii prawostronnej jest dodatni:
(Q3 - Q2) - (Q2 - Q1) >0
- przy rozkładzie o asymetrii lewostronnej jest ujemny:
(Q3 - Q2) - (Q2 - Q1) < 0
-współczynnik asymetrii- jest wartością liczbową określającą zarówno kierunek, jak i siłę asymetrii
n ‗ 3
∑ (xj - x )
j=1
Ax = —————————
3
n Sx
- warianty:
1) Ax > 0 - asymetria dodatnia prawostronna
2) Ax < 0 - asymetria ujemna lewostronna
3) Ax = 0 - brak asymetrii
Uwaga!
Jeżeli współczynnik skośności (standaryzowany) jest wyraźnie niższy od (-2) lub wyższy od (+2), to znaczy, jeżeli standaryzowane warianty cechy są z przedziału (-∞, - 2) lub (+2, +∞) to umownie takie warianty zakwalifikować można jako odstające , czyli nietypowe dla danej zbiorowości.
-mediana- (wartością środkową) wariantów cechy (po ich uprzednim uporządkowaniu) nazywamy taki wariant cechy poniżej i powyżej którego znajduje się taka sama liczba jednostek zbiorowości statystycznej.
Mx = Q2 (kwartyl drugi)
Warianty:
‗
x > Mx
‗
2) x = Mx
‗
3) x > Mx
-kwartyle- wartości cechy badanej zbiorowości, które definiują ją na określone części, pod względem liczby jednostek. Części te mogą być równe lub pozostawać do siebie w określonych proporcjach. Do najczęściej używanych kwantyli zaliczamy : kwartale, a w przypadku badania struktury zbiorowości o dużej liczbie jednostek - decyle i wentyle.
Wśród kwartyli wyróżniamy:
- kwartyl pierwszy (dolny) Q1 dzieli badaną zbiorowość na 25% i 75%
- kwartyl drugi Q2 (mediana lub wartość środkowa)
- kwartyl trzeci Q3 (górny) dzieli badaną zbiorowość na 75% i 25%
Każdy z kwartyli dzieli zbiorowość na dwie części pod względem liczebności.
-zmienna losowa- funkcja określona na zbiorze zdarzeń elementarnych o wartościach rzeczywistych.
-zmienna losowa skokowa- zmienna, której zbiór wartości jest skończony lub przeliczalny.
-dominanta- (Dx) modana, wartość najczęstsza; wariant cechy mierzalnej lub niemierzalnej, któremu odpowiada największa liczba jednostek z całego ich obserwowanego, indywidualnego zbioru.
-kurtoza- (termin użyty po raz pierwszy przez Pearsona) współczynnik koncentracji lub współczynnik skupienia, mierzy „spiczastość” rozkładu. Jeżeli wartość kurtozy jest wyraźnie różna od zera, wówczas rozkład jest albo bardziej płaski albo bardziej spiczasty niż rozkład normalny.
-wzór Pearsona- średnia arytmetyczna, dominanta i mediana są powiązane ze sobą odpowiednimi zależnościami (równość lub nierówność) w zależności od typu rozkładu. W przypadku rozkładu umiarkowanie niesymetrycznego zachodzi następujący związek :
‗ ‗
X - Dx = 3 ( x - Mx)
Statystyki opisowe (klasyczne i pozycyjne)
Indywidualne dane statystyczne
Podstawą analizy statystycznej są dane o liczbowych lub znakowych wariantach cech wszystkich obserwowanych jednostek zbiorowości generalnej lub próbnej. Dane takie mają charakter indywidualny i występują z reguły jako dane nieuporządkowane.
Jeżeli obserwacją statystyczną obejmujemy mierzalne cechy zmienne dla skończonego zbioru jednostek danej zbiorowości (n) wymagane jest zapisanie ich w module Zarządzanie danymi pakietu komputerowego Statistica.pl. Od tego momentu można rozpocząć analizę statystyczną przy użyciu wybranych modułów, procedur oraz opcji.
Jeżeli obserwacją statystyczną objęte są niemierzalne cechy zmienne, to wektory obserwacji nie są liczbowe lecz znakowe. W takim przypadku zapisujemy je, korzystając z menu Dane, pakietu Statistica.pl. Analiza statystyczna zostaje wówczas ograniczona do wyznaczania częstości empirycznych, zwanych wskaźnikami struktury.
Jeżeli dane indywidualne, wykorzystane w komputerowej analizie statystycznej, mają postać mierzalną, to w pierwszym etapie analizy interesujemy się przede wszystkim strukturą badanej zbiorowości. Analizujemy ją za pomocą miar opisowych, wykorzystując do tego procedurę statystyk opisowych, zawartych w module Statystyki podstawowe i tabele pakietu Statistica.pl, zamieniających wektory indywidualnych danych liczbowych na wskazane jednoliczbowe statystyki opisowe (skalary). Zaliczmy do nich opisowe miary:
położenia - średnia arytmetyczna, mediana, dominanta
zróżnicowania - wariancja, odchylenie standardowe, odchylenie ćwiartkowe, współczynnik zmienności (obliczany poza pakietem)
asymetrii i kurtozy - współczynnik skośności oraz kurtozy
Kryterium podziału na klasyczne i pozycyjne statystyki opisowe dotyczy tego, czy stanowią funkcję wszystkich wariantów mierzalnej cechy zmiennej (klasyczne), czy też niektórych (typowych) wariantów tej cechy (pozycyjne).
Indywidualne dane mogą prawidłowo charakteryzować względnie jednorodne zbiorowości statystyczne z punktu widzenia obserwowanej cechy zmiennej tylko wtedy, kiedy ich zróżnicowanie (asymetria i kurtoza) nie są nadmierne. Wtedy też bezpieczne jest stosowanie klasycznych statystyk opisowych. W innych przypadkach, gdy zbiorowość statystyczna jest wyraźnie niejednorodna należy skorzystać z pozycyjnych statystyk opisowych.
Miary położenia
Wektory nieuporządkowanych danych liczbowych o wariantach cechy zmiennej tworzą szczegółowe empiryczne rozkłady cech X1, X2, …(jedna lub więcej cech) o liczbie informacji odpowiednio równej n1, n2, …(jedna lub więcej zbiorowości).
Jeśli interesujemy się tylko jedną zbiorowością statystyczną (n) rozpatrywaną z punktu widzenia dwóch mierzalnych cech zmiennych (X1 oraz X2), dane te tworzą dwa szczegółowe empiryczne rozkłady cech X1 i X2 z liczba informacji n.
Jeżeli chcemy dowiedzieć się, jaka jest tendencja centralna (poziom przeciętnych wariantów cechy zmiennej), to mamy do wyboru statystyki klasyczne (np. średnią arytmetyczną) oraz statystyki pozycyjne (np. medianę i dominantę).
Wartości liczbowe tych statystyk możemy otrzymać (z wyjątkiem dominanty) z modułu Statystyki podstawowe i tabele pakietu Statistica.pl.
O ile średnia arytmetyczna jest klasyczną miarą przeciętnego poziomu cechy (funkcja wszystkich obserwacji), o tyle mediana należy do grupy średnich pozycyjnych. Warunkiem prawidłowego wyznaczenia mediany z danych indywidualnych jest uprzednie uporządkowanie (automatycznie realizowane przez pakiet komputerowy) szczegółowego empirycznego rozkładu cechy zmiennej. Wtedy też, w zbiorze uporządkowanych numerów poszczególnych jednostek zbiorowości (od xmin do xmax lub odwrotnie) wariant cechy o numerze
1
— (n + 1) jest medianą, czyli
2
1
Mx = x — ( n + 1 )
2
Z tym, że zachodzi dla:
- parzystego n → w ( xj < Mx ) = ½
- nieparzystego n → w (xj < Mx ) ≈ ½
Odległość liczbowa średniej arytmetycznej od mediany może potwierdzać stopień niejednorodności zbioru badanych jednostek zbiorowości statystycznej, a tym samym określać użyteczność posługiwania się średnią arytmetyką w opisie struktury zbiorowości. Rozróżniamy trzy najprostsze sytuacje co do regularnego empirycznego rozkładu mierzalnej cechy zmiennej, który może się charakteryzować:
- liczebną przewagą jednostek zbiorowości o relatywnie wysokich wariantach badanej cechy i wtedy zachodzi, że
‗
X < Mx (asymetria lewostronna, czyli ujemna)
- liczebną przewagą jednostek zbiorowości o relatywnie niskich wariantach obserwowanej cechy i wtedy zachodzi, że
‗
X > Mx (asymetria prawostronna, dodatnia)
- liczebną równowagę jednostek zbiorowości mających niskie i wysokie warianty obserwowanej cechy i wtedy zachodzi, że
‗
X = Mx , co odpowiada symetrii rozkładu , przy czym taka sytuacja nie zachodzi praktycznie nigdy w obserwacji zjawisk ekonomicznych.
Dominantę definiowaną powyżej użytkownik pakietu Statistica.pl może znaleźć w module Statystyki nieparametryczne. Jednakże szacowania dominanty jako miary położenia nie są objęte oprogramowaniem i wymagają operowania empirycznym rozkładem danych pogrupowanych ( szereg rozdzielczy).
Wykres ramkowy (czyli „pudełko z wąsami”)
- składa się z prostokąta (dla 50% informacji) oraz z dwóch, różnej długości, linii pionowych (dla pozostałych 50% informacji). Wysokość prostokąta ograniczona jest kwartylem pierwszym od dołu i kwartale trzecim do góry. Wewnątrz pudełka zaznaczony jest punkt, którego jedna ze współrzędnych jest medianą. Wąsy pudełka kończą się na najniższym i najwyższym wariancie obserwowanej cechy. Niesymetryczne położenie punktu medialnego w pudełku oraz różna długość wąsów świadczą o wysokim zróżnicowaniu i silnej asymetrii rozkładu empirycznego.
Najważniejszymi statystykami opisowymi dla mierzenia tendencji centralnej są średnia arytmetyczna oraz mediana. Kiedy występuje znacząca liczbowo różnica między tymi ocenami badana zbiorowość statystyczna jest niejednorodna. Należy wówczas dla jej badania posłużyć się statystykami pozycyjnymi.
Miary zróżnicowania
Miarami zróżnicowania określamy statystyki opisowe służące do mierzenia przeciętnego zróżnicowania wariantów mierzalnej cechy zmiennej. Punktem odniesienia dla ich liczbowego wyznaczania jest albo średnia arytmetyczna (klasyczne miary zróżnicowania), albo mediana (pozycyjne miary zróżnicowania).
Podstawową klasyczną miarą zróżnicowania jest wariancja : ( S²x).
Wariancja jest liczbą mianowaną w postaci kwadratu miana wariantów mierzalnej cechy X i dlatego nie jest interpretowana. Ma jednak wielorakie zastosowania w statystyce, w tym przede wszystkim stanowi podstawę wyznaczania odchylenia standardowego (Sx) oraz procentowego współczynnika zmienności (Vx).
We wszystkich pakietach komputerowych wariancja obliczana jest odmiennie, tzn. jako wariancja nieobciążona:
1 n ‗
Ŝ ²x = —— ∑ (xj - x )²
n - 1 j=1
gdzie s= n-1 określane jest jako liczba stopni swobody (oznaczane komputerowo df lub D.F.) tzn. liczba niezależnych wyników obserwacji w zbiorze n wyników.
Zachodzi więc relacja:
S²x= [ ( n-1 ) : n ] Ŝ²x
W rezultacie komputerowego rachunku wariancji nieobciążonej, odchylenie standardowe oraz procentowy współczynnik zmienności są kalkulowane także w inny sposób:
^ _
Ŝx = √Ŝ²x oraz Vx = 100 ( Ŝx : x )
^
Przy czym zachodzi, że Ŝx > Sx oraz V > Vx
Niekiedy w analizach statystycznych może chodzić o wydzielenie z badanej zbiorowości takiego podzbioru, który składa się z najbardziej typowych jednostek. Służy temu typowy przedział zmienności, określany zwykle jako:
_ _
‹x - Ŝx : x + Ŝx › , czyli przedział o długości dwóch odchyleń standardowych.
Obok klasycznych miar zróżnicowania występują także pozycyjne miary zróżnicowania. Do szczególnie użytecznych w analizach statystycznych zaliczmy odchylenie ćwiartkowe (Qx) oraz pozycyjny procentowy współczynnik zmienności (Vx). Są one oparte na kwartynach (pierwszym, drugim i trzecim) i mają postać:
Qx = (Q3 - Q1) : 2 oraz V′x = 100 (Qx : Q2 ), gdzie Q2 = Mx, Q1 to kwartyl pierwszy, czyli dolny, Q3 to kwartyl trzeci, czyli górny.
Zastosowanie pozycyjnych miar przeciętnego zróżnicowania powinno mieć miejsce wtedy, gdy jednostki zbiorowości statystycznych są nadmiernie zróżnicowane (Vx wyraźnie wyższy od 50 %) oraz wtedy, gdy empiryczne rozkłady cech są wysoce nieregularne (np. mają bardzo silna asymetrię, kilka dominant, itp.). Wtedy też, typowy przedział zmienności może być wyznaczany pozycyjnie (tylko dla 50 % najbardziej typowych jednostek), jako ‹ Mx - Qx : Mx + Qx ›
Obok omówionych powyżej klasycznych statystyk opisu przeciętnego zróżnicowania, zastosowanie w analizach statystycznych ma niekiedy odchylenie przeciętne (dx), określane jako:
n _
dx = ∑ | xj - x | : n gdzie zachodzi, że dx <Sx .
j=1
Standaryzacja wariantów cechy zmiennej
Warianty mierzalnych cech zmiennych występują w swojej pierwotnej postaci, tzn. są wyrażane liczbowo w pieniężnych lub w naturalnych jednostkach miary. W takich też jednostkach pojawiają się opisowe statystyki położenia i zróżnicowania. Są to więc liczby mianowane.
Jeżeli analizy statystyczne mają charakter porównawczy, to znaczenia nabierają standaryzowane warianty obserwowanych cech mierzalnych. Aby z liczb mianowanych ( wektor danych postaci [ xj ]) można było otrzymać liczby niemianowane (wektor danych postaci [ xj.stand. ] ), należy ciąg różnic od średniej
_
arytmetycznej (xj - x ), dla wszystkich j = 1, 2, …., n ) wyrazić w jednostkach odchylenia standardowego (Ŝx), to jest jako:
_ n _
xj.stand. = (xj - x ) : Ŝx , przy czym zachodzi, że ∑ xj. stand. = 0, xj. stand. = 0 oraz
j=1
S²xj.stand. = Sxj. stand. = 1.
Dla zbiorowości statystycznych, charakteryzujących umiarkowanym zróżnicowaniem wariantów obserwowanej cechy zmiennej, zachodzi zazwyczaj, że standaryzowane warianty xj. stand. Znajdują się w przedziale (-3, +3) lub nawet w przedziale (-2, +2). Jeżeli pojedyncze obserwacje nie zawierają się w tych przedziałach, to może to świadczyć o tym, że:
- występują nietypowo niskie, lub nietypowo wysokie warianty cechy (wtedy trzeba rozważyć, czy takie jednostki zbiorowości statystycznej nie powinny być wyeliminowane)
- występuje błąd w zapisie liczbowym - najczęściej pojawiający się przed standaryzacją - który należy usunąć.
Miary asymetrii i kurtozy
Po wyznaczeniu przeciętnego poziomu oraz przeciętnego zróżnicowania wariantów mierzalnej cechy zmiennej interesujemy się zwykle pogłębiona analizą struktury zjawisk masowych. Obejmuje ona m. in. odpowiedź na pytania :
- przy jakich poziomach wariantów cechy lokalizuje się relatywnie największa liczba jednostek danej zbiorowości? I to właśnie zjawisko określane jest jako asymetria prawostronna (średnia arytmetyczna wyższa od mediany), lub lewostronna ( średnia arytmetyka niższa od mediany);
- jaki jest stopień skupienia wariantów cechy względem ich średnio arytmetycznego poziomu, przy czym jako punkt odniesienia przyjmuje się standaryzowany symetryczny rozkład normalny, którego stopień skupienia określa się jako zerową kurtozę. Wyższy od normalnego stopień skupienia (spiczastość rozkładu danych) określamy jako dodatnią kurtozę, niższy ( rozmytość układu danych) określamy jako kurtozę ujemną.
Zjawisko kurtozy jest szczególnym przypadkiem szerszego zjawiska, określanego jako statystyczna koncentracja zwykle wysokiego odsetka górnej sumy wariantów cechy mierzalnej względem niewielkiego odsetka jednostek badanej zbiorowości statystycznej.
Podstawową klasyczną miarą asymetrii jest współczynnik asymetrii (Ax), oparty na trzecim momencie centralnym (m3), w przeliczeniu na sześcian odchylenia standardowego (S³x), tzn. jako :
n _
Ax= m3 : S³x = [ 1/n ∑ (xj - x )³ ] : S³x
j =1
Pierwszy moment centralny równa się zero (m1 = 0), natomiast drugi moment centralny równa się wariancji (m2 = S²x), przy czym, kiedy występuje umiarkowana siła asymetrii, to współczynnik Ax przyjmuje wartości liczbowe na ogół z przedziału niskich liczb ujemnych lub dodatnich. Wskazuje zatem nie tylko na siłę asymetrii, ale także na jej kierunek.
- zamiana współczynnika asymetrii obciążonego na miarę nieobciążoną ( Ax →Âx ):
n _
n ∑ (xj - x ) ³
j=1
Âx = ———————— dla n ≥ 3
(n-1) (n-2) Ŝx³
Miara asymetrii może być też podana w postaci standaryzowanej. Przyjmuje się wtedy założenie (właściwe wyłącznie dla n > 150), że w długim ciągu niezależnych prób losowych średnia arytmetyczna wyników Âx jest równa zero, zaś odchylenie standardowe tych wyników równa się w przybliżeniu √6:n. Wtedy też standaryzowany i nieobciążony współczynnik asymetrii ma postać:
Âx.stand. ≈ Âx : √ 6:n ,
który przy umiarkowanej sile asymetrii na ogół przyjmuje wartości liczbowe z przedziału (-3, +3 ). Ze względu na ograniczenia formalne ( warunek n > 150 ), miara asymetrii nie jest objęta bezpośrednim oprogramowaniem pakietu Statistica.pl.
Bardziej skomplikowana jest kalkulacja współczynnika kurtozy. Oparte są na czwartym momencie centralnym (m4).
- postać obciążona
4 n _ 4 4
Cx = mx : Sx = [ ∑ (xj - x ) : n ] : Sx
j=1
- postać nieobciążona
n _ 4 n _
‹ n (n+1) ∑ (xj - x ) - 3 ( n - 1 ) [ ∑ (xj - x )² ] ² ›
j=1 j=1
Ĉ= ————————————————————————— , dla n ≥ 4
4
(n-1) (n-2) (n-3) Ŝx
- postać nieobciążona i jednocześnie standaryzowana
Ĉx.satand. ≈ Ĉx : √ 24 :n
Przy czym, analogicznie jak w przypadku współczynników asymetrii, oprogramowany w pakiecie Statistica.pl jest tylko nieobciążony współczynnik asymetrii oraz dokładniejsze (od √ 24:n ) odchylenie standardowe. Wartość liczbowa postaci nieobciążonej, standaryzowanej wskazuje na siłę i kierunek kurtozy. Obliczony współczynnik kurtozy na ogół przyjmuje wartości z przedziału (-3, +3 ). W przypadku gdy jest mniejszy od -3 występuje znaczące spłaszczenie rozkładu empirycznego, natomiast, gdy jest jego wartość jest większa od +3 występuje znacząca spiczastość tego rozkładu.
Szeregi rozdzielcze
Szeregami rozdzielczymi nazywamy empiryczne rozkłady cech zmiennych powstałe w rezultacie grupowania danych.
Jeżeli obserwujemy mierzalną cechę skokową z wariantami, które są całkowitymi liczbami jedno- lub wielocyfrowymi, to wtedy konstruujemy szereg rozdzielczy postaci punktowej (bez przedziałów). Rozwinięty schemat takiego szeregu jest wtedy następujący :
X = xi |
ni |
wi = ni : n |
w ( X ≤ xi ) |
X1 |
n1 |
w1 |
w1 |
X2 |
n2 |
w2 |
w1+w2 |
· |
· |
· |
· |
· |
· |
· |
· |
· |
· |
· |
· |
xk |
nk |
wk |
1 |
k ∑ i=1 |
n |
1 |
|
przy czym przyporządkowanie wektora [ni] lub wektora [wi] wektorowi [xi] dla wszystkich i = 1, 2, ….., k jest szeregiem rozdzielczym w postaci punktowej.
Występuje przy tym pojęcie dystrybuanty empirycznej G( X = xi ), definiowane dla mierzalnych cech skokowych, jako funkcja niemalejąca postaci:
G (X = xi ) = w ( X ≤ xi) , która przyjmuje wartości liczbowe z przedziału ( 0;1), przy czym kres dolny osiąga w przypadku X < xi =xmin (wtedy G( X< xi = xmin ) = 0), natomiast kres górny w przypadku X = xk = xmax
(wtedy G( X ≤ xk = xmax ) = 1).
Oceny liczbowe dystrybuant są komputerowo podawane w procentach, a zatem ich kresy dolny i górny wynoszą odpowiednio 0 % i 100 %.
Inne są natomiast algorytmy i wyniki w przypadku, gdy obserwowane warianty cechy mierzalnej (skokowej lub ciągłej) są przedstawione w postaci przedziałowego szeregu rozdzielczego, w którym następuje przyporządkowanie wektora [ni] lub wektora [wi] wektorowi dolnych i górnych granic [ x0i ; x1i] każdego kolejnego przedziału klasowego wariantów obserwowanej cechy i = 1, 2, ….,k, gdzie (2 ≤ k ≤ n)
Rozwinięty schemat takiego rozkładu przedstawić można następująco:
i |
x0i < X ≤ x1i |
, xi |
ni |
wi |
w( X ≤ x1i) |
1 |
x01;x11 |
, x1 |
n1 |
w1 |
w1 |
2 |
x02;x12 |
. x2 |
n2 |
w2 |
w1+w2 |
· |
· |
· |
· |
· |
· |
· |
· |
· |
· |
· |
· |
k |
x0k;x1k |
. xk |
nk |
wk |
1 |
|
|
∑ i |
n |
1 |
|
przy oznaczeniach tych samych, jak w punktowym rozkładzie empirycznym, z
.
wyjątkiem nowego pojęcia, tzw. środków przedziałów klasowych (xi), definiowanych jako: .
xi = (x0i + x1i ) :2 ,
które w przedziałowych szeregach rozdzielczych reprezentują (lepiej lub gorzej) wszystkie warianty cechy mierzalnej w danym przedziale. Sposób zapisywania przedziałów klasowych jest konwencją i zależy m.in. od rodzaju cechy zmiennej. Liczba przedziałów klasowych (k) oraz ich rozpiętość (hi) mogą być orientacyjnie wyznaczane według różnych algorytmów, w tym także według wzoru:
xmax - xmin
k = √n oraz hi = ———————
k
Rozpiętość wszystkich przedziałów może być jednakowa lub różna, co nie pozostaje bez wpływu na poziom statystyk opisowych wyznaczonych w oparciu o przedziałowy szereg rozdzielczy.
Należy zauważyć, że pomiędzy rzeczywistymi (opartymi na danych indywidualnych) i szacowanymi (opartymi na środkach przedziałów klasowych) opisowymi statystykami występują różnica, które mogą się okazać znaczące statystycznie. Zbiór miar opartych na szeregu rozdzielczym, przy odmiennej liczbie przedziałów klasowych, byłby inny. Powodem różnic jest to, że na ogół środki przedziałów klasowych różnią się ( na skutek wewnętrznej, przedziałowej asymetrii mogą być przeszacowane lub niedoszacowane) od rzeczywistych średnich arytmetycznych w przedziałach klasowych.
Im wyższe zróżnicowanie oraz wyraźniejsza asymetria (zwłaszcza krańcowa) empirycznego rozkładu wyników obserwacji statystycznej, tym mniejszy powinien być zakres użyteczności statystyk opisowych szacowanych ze środków przedziałów. Stają się one wtedy słabo reprezentatywne względem podzbiorów informacji zawartych w utworzonych przedziałach klasowych.
Stosowanie wzorów interpolacyjnych może okazać się jednak konieczne wtedy, gdy nie mamy żadnych innych informacji, poza przedziałowym szeregiem rozdzielczym.
Z dotychczasowych prezentacji opisowych miar struktury badanych zjawisk masowych wynika, że są one różne zakresowo i rodzajowo. Wybór określonego zakresu opisywanej analizy i rodzaju użytych miar statystycznych zależy nie tylko od sformułowanych celów badawczych i rodzaju dysponowanych danych liczbowych, ale także od stopnia jednorodności obserwowanych zbiorowości statystycznych.
Zbiorowość statystyczna względnie jednorodna z punktu widzenia rozkładu danej cechy zmiennej, może być jednocześnie niejednorodna ze względu na rozkłady innych cech zmiennych. Umownie można jednak przyjąć, że względnie jednorodne (ze względu na daną cechę zmienną) są takie zbiory jednostek obserwacji, których empiryczne rozkłady charakteryzują się jednym wyraźnym maksimum, umiarkowanym zróżnicowaniem i nienadmierną asymetrią. Wszystkie inne rozkłady, a zwłaszcza o nieregularnym przebiegu, odpowiadają zbiorowościom statystycznym niejednorodnym i ich opisowa analiza powinna być oparta jedynie na pozycyjnych miarach opisu struktury. Korzystniejsze dla analizy byłoby jednak dokonanie podziału niejednorodnej zbiorowości statystycznej na bardziej jednorodne podzbiorowości i stosowanie wtedy, już bez ograniczeń, klasycznych miar opisu struktury.
Inne miary opisu struktury
- dominanta (Dx)
* można ją wprowadzić do analizy statystycznej jedynie w przypadku uprzedniej zmiany danych indywidualnych na dane pogrupowane (szeregi rozdzielcze) i dodatkowo tylko wtedy, kiedy rozkład empiryczny ma jedno wyraźne maksimum.
Jeżeli warunki te są spełnione, to mamy do czynienia z dwoma sytuacjami:
szereg rozdzielczy jest punktowy i wtedy dominanta jest ten wariant cechy zmiennej, który występuje najczęściej. Dominanta wyznaczana jest zatem przez wskazanie Dx = xi dla maksymalnej ni lub wi;
szereg rozdzielczy jest przedziałowy i wtedy dominantą jest ten wariant cechy zmiennej, wokół którego grupuje się największa liczba jednostek zbiorowości statystycznej. Dominanta jest wtedy szacowana interpolacyjnie z podzbioru wariantów trzech (o równej rozpiętości) przedziałów klasowych jako:
w - w
Dx Dx -1
Dx ≈ x + ——————————————— h
0Dx 2 w - w - w Dx
Dx Dx -1 Dx+1
gdzie :
x - dolna granica przedziału dominanty
0Dx
w , w , w - liczba jednostek obserwacji w przedziałach dominanty
Dx Dx-1 Dx+1 (badanym, poprzednim i następnym)
h - rozpiętość przedziału dominanty
Dx
W sytuacji, gdy wszystkie trzy rodzaje opisowych miar położenia (średnia, mediana i dominanta) szacowane są z przedziałowych szeregów rozdzielczych, a nie z danych indywidualnych, można rozpatrywać nierówność:
_ _
, .
x > Mx > Dx lub x < Mx < Dx
co występuje w przypadku asymetrii dodatniej (dominanta najniższa) lub asymetrii ujemnej (dominanta najwyższa).
- pozycyjny współczynnik asymetrii (A'x)
Można go skonstruować w oparciu o kwartyle (pierwszy, drugi i trzeci). Jest szczególnie użyteczny w przypadkach, kiedy analizy struktury dotyczą niejednorodnych, lub nie w pełni jednorodnych, zbiorowości statystycznych. Ma on postać:
A'x = (Q3 - 2Q2 + Q1) : (Q3 - Q1), przy czym przyjmuje on wartości liczbowe z przedziału (-1;+1). Wskazuje zatem na kierunek (znak) i na siłę (moduł) wyznaczanej pozycyjnie asymetrii rozkładu.
- współczynnik skośności (A''x)
Wyznaczamy go dysponując danymi liczbowymi w postaci przedziałowego szeregu rozdzielczego oraz kiedy spełnione są formalne warunki szacowania dominanty. Oparty jest na średniej arytmetycznej, dominancie i odchyleniu standardowym:
_
. , ,
A''x = (x - Dx ) : Sx , gdzie odchylenie standardowe Sx jest pierwiastkiem kwadratowym z wariancji, szacowanej jako:
k k
S²x = 1/n ∑ (xi - x )² ni = ∑ (xi - x)² wi
i=1 i=1
- siła koncentracji
Siła koncentracji jest stopniem nierówności rozłożenia ogólnej sumy wartości mierzalnej cechy zmiennej pomiędzy poszczególne grupy jednostek badanej zbiorowości statystycznej. Liczbowe wyrażenie siły koncentracji wymaga transformacji pierwotnego szeregu rozdzielczego, w którym nastąpiło przyporządkowanie wektora [ni] wektorowi [x0i ; x1i ], na szereg rozdzielczy wtórny, w którym następuje przyporządkowanie wektora
ni
[ mi = ∑ xij ] wektorowi [ni ], w obu przypadkach dla wszystkich j = 1, 2, …., ni, gdzie
j=1 ni są liczebnościami utworzonych przedziałów klasowych.
Statystyczny pomiar siły zjawiska koncentracji odbywa się na podstawie porównania liczbowych ciągów dystrybuant empirycznych, tym razem definiowanych jako:
G1 (x1i) = w1 (X < x1i) oraz G2 (x1i) = w2 (X < x1i), dla wszystkich i = 1, 2,…,k (liczba przedziałów klasowych), gdzie:
k k
w1 = ni : ∑ ni oraz w2 = mi : ∑ mi
i=1 i=1
Rozróżnić należy dwie możliwe sytuacje (teoretyczną i empiryczną), a mianowicie:
- jeżeli występuje całkowity brak koncentracji zjawiska, to występuje identyczność ciągów empirycznych dystrybuant G1 i G2, tzn. dla wszystkich i = 1, 2, …, k zachodzi, że : w1 (X < x1i) = w2 (X < x1i)
- jeżeli występuje koncentracja zjawiska , to tym większa jest niezgodność liczbowych ciągów dystrybuant G1 i G2, im wyższa jest koncentracja badanego zjawiska. Wtedy zachodzi, że: w1 (X < x1i ) > w2 (X < x1i ), dla wszystkich i = 1, 2,…, k. Na tej podstawie skonstruowana została opisowa miara siły koncentracji (km), zwana współczynnikiem Lorenza :
k
km = 1 - ∑ [w2 ( X < x1i ) + w2 ( X< x1i )] w1i
i=1
przy czym współczynnik koncentracji przyjmuje wartości z przedziału liczbowego od 0 do 1. Krańcowe wartości liczbowe tego współczynnika praktycznie nie mogą się pojawić i stąd 0 < km < 1.
Opisowa analiza porównawcza struktur
Badania statystyczne dotyczą zazwyczaj wielowymiarowych przestrzeni pozyskiwania i analizowania informacji liczbowych, obejmujących swym zasięgiem różne zbiorowości jednostek obserwacji oraz różne cechy zmienne. W takich sytuacjach szczególne znaczenie ma właściwy dobór statystycznych meto analizy porównawczej.
Aby zbiorowość statystyczną uczynić bardziej jednorodną ze względu na obserwowaną cechę zmienną, należy wydzielić z niej dwie lub więcej podzbiorowości. Charakteryzują się one mniejszym zróżnicowaniem, czego wyrazem są niższe wariancje cechy w porównaniu do wariancji cechy dla całej zbiorowości. Podział zbioru wszystkich obserwacji na podgrupy odbywa się komputerowo w drodze zastosowania procedur i opcji kodowania obserwowanych zmiennych. W pakiecie Statistica.pl procedury i opcje kodowania zmiennych uruchamiane są poprzez menu Dane. W analizach statystycznych interesujemy się przede wszystkim diagnostycznym efektem podziału zbiorowości statystycznej na bardziej jednorodne grupy jednostek. Procedury i opcje kodowania zmiennych są tylko technicznym środkiem uzyskania efektu diagnostycznego.
Diagnostyczne walory analiz statystycznych ulegają poprawie tylko wtedy, gdy cecha zmienna , uznana przez użytkownika jako czynnik klasyfikacyjny, jest statystycznie znacząco związana z opisywanymi cechami zmiennymi. Dlatego też często przyjmowane jest niezależne i rozdzielne kryterium podziału jednostek zbiorowości statystycznej na podzbiorowości dla każdej cechy zmiennej osobno.
Dla takich niezależnych i rozdzielnych podziałów badanej zbiorowości statystycznej uzyskujemy zawsze efekt spadku warunkowych wariancji, odchyleń standardowych i ćwiartkowych oraz warunkowych współczynników zmienności ( klasycznych i pozycyjnych).
Analizy statystyczne informacji warunkowych (przynależnych do poszczególnych grup jednostek obserwacji) nie zastępują analiz prowadzonych na informacjach sumarycznych (dla wszystkich jednostek obserwacji), ale stanowiąc ich znaczące wzbogacenie, mogą niekiedy umożliwiać formułowanie wniosków natury ogólniejszej.
PRZYKŁAD
Porównania numeryczne i graficzne
Zbadano 68 koncernów w Polsce (2005 r.) ze względu na rozmiary przychodów brutto (x1) w mld złotych oraz ze względu na pozycje ekonomiczną (x2) w pkt. Wzięto pod uwagę 67 miar ekonomicznych.
Wydruk komputerowy ma postać:
nr |
konsorcja |
x1 |
x2 |
1 |
KGHM Polska Miedź |
8,0 |
1688 |
2 |
BSH SGD |
1,8 |
1634 |
… |
……….. |
… |
… |
… |
……….. |
… |
… |
67 |
SPEC |
1,3 |
593 |
68 |
Lasy Państwowe |
5,1 |
593 |
- ze względu na którą zmienną rozkład empiryczny konsorcjów jest (z punktu widzenia zróżnicowani i skośności) bardziej jednolity statystycznie?
a) x1
b) x2
c) są jednakowe
d) nie można odpowiedzieć
moduł : statystyki podstawowe i tabele
procedura : statystyki opisowe
opcja : więcej: wybór przez użytkownika - n-ważnych
średnia
odchylenie standardowe
skośność
błąd standardowy skośności
zmienna |
n-ważnych |
średnia |
odch.stand. |
skośność |
błąd stand.skośności |
przychody (x1) |
68 |
3,712 |
4,5949 |
3,129170 |
0,290766 |
pozycja ekonomiczna (x2) |
68 |
1150,015 |
297,2653 |
-0,263519 |
0,290765 |
Rozwiązanie
Uzasadnienia:
n=68 koncernów
x1 - przychody (mierzalna cecha ciągła)
x2 - pozycja ekonomiczna (mierzalna cecha skokowa)
- średnia
_ 68
x1 = 1/68 ∑ xj1 ≈ 3,7 mld złotych
j=1
_ 68
x2 = 1/68 ∑ xj2 ≈ 1150 pkt
j=1
- odchylenie standardowe
1 68
Ŝx1 = √—— ∑ (xj1 - 3,712)² ≈ 4,6 mld złotych
68 - 1 j=1
1 68
Ŝx2 = √—— ∑ (xj2 - 1150,015 )² ≈ 297 pkt
j=1
- współczynnik zmienności
ˆ 4,5949
Vx1 = ———— 100 % = 123,8 %
3,712
ˆ 297,2653
Vx2 = ————— 100 % = 25,8 %
1150,015
- współczynnik skośności
68
68 ∑ (xj1 - 3,712)³
j=1
Âx1 = ——————————— ≈ + 3,1
(68-1) (68-2) (4,5949)³
68
68 ∑ (xj2 - 1150,015)³
j=1
Âx2 = ——————————— ≈ - 0,3
(68-1) (68-2) (297,2653)³
- standaryzowany współczynnik skośności
3,129170
Âx1(st) = ————— ≈ 10,8
0,290766
-0,263519
Âx2(st) = ————— ≈ - 0,9
0,290765
-średni błąd losowy współczynnika skośności
SÂ = √6/68 ≈ 0,3
|
x1 |
x2 |
V |
123,8 % |
25,8% |
Â(st) |
+10,8 |
-0,9 |
Interpretacje:
- badaniem objęto zbiorowość 68 koncernów, rozpatrywanych pod względem dwóch cech mierzalnych (przychody i pozycja ekonomiczna)
- biorąc pod uwagę przeciętne zróżnicowanie (wyraźnie niższe dla pozycji ekonomicznej równej 25,8 %) oraz skośność (wyraźnie niższą dla pozycji ekonomicznej i równą -0,9) stwierdzamy:
a) bardziej jednorodny statystycznie jest rozkład konsorcjów ze względu na x2 (pozycja ekonomiczna)
b) rozkład konsorcjów ze względu na x1 (przychody) charakteryzuje się nietypowo wysoką przeciętną zmiennością (123,8 %) i bardzo wysoką (wyższą od +2) skośnością (+10,8)
Oznacza to, że w badanej zbiorowości 68 firm znajdują się jednostki nietypowe ze względu na poziom przychodów
- stąd prawidłową jest odpowiedź „B”
Rozkłady zmiennych losowych
Rozkłady teoretyczne i ich parametry
Odpowiednikiem mierzalnej lub niemierzalnej cechy zmiennej, w przypadku wnioskowania statystycznego jest zmienna losowa. Oznaczamy ją tak samo jak cechę symbolem X. O ile każda obserwowana cecha zmienna przyjmuje swoje warianty, o tyle w przypadku zmiennej losowej mówimy o jej realizacjach. Oznaczamy je również symbolem xj, dla wszystkich j=1, 2,….,n (skończony zbiór realizacji) i dla wszystkich j=1, 2, 3…..(nieskończony zbiór realizacji). Pojęcia cechy zmiennej i zmiennej losowej oraz wariantów i realizacji są zatem podobne, lecz nieidentyczne (pojęcie statystycznych cech zmiennych dotyczy opisu statystycznego, natomiast pojecie zmiennych losowych odnosi się do wnioskowania statystycznego).
Warianty cech są zawsze skończonym zbiorem informacji liczbowych i występują z określonymi częstościami empirycznymi, podczas gdy realizacje zmiennych losowych mogą być skończonymi lub nieskończonymi zbiorami informacji liczbowych, występujących z określonymi prawdopodobieństwami. Informacje te tworzą rozkłady empiryczne (w przypadku cech zmiennych) oraz rozkłady teoretyczne (w przypadku zmiennych losowych).
Zestawienie pojęć w zależności od zakresu analizy statystycznej:
opis statystyczny → wnioskowanie statystyczne
cechy zmienne → zmienne losowe
warianty cech → realizacje zmiennych
częstości empiryczne → prawdopodobieństwa teoretyczne
rozkłady empiryczne → rozkłady teoretyczne
-zmienna losowa (X) - każda jednoznacznie określona funkcja rzeczywista określona na zbiorze elementarnych zdarzeń losowych. Może mieć ona postać zmiennej losowej skokowej, czyli dyskretnej (Xs) lub zmiennej losowej ciągłej (Xc).
Zmienna losowa (lub zmienna przypadkowa) jest taką zmienną, która w wyniku doświadczeń statystycznych przyjmuje określone oraz zależne od czynników natury losowej wartości liczbowe, pojawiające się z różną częstością (prawdopodobieństwem).
Zmienna losowa wyraża przyporządkowanie zdarzeniom losowym pewnych wartości, zwykle liczbowych lub wektorowych.
-zmienna losowa skokowa (Xs) - jest taką zmienną, której zbiór realizacji (xj) jest skończony (x1, x2, …,xk) lub przeliczalny (x1, x2,…xk, xk+1,…) i zostaje wyrażony liczbami całkowitymi, przy czym prawdopodobieństwo realizacji tej zmiennej w punkcie X = x1 wynosi :
P( X=x1 ) = pi,
gdzie realizacje xi są skończone (i=1,2,…,k) lub przeliczalne (i=1,2,…,k, k+1, k+2,…).
Dla skończonego zbioru realizacji zmiennej losowej skokowej, suma ich prawdopodobieństw równa się prawdopodobieństwu zdarzenia pewnego, tzn. :
p1+p2+….+pk = P (x1 ≤ Xs ≤ xk ) =1
- zmienna losowa ciągła (Xc)
zbiór wszystkich możliwych realizacji tej zmiennej jest jednocześnie nieskończony i nieprzeliczalny, stąd też prawdopodobieństwo realizacji zmiennej losowej (Xc) w punkcie zawsze P ( Xc = xi ) = 0. w tej sytuacji przechodzimy z prawdopodobieństw punktowych (właściwych dla zmiennych losowych Xs) na prawdopodobieństwa przedziałowe (konieczne dla zmiennych Xc):
P ( x0i ≤ Xc ≤ x1i ) = pi, gdzie x0i oraz x1i są dolnymi i górnymi granicami i-tego przedziału klasowego dla Xc.
Pomiar realizacji zmiennych losowych ciągłych odbywa się w warunkach zaokrągleń liczbowych (do jednego lub dwóch miejsc po przecinku), tak więc zmienne losowe matematycznie ciągłe maja faktycznie postać zmiennych quasi-ciągłych.
Teoretycznie o zdarzeniu pewnym mówimy w przypadku zmiennych losowych ciągłych, jeżeli ich realizacje występują w przedziale od -∞ do +∞, albowiem wtedy:
P(-∞ ≤ Xc ≤ ∞) = 1. Jeżeli jednak szacujemy prawdopodobieństwo realizacji zmiennej losowej ciągłej Xc dla k przedziałów klasowych (2 ≤ k ≤ n ), to zachodzi, że:
p1 + p2 + …+ pk < 1.
- punktowe rozkłady zmiennej losowej skokowej Xs - są przyporządkowaniem wektora prawdopodobieństw [pi] wektorowi realizacji [xi] zmiennej losowej skokowej. Przyporządkowanie to można wyrazić funkcja rozkładu masy prawdopodobieństwa postaci :
P(Xc = xi) = pi dla i=1, 2,….,k
- przedziałowe rozkłady zmiennej losowej ciągłej Xc - są przyporządkowaniem wektora prawdopodobieństw [pi] wektorowi dolnych o górnych końcówek przedziałów klasowych [X0i, X1i] zmiennej losowej ciągłej. Przyporządkowanie to wyrażamy poprzez całkowanie dla każdego przedziału klasowego w zakresie od x0i do x1i, funkcji gęstości prawdopodobieństw f(x), tzn., jako:
X1i
P(x0i < Xc < x1i) = ∫ f(x) dx = p
X0i
przy czym funkcję gęstości w sensie matematycznym identyfikuje się z postacią:
f(x) = lim { P [(x < X < x + ∆x)] : ∆x }
∆x→0
+ ∞
Przy warunkach, że f(x) ≥ 0 oraz ∫ f(x) dx = 1, gdzie dx jest różniczką teoretycznej dystrybuanty -∞
F(x) = P ( X < x ), która jest funkcją pierwotną dla funkcji gęstości f(x).
-dystrybuanta- w zależności od rodzaju rozkładu teoretycznego (punktowy lub przedziałowy), jako niemalejąca funkcja prawdopodobieństw jest odmiennie określana dla zmiennych losowych skokowych [ F(xi)] oraz dla zmiennych losowych ciągłych:
xi x1i
F(xi) = ∑ pi = P( Xs ≤ xi ) oraz F(x1i) = ∫ f(x) dx = P (Xc < x1i)
X1 -∞
W przypadku rozkładów zmiennych losowych ciągłych, dla kolejnych przedziałów klasowych można liczbowo wyznaczać prawdopodobieństwa realizacji obserwowanej zmiennej dokładnie (na podstawie różnic dystrybuant) lub szacunkowo (na podstawie funkcji gęstości):
P (x0i < Xc < x1i ) = F (x1i) - F (x0i)
P(x0i < Xc < x1i ) ≈ f(x)hx,
gdzie rozpiętość przedziałów jest długością i-tego przedziału klasowego określaną liczbowo jako: hx = x1i - x0i.
- funkcja gęstości- średnia liczba prawdopodobieństwa , przypadająca na jednostkę długości przedziału klasowego w założeniu, że rozpiętość tego przedziału dąży do 0.
Dla zmiennej losowej skokowej (Xs):
- wartość oczekiwana E(Xs)
Wyznaczana jest z punktowego rozkładu:
k
E(Xs) = ∑ xi pi = ms , gdzie ms jest nieznana wartością liczbową średniego poziomu
i=1
realizacji zmiennej losowej skokowej w skończonej populacji generalnej.
-wariancja D²(Xs)
k
D²(Xs) = ∑ (xi - ms)² pi = E(Xs²) - [ E(Xs)]²= δs², gdzie δs² jest nieznaną wartością
i=1
liczbową średniego poziomu kwadratów odchyleń (od wartości oczekiwanej) realizacji zmiennej losowej skokowej w skończonej populacji generalnej.
- odchylenie standardowe D(Xs)
D(Xs) = √ D²(Xs) = δs
- procentowy współczynnik zmienności V(Xs)
V(Xs) = 100 [ D(Xs): E(Xs)]= 100 (ms : δs)
Dla zmiennej losowej ciągłej (Xc)
- wartość oczekiwana E(Xc)
∞
E(Xc) = ∫ x f(x) dx = mc
-∞
- wariancja D²(Xc)
∞
D²(Xc) = ∫ (x - mc)² f(x) dx = E(Xc²) - [ E(Xc)]² = δc²
-∞
- odchylenie standardowe D(Xc)
D(Xc) = √ D²(Xc) = δc
- procentowy współczynnik zmienności V(Xc)
V(Xc) = 100 [ D(Xc) : E(Xc)]= 100 (δc : mc )
Jeśli chodzi praktyczne zastosowanie (z wykorzystaniem np. pakietu Statistica.pl) rozkładów teoretycznych w tym dziale analizy statystycznej, który zajmuje się podejmowaniem decyzji w warunkach niepewności, czyli parametrycznym oraz nieparametrycznym wnioskowaniem statystycznym, stosujemy:
- dla zmiennych losowych skokowych - rozkład dwumianowy Bernoulliego (B) oraz rozkład Poissona (P)
- dla zmiennych losowych ciągłych - rozkład normalny Gaussa-Laplace'a (N), jego transformację w postać rozkładu logarytmiczno-normalnego (LN), rozkład chi-kwadrat Abbego, Helmerta i Pearsona (CHS), rozkład Studenta (S) oraz rozkład Fishera-Snedecora (FS).
Rozkład normalny
Jeżeli zmienna losowa ciągła (Xc) posiada rozkład normalny, to jego funkcja gęstości (opracowana przez Gaussa-Laplace'a) ma postać:
1 (x-m)²
f(x) = ————— exp [ - ——— ] gdzie:
δ √ 2 ¶ 2δ²
¶ ≈ 3,14
e ≈ 2,72 (podstawa logarytmów naturalnych)
-b
exp → e (podstawa logarytmów naturalnych w ujemnej potędze)
Zmienna losowa ciągła (Xc) ma rozkład normalny, który jest całkowicie określony dwoma parametrami
(Xc) → N (m, δ)
Kształt rozkładu normalnego (zawsze symetrycznego) określony jest całkowicie przez dwa parametry:
- wartość oczekiwaną m
- odchylenie standardowe δ.
Występuje nieskończenie wiele rozkładów normalnych różniących się położeniem m i rozmiarami δ.
Xc→ N (m1, δ1)
Xc → N (m2, δ2)
m1 < m2
δ1 < δ2
- dystrybuanta F(x) zmiennej losowej X
Dystrybuanta jest funkcją niemalejącą w okresie dolnym 0 dla (-∞) i 1 dla (+∞).
Transformacja X na zmienną standaryzowaną U.
x-m
X → U = —— X - zmienna naturalna (pierwotna)
δ U - zmienna standaryzowana (przekształcona)
E(U) = 0 wartość oczekiwana jest znana liczbowo (0)
Zawsze zachodzi :
D² (U) = D(U) = 1 wariancja równa odchyleniu standardowemu
- jeżeli X ma rozkład N (m,δ) to U ma SN (standardowy normalny rozkład) o parametrach (0;1).
1 n²
X → N (m,δ) f(x) = ——— exp ( - — )
U → SN (0;1) √2¶ 2
- gęstość najwyższa nie przekracza (0,4)
- reguła trzech odchyleń standardowych:
P( -1 < x < +1) ≈ 0,68
P(-2 < x < +2) ≈ 0,95
P(-3 < x < +3) ≈0,99
prawdopodobieństwo „sukcesu” 1 - α |
prawdopodobieństwo „porażki” α |
wartości bezwzględne zmiennej u (uα) |
… |
… |
… |
0,99 |
0,01 |
~ 2,58 |
… |
… |
… |
0,95 |
0,05 |
~ 1,96 |
… |
… |
… |
0,90 |
0,10 |
~ 1,64 |
- prawdopodobieństwo sukcesu
deklarowane poziomy istotności (użyteczne przy estymacji-szacowaniu parametrów)
- prawdopodobieństwo porażki
deklarowane poziomy istotności (użyteczne przy weryfikacji hipotez)
- paradoks statystyczny:
im wyższy poziom ufności, tym niższy poziom precyzji.
- dystrybuanta
F(u) = P (U ≤ u) dystrybuanta w punkcie U = u
F (- ∞) = 0
F(u=0) = ½
F(+ ∞) = 1
Dystrybuanty rozkładu normalnego ( a także i innych rozkładów teoretycznych) mogą być odczytywane z dwóch źródeł:
- z tablic statystycznych, przy czym wtedy odczyty są mniej dokładne i z ograniczeniami formalnymi
- z kalkulatora prawdopodobieństwa i wtedy odczyty są dokładniejsze i bez ograniczeń formalnych
P(x1 <X < x2) = P (u1 < U < u2) = p
↓ ↓
N (m,δ) SN (0;1)
Aby oszacować prawdopodobieństwa realizacji przedziałowych, należy zastosować rachunek różnic dystrybuant.
F(u1) = P (U ≤ u1) = P1
F(u2) = P (U ≤ u2) = P2
F(u2) - F(u1) = P P1 - P2 = P
Rozkłady statystyk z prób losowych
P(x1 < m < x2 ) = 1 - α
x1 - dolna końcówka przedziału ufności - zmienna losowa
m - E(x)
x2 - górna końcówka przedziału ufności - zmienna losowa
(x2 - x1) - rozpiętość przedziału ufności
(1 - α) - deklarowany poziom ufności ( w zastosowaniu społeczno-ekonomicznym zazwyczaj z przedziału od 0,90 do 0,99)
- jeżeli : X → N (m, δ) zmienna losowa mierzalna posiada rozkład normalny o parametrach m (wartość oczekiwana) i δ (odchylenie standardowe), to:
m
Σ Xj → N (mn, δ √n)
i=1
- suma niezależnych (dla kolejnych prób losowych) zmiennych losowych też ma rozkład normalny, ale o parametrach m n (wartość oczekiwana) i δ √n (odchylenie standardowe), wtedy:
n
Σ x1
i=1 ‗ δ
—— = Xn → N (m, —— )
n √n
- średnia zmienna losowa (dla ciągu n-niezależnych prób) również ma rozkład normalny, ale z parametrami m (wartość oczekiwana) i δ / √n (odchylenie standardowe).
- jeżeli szacowany jest parametr m, to średni błąd losowy tego oszacowania wynosi:
δ Sx
SEE = —— a) ~ —— dla dużych liczebnie prób losowych; n >120
√n √n
Ŝx Ŝx dla małych liczebnie prób losowych; n ≤ 120
b) ~ —— = ——
√n √n-1
- w pakietach komputerowych (np. Statiscica.pl) przedziały ufności kalkulowane są w oparciu o teorie małych liczebnie prób losowych.
- zmienna standaryzowana Un ma rozkład standaryzowany normalny o parametrach 0 (wartość oczekiwana) i 1 (odchylenie standardowe)
‗
Xn → Un = SN (0,1)
‗ Sx
x1 = Xn - Uα —— dolna końcówka przedziału ufności
√ n
‗ Sx
x2 = Xn +Uα —— górna końcówka przedziału ufności
√n
- transformacja U (zmienna losowa o rozkładzie standardowym normalnym) → t (zmienna losowa o rozkładzie studenta)
‗
x-m
U → t = ——— → S (s = n -1) s - liczba stopni swobody (df)
Sx
——
√n
- końcówki ‗ Ŝx ‗ Ŝx
x1 = x - tαs —— x2 = x + tαs ——
√n √n
- algorytm szacowania końcówek (x1,x2) przedziału ufności z jednej próby losowej (n) na poziomie deklarowanej ufności (1 - α)
- (-tαs), ( + tαs) - krytyczne poziomy odczytywane z tablic lub z kalkulatora
x1 = - tαs
długość przedziału ufności
x2 = +tαs
- interpretacja końcówek :
Z prawdopodobieństwem (1 - α) należy oczekiwać, że przedział liczbowy o końcówkach x1, x2 należy do podzbioru takich przedziałów ufności, które pokrywają szacowany parametr.
- precyzja bezpiecznego wnioskowania o parametrze m (i wszystkich innych szacowanych parametrów)
‗ ‗ x2 - x1
Δx - bezwzględna miara precyzji Δx = ——— (bezwzględny półprzedział
2 ufności)
Względna miara precyzji:
‗
Δx
δx = ——— 100 ( procentowy półprzedział ufności)
‗
x
δ |
wnioskowanie statystyczne o parametrze (1-α) jest: |
≤ 5 % |
całkowicie bezpieczne |
5 - 10 % |
dopuszczalne, ale z ostrożnością * |
> 10 % |
Konieczność zaprzestania wnioskowania ** |
*) **) niezadowalające wyniki wnioskowania (niska precyzja przy wysokiej ufności) wynikać mogą z następujących przyczyn:
1) zbyt wysoki poziom deklarowanej ufności (możliwość jego obniżenia)
2) zbyt wysokie zróżnicowanie w próbie (bez możliwości zmiany)
3) zbyt niska liczebność próby
Prawa wielkich liczb
Występowanie prawidłowości statystycznych jest spowodowane kształtowaniem się procesu masowego pod wpływem przyczyn determinujących rozwój zjawisk w określonym kierunku, jak również przyczyn o charakterze losowym. Prawidłowości te mogą być liczbowo ujawniane jedynie w masowych obserwacjach empirycznych. W ich trakcie następuje eliminacja różnokierunkowych efektów zmienności przypadkowej w celu poznania jednokierunkowych efektów zmienności systematycznej. Podstawą tego są matematycznie rozpoznane statystyczne prawa wielkich liczb, które umożliwiają wykrywanie prawidłowości procesu masowego. Prawa wielkich liczb wyjaśnia się następująco:
- jeżeli wykonuje się wiele badań empirycznych (serię n doświadczeń), to wyniki otrzymane z prób pozwalają (w oparciu o rachunek prawdopodobieństwa) mieć pogląd o tym, co jest możliwe teoretycznie (w populacji generalnej).
Z punktu widzenia teorii, prawa wielkich liczb prezentowane są jako matematyczne twierdzenia rachunku prawdopodobieństwa (graniczne integralne oraz graniczne centralne).
- graniczne twierdzenie Moivre'a-Laplace'a :
Wzrostowi liczby niezależnych doświadczeń losowych odpowiada zbieżność ciągu dystrybuant zmiennej losowej skokowej Xs o rozkładzie dwumianowym Bernoulliego do ciągu dystrybuant standardowego rozkładu normalnego Gaussa-Laplace'a, co można zapisać:
Un
lim F(Un) = ∫ f(u) du, du - różniczka dystrybuanty
n → ∞ - ∞
przy czym zachodzą również zbieżności (przy n → ∞) dla podstawowej i transformowanych zmiennych skokowych :
‗
{Xn} → ~ N(np, √np (1 - p)), {Un} = {(Xn - np) : √np(1 - p)} → ~ SN (0,1) oraz {Xn} = {Xn : n} → N (p, √p (1-p) : n), przy czym dystrybuantę rozkładu dwumianowego określono jako F(Un) = P (U ≤ Un).
- centralne twierdzenie graniczne Lindberga-Levy'ego
Wzrostowi liczby niezależnych doświadczeń losowych odpowiada zbieżność ciągu niezależnych sum zmiennej losowej ciągłej Xc o takich samych rozkładach, do ciągu dystrybuant standardowego rozkładu Gaussa-Laplace'a.
- nierówność Czybyszewa:
Dla zmiennych losowych o rozkładach z wartością oczekiwaną E(X) = m oraz wariancją D²(X) = δ².
δ 1
P(|Xn - m| ≤ ε — ) ≥ 1 - — , dla ε > 0
√n ε²
Nierówność ta ma charakter uniwersalny i dotyczy wszystkich rodzajów rozkładów.
- twierdzenie Chinczyna:
1 n
lim P (| — Σ Xj - m | < ε ) = 1 , dla ε > 0,
n→∞ n j=1
n _
gdzie 1/n Σ Xj = Xn
j=1
PRZYKŁAD
Dla zbiorowości gospodarstw domowych 4 osobowych w Otwocku przeprowadzono badanie miesięcznych wydatków na pieczywo (w złotych). Okazało się, że rozkład empiryczny tych wydatków jest zbliżony do rozkładu normalnego z parametrami:
- wartość oczekiwana - ok. 70 zł
- odchylenie standardowe - ok. 8 zł
Jakie jest prawdopodobieństwo wylosowania takich gospodarstw domowych, w których wydatki zawierają się w granicach od 65 zł do 80 zł ?
ok. 0,29
ok. 0,82
ok. 0,63
ok. 0,51
n → gospodarstwa domowe 4 osobowe
x → wydatki na pieczywo
x → ~ N (70; 8)
- jakie jest P
P (65 < x < 80) = ?
- rozwiązanie poprzez kalkulator prawdopodobieństwa:
dystrybuanta w punkcie 80.
F(80) = P (x ≤ 80) = 0,894350
F(65)= P (x ≤ 65) = 0,265986
Pakiet Statistica.pl:
Moduł: kalkulator prawdopodobieństwa
Procedura : rozkłady
Opcja: Z (normalny), m = 70; δ = 8
- odpowiedź:
P(65 < x < 80) = 0,894350 - 0,265986 = 0,628364 ≈ 0,63
Jeżeli wydatki na pieczywo miały rozkład normalny z parametrami m = 70 i δ = 8, to należy oczekiwać, że na każde 100 losowo wybranych gospodarstw domowych ok. 63 gospodarstwa domowe będą miały wydatki 65-80 złotych.
Bibliografia
„Statystyka. Teoria i zastosowania.” Andrzej Luszniewicz i Teresa Słaby
25