Pojęcia Podst. Statystyki
POPULACJA GENERALNA
POPULACJA GENERALNA zbiorowość o elementach
będących obiektami materialnymi lub zjawiskami. Każdemu z
elementów zbiorowości można przypisać pewne cechy (zmienne
statystyczne). Zbiorowość może być skończona lub nieskończona.
np. zbiorowość obywateli naszego kraju.
Elementy populacji mogą się różnić określoną cechą, wtedy
mówimy o rozkładzie danej cechy statystycznej (zmiennej
rozkładzie
statystycznej).
Próbką statystyczną
Próbką statystyczną nazywamy podzbiór danych wybranych z
populacji generalnej.
Wnioskowaniem statystycznym
Wnioskowaniem statystycznym nazywamy decyzję, oszacowanie,
przewidywanie lub uogólnienie dotyczące populacji generalnej
oparte na informacji zawartej w próbce statystycznej.
Jest to główny cel badań statystycznych. Z każdym wnioskowaniem
opartym na niepełnych badaniach populacji wiąże się pojęcie
wiarygodności
wiarygodności wnioskowania.
DANE
Dana
Dana jest zakodowaną formą informacji (niezależnie od formy
zastosowanego kodu) jest cechą każdego obiektu populacji gen.
Ogólna klasyfikacja danych:
DANE
JAKOŚCIOWE ILOŚCIOWE
Atrybuty Zmienne liczbowe
Ciągłe Dyskretne
Dane ilościowe
Dane ilościowe są obserwacjami mierzonymi na skali liczbowej
Dane jakościowe
Dane jakościowe, to takie dane, które mogą przynależeć do jednej
spośród wielu różnych możliwych podzbiorów danych zwanych
kategoriami
kategoriami.
Skale pomiarowe w statystyce
Zmienne mogą się różnić tym jak dobrze mogą być zmierzone. Poza
faktem, iż każdemu pomiarowi towarzyszy jakiś błąd pomiarowy, do
mierzenia wartości zmiennej stosuje się różne skale pomiarowe.
Wskutek tego ilość informacji wynikającej z pomiaru wartości
zmiennej jest funkcją stosowanej skali pomiarowej i błędu pomiaru.
W zależności od stosowanej skali , rozróżnia się następujące typy
zmiennych statystycznych:
Zmienne nominalne
Zmienne nominalne mierzone na skali nominalnej, przy
stosowaniu której przypisuje się zmiennej wartość kategorii do
której zmienna przynależy. Wartość zmiennej zatem nie jest
wielkością ilościową, nie podlega ilościowemu porównaniu, i
w sensie definicji danych należy do danych jakościowych.
Np. zmienną nominalną jest płeć osobników podlegających
jakimś badaniom statystycznym, ich kolor oczu, etc., ale nie
wzrost mierzony na skali metrycznej.
Kobiety i mężczyzni w populacji
obywateli Polski 2000
Zmienna nominalna: płeć
wiek
yródło: Rocznik Demograficzny 2010 GUS Polska
Miasto
Kobiety i mężczyzni w
populacji obywateli
Polski 2000
Zmienna nominalna: płeć
Wieś
yródło: Rocznik Demograficzny 2010 GUS Polska
Skale cd. 1
Zmienne porządkowe
Zmienne porządkowe mierzone na skali porządkowej,
pozwalającej określić rangę zmiennej, tzn. w przypadku 2
zmiennych można w oparciu o tę skalę zdecydować która z nich
jest większa, lecz nie można stwierdzić jak wiele większa jest jedna
zmienna od drugiej.
Np. Skala wzrostu w dokumentach osobistych starego typu była:
wzrost wysoki, wzrost średni, wzrost niski.
Zmienne interwałowe
Zmienne interwałowe mierzone na skali interwałowej, która
pozwala nie tylko określić rangę wartości zmiennej, lecz także
sklasyfikować różnice między wartościami zmiennych. Np. skala
temperatury Celsjusza, nie tylko określa że temp. 40 C jest
większa od 30 C , ale także że odległość zmiennej o wart 40 C od
zmiennej 20 C jest 2-krotnie większa od odległości 40 C od 30 C.
Wykształcenie obywateli Polski 2002
Zmienna porządkowa: wykształcenie (można uporządkować -
podstawowe < zasadnicze < średnie < wyższe)
Zmienna nominalna: płeć
yródło: Rocznik Demograficzny 2010 GUS Polska
Skale cd.2
Zmienne proporcjonalne
Zmienne proporcjonalne mierzone na skali proporcjonalnej,
która dzięki wprowadzeniu punktu zerowego skali, poszerza
możliwości skali interwałowej o wprowadzenie pojęcia wielkości
absolutnej. Najlepszym przykładem jest stosowana powszechnie
skala czasu, gdzie można stwierdzić że 3 sekundy to czas 3 krotnie
dłuższy od 1 sekundy.
W zasadzie w statystyce skali proporcjonalnej nie odróżnia się od
skali interwałowej.
Badania statystyczne dotyczą zawsze pewnych zbiorowości
których elementami są obiekty materialne lub zjawiska. Elementy
zbiorowości mogą mieć różne właściwości, które podlegają
obserwacji statystycznej (pomiarowi) nazywamy je cechami
cechami
statystycznymi zmiennymi statystycznymi.
statystycznymi lub zmiennymi statystycznymi.
Wiek obywateli Polski 1989
Zmienna proporcjonalna: wiek obywatela
mln
wiek
yródło: Rocznik Demograficzny 2010 GUS Polska
Pobieranie próby
Losowy dobór próby
Losowy dobór próby:
-każda jednostka populacji ma dodatnie (znane)
prawdopodobieństwo znalezienia się w próbie,
-można ustalić prawdopodobieństwo znalezienia się w próbie
dla każdego podzbioru populacji
O fakcie znalezienia się w próbie danego elementu populacji
decyduje przypadek.
Schematy losowania
Schematy losowania
Losowanie proste
Losowanie proste wszystkie elementy populacji mają
jednakowe prawdopodobieństwo znalezienia się w próbie i
prawdopodobieństwo to nie zmienia się w trakcie losowania.
Losowanie proste losowanie ze zwracaniem (wymóg
losowanie ze zwracaniem
jednakowego prawdopodobieństwa) , co jest warunkiem
niezależności
niezależności losowania, prawdopodobieństwo wylosowania
elementu nie zleży od poprzednio dokonanych losowań.
Próba prosta
Próba prosta próba uzyskana w wyniku losowania prostego
Pojęcie niezależności losowania próby ma kardynalne znaczenie we
wnioskowaniu statystycznym.
Przykład. Badany jest ciąg technologiczny składający się z etapu A i
B. Jakość produktu po etapie A i B podlegać może badaniu. Jeżeli
zamierzamy sprawdzić wpływ etapu B na jakość produktu (czy etap
B poprawia czy nie jego jakość) musimy dokonać losowania
prostego produktów po etapie A, ale już po etapie B badamy te same
produkty. Wtedy oba badania jakości dotyczą próbek zależnych, a
nie niezależnych, i to determinuje określony sposób wnioskowania
statystycznego.
Przykład. Badamy dwa odrębne ciągi technologiczne A i B, pod
kątem jakości produktu uzyskiwanego za ich pomocą. Z produktów
ciągu A wybieramy próbę prostą i badamy jakość, podobnie z
produktów ciągu B wybieramy próbę prostą i badamy jakość. Obie
próby są próbami niezależnymi, i to determinuje określony sposób
wnioskowania statystycznego.
Losowanie warstwowe
Realizacja losowania prostego (ze zwracaniem) dla ograniczonych
liczebnościowo populacji, może prowadzić do sytuacji gdy w próbie
wielokrotnie znajdzie się ten sam element populacji. Wtedy stosuje
się zwykle losowanie bez zwracania, ale nie jest to już próba
niezależna konieczne są pewne korekty we wzorach na parametry
rozkładu statystycznego z takiej próby.
Nie zawsze losowanie proste jest celowe
Nie zawsze losowanie proste jest celowe.
Jeśli populacja jest strukturalnie podzielona na pewne podzbiory
(warstwy) losowanie proste może spowodować, że nie wszystkie
warstwy populacji będą miały odpowiednią reprezentację w próbie
prostej (losowej).
Jeśli z góry zostanie określona liczba elementów populacji z każdej
warstwy, i ta liczba elementów wylosowanych zostanie włączona do
próby, to mamy do czynienia z losowaniem warstwowym.
losowaniem warstwowym
Inne schematy losowania
Losowanie zespołowe
Losowanie zespołowe wtedy gdy w populacji występują pewne
podzbiory, lecz niekoniecznie reprezentanci wszystkich podzbiorów
mają być ujęci w próbie, tylko wszyscy reprezentanci
wylosowanych podzbiorów są włączani do próby. Np. badanie
zarobków pracowników budżetówki, podzielonych na zakłady pracy
sektora budżetowego, spośród nich wybieramy tylko niektóre.
Losowanie systematyczne
Losowanie systematyczne dobór elementów populacji przebiega
według ściśle określonego schematu. Przy badaniu jakości wyrobów
można zdecydować, że co 15 wyrób podlega badaniu jakościowemu,
i jest włączony do próby systematycznej.
Statystyka opisowa
Jednym z zadań realizowanych metodami statystycznymi jest
prezentacja rezultatów badań empirycznych.
Często opis statystyczny sprowadza się do wyznaczenia pewnych
liczbowych parametrów określających badany zbiór danych. Taki
opis statystyczny jest często punktem wyjścia wnioskowania
statystycznego na temat cech populacji generalnej.
Jeśli zbiór danych obejmuje całą populację generalną,
wnioskowanie statystyczne jest zbędne, pozostaje tylko
odpowiednia prezentacja opracowanych rezultatów badań.
Forma prezentacji zebranych danych statystycznych zależy zatem
od sposobu pobierania próbki statystycznej i rodzaju zbieranych
danych.
Empirycznym rozkładem
Empirycznym rozkładem cechy (zmiennej) statystycznej zwiemy
przyporządkowanie określonym wartościom cechy częstości jej
wystąpienia w badanej próbce.
Prezentacja danych
Częstością bezwzględną dla określonej kategorii nazywamy
całkowita liczbę ni danych które mieszczą się w obrębie tej
kategorii.
Częstością względną wi będziemy nazywać częstość bezwzględną
kategorii ni odniesioną do całkowitej liczebności pobranej próbki n.
wi = ni / n
Szeregiem rozdzielczym
Szeregiem rozdzielczym nazywamy uporządkowaną tabelę częstości:
Liczba braków Liczba partii produktu Częstość partii produktu
(kategoria) (częstość bezwzględna) (częstość względna)
0 5 0.25
1 8 0.40
2 4 0.20
3 3 0.15
Ł 20 1.00
Histogramem
Histogramem nazywamy graficzną prezentację rozkładu częstości w
kategoriach (bezwzględnych lub względnych).
10
8
6
4
2
0
-1 0 1 2 3 4
Kategoria (liczba braków)
Liczba obserwacji
Jeśli zmienna (cecha) jest zmienną ciągłą lub dyskretną ale
przyjmująca wiele wartości można tabele rozdzielczą oraz histogram
rozkładu zmiennej przygotować, wydzieliwszy wcześniej
odpowiednie przedziały wartości zmiennej zwane przedziałami
przedziałami
klasowymi
klasowymi.
Przykład. Z dokładnością do 1 minuty zmierzono czas
wykorzystany przez 120 pracowników wydziału poświęcony na
posiłek regeneracyjny, wyniki przedstawiono w tabeli :
Czas poświęcony Liczba prac. Czas poświęcony Liczba prac.
posiłkowi (kategoria ) posiłkowi (kategoria )
(częstość bezw.) (częstość bezw.)
3 2 19 8
5 5 20 8
10 7 22 9
12 5 23 3
14 11 25 6
16 8 27 7
17 13 30 8
14
12
10
8
6
4
2
0
0 5 10 15 20 25 30 35 40
Kategoria (czas w min)
Nie wszystkie możliwe kategorie posiadają niezerowe częstości,
histogram nie daje wystarczająco przejrzystego obrazu rozkładu.
W takiej sytuacji zaleca się wprowadzenie przedziałów klasowych,
których liczba powinna spełniać k < 1+5 log10 n . Dobrze jest dobrać
przedziały o tej samej rozpiętości, i unikać przedziałów o zbyt nikłej
(np.zerowej) częstości. Podział musi być rozłączny i obejmować cały
zakres zmienności w próbce.
Liczba pracowników
2D Graph 3
25
1+5 log10 100=1+5*2=11
20
15
Niewłaściwy podział na kategorie
10
mimo k=10
5
0
0 5 10 15 20 25 30 35
35
30
25
20
Dobry podział na kategorie
15
k=8
10
5
0
0 5 10 15 20 25 30 35
Prezentacja częstości względnych (wi = ni / n )
12-16
8-12
4-8
0-4
16-20
28-32
24-28
20-24
Dystrybuanta
Dystrybuanta empiryczną nazywamy funkcję określoną na
podstawie częstości względnych
ńł 0 dla x < x1
ł
i
ł
F (x) =
ł
"w dla xi d" x < xi+1 i =1,2,...,k -1
n s
s=1
ł
ł
1 dla x e" xk
ół
Dystrybuanta jest funkcja niemalejącą i ograniczoną do <0,1>.
Liczba braków Liczba partii produktu Częstość partii Dystrybuanta
produktu empiryczna
(kategoria) (częstość
bezwzględna) (częstość względna)
0 5 0.25 0.25
1 8 0.40 0.65
2 4 0.20 0.85
3 3 0.15 1.00
Ł 20 1.00
Interpretacja:
1
F(2)=0.85 określa iż 85% partii
produktu miało co najwyżej dwa
braki.
0.5
2
1
0 3
Charakterystyki Liczbowe
Celem statystyki opisowej jest wyznaczenie pewnych charakterystyk
liczbowych opisujących właściwości rozkładu badanej cechy.
Statystyką
Statystyką zwie się taką cechę rozkładu, która została wyznaczona
z danych próby losowej.
Parametrem
Parametrem zwie się taka cechę rozkładu, która została
wyznaczona z danych pełnej populacji.
Charakterystyki statystyczne dotyczą 3 aspektów rozkładów:
poziomu zróżnicowania asymetrii
poziomu cechy, zróżnicowania cechy, i asymetrii rozkładu.
Miary położenia rozkładu
35
Dwa identyczne
30
25
rozkłady zmiennej x
20
różniące się
15
położeniem
10
5
0
0 2 4 6 8 10 12 14 16
x
Miary tendencji centralnej
Średnią arytmetyczną
Średnią arytmetyczną w rozkładzie empirycznym nazywamy
n
wyrażenie: 1
x =
"x
i
n
i=1
gdzie xj (j=1,...,n) są indywidualnymi obserwacjami w zbiorze
danych, zaś n jest liczbą obserwacji.
Liczba obserwacji
Jeśli dane o rozkładzie są przedstawione w postaci szeregu
rozdzielczego , średnia może być policzona tak
k
1
x =
"x ni
i
n
i=1
gdzie ni to liczebność w klasie i .
Przykład. Szereg rozdzielczy prezentuje rozkład
Liczba braków Liczba partii produktu Częstość partii produktu
(kategoria) (częstość bezwzględna) (częstość względna)
0 5 0.25
1 8 0.40
2 4 0.20
3 3 0.15
Ł 20 1.00
o wartości średniej
x = (0 * 5 +1*8 + 2* 4 + 3* 3)/ 20 =1.25
Własności średniej arytmetycznej
- iloczyn średniej i liczebności n jest równy łącznej wartości
zmiennej ( sumie)
n
xn =
"x
j
j=1
- suma odchyleń zmiennej od wartości średniej jest równa zeru
n
xi - x = 0
( )
"
i=1
- suma kwadratów odchyleń od pewnej stałej C jest najmniejsza,
gdy C jest równe średniej
2
n
xi - C = min gdy C = x
( )
"
i=1
Mediana
Medianą rozkładu
Medianą rozkładu empirycznego nazywamy taką wartość cechy x,
że co najmniej połowa jednostek zbiorowości ma wartość cechy nie
większą od niej, oraz równocześnie co najmniej połowa jednostek
ma wartość cechy nie mniejszą od tej wartości.
Jeśli wartości cechy uporządkujemy rosnąco to mediana przyjmuje
wartość (n+1)/2 pozycji w tym ciągu (nieparzyste n) . Dla wartości
parzystej n , mediana jest średnią z pozycji n/2 i (n+2)/2
Medianę stosujemy do charakteryzowania rozkładu gdy średnia
arytmetyczna zawodzi z powodu niejednorodności rozkładu, lub
przy trudnościach z obliczeniem średniej (przedziały krańcowe są
otwarte).
Przykład.
Przykład.
Próbka statystyczna zawiera następujące wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29
Oblicz średnią i medianę
Średnia = 28.6(6) ; mediana = 32
Kwantyl
Kwantylem rzędu p ( gdzie 0
kp, dla której (jako pierwszej) dystrybuanta empiryczna spełnia
warunek
F (kp ) e" p
n
Kwantyle 0.25 (25%), 0.5 (50%), 0.75(75%) to kwartyle
kwartyle.
UWAGI:
Kwartyl 25% oddziela 25% obserwacji o wartościach niższych od
niego.
Kwartyl 50% to mediana.
W zbiorowości uporządkowanej rosnąco kwartyle dzielą
zbiorowość na 4 części liczące po 25% obserwacji.
Obliczanie kwartyli 25% i 75%:
-uporządkuj rosnąco zbiorowość
- pozycja (n+1)/4 to kwartyl 25% a 3(n+1)/4 to kwartyl 75%
- dla cechy skokowej jeśli obliczone numery pozycji nie są
całkowite, zaokrąglij ( 0.5 dla kwartla 25% zaokrąglamy w górę, a
dla kwartyla 75% w dół)
- dla cechy ciągłej, jeśli obliczone numery pozycji nie są całkowite,
uśredniaj najbliższe wartości cechy.
Przykład.
Przykład. Próbka statystyczna zawiera następujące wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29. Oblicz kwartyle 25% i 75%.
1 2 3 4 5 6 7 8 9 10 11 12
6, 9, 15, 21, 24, 29, 35, 37, 39, 40, 43, 46
(12+1)/4=3.25 - zatem kwartyl 25% to 15 (cecha skokowa)
3(n+1)/4=3*13/4=9.75 zatem kwartyl 75% to 40 (cecha skokowa)
Jeśli założymy , że cecha ma rozkład ciągły, to kwartyle są:
25% = (15+21)/2=18 ; 75% = (39+40)/2=39.5
Wykres pudełko i drut
Box & Whisker Plot
Wykres pudelko i drut
50
50%
45
wartości
40
większych
35
od mediany
30
50%
25
wartości
20
mniejszych
15
50%
od mediany
10
Median = 32
wartości
25%-75%
5
= (18, 39.5)
Min-Max
wokół
= (6, 46)
0
Var1
mediany
Dominanta
Dominantą
Dominantą w rozkładzie empirycznym nazywamy wartość
występującą w rozkładzie najczęściej, czyli wartość o największej
liczebności
x ni
DOMINANTA
1.0000 2.0000
35
2.0000 5.0000
30
3.0000 12.0000
25
4.0000 19.0000
20
5.0000 29.0000
6.0000 12.0000
15
7.0000 13.0000
10
8.0000 33.0000
5
9.0000 14.0000
0
10.000 5.0000
0 2 4 6 8 10 12 14 16
x
11.000 2.0000
Liczebnosc obserwacji
Miary zróżnicowania cechy
Dyspersja = zróżnicowanie
3 5
3 0
2 5
2 0
1 5
1 0
5
0
0 2 4 6 8 1 0 1 2 1 4 1 6
x
5 0
4 0
3 0
2 0
1 0
0
0 2 4 6 8 1 0 1 2 1 4 1 6
x
Liczebnosc obserwacji
Liczebnosc obseracji
Wariancją dla zbioru danych x1,x2,...,xn nazywamy wyrażenie:
1 n
s2 = (xi - x )2
"
i=1
n -1
gdzie x jest średnią arytmetyczną .
Jest to średnia arytmetyczną kwadratów odchyleń cechy x od
średniej arytmetycznej cechy x w tym zbiorze. Dzielnie przez (n-1)
( a nie przez n) wynika z bardziej zaawansowanych rozważań ( z
jakimi zapoznamy się nieco pózniej obciążenie tzw. estymatorów).
Przy dużych wartościach n, nie ma to istotnego znaczenia.
Wariancja jest zatem pewną miarą zróżnicowania wartości
cechy, im większe zróżnicowanie tym większa wariancja.
Jednostką pochodną jest tzw. odchylenie standardowe
odchylenie standardowe
s = s2
które wyraża zróżnicowanie w jednostkach zmiennej (cechy) x .
Przykład.
Przykład.
Przykład. Próbka statystyczna zawiera następujące wartości cechy x:
35,37,39,6,9,15,40,43,46,21,24,29. Oblicz wariancję i odchylenie
standardowe.
n=12
Box & Whisker Plot
Rozwiązanie :
Wykres pudelko i drut, (srednia + odch. standardowe)
45
s2 = 183.5152
40
s = 13.547
35
30
średnia
25
s
20
Mean = 28.6667
15
ąSE
= (24.756, 32.5773)
ąSD
= (15.1199, 42.2134)
10
Var1
Standaryzacja rozkładu zmiennej (cechy) x
Standaryzacja rozkładu zmiennej (cechy) x
Niech x będzie obserwacją należącą do zbioru danych o średniej
i odchyleniu standardowym s . Wartością standaryzowaną
Wartością standaryzowaną
odpowiadającą obserwacji x jest wartość u otrzymana ze wzoru:
(x - )
u =
s
Po dokonaniu standaryzacji, wielkość u wskazuje o ile odchyleń
standardowych różni się wartość cechy x od wartości średniej.
Jeśli |u| < ł to można powiedzieć, że x mieści się w przedziale
- ł*s < x < + ł*s
Relacja ta ma b. istotne znaczenie przy interpretacji pomiarów,
gdyż najczęściej przyjmuje się następującą tezę:
Jeśli pomiar różni się o więcej niż ł odchyleń standardowych od
wartości hipotetycznej (np. oczekiwanej) to pomiar reprezentuje
inną wielkość fizyczną niż sądzimy . (zwykle ł =2,3,..)
Wartości izolowane w statystyce to takie wartości x w badanym
rozkładzie empirycznym , które cechuje |u|>3 (różnią się od średniej o
więcej niż 3 odchylenia standardowe).
Przykład.
Przykład. Próbka statystyczna zawiera następujące wartości cechy
x:
35,37,39,6,9,15,40,43,46,21,24,29.
Wykonaj standaryzację rozkładu, i wyznacz te elementy próbki,
które różnią się od średniej o więcej niż jedno odchylenie
standardowe.
Teoremat Czebyszewa
Frakcja dowolnego rozkładu , która leży wewnątrz pasa
rozciągającego się wokół średniej na k standardowych odchyleń
wynosi przynajmniej
1-1/k2
gdzie k jest liczba większą od 1. Dotyczy to wszystkich rozkładów.
W obszarze 2 standardowych odchyleń wokół średniej (k=2) leży co
najmniej 75% danych rozkładu, bowiem
1-1/k2 = 1-1/4=3/4=75%
W obszarze 3 standardowych odchyleń wokół średniej (k=3) leży co
najmniej 89% danych rozkładu, bowiem
1-1/k2 = 1-1/9=8/9=89%
Współczynnik zmienności
Przy porównywaniu stopnia zróżnicowania 2 rozkładów x, zwykle
posługujemy się miarą zróżnicowania względnego, jakim jest
współczynnik zmienności
współczynnik zmienności:
s
V =
gdzie s odchylenie standardowe, - średnia.
Współczynnik zmienności wyraża się w %. Im wyższa jego wartość
tym większe jest względne zróżnicowanie cechy w rozkładzie.
Do pomiaru zróżnicowania używa się także rozstęp. Rozstępem
Rozstępem
jest różnica między największą i najmniejszą wartością cechy x w
zbiorze.
Przykład.
Przykład. Wezmy rozkład zmiennej x w dwóch próbkach ( A i B) ,
tabela rozdzielcza rozkładów w próbkach przedstawiona poniżej.
Porównaj oba rozkłady, stosując miary położenia i dyspersji
rozkładów.
=? , mediana=?, k25%=, k75%=
x A ( ni) B( ni )
1.0000 2.0000 0.0000
s2 = ? , s = ?, V = ?
2.0000 5.0000 0.0000
3 5
3 0
3.0000 12.0000 8.0000
2 5
4.0000 19.0000 25.0000
2 0
A
5.0000 29.0000 40.0000
1 5
1 0
6.0000 12.0000 20.0000
5
7.0000 13.0000 10.0000
0
0 2 4 6 8 1 0 1 2 1 4 1 6
8.0000 33.0000 5.0000 x
9.0000 14.0000 2.0000
10.0000 5.0000 0.0000
5 0
11.0000 2.0000 0.0000
4 0
12.0000 0.0000 0.0000
3 0
B
2 0
1 0
0
0 2 4 6 8 1 0 1 2 1 4 1 6
x
Liczebnosc obserwacji
Liczebnosc obseracji
Asymetria rozkładu
Rozkład symetryczny A
1 8
1 6
1 4
1 2
1 0
8
6
4
2
0
0 2 4 6 8 1 0 1 2
x
1 8 Rozkład niesymetryczny B
1 6
1 4
1 2
1 0
8
6
4
2
0
0 2 4 6 8 1 0 1 2
x
Liczebnosc obserwacji
Liczebnosc obserwacji
Mówimy, że rozkład jest symetryczny
rozkład jest symetryczny, jeśli każdej wartości cechy
xi < odpowiada wartość xm > taka, że spełnione są warunki:
- xi = xm - oraz ni = nm
W przeciwnym wypadku rozkład jest asymetryczny
Rozkład jest symetryczny, jeżeli jego histogram ma oś symetrii dla
wartości średniej rozkładu.
Rozkłady A i B (Med., K25%,K75% )
Rozkłady A i B (, sd, se )
Box & Whisker Plot
Box & Whisker Plot
18
14
16
12
14
10
12
8
10
8
6
6
4
4
2
2
0
0
Median Mean
25%-75% ąSE
Min-Max
-2 -2 ąSD
A B A B
Miary asymetrii
Klasyczną miarą asymetrii rozkładu empirycznego cechy x jest
trzeci moment centralny
trzeci moment centralny rozkładu, obliczany jako suma trzecich
potęg odchyleń od wartości średniej cechy dzielona przez (n-1) :
1 n 3
M ' = xi -
( )
"
3
i=1
n -1
M =0 dla układów symetrycznych, M < 0 dla asymetrycznych
3 3
lewostronnie (lewe ramie wydłużone) , M > 0 dla asymetrycznych
3
prawostronnie (wydłużone prawe ramię ).
Miara stopnia i kierunku asymetrii jest współczynnik asymetrii (
jednostka odpowiada jednostce cechy, s jest odchyleniem
standardowym rozkładu empirycznego) :
M '
3
A =
s3
Współczynnik skośności
Najczęściej stosowaną miarą asymetrii jest współczynnik skośności
A1 , który oblicza się korzystając z miar położenia ( dominanty Do i
średniej )
- DO
A1 =
s
Współczynnik jest niemianowany, nadaje się do porównywania
układów o różnej dyspersji. Tylko przy dużej asymetrii
współczynnik (bezwzględna wart) przekracza wartość 1.
1 8
1 6
1 4
1 2
1 0
A10
8
DO
6
4
2
0
0 2 4 6 8 1 0 1 2
x
1 8
1 6
1 4
1 2
1 0
A1<0
8
6
DO
4
2
0
0 2 4 6 8 1 0 1 2
x
Liczebnosc obserwacji
Liczebnosc obserwacji
Miara spłaszczenia- kurtoza
Kurtoza (eksces) jest miara spłaszczenia rozkładu, wyrażoną przez
M '
4
ł = - 3
2
2
s2
( )
gdzie M jest czwartym momentem rozkładu, zaś s2 wariancją.
4
Wartość odjemnej 3 pojawia się, by kurtoza rozkładu Gauss a była
równa zeru.
Rozkłady bardziej płaskie niż Gauss a, kurtoza jest ujemna.
STATISTICA i EXCEL oblicza wartość współczynnika skośności i
kurtozę ze wzorów:
3
n n x -
ł ł
A =
"
ł ł
i=1
(n -1)(n - 2) s
ł łł
4
n(n +1) n x - (n -1)2
ł ł
ł = - 3
"
2 ł ł
i=1
(n -1)(n - 2)(n - 3) s (n - 2)(n - 3)
ł łł
Przykład.
Przykład. Dla 2 próbek empirycznych A i B rozkładu zmiennej x
dokonaj analizy statystycznej rozkładu (wyznacz średnią,medianę,
odchylenie standardowe, skośność, kurtozę). Dane w tabeli.
i A (xi) B (xi)
1 2 0
2 8 2
3 12 4
4 16 8
5 12 12
6 8 16
7 2 10
8 0 6
Wyszukiwarka
Podobne podstrony:
NB NST 10 W2 KORA MOZGOWA,?ekty uszkodzenSTAT 10 W11STAT 10 W3STAT 10 W12STAT 10 W8STAT 10 W5stat zadania1 10W2 12 10W2 17 10 2014 prakseologiaWSM 10 52 pl(1)VA US Top 40 Singles Chart 2015 10 10 Debuts Top 10010 35więcej podobnych podstron