Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Statystyki opisowe
Przemysław Gordinowicz
Instytut Matematyki, Politechnika Aódzka
Analiza danych w badaniach rynku i marketingu
Wykład 1
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Plan prezentacji
1
Wprowadzenie
2
Wybrane statystyki opisowe
Charakterystyki lokalizacji
Charakterystyki rozrzutu
Inne charakterystyki
3
Przedziały ufności dla wybranych estymatorów
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Plan prezentacji
1
Wprowadzenie
2
Wybrane statystyki opisowe
Charakterystyki lokalizacji
Charakterystyki rozrzutu
Inne charakterystyki
3
Przedziały ufności dla wybranych estymatorów
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Statystyki opisowe
Statystyki opisowe mają różne znaczenie w zależności od tego,
w oparciu o jakie dane sÄ… wyliczane:
dane wyznaczają rozkład prawdopodobieństwa
charakteryzacja rozkładu
dane są próbką pochodzącą z próby statystycznej
prostej (na ogół) estymacja wybranych parametrów
rozkładu próby
dowolne inne dane charakterystyka zbioru danych
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Plan prezentacji
1
Wprowadzenie
2
Wybrane statystyki opisowe
Charakterystyki lokalizacji
Charakterystyki rozrzutu
Inne charakterystyki
3
Przedziały ufności dla wybranych estymatorów
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Charakterystyki lokalizacji
dominanta
średnia arytmetyczna
minimum, maksimum
mediana, kwartyle, kwantyle
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Dominanta
Dominanta (moda) to wartość występująca najczęściej w ciągu
danych.
Dla danych pogrupowanych w przedziały lepiej nie podawać.
Albo podać najliczniejszy przedział.
Obliczenia:
MS Excel: WYST.NAJCZSCIEJ(zakres)
R: > which.max(table(dane)) pierwsza podana wartość
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Åšrednia arytmetyczna
Dla ciągu danych x1, x2, . . . , xn średnia jest wyznaczona przez
równość:
n
xi
i=1
x = .
n
Dla danych pogrupowanych w szereg rozdzielczy oblicza siÄ™ jÄ…
jako średnią ważoną ze środków przedziałów z wagami będącymi
ilościami elementów w przedziałach.
Obliczenia:
średnia arytmetyczna:
MS Excel: ÅšREDNIA(zakres)
R: > mean(dane)
średnia arytmetyczna ważona:
MS Excel: SUMA.ILOCZYNÓW(zakres_dane,
zakres_wagi) / SUMA(zakres_wagi)
R: > weighted.mean(dane, wagi)
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Minimum, maksimum
Obliczenia:
MS Excel: MIN(zakres), MAX(zakres)1
R: > min(dane), >max(dane)
1
Uwaga na OpenOffice może być MAKS
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Mediana, kwartyle, kwantyle
Charakterystyki te można obliczyć pod warunkiem, że zbiór danych
jest liniowo uporzÄ…dkowany (np. relacjÄ… "d"").
Dla ciÄ…gu danych (niekoniecznie uporzÄ…dkowanego!) x1, x2, . . . , xn
kwantyl rzędu p jest wyznaczony przez równość:
min {z : |{i : xi d" z}| e" np} + max {z : |{i : z d" xi}| e" n(1 - p)}
x(p) =
2
W praktyce (R ale też Excel) często stosowane są bardziej
skomplikowane obliczenia por.
http://en.wikipedia.org/wiki/Quantile
1 1
Mediana to M(x) = x(2), dolny kwartyl q(x) = x( ),
4
3
a górny q(x) = x( ).
4
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Mediana, kwartyle, kwantyle
W przypadku danych pogrupowanych w szereg rozdzielczy wartość
kwantyla można oszacować przez:
k-1
yk+1 - yk
x(p) H" yk np - ni ,
nk
i=1
gdzie: (yk , yk+1] to przedział w którym znajduje się kwantyl, a ni
liczba elementów w i-tym przedziale.
Obliczenia:
MS Excel: MEDIANA(zakres), KWARTYL(zakres, nr),
PERCENTYL(zakres, p)
R: > median(dane), > quantile(dane, p)
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Charakterystyki rozrzutu
Wariancja
Odchylenie standardowe
Rozstęp, rozstęp percentylowy
Współczynnik zmienności
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Wariancja
Jeśli ciąg danych x1, x2, . . . , xn stanowi próbkę statystyczną, wówczas
nieobciążony estymator wariancji dla rozkładu próby ma postać
n
(xi - x)2
i=1
S2(x) =
n - 1
Obliczenia:
MS Excel: WARIANCJA(zakres)
R: > var(dane)
W przeciwnym razie wariancjÄ™ dla danych x1, x2, . . . , xn wyznaczamy:
n
(xi - x)2
i=1
Var(x) =
n
Obliczenia:
MS Excel: WARIANCJA.POPUL(zakres)
R: > var(dane)*(length(dane)-1) / length(dane)
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Odchylenie standardowe
Odchylenie standardowe to pierwiastek z wariancji (por. poprzedni
slajd).
Obliczenia:
MS Excel: ODCH.STANDARDOWE(zakres),
ODCH.STANDARD.POPUL(zakres)
R: > sd(dane)2
2
wersja nieobciążona ewentualna poprawka analogiczna jak przy
wariancji
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Rozstęp, rozstęp percentylowy . . .
. . . to proste charakterystyki zmienności.
Rozstęp R(x) jest dany przez R(x) = max(x) - min(x),
p p
zaś rozstęp percentylowy Rp(x) przez Rp(x) = x(1 - ) - x( ).
2 2
W szczególności rozstęp kwartylowy to Rq(x) = R1/2(x).
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Współczynnik zmienności
Współczynnik zmienności jest definiowany jako:
S(x)
V(x) = .
x
Kwartylowy współczynnik zmienności jest definiowany przez:
Rq(x)
Vq(x) = .
M(x)
Współczynnik umożliwia porównanie zmienności różnych cech.
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Charakterystyka asymetrii
Skośność rozkładu X jest definiowana jako:
E(X - EX)3
G(X) = .
Var3/2(X)
Więc gdy dane x1, x2, . . . , xn przedstawiają rozkład skośność
liczymy przez
n
1 (xi - x)3
i=1
G(x) = .
n
Var3/2(x)
Nieobciążony estymator skośności ma postać:
n
n (xi - x)3
i=1
g(x) = .
(n - 1)(n - 2)
S3(x)
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Charakterystyka asymetrii
Obliczenia:
MS Excel: SKOŚNOŚĆ(zakres)3
R: > n = length(dane), > n/(n-1)/(n-2) * sum((dane -
mean(dane))3) / sd(dane)3
3
nieobciążony estymator skośności
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Charakterystyka koncentracji
Kurtoza rozkładu X jest definiowana jako:
E(X - EX)4
K (X) = - 3.
Var2(X)
Nieobciążony estymator kurtozy ma postać:
n
n(n + 1) (xi - x)4 (n - 1)2
i=1
k(x) = - 3 .
(n - 1)(n - 2)(n - 3) (n - 2)(n - 3)
S4(x)
Obliczenia:
MS Excel: KURTOZA(zakres)4
R: analogicznie jak skośność
4
nieobciążony estymator kurtozy
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Plan prezentacji
1
Wprowadzenie
2
Wybrane statystyki opisowe
Charakterystyki lokalizacji
Charakterystyki rozrzutu
Inne charakterystyki
3
Przedziały ufności dla wybranych estymatorów
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Przedział ufności
W przypadku estymowania w oparciu o próbkę statystyczną
parametrów rozkładu próby właściwym jest oszacowanie błędu
estymacji. Dla zadanego poziomu ufności 1 - ą podaje się
przedział w którym z prawdopodobieństwem 1 - ą znajdzie się
estymowany parametr.
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Przedział ufności dla średniej
Zakładając, że dane x1, x2, . . . , xn pochodzą z próby
o rozkładzie normalnym, przedział ufności dla średniej ma
postać:
S(x) S(x)
x - t(1- Ä… " , x + t(1- Ä… " ,
,n-1) ,n-1)
2 2
n n
gdzie t(1- ą oznacza kwantyl rozkładu t-Studenta o n - 1
,n-1)
2
Ä…
stopniach swobody na poziomie 1 - .
2
S(x)
"
Przeciętny błąd szacunku5 jest rzędu .
n
5
błąd standardowy
Przemysław Gordinowicz Statystyki opisowe
Wprowadzenie Wybrane statystyki opisowe Przedziały ufności
Przedział ufności dla wariancji
Zakładając, że dane x1, x2, . . . , xn pochodzą z próby
o rozkładzie normalnym przedział ufności dla wariancji ma
postać:
nS2(x) nS2(x)
, ,
Ç2 Ä… Ç2Ä…
(1- ,n-1) ( ,n-1)
2 2
gdzie Ç2 oznacza kwantyl rozkÅ‚adu Ç2 o n - 1 stopniach
(p,n-1)
swobody na poziomie p.
Przemysław Gordinowicz Statystyki opisowe
Wyszukiwarka
Podobne podstrony:
1 wprowadzenie do statystyki statystyka opisowa2 Statystyka opisowa SStatystyka opisowaStatystyka opisowa rozwiązane kolowkiaStatystyka opisowa4 Statystyka opisowa i rozkład normalnyStatystyka opisowaSTATYSTYKA OPISOWAStatystyka opisowa i ekonomiczna Wykład 1statystyka opisowa 11Tworzenie statystyk opisowych w ExceluWykład 2 statystyka opisowawięcej podobnych podstron