statystyka w1


Literatura
1. W. Krysicki, J. Bartos i in., Rachunek prawdopodobieństwa i statystyka matematyczna w
zadaniach, PWN
2. J. Greń, Statystyka matematyczna. Modele i zadania, PWN
3. I. BÄ…k, I. Markowicz, Statystyka w zadaniach, WNT
T M
4. A. Luszniewicz, T. SÅ‚aby, Statystyka z pakietem komputerowym STATISTICA PL.
Teoria i zastosowania, Wyd.C.H.Beck
5. W. Pazio, Statystyka. Ćwiczenia, WSiP
6. P. Tatarzycki, Statystyka po ludzku, ebook
7. M. Sobczyk, Statystyka, Wyd. Naukowe PWN
8. T. Michalski, Statystyka, podręcznik, Wyd. WSiP
Statystyka matematyczna zajmuje siÄ™ opisywaniem i analizÄ… zjawisk masowych przy
użyciu metod rachunku prawdopodobieństwa.
Wnioskowanie statystyczne, będące przedmiotem s.m., może występować w zależności
od potrzeb praktycznych jako:
1. estymacja, czyli szacowanie parametrów rozkładu badanej cechy w populacji generalnej,
2. weryfikacja (testowanie) hipotez statystycznych dotyczących rozkładu badanej cechy w
zbiorowości generalnej.
Statystyka opisowa (jako przedmiot) zajmuje się wstępnym oszacowaniem próbki bez posłu-
giwania się rachunkiem prawdopodobieństwa. Celem statystyki opisowej jest podawanie pew-
nych informacji o wybranych cechach populacji, które mogą mieć formę liczbową, graficzną lub
mieszanÄ…. Istnieje pewna liczba znanych i ustalonych metod prezentacji takich informacji. Zna-
jomość tych metod pozwala na używanie specjalnych narzędzi do ich realizacji (na przykład
statystycznych programów komputerowych), a także na porównywanie otrzymanych wyników
dla takich samych cech w różnych populacjach.
Podstawowe pojęcia
Niech Z będzie zbiorem elementów podlegających badaniu ze względu na jedną lub więcej
cech.
Populacja (zbiorowość) generalna  zbiór Z mający przynajmniej jedną właściwość (cechę
wspólną) dla wszystkich jego elementów kwalifikującą je do tego zbioru oraz przynajmniej
jedną właściwość, ze względu na którą elementy tego zbioru mogą się różnić między sobą.
Próba (próbka)  skończony podzbiór Z1 zbioru Z, podlegający bezpośredniemu badaniu ze
względu na pewne właściwości populacji. Próbka powinna stanowić reprezentację populacji
Z w tym sensie, że częstości występowania w próbce każdej z badanych cech nie powinny
znacznie odbiegać od częstości występowania tych cech w populacji generalnej. Aby to
osiągnąć, elementy próbki zwykle losuje się spośród elementów zbioru Z. Otrzymany w
ten sposób zbiór nazywamy próbką losową.
Liczebność próby  liczba jednostek, elementów populacji generalnej wybranych do próby
(liczebność próby oznaczamy najczęściej przez n).
1
Rozkład populacji  rozkład wartości badanej cechy statystycznej w całej zbiorowości.
Parametry populacji  parametry rozkładu badanej cechy w populacji; charakteryzują one
ten rozkład. Do najczęściej używanych parametrów należą tzw. momenty. Parametry dzie-
limy zwykle na następujące grupy: a) miary skupienia (np. średnia arytmetyczna, media-
na), b) miary rozproszenia (np. wariancja, odchylenie standardowe), c) miary asymetrii,
d) miary korelacji.
Cechy, jakimi charakteryzujÄ… siÄ™ jednostki populacji dzielimy na:
" jakościowe (niemierzalne; np. płeć, rasa, kolor skóry, poziom wykształcenia, itp.)
" ilościowe (mierzalne; np. wysokość, ciężar, liczba połączeń telefonicznych w ciągu jednostki
czasu, itp.)
 ciągłe  wartość cechy może być dowolną liczbą z pewnego przedziału liczbowego,
 skokowe (dyskretne)  wartości należą do pewnego skończonego podzbioru liczb, naj-
częściej całkowitych.
Statystyka (jako funkcja)  zmienna losowa będąca dowolną funkcją wyników próby losowej,
tzn. dowolnÄ… funkcjÄ… Y = f(X1, X2, . . . , Xn).
Estymator  dowolna statystyka Y służąca do oszacowania nieznanej wartości parametru
¸ populacji generalnej lub nieznanego rozkÅ‚adu populacji.
W dalszym ciągu, mówiąc o losowaniu czy wyborze przypadkowym, będziemy zawsze rozu-
mieć przez to losowanie zgodne z rozkładem równomiernym. Wynika z tego, że skład próbki
jest przypadkowy, a więc i wartości badanej cechy wylosowanych elementów są przypadkowe.
W związku z tym n-elementową próbkę będziemy traktować jako n-wymiarową zmienną lo-
sową (X1, X2, . . . , Xn). Wartościami tej zmiennej losowej są punkty n-wymiarowej przestrzeni
euklidesowej. Zbiór wszystkich możliwych próbek nazywać będziemy przestrzenią próbkową. O
zmiennych losowych X1, X2, . . ., Xn zakładamy, że są niezależne i o jednakowym rozkładzie,
takim jak rozkład badanej cechy elementów w populacji generalnej.
Mówiąc, że populacja generalna ma rozkład PX, będziemy przez to rozumieć, że interesująca
nas cecha elementów tej populacji jest zmienną losową X o rozkładzie PX. Dystrybuantę F
zmiennej losowej X będziemy nazywać dystrybuantą teoretyczną.
Oznaczmy kolejne wartości zaobserwowane w próbce przez x1, x2, . . ., xn. Funkcję Fn okre-
śloną dla każdego x " R wzorem
1
Fn(x) = Card{i : xi < x, i = 1, 2, . . . , n},
n
gdzie CardA oznacza liczność zbioru A, nazywać będziemy dystrybuantą empiryczną.
Z określenia wynika, że dystrybuanta empiryczna jest dla ustalonego x frakcją tych elemen-
tów w próbce, dla których wartość badanej cechy jest mniejsza od x.
Parametry zmiennej losowej o dystrybuancie Fn będziemy nazywać parametrami empirycz-
nymi w odróżnieniu od parametrów cechy X elementów populacji, które nazywać będziemy
parametrami teoretycznymi. Na przykład empiryczną wartością przeciętną (lub średnią z prób-
ki) jest
n

1
x = xi.
Å»
n
i=1
Wariancją empiryczną (średnim odchyleniem kwadratowym) jest
n

1
s2 = (xi - x)2.
Å»
n
i=1
2
Parametry te, jak również dystrybuanta empiryczna, zależą od wyników losowania i mogą
zmieniać się w zależności od próbki. Wartości zaobserwowane w próbce są wartościami zmien-
nych losowych X1, X2, . . ., Xn dla ustalonego zdarzenia elementarnego É, tzn. X1(É) = x1,
X2(É) = x2, . . ., Xn(É) = xn.
Wartości średniej z próbki i wariancji empirycznej są zatem zaobserwowanymi wartościa-
Å»
mi zmiennych losowych, które oznaczamy odpowiednio przez X, S2. Zmienne te są funkcjami
próbki, będziemy je zapisywać równościami
n

1
Å»
X = Xi,
n
i=1
n

1
Å»
S2 = (Xi - X)2.
n
i=1
Funkcje próbki nazywane są również statystykami.
Podstawowe rozkłady  przypomnienie:
Rozkład normalny (Gaussa) Mówimy, że zmienna losowa X ma rozkład normalny, jeśli
gęstością prawdopodobieństwa f : R R tej zmiennej jest funkcja
1 2
"
f(x) = e-(x-m) /2Ã2,
2Ä„Ã
gdzie à > 0, m " R. JeÅ›li zmienna losowa X ma rozkÅ‚ad normalny N(m, Ã), to E(X) = m
i D(X) = Ã.
Dystrybuanta:

x
F (x) = P (X < x) = f(x)dx.
-"
Parametr m (średnia w populacji) wyznacza prostą symetrii wykresu, a à (odchylenie
standardowe w populacji) decyduje o jego wysokości.
Rysunek 1: Wykres funkcji gęstości rozkładu normalnego dla m = 0 i à = 1
X-m
Zmienna unormowana: Z = ma rozkład N(0, 1).
Ã
3
Obliczanie prawdopodobieństw:
" P (X < a) = F (a)
" P (X a) = 1 - (P (X < a) = 1 - F (a)
" P (a < X b) = F (b) - F (a)
" P (|X| a) = 1 - P (|X| < a) = 1 - F (a) + F (-a)
Rozkład chi-kwadrat Jeżeli X1, . . ., Xn są niezależnymi zmiennymi losowymi o rozkładach
N(0, 1), to zmienna
n

2
Ç2 = Xi
i=1
ma rozkład chi-kwadrat o r = n stopniach swobody.
Z tablic odczytujemy P (Ç2 Ç2 ) = Ä… dla n stopni swobody.
Ä…
4
Rozkład t Studenta Rozkładem t Studenta o n stopniach swobody nazywamy rozkład praw-
dopodobieństwa zmiennej losowej
X

tn = ,
1
Ç2
n
n
gdzie X i Ç2 sÄ… niezaleznymi zmiennymi losowymi, X ma rozkÅ‚ad normalny N(0, 1) a Ç2
n n
ma rozkład chi-kwadrat o n stopniach swobody.
W tablicach P (|t| tÄ…) = Ä… dla n stopni swobody.
Rozkład F Fischera-Snedecora Rozkładem F Snedecora o (m, n) stopniach swobody nazy-
wamy rozkład prawdopodobieństwa ilorazu zmiennej losowej
X/m
F = ,
Y/n
gdzie X, Y są niezależnymi zmiennymi losowymi o rozkładach chi-kwadrat, odpowiednio
z m i n stopniami swobody.
Przypuśćmy, że chcemy przeanalizować wiek ludności miasta, powiedzmy Siedlec, liczącego
ok. 90 tysięcy mieszkańców. Załóżmy, iż udało nam się zdobyć listę z wiekiem mieszkańców.
Cechę, jaką jest wiek, można traktować jako cechę w skali porządkowej. Na początku chcieliby-
śmy mieć jakąś wstępną informację o naszych danych, na przykład ich interpretację graficzną.
Najczęściej stosowaną wtedy metodą jest kumulacja danych, która polega na podzieleniu zbioru
wartości cechy na określone przedziały (klasy) oraz obliczeniu liczności każdego z nich, to jest
liczby elementów populacji, dla których wartość cechy mieści się w danym przedziale. Skumu-
lowane dane można wówczas zaprezentować w postaci tak zwanego szeregu rozdzielczego lub
histogramu.
Szereg statystyczny to zbiór wartości liczbowych badanej cechy uporządkowany według
określonych kryteriów. Rozróżniamy kilka rodzajów szeregów statystycznych.
Szereg rozdzielczy
Niech
x1, x2, . . . , xn (1)
będzie n-elementową próbką.
Rozstępem badanej cechy X w próbce (1) nazywamy różnicę
R = xmax - xmin, (2)
gdzie xmax i xmin oznaczają odpowiednio największą i najmniejszą liczbę ciągu (1).
Przy większej liczności próbki (powyżej 30) wartości próbki grupuje się w klasach, tj. prze-
działach, zwykle jednakowej długości.
5
Istnieje kilka reguł ustalania orientacyjnie liczby klas k w zależności od liczności n próbki:
"
k 5 ln n, k = 1 + 3, 322 ln n, k = n. (3)
Jeśli R jest rozstępem próbki, k zaś liczbą klas, to jako długość klasy przyjmuje się
R
b H" ,
k
w taki sposób, by bk R.
Liczbę wartości próbki zawartych w i-tej klasie nazywamy licznością (liczebnością) i-tej
klasy i ozn. symbolem ni. Oczywiście
k

ni = n.
i=1
Przedziałowy szereg rozdzielczy stanowią pary liczb: środki kolejnych klas xi oraz ich liczności
Å»
ni, i = 1, . . . , k.
Punkty stanowiące granice poszczególnych przedziałów klasowych ustala się zwykle z do-
1
kładnością do ą, gdzie ą oznacza dokładność, z jaką wyznaczono wartości w próbce. Jeśli więc
2
dla jednakowo dokładnych wartości próbki dane liczbowe są podawane jako całkowite wielokrot-
1
noÅ›ci najwiÄ™kszej liczby a, to należy przyjąć jako granice klas liczby postaci m · a + Ä…, gdzie
2
m są liczbami całkowitymi.
" W przypadku, gdy badana cecha ma rozkład skokowy, tworzenie szeregu rozdzielczego
polega na grupowaniu powtarzających się wartości cechy w próbie.
 Przykład 1. Obserwacje w centrali telefonicznej dotyczące liczby zgłoszeń dla n =
300 odcinków czasowych jednakowej długości.
x1, x2, . . . , x300
Liczba Liczba Częstość
zgłoszeń odcinków względna
xi czasowych ni
0 50 50/300
1 100 100/300
2 80 80/300
3 40 40/300
4 20 20/300
5 10 10/300
" Gdy cecha ma rozkład ciągły budowanie szeregu rozdzielczego polega na grupowaniu war-
tości cechy z próby w przedziały liczbowe zwane przedziałami klasowymi.
 Przykład 2. Dla dwustu próbek betonu (n = 200) przeprowadzono badanie wy-
trzymałości na ściskanie i uzyskano wyniki (w kG/cm2) uporządkowane w szereg
rozdzielczy.
6
Wytrzymałość Liczba Częstość
(kG/cm2) próbek względna
ni
190 200 10 10/200
200 210 26 26/200
210 220 56 56/200
220 230 64 64/200
230 240 30 30/200
240 250 14 14/200
" przedziały klasowe muszą być prawostronnie (lub lewostronnie) otwarte
" lewy kraniec przedziału klasowego powinien być tak dobrany, aby pierwszy przedział kla-
sowy zawierał najmniejszą z zaobserwowanych wartości cechy w próbie
" prawy kraniec ostatniego przedziału klasowego powinien być tak dobrany, aby ostatni
przedział zawierał największą z zaobserwowanych wartości cechy w próbie
Geometryczny rozkład szeregu rozdzielczego
" typu dyskretnego (diagram)
" typu ciągłego (histogram)  jest zbiorem prostokątów, których podstawy zaznaczane są
na osi odciętych i są wyznaczone przez granice przedziałów klasowych, wysokości tych
prostokątów wyznaczają liczebności (lub wskazniki struktury, liczebności skumulowane
lub częstości skumulowane) klas.
Szereg punktowy
Wskaznikiem struktury wi lub częstością względną występowania danego wariantu cechy
nazywa się stosunek liczby jednostek o danej wartości cechy do liczebności próby.
ni
wi = 100% , i = 1, . . . , k,
n
k
przy czym wi = 100%,
i=1
ni
pi <" fi =  częstość (frakcja, proporcja).
n
7
Szereg rozdzielczy skumulowany - uzyskuje siÄ™ poprzez przyporzÄ…dkowanie kolejnym wa-
riantom cechy odpowiadających im częstości skumulowanych; informuje on, dla ilu jednostek
badanej zbiorowości cecha przyjmuje wartości nie większe od górnej granicy poszczególnego
przedziału klasowego.
Skumulowany wskaznik struktury fisk (częstość skumulowana):
nisk
fisk = ,
n
gdzie nisk ozn. liczbę jednostek, których cechy odpowiadają wartościom nie większym, niż xi.
Dystrybuanta empiryczna - przyporządkowanie kolejnym wartościom cechy statystycznej
(zmiennej) odpowiadających im częstości skumulowanych.
Charakterystyki opisowe
Parametry obliczone z próby nazywamy charakterystykami opisowymi próby. Stanowią one
pewne oszacowanie parametrów w całej populacji. Dzielimy je na cztery grupy:
1. miary położenia
" wartość średnia
" wartość medialna
" wartość modalna
2. miary rozproszenia (rozrzutu lub zmienności)
" wariancja
" odchylenie standardowe
" odchylenie przeciętne
" współczynnik zmienności
" rozstęp cechy w próbie
3. miara skośności
" współczynnik skośności
4. miara spłaszczenia
" współczynnik spłaszczenia
Oznaczenia wstępne:
xi  wartość cechy, w przypadku szeregów punktowych, lub środki przedziałów klasowych,
w przypadku szeregów z przedziałami,
ni  liczebność poszczególnych klas,
i = 1, ..., k, gdzie k  liczba klas.
Statystyki opisowe
" Wartością średnią cechy w próbie nazywamy liczbę x :
Å»
n

1
 x = xi  dla materiału nieuporządkowanego,
Å»
n
i=1
8
k

1
 x = xini  dla materiału uporządkowanego (tzw. średnia ważona, ni nazywa się
Å»
n
i=1
wagami).
" Wariancją w próbie
 dla materiału nieuporządkowanego nazywamy liczbę
n

1
s2 = (xi - x)2,
Å»
n
i=1
 dla materiału uporządkowanego nazywamy liczbę
k

1
s2 = (xi - x)2ni.
Å»
n
i=1
" Ocena wariancji w populacji (estymator nieobciążony):
 dla materiału nieuporządkowanego
n

1 1
%5Å„2 = (xi - x)2 = µ2
Å»
n - 1 n - 1
i=1
 dla materiału uporządkowanego
k

1
%5Å„2 = (xi - x)2ni.
Å»
n - 1
i=1
" Odchyleniem standardowym w próbie nazywamy liczbę:
"
s = s2
" OcenÄ… odchylenia standardowego nazywamy liczbÄ™:
"
%5Å„ = %5Å„2.
" Wartością medialną (medianą) Me cechy w próbie nazywamy wartość leżącą w środku
uporządkowanego rosnąco zbioru wartości cechy w próbie.
 Gdy n jest nieparzyste, to Me = x1 .
(n+1)
2
 Gdy n jest parzyste x1 Me x1 .
n (n+2)
2 2
" Wartością modalną cechy w próbie Mo nazywamy wartość najliczniej reprezentowaną w
próbie.
n

1
" Odchyleniem przeciętnym cechy w próbie nazywamy liczbę Ś = |xi - Me| dla mate-
n
i=1
riału nieuporządkowanego.
%5Å„
" Współczynnikiem zmienności nazywamy liczbę V = 100% (jest to miara względna współ-
x
Å»
czynnika zmienności).
" Rozstępem cechy w próbie nazywamy liczbę R = max(xi) - min(xi).
i i
9
" Współczynnikiem skośności (asymetrii) nazywamy liczbę
µ3
A = ,
s3
n
1
gdzie µ3 = (xi - x)3 dla materiaÅ‚u nieuporzÄ…dkowanego. Współczynnik skoÅ›noÅ›ci
Å»
i=1
n
mówi jak wygląda krzywa tego rozkładu w stosunku do rozkładu normalnego, określa siłę
i kierunek asymetrii, zwykle A " -1; 1 .
" Współczynnik skośności nieobciążony
 dla materiału nieuporządkowanego
k
n (xi - x)3
Å»
i=1
 = , n 3,  " -2, 2
(n - 1)(n - 2)%5Å„3
 dla materiału uporządkowanego
k
n (xi - x)3ni
Å»
i=1
 =
(n - 1)(n - 2)%5Å„3
Wykresy pudełkowe dobrze ilustrują asymetrię rozkładu cechy.
 Asymetria lewostronna A > 0
 Asymetria prawostronna A < 0
10
 Rozkład symetryczny A = 0 (x = Me = Mo).
Å»
n

µ4
1
" Współczynnikiem spÅ‚aszczenia (kurtozÄ…) nazywamy liczbÄ™ C = , gdzie µ4 = (xi -
s4 n
i=1
x)4. Jest to współczynnik określający koncentrację wartości cechy wokół wartości średniej.
Å»
Dla rozkładu normalnego C = 3, dlatego rozpatruje się też wartości C - 3.
" Współczynnik kurtozy nieobciążony:
n2(n + 1)µ4 - 3µ2(n - 1)
2
 = ,
(n - 1)(n - 2)(n - 3)%5Å„4
k k
1
(dla materiaÅ‚u uporzÄ…dkowanego µ4 = (xi - x)4ni, µ2 = (xi - x)).
Å» Å»
i=1 i=1
n
11


Wyszukiwarka

Podobne podstrony:
statystyka w1
STATYSTYKA MATEMATYCZNA w1
Statystyka fir w1
KEM w1
Analiza zależności dwóch cech statystycznych ilościowych
MN w1 Minimum funkcji
w1
SD przykłady do w1 13
1 wprowadzenie do statystyki statystyka opisowa
Sozański Statystyczne miary zmienności a kwantyfikacja nierówności społecznej
tai w1 nstac www
BUDOWA ATOMOW W1
W1
statystyka w matlabie
Teoria Definicje Statystyka
Tablice statystyczne wartości krytyczne współczynnika korelacji Pearsona

więcej podobnych podstron