sta teoria, Statystyka - TEORIA


Statystyka - TEORIA

Zbiorowością

statystyczną nazywamy ogół elementów podlegających

badaniu statystycznemu.

Poszczególne elementy tej

zbiorowości nazywamy jednostkami statystycznymi i dla tych

jednostek definiujemy cechy statystyczne.

Klasyfikacja cech statystycznych

Cechy statystyczne dzielimy na: cechy stałe -

nie podlegają badaniu statystycznemu, ale w precyzyjny

sposób opisują przynależność jednostki do danej

zbiorowości, tj.:

cechy rzeczowe -

określają zakres badania,

cechy czasowe -

określają czas przeprowadzenia badania,

cechy przestrzenne - określają miejsce

przeprowadzanego badania,

cechy zmienne, tj.:

cechy jakościowe - zwane inaczej niemierzalnymi, są to cechy, które opisane są

słownie np. wykształcenie, pochodzenie, kolor oczu.

cechy

ilościowe - zwane inaczej mierzalne podane są w postaci liczb.

Dzielą się na:

skokowe - jest

to cecha statystyczna o skończonej, z reguły małej

liczbie realizacji (np. ilość dzieci, ilość

członków rodziny na utrzymaniu ilość izb w

mieszkaniu). Pomiędzy wartościami ilościowymi nie ma

wartości pośrednich.

ciągłe -

cecha ciągła przyjmuje swoje realizacje wewnątrz

pewnego, z góry określonego przedziału liczbowego,

przy czym każda realizacja z tego zbioru może być

przyjęta ( np. wzrost, wysokość, wynagrodzenie w

zakładzie pracy - jest to najbardziej interesujący zakres badań.

cechy quasi ilościowe

- porządkujące - pozwalają na przedstawienie w

postaci uporządkowanych rozłącznych podzbiorów całej zbiorowości np. podział studentów według ocen, a

następnie uporządkowanie. Dla cech ilościowych

wyróżniamy następujące rodzaje szeregów statystycznych:

szeregi szczegółowe

- wyliczające - są to uporządkowane w sposób

monotoniczny wszystkie realizacje cechy łącznie z

powtórzeniami. Uzyskujemy go z tzw. Surowego szeregu

statystycznego ( czyli szeregu zebranego w bezpośrednich

badaniach empirycznych) przez monotoniczne

uporządkowanie tych wyrazów.

szeregi punktowe - konstruowane przede

wszystkim dla cechy skokowej - przyporządkowujące dla każdej

realizacji cechy skokowej jej liczebność cząstkową,

czyli liczbę jej wystąpień- jej powtórzeń- np.

liczba dzieci - (xi) realizacje

xi

ni

0

10

1

15

2

3

3

1

4

1

szeregi rozdzielcze (przedziałowe - strukturalne)

konstruujemy przeważnie dla cech o charakterze ciągłym,

w którym poszczególne

realizacje (rodzaje ?) cechy statystycznej zostały

pogrupowane w poszczególne przedziały klasowe o z góry

ustalonych końcach.

Liczba przedziałów klasowych -

k

Liczba elementów zbiorowości

statystycznej - N

Liczebność cząstkowa - ni

Wzory na liczbę

przedziałów klasowych zbiorowości statystycznej

k= 1 + 3,322log N

k ~ vN

k - należy dobierać w

płynny sposób w zależności od liczebności grup.

N

k

40<

N<60

5 ÷ 7

60<

N<100

6 ÷ 9

100<

N<200

8 ÷ 12

200<

N<500

12 ÷ 17

Wzór na długość

przedziałów

D xi

@

xmax - xmin

k

Zapis

przedziałów

xi

ni

(x1d 1 x1g)

n1

(x2d 1 x2g)

n2

(x3d 1 x3g)

n3

.

.

.

.

(xkd 1 xkg)

nk

Ogółem

N

(sumacyjny wiersz kontrolny)

Wzór na

obliczenie długości przedziału

D xi =

x ig -xid

HISTOGRAM

Szeregi rozdzielcze

przedziałowe możemy konstruować w zapisie

częstościowym, gdy liczebność zastąpiona jest częstością

wi =

ni

N Częstość

W przypadku, gdy w skonstruowanym

szeregu nie wszystkie przedziały mają tę samą długość

liczebności i częstości zastępujemy gęstością lub inaczej

natężeniem.

Wzór na natężenie

przedziału

gi

=

ni

D xi

Definicja histogramu

Histogramem nazywamy zbiór

przylegających prostokątów, których podstawy odpowiadają

długości kolejnych przedziałów klasowych. Natomiast

wysokości odpowiadają liczebnością lub częstością

cząstkowym.

Uwaga jeżeli

przedziały nie są równej długości zastępujemy histogram

liczebności histogramem gęstości.

Definicja diagramu

Diagramem albo wielobokiem

liczebności lub częstości nazywamy łamaną łączącą punkty

o współrzędnych:

(°xi ;ni),

(°xi ;wi),

(°xi ;gi).

°xi(lub ^ xi ) oznacza środek diagramu

liczony według wzoru °xi= 1 (xid + xig)

“Wygładzenie” diagramu daje

nam tzw. krzywą liczebności lub krzywą

częstości, której kształt opisuje nam rozkład cechy

statystycznej.

W przypadku, w którym krzywa

liczebności zawiera 1 ekstremum typu maksymalnego rozkład

nazywamy jednomodalnym.

W przypadku, w którym

krzywa liczebności zawiera więcej ekstremum rozkład nazywamy

wielomodalnym.

Jedno lub wielomodalność

rozkładu jest podstawą doboru mierników statystycznych

opisujących daną cechę statystyczną.

Miary klasyczne wymagają

jednomodalności.

Kumulacja

Szeregiem skumulowanym lub zsumowanym nazywamy szereg, w którym odpowiedniemu przedziałowi

klasowemu przyporządkowana jest liczebność tego przedziału i

wszystkich przedziałów poprzedzających.

ni cum

xi

ni

cum

x1d,x1g

n1

x2d,x2g

n1 +

n2

x3d,x3g

n1 +

n2 + n3

.

.

xkd,xkg

n1 +

n2 + n3 +.............+ nk = N

wi cum

=

ni

cum

N

Szereg wielkości skumulowanych nazywamy

dystrybuantą empiryczną.

Szereg w postaci skumulowanej

zarówno w liczebności jak i częstości jest podstawą do

wyznaczania pozycyjnych miar struktury.

Na podstawie histogramu

skumulowanego wyznaczamy diagram skumulowany, który jest

łamaną łączącą punkty o współrzędnych ( xig,

nicum lub wicum)

Diagram skumulowany

wykreślamy praktycznie jako łamaną łącząca prawe

ograniczenia każdego ze słupków.

Podstawowe mierniki statystyczne:

klasyczne,

pozycyjne.

Mierniki klasycznewykorzystujemy, gdy dysponujemy wszystkimi realizacjami cechy

statystycznej, czyli gdy cecha przedstawiona jest w postaci

szeregu przedziałowego o podomykanych wszystkich przedziałach

klasowych.

Mierniki klasyczne

opierają swą konstrukcję o środki przedziałów

klasowych.

Miary pozycyjne wykreślamy

w przypadku, gdy nie dysponujemy pełnymi informacjami o

realizacjach próby statystycznej, czyli gdy w szeregu

przedziałowym skrajne przedziały klasowe podane są w postaci

opisu słownego typu:

od - do,

powyżej - poniżej,

mniej lub więcej.

Uwaga

Miary absolutne są to

miary, które zachowują mianowanie cechy statystycznej.

Miary względne są miarami

pomijającymi mianowanie cechy. Interpretujemy je w postaci

procentowej lub wartości ułamkowych.

Analizę struktury zjawisk

statystycznych dzielimy na kilka “płaszczyzn”:

miary średnie

- miary położenia lub miary przeciętne,

miary zmienności,

dyspersji, rozrzutu, rozproszenia,

asymetrii -

skośności.

Szereg szczegółowy-

wyliczający - miary przeciętne

— x

- średnia arytmetyczna

— x = 1/N S ci

Szereg punktowy - miary

przeciętne

— x = 1/N S ci × ni

.

Szereg przedziałowy -

miary przeciętne

— x = 1/N S ki=1 c°i

× ni

W przypadku, gdy realizacje

cechy statystycznej są podane w przeliczeniu na inną wartość

średni poziom zjawiska ustalamy nie za pomocą średniej

arytmetycznej lecz za pomocą średniej harmonicznej.

Średnia harmonicznajest odwrotnością średniej arytmetycznej odwrotności

realizacji cech.

Wzór na średnią

harmoniczną

`cH = N/( S 1/xi

)

Przykłady wykorzystania

Gdy analizujemy :

prędkość - km/h

gęstość zaludnienia -

osoby/km2

ceny - zł/kg

spożycie - kg/osobę

wydajność - szt./h

Przykład liczbowy:

W ciągu 8h obserwowano pracę 3

osób, robotnik A zużywał na wykonanie 1 elementu 4 minuty,

robotnik B zużywał na wykonanie 1 elementu 6 minut, robotnik C

zużywał na wykonanie 1 elementu 12 minut.

Określić ile czasu średnio

zużywają robotnicy na wykonanie 1 elementu.

`cH = N/( S 1/xi )

`cH = 3/(1/4+ 1/6+1/12)= 3/(6/12)=

3/(1/2)=3×2/1= 6

Średnia Geometryczna

Jest pierwiastkiem stopnia n-1 z iloczynu wszystkich

realizacji cechy statystycznej.

`cG = n-1vx1×x2×.........×xn

Średnią geometryczną

wykorzystujemy do wyznaczenia średniego tempa zmian zjawiska w

przypadku szeregów czasowych tzn. szeregów, dla których

realizacje jednej cechy statystycznej pobierane są w równych

odstępach czasu.

Ogólnie miary struktury dzielimy na:

klasyczne,

pozycyjne.

Miary klasyczne wykorzystujemy wtedy, gdy dysponujemy wszystkimi

realizacjami cechy statystycznej. Są one przedstawione w postaci

szeregu punktowego lub szeregu rozdzielnego o podomykanych

skrajnych przedziałach klasowych.

Miary pozycyjne wykorzystujemy, gdy informacja o realizacji cechy nie

jest pełna, czyli, gdy dysponujemy szeregiem rozdzielnym o niedomknientych skrajnych przedziałach klasowych podanych w

postaci opisu słownego typu :

od-do

poniżej - powyżej,

mniej lub więcej.

Miary struktury:

klasyczne:

miary średnie -

położenia:

średnia arytmetyczna,

średnia harmoniczna,

średnia geometryczna,

miary rozproszenia (dyspersji

lub zmienności):

odchylenie standardowe,

współczynnik zmienności,

typowy przedział

zmienności,

miary asymetrii -

skośności:

współczynnik asymetrii

Pearsone a

pozycyjne:

dominanta, kwartyle

rzędu I, II i III,

odchylenia ćwiartkowe

pozycyjne, współczynnik zmienności , typowy przedział

zmienności,

współczynnik asymetrii

Yull` a-Kendala. Pozycyjne miary

położenia:

Dominanta (modalna,

moda, wartość najczęstrza), czyli wartość

cechy statystycznej występująca najliczniej w całej zbiorowości.

Dla szeregu punktowego jest tą realizacją cechy statystycznej,

której przyporządkowano największą liczebność

(najwyższa liczba wystąpień).

Dla szeregu rozdzielczego

wyznaczamy ją na podstawie wzoru interpolacyjnego

postaci:

D = xD + (nD - nD-1)/(( nD - nD-1) + (nD - nD+1)) × DxD

D - symbol

oznaczenia dominanty (wartość modalna - moda

Mo),

xD - początek

przedziału dominanty, czyli przedziału o

największej liczebności w danej zbiorowości,

nD - liczebność

przedziału dominanty,

nD-1 - liczebność

przedziału poprzedzającego przedział

dominanty,

nD+1 - liczebność

przedziału następującego po przedziale

dominanty,

DxD - długość

przedziału dominanty.

Uwaga

Warunkiem koniecznym

liczenia dominanty jest równa długość wszystkich

przedziałów klasowych lub co najmniej 3 przedziałów klasowych

- przedziału dominanty i przedziałów sąsiednich.

W przypadku, gdy warunek ten

nie jest spełniony dominantę można obliczyć w oparciu o tzw.

Wzór gęstościowy, czyli wzór, w którym liczebność

przedziałów zastąpiono ich gęstościami.

Tak uzyskana wartość

dominanty jest mniej dokładna.

Kwantyle

Kwantyle definiuje

się jako wartości cechy badanej zbiorowości przedstawionej w

postaci szeregu statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek. Części te

pozostają do siebie w określonych proporcjach.

Do najczęściej stosowanych kwantyli

należą kwartyle, a w przypadku analizy struktury

zbiorowości bardzo licznych decyle.

Kwantyle są wartościami

cechy statystycznej dzielącymi badaną zbiorowość na części

pod względem liczebności pozostające między sobą w ściśle

określonym stosunku.

Najczęściej stosowane

kwantyle to kwartyle, czyli wartości dzielące zbiorowość pod

względem liczebności na ćwiartki.

Najprostszym kwartylem jest

kwartyl rzędu drugiego - zwany również medianą lub

wartością środkową - dzielący zbiorowość na dwie równoliczne części.

W przypadku szeregu

wyliczającego mediany wyznaczamy następująco:

dla N parzystego

mediana jest to średnia arytmetyczna

realizacji cechy o numerze xN/2 i xN/2 + 1

Me=( xN/2 + xN/2 + 1)/2

dla N nieparzystego mediana

jest równa wyrazowi o numerze xN+1/2,

Me = xN+1/2

Np. dla N = 10

2,2,3,3,3|4,4,5,5,6

Me = ( xN/2 + xN/2

+ 1)/2 = (3+4)/2 = 3,5

Np. dla N = 11

2,2,3,3,4|4|5,6,6,6,7

Me = 4, (co

interpretujemy nie mniej nie więcej niż ...)

Dla szeregu rozdzielczego

wartość mediany obliczamy za pomocą wzoru:

Me = xMe + (N/2 - nicum-1)/

nMe× DxMe

xMe - początek przedziału

mediany,

N/2 - oznacza

pozycję mediany - Me,

nicum-1 - jest to skumulowana

liczebność przedziałów poprzedzających przedział mediany,

nMe - liczebność przedziału

mediany,

DxMe długość przedziału

mediany.

Kwartyl rzędu pierwszegojest wartością cechy statystycznej dzielącą próbę pod

względem liczebności na dwie części pozostające w stosunku

1/3.

Czyli jest wartością cechy

wydzielająca 1 część stanowiącą 25% elementów.

Dla szeregu wyliczającego

kwartyl rzędu pierwszego jest to mediana 1 połówki.

Dla szeregu rozdzielczego

kwartyl rzędu pierwszego wyznaczamy ze wzoru:

QI= xQI+ (N/4 - nicum-1)/nQI×DxQI

xQI - początek przedziału kwartyla,

N/4 - pozycja miernika,

nicum-I - skumulowana liczebność

przedziałów poprzedzających przedział kwartyla,

nQI - liczebność przedziału

kwartyla,

DxQI - długość przedziału

kwartyla .

Kwartyl rządu trzeciego

jest wartością cechy statystycznej dzielącą całą próbę

pod względem liczebności na dwie części pozostające w

stosunku 3/1 (kwartyl rzędu trzeciego wydziela 3 pierwsze

ćwiartki).

Wzór

QIII= xQIII+ (3N/4 - nicum-1)/nQIII×DxQIII

Graficzna interpretacja

pozycyjnych miar średnich

Dominantę wyznaczamy

na podstawie histogramu prostego( jest to punkt przecięcia się

odcinków łączących prawy “róg” przedziału poprzedzającego przedział dominanty z prawym “rogiem”

przedziału dominanty oraz lewy “róg” przedziału dominanty

z lewym “rogiem” przedziału następnego).

Miary położenia

wyznaczamy na podstawie histogramu skumulowanego (Me, QI,

QIII).

Miary rozproszenia -

dyspersji, zmienności

Miary rozproszenia

określają stopień wewnętrznego zróżnicowania zbiorowości

statystycznej, jest to połowa różnicy QIII- QI.

Wzór

Q = (QIII - QI)/2

Pozycyjne miary rozproszenia

informują nas o ile dowolnie wybrany element z części

zbiorowości statystycznej, która pozostanie po odrzuceniu 25%

realizacji o wartościach najmniejszych i po odrzuceniu 25%

realizacji o wartościach najwyższych różni się o ±wartości środkowej.

Ćwiartkowy współczynnik

odchylenia jest to iloraz odchylenia i mediany pomnożony przez

100%.

VQ=Q/Me × 100%

Ćwiartkowy współczynnik

odchylenia określa jaką część mediany stanowi odchylenie

ćwiartkowe.

Gdy wartość

odchylenia jest niższa od:

15% - to

zbiorowość jest mało zróżnicowana wewnętrznie, czyli jest

mocno skupiona wokół wartości środkowej - jest to

dobry reprezentant zbiorowości,

15 -35% -

zbiorowość jest zróżnicowana w sposób umiarkowany.

powyżej 35% -

zbiorowość jest silnie zróżnicowana, czyli realizacje cechy

statystycznej są silnie rozproszone. Wartość środkowa jest

słabym reprezentantem zbiorowości.

VQ= (Q/Me)×100% (VQ - pozycyjny współczynnik

zmienności)

Me -QL xtypL Me +

Q - typowy obszar zmienności cechy.

Klasyczne mierniki

zmienności

Odchylenie

przeciętne

Odchylenie

przeciętne określa, o ile wszystkie jednostki danej

zbiorowości różnią się od średniej arytmetycznej tej

zmiennej:

dla szeregu

wyliczającego

d = 1/N ĺki=1 | xi - `c |

dla szeregu punktowego

d = 1/N ĺki=1 | xi - `c | × ni

dla szeregu rozdzielczego

d = 1/N ĺki=1 | ^ xi - `c | × ni

Odchylenie standardowe liczone

jako pierwiastek z wariancji, gdzie wariancja jest średnią

arytmetyczną kwadratów odchyleń realizacji cechy statystycznej

od wartości średniej.

1. Dla szeregu wyliczającego-

szczegółowego

S2 = 1/N ĺki=1

|xi - `c |2

2. Dla szeregu punktowego

S2 = 1/N ĺki=1

|xi - `c |2 ni

2. Dla szeregu rozdzielczego

S2 = 1/N ĺki=1

| c° - `c |2 × ni

Uwaga

Wariancja nie ma

bezpośredniej interpretacji statystycznej. Wykorzystujemy ją

tylko jako podstawę do wyznaczenia odchylenia standartowego.

S = v S2

Własności wariancji

Wariancja wartości

zmiennej jest różnicą pomiędzy średnią

arytmetyczną kwadratów wartości zmiennej, a kwadratem średniej arytmetycznej.

S2 = `c2

- (`c)2

`c = ĺ xi2 × ni

(`c)2 = (ĺ xi

× ni)2

Jeżeli badaną zbiorowość

podzielimy na k rozłącznych grup to wariancja dla całej grupy

(wariancja ogólna) jest sumą dwóch składników:

średniej arytmetycznej

wewnątrz grupowej wartości zmiennej

oraz

międzygrupowej ( wariancji

średnich grupowych wartości tej zmiennej.

S2og = ` S2i +

S2 (`ci )

` S2i - ( ĺ S2i

× ni)/N

(wewnątrzgrupowa)

S2 (`ci ) - (ĺ (`ci

- `cog )2 ni)/N (międzygrupowa)

Uwaga

W każdej grupie należy

obliczyć wariancję dla grupy i średnią dla grupy.

K - liczba grup.

`cog = ( ĺ ` xi × ni)/N

S2i - wewnętrzna wartość grupy,

ni - liczebność grupy,

`ci -

`cog - wariancja ogólnogrupowa.

Wariancja ogólna jest podstawą

do liczenia poziomu zmienności w dużych - licznych grupach

statystycznych.

Z wariancji ogólnej wyznaczamy ogólne odchylenie

standardowe.

Odchylenie standardowe jest

absolutnym miernikiem zmienności, czyli zachowuje mianowanie

analizowanej cechy statystycznej i informuje o ile ± dowolnie

wybrany element grupy różni się

od poziomu średniego, czyli wartości średniej.

Iloraz odchylenia

standardowego i wartości średniej nazywamy klasycznym

współczynnikiem zmienności.

VZ= S/`c) ×

100%

Współczynnik

zmienności określa poziom wewnętrznego zróżnicowania próby

statystycznej.

Współczynnik

zmienności należy do grupy mierników tzw. absolutnych, czyli

mierników nie zachowujących mianowania cechy wyrażanych w

postaci zależności ułamkowych i procentowych i pozwalających

na porównywanie zbiorowości statystycznych dla różnoimiennych cech.

Na podstawie

wartości średnich i odchylenia standardowego wyznaczamy typowy

przedział zmienności i podobnie jak poprzednia dolna granica

tego przedziału jest

`c - S< xtyp < `c + S

Asymetria i jej miary

Asymetria, czyli skośność

jest to skłonność rozkładu cechy do nierównomiernego

rozkładu liczebności próby w stosunku do dominanty

Wartość jej oceniamy poprzez

porównanie dominanty, mediany i wartości średniej.

Asymetria prawostronna

`c > Me>D (krzywa

liczebności wydłużona z prawej strony)

Asymetria lewostronna

`c < Me<D (krzywa

liczebności wydłużona z lewej strony)

Najprostszym miernikiem

asymetrii jest wskaźnik asymetrii będący różnicą pomiędzy

wartością średnią, a dominantą

Ws = `c - D

Ws = 0 - cecha ma

rozkład symetryczny,

Ws < 0 - cecha ma

rozkład o asymetrii ujemnej - asymetria lewostronna,

Ws > 0 - cecha ma

rozkład o asymetrii dodatniej - asymetria prawostronna.

Jest to określenie kierunku

asymetrii. Oprócz kierunku asymetrii określamy jej siłę,

służy do tego współczynnik asymetrii.

Klasyczny

współczynnik asymetrii - Pearsone` a

As = ( `c - D) /S

Wyznaczamy go wtedy, gdy mamy do czynienia z miernikami

klasycznymi.

Dla szeregów w opisie pozycyjnym stosujemy miary pozycyjne

Yulle` a Kendala)

AQ = ((QIII -Me)- (Me - QI))/(QIII.

- QI)

Praktycznie liczymy

AQ = (QIII + QI

- 2Me)/2Q

Współczynnik

asymetrii spełnia następujący warunek, jego wartość mieści

się w przedziale -1< As< 1

Na podstawie wartości

bezwzględnej współczynnika asymetrii określamy jej siłę,

gdy:

|As| < 0,3 - jest to słaba

asymetria,

0,3 < |As| < 0,6 - jest to asymetria o umiarkowanej

sile,

|As| > 0,6 - jest to asymetria silna.

(c) MiM Bednarz '99



Wyszukiwarka

Podobne podstrony:
Stat FiR TEORIA II (miary cd, sggw - finanse i rachunkowość, studia, II semestr, Statystyka ĆW
Statystyka teoria i zadnia z rozwiązaniami
Statystyka teoria i zadnia z rozwiązaniami (2)
Zaliczenie dzienne statystyka 6 marca 2004 teoria, ZAD
Statystyka Ćwiczenia (Teoria)
statystyka teoria egzamin
teoria, statystyka1, 1
teoria, statystyka1, 1
Opracowana teoria statystyka
Zaliczenie dzienne statystyka 24 marca 2002 teoria, ZAD
Egzamin z 2009, ściąga -teoria, Statystyka jest nauką traktującą o ilościowych modelach badania zjaw
teoria, statystyka2, STATYSTYKA
Zaliczenie dzienne statystyka 12 września 2002 teoria, ZAD
Statystyka - teoria, IiE, IV kurs, Statystyka

więcej podobnych podstron