Statystyka - pochodzi od łacińskiego słowa status, które oznacza stan, położenie. Pierwotnie termin ten stosowany był wyłącznie dla określenia zbioru informacji liczbowych w ujęciu tabelarycznym o stanie państwa, następnie wraz z rozwojem arytmetyki terminu tego zaczęto używać dla określenia tylko pewnych liczb, które stanowiły sumaryczne charakterystyki całego tabelarycznego materiału liczbowego. W teorii rachunku prawdopodobieństwa zapoczątkowany w II poł. XVII w. termin statystyka pojawił się i przetrwał do dziś na określenie pewnych funkcji będących narzędziem wnioskowania o zjawisku masowym. Wyodrębnia się dwa powstałe działy statystyki:
Statystyka opisowa, która zajmuje się metodami gromadzenia i prezentacji danych oraz metodami ich sumarycznego opisu.
Statystyka matematyczna (wnioskowanie statyczne), które zajmuje się budową reguł wnioskowania o własnościach badanej zbiorowości na podstawie danych dotyczących części tej zbiorowości wybranej w sposób losowy.
Statystyka jest to nauka o metodach badania zjawisk masowych (procesów masowych). Statystyka bada prawidłowości występujące w tych zjawiskach.
Zjawiska masowe to takie procesy, które rozpatrywane w masie charakteryzują się prawidłowością nie dającą się ustalić ma podstawie pojedynczej obserwacji.
Ze zjawiskami masowymi związane są dwa rodzaje przyczyn:
1. Przyczyny główne - jednakowe dla wszystkich elementów tworzących to zjawisko.
2. Przyczyny uboczne - różne dla każdego elementu.
Splot tych przyczyn powoduje, że powstaje prawidłowość zwana statyczną. Gdyby działały tylko i wyłącznie przyczyny główne, wówczas powstałaby prawidłowość absolutna, (która nie występuje, a występuje tylko w matematyce, fizyce i chemii).
Gdyby działały tylko i wyłącznie przyczyny uboczne (losowe przypadkowe) wówczas powstałby chaos.
Struktury procesów masowych tworzą dwa składniki:
składnik systematyczny, który jest wynikiem działania przyczyn głównych
składnik przypadkowy, który jest efektem działań przyczyn ubocznych
Zbiorowość statyczna - (masa statyczna lub populacja statyczna) jest to zespół nie identycznych jednostek statycznych stanowiących przedmiot badania statycznego posiadających przynajmniej jedną cechę wspólną, istotną ze względu na cel badania.
Cechy rzeczowe Cechy czasowe Cechy
przestrzenne
grupa ludzi dzień wiek
grupa zwierząt miesiąc kolor oczu
rok wzrost
Jednostka statyczna to każdy element zbiorowości statycznej.
Cecha statyczna jest to właściwość jednostki statycznej, dzielimy je na stałe i zmienne:
stałe (jednakowe) stanowią kryterium przynależności jednostek statycznych do badania zbiorowości statycznej. Cechy te nie podlegają badaniu statycznemu jedynie określają jednostki pod względem:
rzeczowym ( kto? co?)
przestrzennym (gdzie?)
czasowym (kiedy?)
np. studenci II roku studiów w punkcie wykładowym w Świnoujściu w dniu 12.10.2001r.
zmienne stanowią przedmiot badania statycznego dzielą się na:
cechy jakościowe (niemierzalne - właściwości opisują słownie)
dzielimy c. jakościowe na dwudzielne przyjmują tylko dwa warianty płeć: kobieta, mężczyzna
i wielodzielne przyjmują więcej niż dwa warianty np. wykształcenie:
pod. śred. wyższe
cechy ilościowe (mierzalne-właściwości opisują liczbowo)dzielimy na c. ilości typu skokowego przyjmują wartości całkowite np. liczba dzieci w rodzinie
i ciągłego przyjmują wszelkie wartości rzeczywiste z danego przedziału
liczbowego np. waga, wzrost, wiek itd.
cechy quasi (porządkowe - właściwości opisują słownie lub liczbowo)
BADANIE STATYCZNE - to zespół czynności mających na celu wykrycie prawidłowości
statyst. w zakresie struktury, współzależności i dynamiki zjawisk masowych
Rozróżnia się 4 etapy badań statycznych
1. PROJEKTOWANIE - obejmuje czynności:
określenie celu badania statystycznego
sformułowanie hipotez roboczych (nie koniecznie)
zaprojektowanie układu i treści tablic wynikowych
określenie zbiorowości statycznej pod wzg. rzeczowym, czasowym, przestrzennym.
określenie źródeł informacji
opracowanie formularzy statycznych i ewentualnie instrukcji do nich
określenie niezbędnych środków umożliwiających realizację programu badań
określenie metod zbierania informacji: bezpośrednie i pośrednie
określenie pola zastosowania uzyskanych wyników
2. OBSERWACJE zbieranie danych statystycznych - uzyskujemy na
podstawie różnych badań statystycznych do których zalicza się:
badanie pełne - obejmuje wszystkie jednostki wchodzące w skład badanej zbiorowości posługujemy się w tym badaniu m. inn. metodą reprezentacyjną, ankietowa, monograficzną).
W skład badania statystycznego wchodzą:
szacunki interpolacyjne - polegają na szacowaniu nieznanych wartości cechy na podstawie znanych wartości sąsiednich wcześniejszych i późniejszych
szacunki ekstrapolacyjne - polegają na szacowaniu wartości wykraczających poza przedział wartości znanych.
Ponadto badania statyczne mogą mieć charakter:
badań ciągłych - dotyczą obserwacji zjawisk w czasie w sposób nieprzerwany np. ewid.
urodzeń.
badań okresowych - podejmowane są stale w pewnych odstępach czasu np. spisy
ludności.
badań doraźnych - wywołane są pojawieniem się pewnych szczególnych okoliczności
luka informacyjna powstaje np. w skutek powodzi, wojny i innych kataklizmów.
OPIS statystyczny czyli opracowanie zebranego materiału statystycznego. Zebrany materiał statystyczny w postaci formularzy spisowych, sprawozdań, kwestionariuszy ankietowych itp. stanowi surowy materiał statyst., materiał ten wymaga uporządkowania i pogrupowania, grupowanie statyst. Grupowanie statystyczne polega na wydzieleniu ze zróżnicowanych zbiorowości możliwie jednorodnych grup z punktu widzenia pewnych istotnych kryteriów określonych w związku z celem badania statystycznego.
Wyodrębnia się dwa rodzaje grupowania.
Typologiczne (jakościowe)
Wariancyjne (ilościowe)
Opracowując materiał statystyczny można go zaprezentować za pomocą:
Szeregów statystycznych
Tablic statystycznych
Wykresów statystycznych
Szereg statystyczny jest to rząd wielkości statystycznych uporządkowanych na ogół rosnąco zgodnie z przyjętym kryterium klasyfikacji. Merytorycznym i formalnym. Z punktu widzenia merytorycznego szeregi statystyczne dzielimy na:
Przestrzenne (geograficzne, terytorialne służą do przedstawienia rozmieszczenia badanego zjawiska w przestrzeni) np. przeciętna płaca wg województw.
Czasowe (dynamiczne, chronologiczne- przedstawiają zmiany zjawisk w czasie, przy czym może być tu uwzględniony ściśle określony moment wówczas taki szereg nazywamy szeregiem czasowym momentów np. liczba ludności w Polsce na dzień 31.12.2000r. w latach 1999-2000, bądź pewne przedziały czasu- wówczas taki szereg nazywamy szeregiem czasowym okresów np. przyrost naturalny ludności w Polsce w latach 1999-2000.
Strukturalne obrazują budowę badanej zbiorowości z punktu widzenia przyjętej cechy w danym ściśle określonym czasie np. liczba pracowników danej firmy wg stanu pracy na dzień 30 września 2001r.
Z punktu widzenia kryterium formalnego wyodrębniamy:
Szeregi szczegółowe - uwidaczniają wariant badanej cechy każdej jednostki statystycznej wchodzącej w skład określonej zbiorowości
Szeregi rozdzielcze - efektem grupowania materiału statystycznego (wg określonej cechy jakości
lub ilości te szeregi dzielimy na -punktowe
-przedziałowe
liczba osób w liczba gospod. dom
gosp. dom
Xi Ni
30
80
100
60
40
30
Jest to szereg rozdzielczy punktowy.
wiek w latach liczba osób
Xoi -Xıi Mı
12
20
25-30 38
32
20
20
10
Jest to szereg rozdzielczy przedziałowy.
zarobki w złotych
Xi
410
425
440
455 Jest o szereg prosty uporządkowany
465
480
490
520
Tablice statystyczne - są szczególnym sposobem opisu badanej zbiorowości i zawierają następujące elementy :
siatkę tablicy
tytuł
datę
boczek i główkę
uwagi i odsyłacze
źródło danych
jednostki miary (kg litr metr)
znaki umowne np. 0 - zjawisko nie występuje, albo występuje w ilościach mniejszych od liczb, które mogłyby być uwidocznione w tablicy odpowiednimi znakami cyfrowymi.
X - oznacza, że wypełnienie miejsca w tablicy jest nie możliwe lub
niecelowe ze wg na jej układ
- oznacza brak informacji
Tablice statystyczne ze wg na kolejność sporządzania dzielimy na:
Tablice robocze - które są zestawieniami liczbowymi sporządzonymi na podstawie
wyników obserwacji.
Tablice wynikowe - użytkowe, które uzyskujemy dzięki uprzednio
przeprowadzonemu grupowaniu i uporządkowaniu dzielą się one na:
Podstawowe (źródłowe) ich zadaniem jest dostarczenie szczegółowych wyczerpujących informacji
Analityczne umożliwia nam wykrywanie prawidłowości w badanych zjawiskach
Proste zawierają jeden (tylko) szereg statystyczny
Złożone zawierają więcej niż jeden szereg statystyczny
WYKRESY STATYSTYCZNE - jest to graficzny sposób prezentacji badanego zjawiska plus zespół wyjaśnień (eksplikacja-wyjaśnienie). Przy sporządzeniu wykresu należy zawsze dobrać właściwą skalę
Skale równomierne - arytmetyczne
Skale nierównomierne
Skale mieszane
Rodzaje wykresów statystycznych
Wykresy liniowe 2. Wykresy powierzchniowe
3. Wykresy bryłowe (trójwymiarowe) 4. Kartogramy (mapowe)
5. Obrazkowe 6. Specjalne
Najbardziej znane i najczęściej wykorzystywane w badaniach statystycznych to wieloboki liniowe → wieloboki-liczebności zwykłe i skumulowane,
wieloboki powierzchniowe histogramy → zwykłe i skumulowane.
ANALIZY
Analiza struktury badanej zbiorowości.
Zbiorowości statystyczne opisane za pomocą szeregów statystycznych, tablic statyst. czy wykresów statystycznych stanowią punkt wyjścia do wyboru i oznaczenia odpowiednich parametrów opisowych.
Parametr opisowy - to liczba która w sposób syntetyczny określa właściwości badanej zbiorowości.
Parametry opisowe struktury zbiorowości dzielimy na:
miary tendencji centralnej
miary zmienności
miary asymetrii
miary spłaszczenia
miary koncentracji
Ponadto parametry opisowe dzielimy na:
absolutne (bezwzględne, mianowane ) wyrażone w wartościach mianowanych
stosunkowe (względne, niemianowane ) wyrażone w wartościach niemianowanych
Parametry dzielimy ze względu na sposób zdefiniowania:
klasyczne a) średnia arytmetyczna
b) średnia geometryczna
c) średnia harmoniczna
pozycyjne a) dominanta
b) mediana
c) kwartyle k. I k. II
Średnia arytmetyczna jest stosowana gdy zbiorowość jest addytywna (sumonalna) znane są wartości wszystkich jednostek, rozkłady są symetryczne lub o małej asymetrii i o małym zróżnicowaniu, rozkłady są jednomodalne. Średnia arytmetyczna jest to stosunek sumy wartości wszystkich jednostek stat badanej zbiorowości do liczby tych jednostek
Sposób obliczania uzależniony jest od formy materiału statystycznego.
gdy materiał statyst. jest w postaci szeregu szczegółowego to śred. statysty. obliczamy wg wzoru
Średnia arytmetyczna zwykła nieważona. X i
x ı+x +.....+x ο ∑ x і X 1
X = i=1 X 2
n = n ▪
▪
▪
X n
X- średnia arytmetyczna ∑ - suma
X i - są to wartości cechy tej i tej jedn. stat. i = 1, 2, ...,n
n - jest to liczba badanych jednostek (ile ma tych jednostek)
gdy materiał jest w postaci szeregu rozdzielnego punktowego lub przedziałowego
X i n i Xo - X n i
X n Xo-X n
X 2 n 2 x o-x 1 2 n 12
○ ○ ○ ○
○ ○ ○ ○
○ ○ ○ ○
x k n k x 03k n k
Średnia arytmetyczna ważona
x ı · n +.....+ x 2 · n 2 +..... + x k · n k ∑ x і · n i ∑ x і · n i i=1 i=1
X= =
n + n 2 + .............. n k ∑ n i n
X- średnia arytmetyczna ∑ - suma
X i - jest to wartości i tej odmiany cechy (dla szerwgu punktowego) lub środek i tego przedziału
klasowego (dla szeregu przedziałowego).
n - jest to ogólna liczba badanych jednostek (ile ma tych jednostek)
n i - jest to liczba jednostek o wartości cechy x i
i - jest to numer odmiany cechy/ i jest to nr przedziału klasowego
WŁASNOŚCI.
Średnia arytmetyczna przyjmuje wartości z przedziału x minimalne x maksymalne
X min < X < X max
Suma odchyleń poszczególnych wartości cechy od średniej arytmetycznej jest równa 0
Suma kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej jest minimalna.
Średnia geometryczna ma zastosowanie gdy zbiorowość jest multiplikatywna (otrzymywana przez mnożenie) wartości przedstawione są w formie zmian względnych *liczymy
Średnia harmoniczna zastosowanie jest uzasadnione gdy badana cecha wyraża stosunek dwóch różnych cech powiązanych ze sobą w sposób logiczny np. wydajność pracy *nie liczymy
Y ← wielkość produkcji
X = Z ← wielkość zatrudnienia
Te średnie: arytmetyczna, harmoniczna i geometryczna wykluczają się wzajemnie.
„D” - DOMINANTA - moda, wartość największa, wartość modalna, wartość typowa, jest to wartość badanej cechy która występuje najczęściej w danej zbiorowości.
gdy mamy szereg szczegółowy, rozdzielczy lub punktowy dominantą jest wartość której odpowiada największa liczebność.
gdy mamy szereg rozdzielczy przedziałowy dominantę wyznacza się za pomocą wzoru interpolacyjnego (rachunkowo, analitycznie) lub / i, graficznie (histogram zwykły).
N D - N D -
D = X + (ND - ND) + (ND - ND ) ▪ h D
0 D
X-D dolna granica przedziału, w którym znajduje się dominanta
n D +1 liczebność przedział dominanty
n D -1 liczebność poprzedzająca przedział dominanty
h D rozpiętość przedziału dominanty
Dominantę nie zawsze można wyznaczyć, aby można ją wyznaczyć, zbiorowość musi być jedno-modalna o umiarkowanej asymetrii ponadto, rozpiętości przedziałów klasowych powinny być równe, a przynajmniej powinna być równość rozpiętości klas zawierająca dominantę, poprzedzającej dominantę i następująca po klasie dominanty.
„M” MEDIANA - (kwarty drugi, wartość środkowa) jest wartością jednostki statystycznej zajmującej środkowe miejsce w zbiorowości statystycznie uporządkowanej rosnąca lub malejąca wg wartości cechy. Mediana ma taką wartość cechy poniżej której znajduje się połowa jednostek i powyżej zbiorowości statycznych
Medianę można wyznaczyć zawsze nie jest wrażliwa na jednostki skrajne.
Materiał w postaci szeregu szczegółowego lub szeregu rozdzielczego punktowego
a) jeżeli jest nieparzysta liczba jednostek mediany jest wartość jednostki środkowej
M e = x n+1
2
b) jeżeli jest parzysta liczba jednostek mediany jest średnia arytmetyczna z dwu środkowych wartości jednostki
M e =
Gdy mamy szereg rozdzielczy przedział mediany wyznacz się za pomocą wzoru interpelacyjnego (rachunkowo, analitycznie) lub / i graficznie (diagram skumulowany).
WZÓR INTERPOLACYJNY
h Me
M e = x + ( )
n Me
X - dolna granica przedziału, w którym znajduje się mediana
n - ogólna liczba badanych jednostek
n SK-1 - liczebność skumulowana poprzedzająca przedziały mediany
h Me - rozpiętość przedziału mediany
n Me - liczebność przedziału mediany
KWANTYLE
Kwantyl pierwszy dzieli zbiorowość w taki sposób, że poniżej jego wartości znajdują się
25% jednostek, a powyżej 75% jednostek.
Kwantyl trzeci dzieli zbiorowość w taki sposób, że poniżej jego wartości znajdują się
75% jednostek, a powyżej 25% jednostek zbiorowości
ZASADY BUDOWY WZORU SĄ IDENTYCZNE JAK DLA MEDIANY
( liczymy je tylko dla przedziału).
Jeżeli Średnia arytmetyczna = Medianie = Dominancie to rozkład badanej cechy jest
symetryczny.
X = Me = D
Jeżeli mamy rozkład o umiarkowanej asymetrii to zachodzi związek PEARSONA (Pirsona)
X - D ≈ 3 (x - Me)
MOMENTY momentem rzędu r zmiennej ( cechy x) nazywamy średnią arytmetyczną odchyleń zmiennej od pewnej stałej c podniesionej do potęgi r.
∑ (xi- c)
Mr = n szereg szczegółowy
∑ x i-c)ni²
Mr = n szereg rozdzielczy
Momenty dzielimy na: 1. zwykłe - liniowe względem początku układu współrzędnych c = 0
2.centralne - liniowe względem średniej arytmetycznej c = x
W analizie statystycznej najczęściej wykorzystywane są momenty do czwartego rzędu.
Momenty centralne możemy wyrażać za pomocą odpowiedniej kombinacji momentów zwykłych.
_
X = ∑ xi moment pierwszego rzędu
= m¹
n
_²
X = ∑ xi² moment zwykły drugiego rzędu
n = m²
MIARY ZMIENNOŚCI
Inne nazwy to; miary dyspersji, rozrzutu, zróżnicowania, rozproszenia, miar te dzielimy na
Miar absolutne-informują jak różni się, o ile jednostki badane mierzą one wielkości
składnika przypadkowego
Miary stosunkowe- informują jak wielkie są stosunkowe to różnice, mierzą one jaką część(lub%)składnika systematycznego stanowi składnik przypadkowy.
Miary zmienności dzielimy na miary pozycyjne;
rozstęp
odchylenie ćwiartkowe
pozycyjny typowy obszar zmienności
współczynnik zmienności względnego odchylenia ćwiartkowego
Miary zmienności klasyczne
wariancja
odchylenie standardowe
klasyczny typowy obszar zmienności
współczynnik zmienności względ. odchylenia standardowego
Pozycyjne absolutne miary zmienności
ROZSTĘP (empiryczny rozkład zmienności) jest to różnica między największą wartością cechy, a najmniejszą wartością cechy.
R= Xmax -Xmin
Jest to miara prosta mało precyzyjna o małej wartości pozycyjnej nie może jej wyznaczyć gdy szereg jest otwarty.
ODCHYLENIE ĆWIARTKOWE jest to miara, która ocenia zróżnicowanie w zawężonym obszarze zmienności (w dwóch środ. Ćwiartkach, 50% zbior. Statystycznej) wyraża się wzorem Q3,4 - Q1,4 gdzie Q3,4 jest to kwartyl trzeci, Q1,4 jest to kwartyl pierwszy,
2 Q jest to odchylenie ćwiartkowe.
POZYCYJNY TYPOWY OBSZAR ZMIENNOŚCI charakteryzuje typowe wartości jednostek zbiorowości w dwóch środkowych ćwiartkach
wyraża się wzorem
Me - Q < Xtyp < Me + Q
Klasyczne absolutne miary zmienności
Wariancja (moment centralny drugiego rzędu) jest to średnia arytmetyczna z sumy kwadratów odchyleń poszczególnych wartości cechy od jej średniej arytmetycznej
gdy materiał statystyczny jest w postaci szeregu szczegółowego wariancja ma postać Σ (Xi X)²ni
S²(x) = n
gdy materiał statystyczny jest w postaci szeregu rozdzielczego (punktowego lub
przedziałowego wariancja ma postać Σ(Xi-X) ²
S²(x) = Σ ni
- gdy materiał statystyczny jest w postaci szeregu szczegółowego lub rozdzielczego
wariancja ma postać
S²(x) = X² - (X)² ∑ x²
X² =
n
- dla innego szeregu ∑ x²i n i
X² =
∑ ni
Wariancja jest zawsze liczbą nieujemną mianowana jest wyrażona w kwadracie miana cech, im zbiorowość statystyczna jest bardziej zróżnicowana tym wartość wariancji jest wyższa Wariancja nie posiada interpretacji ekonomicznej, ale ma duże znaczenie teoretyczne, między innymi służy do obliczania odchylenia standardowego
Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji parametr ten określa przeciętne zróżnicowanie poszczególnych wartości cechy od średniej arytmetycznej i wyraża się wzorem
S(X)= √ S²(x)
Klasyczny typowy obszar zmienności gdy oparty jest na odchyleniu standardowym
wyraża się wzorem
X- S(x) < Xtyp <X + S(x)
W obszarze tym mieszczą się wartości cech około ⅔ wszystkich jednostek badanych zbiorowości gdy zbiorowość ta posiada rozkład symetryczny bądź zbliżony do symetrycznego.
Współczynnik zmienności - są to stosunkowe miary zmienności, są one liczbami niemianowanymi, często wyrażone są w procentach, z reguły przyjmują wartość przedziału od 0 do jedności (od 0 do 100%) mogą przekroczyć wartość 1 gdy;
V ≤ 0,1 zbiorowość jest jednorodna
0,1<V ≤ 0,6 zbiorowość względnie jednorodna
V > 0,6 zbiorowość jest nie jednorodna
Współczynnik zmienności wyraża się wzorami
S(x)
Vs = x 100% względne odchylenie standardowe
Q
VQ = 100% współczynnik zmienności wzg. odchylenia ćwiartkowego
Me
Współczynnik zmienności służą do porównywania jednej cechy, dwóch lub więcej cech tej samej zbiorowości.
MIARY ASYMETRII (miary skośności), miary te badają zależność lub niezależność składnika przypadkowego.
Jeżeli jednostki statyczne skupiają się wokół wartości przeciętnej to mówimy, że przyczyny uboczne są niezależne, obrazem graficznym tej sytuacji jest wykres
X-D=D
rozkład symetryczny
wysmukły
Jeżeli jednostki statyczne skupiają się wokół dolnej lub górnej granicy zmienności oznacza to zależność przyczyn ubocznych, obrazem graficznym w tej sytuacji są wykresy
normalny spłaszczony
Są to rozkłady asymetryczne asymetrii prawostronna i lewostronna.
Parametry asymetrii muszą odpowiadać na dwa pytania
Czy występuje i jak silna jest asymetria (moduł wartości) ?
Jaki jest kierunek asymetrii ( jak + lub znak - )?
Klasyczny współczynnik asymetrii wyraża się wzorem.
M3
Aı = (-2, +2) moment centralny trzeciego rzędu
S³
Pozycyjny współczynnik asymetrii wyraża się wzorem
(Q3,4 -Me) - (Me - Q1,4)
A2 = 2 Q < -1, + 1 >
Klasyczno pozycyjny współczynnik asymetrii (współ. skośności) wyraża się wzorem
X - D
A2 = S(X) ( -1, + 1 )
Siła asymetrii
0,0 - 0,2 bardzo niska (słaba)
0,2 - 0,4 słaba, niska
0,4 - 0,7 umiarkowana, średnia
0,7 - 0,9 silna, wysoka
0,9 - 1,0 bardzo silna, bardzo wysoka
jeżeli przekroczy 1 jest to skrajna asymetria
Jeżeli A1 = A2 = A3 = 0 to rozkład jest symetryczny
A1 i A3 wykluczają się wzajemnie
A2 uzupełnia A1 lub A3
Wszystkie te parametry mówią o sile i o kierunku asymetrii A1 i A3 informuje o asymetrii w całej zbiorowości statycznej natomiast A2 informuje o asymetrii w dwóch środkowych ćwiartkach badanej zbiorowości
Miary spłaszczenia (miary ekscesu lub miary kurtozy) stosujemy w przypadku gdy rozkłady są symetryczne lub zbliżone do symetrycznych, mierzymy stopień skupienia wokół przeciętych. Odpowiednim parametrem jest współczynnik spłaszczenia wyraża się on wzorem M4
& = S4(x)
& < rozkład spłaszczony
& = rozkład normalny
& > rozkład wysmukły
Obrazem graficznym tej sytuacji jest wykres
&>3 &= 3 &<3
W statystyce moment ma zastosowanie w określeniu właściwości zbiorowości stat. na podstawie próby losowej
Miary koncentracji
Koncentracja jest to nierównomierny rozkład ogólnej sumy wartości pomiędzy poszczególne jednostki zbiorowości statycznej. Koncentracją charakteryzuje się takie wielkości ekonomiczne jak kapitał, produkcja, zyski, majtek, zatrudnienie, areał upraw itp.
Koncentracja występuje przy bardzo silnej lub skrajnej asymetrii, nie wolno wówczas obliczać miar klasycznych.
Koncentrację można analizować za pomocą
opisu tabelarycznego
wykresu
parametru mierzącego stopień koncentracji np. współ. koncentracji
Zadanie na szereg szczegółowy.
W pewnym zakładzie wypłacono premie w wysokości 250zł. 225zł. 215zł.
Pytania
1.Określ zbiorowość statystyczną, jednostkę statystyczną i cechę statystyczną.
2.Zidentyfikuj szereg statystyczny.
3.Przeprowadź wszechstronną analizę struktury wysokości premii w oparciu o poznane parametry
X |
Xi |
Xi-X |
(Xi-X) |
(Xi-X) |
225 |
215 |
215-232=-17 |
(+17)²= 289 |
(17)³= - 49,13 |
245 |
225 |
225-232= -7 |
(7) ²= 49 |
(-7)³= - 349,00 |
250 |
225 |
225-232= -7 |
(7) ²= 49 |
(-7)³= - 349,00 |
225 |
245 |
245-232= +13 |
(+13) ²= 169 |
(+13)³= + 21,97 |
215 |
250 |
250-232= +18 |
(+18) ²= 324 |
(+18)³= + 58,32 |
Σ |
1160 |
X=0 |
|
|
Odpowiedzi:
1. Zbiorowość tworzy 5 pracowników badanej firmy we wrześniu w 199r.
Jednostką statyczną jest każdy pracownik badanej firmy.
Cechą statyczną jest wysokość premii w zł. - jest to cecha ilościowa typu ciągłego(płace)
2.Jest to szereg szczegółowy nieuporządkowany jedno modalny.
3.Przeciętna wysokość premii w badanej firmie wynosiła 232zł.
M xi 1,160
X = = = 232
n 5
|
PK |
PP |
|
MTC |
X |
D, Me |
|
MZ |
|
R, Q |
|
MA |
A1 A3 |
|
Dominanta
Xi n
215 1
225 2
245 1 D = Xi
250 1 D = 225zł
Wśród badanych pracowników najliczniejszą grupę stanowią pracownicy, którzy otrzymali premię we wrześniu 1999r. w wysokości 225zł.
Mediana
n = 5 (nieparzysta czyli wyznaczmy medianę tak;)
Xn+1 X5+1
Me = = = X3 Me= 225zł.
2 2
50% pracowników otrzymało premię w wysokości 225zł. i mniej, a połowa w wysokości 225zł. i więcej
R = Xmax - Xmin
R = 250 - 215 = 35zł.
Wynik ten oznacza, że różnica między pracownikami którzy otrzymali najwyższą premię, a pracownikami którzy otrzymali najniższą premię wynosiła 35zł
n
Σ (xi-x)²
Wariancja S² (x) = n
880
S² (x) = = 176 (zł)²
5
Wynik ten nie ma interpretacji ekonomicznej.
Odchylenie standardowe S(x) = √ S² (x) = √176 = 13.27zł.
Wysokość premii odchyla się od przeciętnej wysokości premii średnio (+,-) 13.27zł.
Klasyczny typowy obszar zmienności
Wyraża się wzorem X - S (X) < Xtyp < X + S(x)
232 -12,27 < Xtyp < 232+13,27
218,73 < Xtyp < 245,27
Typowy pracownik otrzymał premię w wysokości od 218,73zł. do 245,27zł.
Współczynnik zmienności względem odchylenia standardowego
S (x)
Vs = 100%
X
13,27
Vs = 100%
232
Vs = 5,72%
Wynik ten mówi nam, że średnia zróżnicowania wysokości premii stanowi 5,72%, przeciętnej wysokości premii, oznacza to, że badana zbiorowość była jednorodna.
Klasyczny współczynnik asymetrii ma wzór
M3 486
A1 = = = + 0,21
S³(x) 13,27³
Σ (xi-x)³ 2430
M3 = = = + 486
m 5
Wynik informuje nas, że rozkład wysokości premii charakteryzował się słabą asymetrią o kierunku dodatnim lub obliczamy klasyczno-pozycyjny współczynnik asymetrii.
X-D 232-225
A3 = A3 = = + 0,53
S(x) 13,27
Rozkład wysokości premii charakteryzował umiarkowaną asymetrią (o umiarkowanej sile prawostronnej) o kierunku dodatnim (to znaczy w umiarkowanym stopniu przeważali pracownicy których wysokość premii była poniżej przeciętnej)
Zadanie.
Rozkład 100 oddanych przez S. M. PSM mieszkań w 1993r. wg. Liczby stwierdzonych usterek przedstawia poniższa tabelka.
Liczba usterek Xi |
Liczba mieszkań ni |
Szereg
m |
Xi mi |
Ii - x |
x - x |
(xi - x)² mi |
x²i-ni |
(xi-x)³ni |
0 |
1 |
1 |
0ּ1=0 |
0-2,71=-2,71 |
(-2,71)²=-5,42 |
(-2,71)² ּ1=-4,42 |
0² |
(-2,71)³ ּ1=- |
1 |
5 |
1+5=6 |
1 ּ5=5 |
1-2,71=-1,71 |
(-1,71) ²=-3,42 |
(-1,71) ² 5= |
1².5 |
(-1,71) ³ 5= |
2 |
33 |
6+33=39 |
2 ּ33=66 |
2-2,71=-0,71 |
(-0,71) ²=-1,42 |
(-0,71) ² 33= |
2².33 |
(-0,71) ³ 33= |
3 |
46 |
39+46=85 |
3 ּ46=138 |
3-2,71=0,29 |
(+0,29) ²=0,58 |
(+0,29) ² 46= |
3².46 |
(+0,29)³ 46= |
4 |
13 |
85+13=98 |
4 ּ13=52 |
4-2,71=1,29 |
(+1,29) ²=2,58 |
(1,29) ².13= |
4².13 |
(1,29) ³.13= |
5 |
2 |
98+2=100 |
5 ּ2=10 |
5-2,71=2,29 |
(+2,29) ²=4,58 |
(2,29) ².2= |
5².2 |
(2,29) ³.2= |
Σ |
100 |
x |
271 |
x |
18 |
74,59 |
|
74,59 |
Określić zbiorowość statyczną, jednostkę statyczną i cechę statyczną.
Zbiorowość statyczną tworzy 100 mieszkań oddanych przez PSM w 1993r.
Jednostką statystyczną jest każde mieszkanie oddane przez PSM w 1993r.
Cechą statyczną jest liczba usterek jest to cecha ilościowa typu skokowego(bo ma 1,2,3 itp.)
Zidentyfikować szereg statystyczny .
Jest to szereg struktalny rozdzielczy, punktowy jednomodalny, zamknięty obustronnie. (jednomodalny dlatego że wielkości rosną a potem maleją
Przeprowadzić wszechstronną analizę struktury mieszkań wg liczby usterek w oparciu o poznane parametry opisowe.
Dominanta (to liczba 3).
D = Xi D = 3
W oddanych przez PSM mieszkaniach najliczniejszą grupę stanowiły mieszkania z 3 usterkami.
M=100
Me = ½ (xn + x n +1)
Me = ½ (x100n + x 100 +1) = ½ ( x50+x50) = ½ (3+3) = 3
Połowa mieszkań miała 3 usterki i mniej, a połowa miała 3 usterki i więcej.
Empiryczny obszar zmienności czyli parametr typowo pozycyjny (rozstęp)
Re = Xmax - Xmin
Re = 5 - 0 = 5
Różnice między mieszkaniami, które miały najwięcej usterek a mieszkaniami które miały najmniej usterek wynosi 5.
Σxi mi 271
Średnia arytmetyczna X = = = 2,71
Σm 100
W badanych mieszkaniach przeciętna ilość usterek wynosiła 2.71
Σ (x-x) n² 74,59
Wariancja S² (x) = = = 0,7459
Σ mi 100
|
(Xi - X)³ |
|
0 |
0² ּ 1 = 0 |
(-2,71) ּ = -2,71 |
|
5 |
1² ּ 5 = 5 |
(- 1,71)³ ּ 5 = |
|
264 |
2²ּ 33 = 132 |
2-2,71=-0,71 |
|
1242 |
3²ּ 46 = 414 |
3-2,71=0,29 |
|
832 |
4² ּ 13 = 208 |
4-2,71=1,29 |
|
250 |
5² ּ 2 = 50 |
5-2,71=2,29 |
|
2.595,00 |
809 |
x |
|
|
S² (x) = x² - (x)² = 8,09 - (2,71)² = 0,7459
∑
x² = x² i ni = 809 = 8,09
∑ ni 100
Odchylenie standardowe S (x) = √ S²(x)
S (x) = √ 0,7459 = 0,86
Liczba usterek odchylała się od przeciętnej liczby usterek o (+,-,) 0,86
Klasyczny typowy obszar zmienności X = S (x) < Xtyp < X + S (x)
2,71 - 0,86 < Xtyp < 2,71 + 0,86
1,85 < Xtyp <3,57
Typowe mieszkanie oddane przez PSM miało od 1.85 do 3.57 usterek.
Współczynnik zmienności wzg odchylenia standardowego.
S(X)
V = 100%
(X)
0,86
V = 100% = 31,73
2,71
Średnie zróżnicowanie liczby usterek stanowiło 31,73% przeciętnej liczby usterek. Wynik ten oznacza, że badana zbiorowość była względnie jednorodna.
Współczynnik skośności
X-D 2,71 -3
A3 = = = - 0,3372
S(x) 0,86
Wynik ten mówi nam , że rozkład liczby usterek charakteryzował się słabą asymetrią o kierunku ujemnym t.z. w słabym stopniu przeważały mieszkania, w których liczba usterek była powyżej przeciętnej lub klasyczny współczynnik asymetrii (ma on postać A1 =
M3 - 0,036678
A1 = = = - 0,0577
S³ (x) (0,86)
Σ (x-x)³ni
U3 = = U 3 = M 3 - 3m1 · m2 +2m1³
Σ mi
M1 = 2,71
M2 = 8,09
M3 = x³ = =
Wynik; 0,5,264,1242,832,250= 2.593.00
Rozkład liczby usterek charakteryzował się bardzo słabą asymetrią lewostronną (bo jest znak -)
Zadanie
Miesięczne wydatki a żywność w gospodarstwie emerytów i rencistów w 1987rr. Przedstawia poniższy szereg empiryczny.
Wyd w tys zł. Xoi - Xi |
Odset. gosd.dom ni |
xi |
|
|
|
|
3-4 |
13 |
(3+4):2 = 3,5 |
|
|
|
|
4-5 |
25 |
(4+5):2 = 4,5 |
|
|
|
|
5-6 |
30 |
(5+6):2 = 5,5 |
|
|
|
|
6-7 |
16 |
(6+7):2 = 6,5 |
|
|
|
|
7-8 |
11 |
(7+8):2 = 7,5 |
|
|
|
|
8-9 |
5 |
(8+9):2 = 8,5 |
|
|
|
|
Razem |
100 |
x |
|
|
|
|
Badaniu poddano 150 gospodarstw emerytów i rencistów.
Określ zbiorowość statystyczną, jednostkę statystyczną i cechę statystyczną.
150 gospodarstw każde gosp. emer.i ren. Miesięczny wydatki na żywność w bad
gospod. Jest to cecha ilościowa typu
ciągłego bo wyrażona w zł. i tyś zł.
Zidentyfikuj szereg statystyczny
Jest to szereg rozdzielczy przedziałowy strukturalny, jednomodalny, obustronnie zamknięty o stałych rozpiętościach przedziałów klasowych (1tyś zł.)
Przedstaw powyższy szereg graficznie za pomocą
histogramu zwykłego c) wieloboku liczebności zwykłego
histogramu skumulowanego d) diagramu skumulowanego
Przeprowadź wszechstronną analizę struktury, miesięczną analizę wydatków na
żywność w badanych gospodarstwach wykorzystując w tym celu poznane parametry
opisowe
X
|
PK |
PP |
MTC |
X |
D Me Q14 Q34 |
MZ |
S(x) S(x) Xtyp |
|
MA
|
A1 A3 |
|
Xoi + X1i
Xi = Xi Mi
2
3