27 02 11r Statystyka

STATYSTYKA WYKŁAD I 27.02.11r.

Termin statystka obecnie używany jest w wielu różnych znaczeniach

Statystyka w ostatnim znaczeniu jest nauką która zajmuje się prawidłowością zjawisk masowych. Zjawiska masowe to często powtarzające się zdarzenia i przez to wskazują pewne prawidłowości. Prawidłowości nie są możliwe do zaobserwowania w pojedynczych przypadkach. Powstają one w wyniku oddziaływania przyczyn głównych (systematycznych) oraz ubocznych (przypadkowych). Przyczyny główne oddziaływają jednakowo lub podobne na wszystkie jednostki badanej zbiorowości, natomiast przyczyny uboczne wpływają różnokierunkowo, przy czym w dużej liczbie przypadków wykazują tendencję do wznoszenia się.

Przedmiot statystyki:

Przedmiotem zjawisk masowych mogą być produkcja przedsiębiorstw, konsumpcja gospodarstw domowych, ceny dóbr i usług. Metody wykorzystywane do badania zjawisk masowych służą różnym celom. Wyróżniamy dwa główne działy: statystykę opisową oraz statystykę matematyczną.

Statystyka opisowa zajmuje się metodami opisu danych statystycznych zebranych podczas badania statystycznego. Obejmuje ona programowanie badań statystycznych, opracowanie i prezentację materiału statystycznego oraz sumaryczny opis danych statystycznych. Celem statystki opisowej i uogólnień na temat badanego zbioru.

Statystyka matematyczna zajmuje się metodami wnioskowania o całej zbiorowości generalnej na podstawie wniosków uzyskanych z wybranej jej części, zwanej próbą. Do tego celu jest wykorzystywany rachunek prawdopodobieństwa i inne działy matematyczne.

Funkcje statystyki:

POJĘCIA:

  1. Zbiorowość statystyczna- zbiór dowolnych elementów, podobnych ale nie identycznych pod względem określonych cech i poddanych badaniom statystycznym.

  2. Jednostka statystyczna- jest elementem składowym zbiorowości poddanej bezpośredniej obserwacji lub pomiarowi (obiektem badania)

  3. Zbiorowość generalna są to wszystkie jednostki statystyczne do których formułowane są wnioski ogólne.

  4. Zbiorowość próbna (próba)- podzbiór populacji generalnej, obejmująca część jej elementów wybranych w określony sposób. Próba podlega badaniu statystycznemu, a jego wynik jest uogólniany na zbiorowość generalną.

Z uwagi na różne czynniki przeprowadza się badanie pełne lub tylko jej część ( badanie częściowe). Badanie kompletne dostarcza pełnej informacji o populacji. Badania częściowe przeprowadza się w przypadkach gdy nie ma możliwości wykonania pełnego badania lub jest ono nieracjonalne z ekonomicznego punktu widzenia. Brak możliwości może wynikać z konieczności wyniszczenia całej populacji lub jest ona nieskończona. Druga sytuacja występuje, gdy przewidywane koszty badania pełnego przekroczyłyby spodziewane korzyści (zyski).

W takich przypadkach przeprowadza się badanie na próbie do którego wybiera się tylko część nowej zbiorowości. Bardzo ważną sprawą jest by potrafić rozróżnić próbę od populacji oraz by dobrać tak próbę by była ona reprezentatywna dla populacji tzn stanowiła jej miniaturę ( struktura próby zbliżona do struktury populacji).

Reprezentatywność próby zapewnia losowy sobór czyli taki w którym każdy element populacji ma jednakowe prawdopodobieństwo trafienia do próby. Natomiast próba losowa Est podzbiorem elementów populacji wylosowanych w taki sposób, że każdy podzbiór n elementowy populacji ma jednakowe szanse znalezienia się w próbie.

Przedmiotem badania statystycznego są cechy, które mogą mieć różny charakter:

Podział cech statystycznych:

1) stałe wspólne dla wszystkich jednostek danej zbiorowości i nie podlegają badaniu a jedynie decydują o zaliczeniu jednostki do określonej grupy:

* rzeczowe- określają co i kto jest poddawany badaniu statystycznemu

* przestrzenne- gdzie odbywa się badanie

* czasowe – informują jaki okres obejmują badanie lub w jakim momencie się ono odbywa.

2)zmienne są to właściwości różniące jednostki badanej zbiorowości, podlegają badaniu statystycznemu, występują co najmniej w dwóch wariantach ( wartościami) cechy

* niematerialne ( jakościowe, kwantytatywne) ich warianty ustala się w sposób opisowy np. płeć

*mierzalne (ilościowe, kwantytatywne) zwane również zmiennymi można je zmierzyć i wyrazić za pomocą liczb (waga, wzrost)

- skokowe (dyskretne) przyjmują skończony lub przeliczalny zbiór wartości na danej skali liczbowej, przy czym jest to najczęściej zbiór liczb całkowitych nieujemnych (np. liczba dzieci w rodzinie, studentów na roku).

- ciągłe – mogą przyjąć dowolną wartość i określony przedział liczbowy przy czym ilość miejsc po przecinku zalezy od dokładności badania (waga, wzrost).

- quasi-ciągłe- ze swojej natury są te cechy skokowe, natomiast z uwagi na możliwość przyjmowania dużej skali wartości są zaliczane do cech ciągłych (np. wydatki gospodarstw na konsumpcję).

- quasi ilościowe- kwantyfikują natężenie badanej cechy w sposób opisowy podporządkują w ten sposób zbiorowości (np. oceny szkolne: bardzo dobra, dobra)

PRZYKŁAD:

Zbadano 200 uczniów LO w Krakowie ze względu na poziom wydatków i ilość zakupionych podręczników we wrześniu 2009r.

Zbiorowość statystyczna- uczniowie LO w Krakowie

Zbiorowość generalna- uczniowie LO w Krakowie

Jednostka statystyczna- uczeń LO

Cechy stałe:

Rzeczowe- uczniowie LO

Przestrzenna- Kraków

Czasowa- wrzesień 2009r.

Cechy zmienne

-poziom wydatków na podręczniki w zł (PLN) ( mierzalna, ilościowa, quasi ciągła)

- ilość zakupionych podręczników- mierzalna, skokowa.

Etapy prowadzenia badania statystycznego:

  1. Projektowanie badania statystycznego:

  1. Opracowanie obserwacji statystycznej

  2. Opracowanie i prezentacja materiału statystycznego

  3. Opis lub wnioskowanie statystyczne.

Cele badania statystycznego:

Badanie statystyczne prowadzone w celu poznania rozkładu zbiór pod względem badanych cech.

- ocena rodzajów związków występujących między cechami (analiza współzależności)

-poznanie zmian zbiorowośc w czasie (analiza dynamiki)

Opracowanie i prezentacja materiału statystycznego

Opracowany materiał należy odpowiednio zaprezentować wykorzystując jedną z poniższych form:

Szereg statystyczny ciąg wartości liczbowych danej cechy, uporządkowany wedle ściśle określonych kryteriów. Sposoby podziału szeregu zależą od rodzaju badania, rodzaju cechy, sposobu pomiaru oraz liczby obserwacji. Typy szeregów

  1. Szczegółowy

  2. Rozdzielczy

- punktowy

- przedziałowy

3) przestrzenny (geograficzny)

4) dynamiczny (czasowy)

W przypadku gdy badana zbiorowość jest nieliczna to uporządkowany ciąg wartości tworzy szereg szczegółowy( wyliczający) Warianty cechy porządkowane są rosnąco lub malejąco.

x1 ≤ x2 ≤ … ≤ xn lub x1 ≥ x2 ≥ … ≥ xn

Gdzie x- ity wariant cechy, x1- ity uporządkowany wariant cechy, n liczebność zbiorowości statystycznej

Jeżeli mamy do czynienia z liczną zbiorowością wtedy budujemy szeregi rozdzielcze czyli określonym wariantom x lub przedziałom cechy x0i −  x1i przyporządkowuje się odpowiadające im liczebności bezwzględne ni lub liczebności względnej.

Wskaźnik struktury (liczebność względna, częstość, frakcja, odsetek) jest ilorazem liczby jednostek odpowiadających danemu wariantowi lub przedziałowi wartości cechy do liczebności badanej zbiorowości statystycznej. Oblicza się go następująco:

wi = $\frac{n_{i}}{n}$

Przy czym $\sum_{i = 1}^{k}{\ n_{\text{i\ }}}$=n

ni liczba jednostek o wartości cechy x1 lub z przedziału x0i −  x1i k- liczba przedziałów, klas.

Wskaźnik struktury określa udział liczby jednostek zbiorowości charakteryzujących się określonym wariantem lub wariantami cechy w całkowitej liczebności badanej zbiorowości.

Dokonując wyboru rodzaju szeregu rozdzielczego należy wziąć pod uwagę typ badanej cechy oraz liczbę wariantów cechy, Jeżeli badana cecha przyjmuje małą liczbę wariantów tworzy się szereg rozdzielczy, punktowy. Natomiast przy dużej liczebności szereg rozdzielczy, przedziałowy.

Szereg rozdzielczy punktowy jest to pogrupowany materiał statystyczny według rosnących lub malejących wariantów cechy, którym przyporządkowuje się liczebności bezwzględne lub względne .


xi

ni

x1

n1

x2

n2

.

.

.

.

.

.


xk

nk

Lub


xi

wi

x1

w1

x2

w2

:

.

:

.


xk

wk

Szereg rozdzielczy przedziałowy to pogrupowany materiał statystyczny według przedziałów wartości cechy, którym przyporządkowuje się odpowiadające im liczebności bezwzględne lub względne

x0i - x1i ∖ n
ni
x01 - x11
n1
x02 - x12
n2

.

.

.

.

.

.

x0k - x1k
nk

Lub

x0i - x1i
wi
x01 - x11
w1
x02 - x12
w2

.

.

.

.

.

.

x0k - x1k
wk

Przy obliczaniu przedziałów bierze się pod uwagę zmienność cechy (różnica między maksymalna a minimalną wartością) liczebność zbiorowości oraz cel badania. Do określenia przedziałów można wykorzystać następujące wzory

K=$\sqrt{n}$

k 1+ 3,322 logn

k 5logn

Przy ustaleniu liczby przedziałów rozpiętość przedziału określa się przy pomocy wzoru:

h$\geq \ \frac{R}{k}$

przy czym R= xmax - xmin


hi  =  x1i − x0i

Gdzie hi rozpiętość, rozstęp interwał itego przedziału obliczany według wzoru.

R- rozstęp, xmax- największa wartość cechy, xmin najmniejsza wartość cechy.

Interwały powinny być jednakowe jednakże w uzasadnionych przypadkach buduje się szeregi o nierównych interwałach np. dla struktury gospodarstw rolnych.

W przypadku cech ciągłych górna granica przedziału (2-4; 4-6) może być niższa ( 2-3.9 lub 3,99) w zależności od dokładności przedziału. Dla cech skokowych górnych granicę przedziału ustala się na poziomie o jednostkę niższym niż dolna granica kolejnego przedziału (2-4; 5-7). Konstruując szereg ważne jest by każda wartość znalazła się tylko i wyłącznie w jednym przedziale, oraz unikać przedziałów pustych. Gdy w zbiorowości występują wartości ekstremalne (znacznie odbiegające od pozostałych) dopuszczalne jest budowanie przedziałów otwartych klasowych.

Do przedstawionych wyżej reguł nie należy się bezwzględnie stosować i dlatego często szeregi buduje się metodą prób i błędów tak aby liczebność w sąsiednich przedziałach nie odbiegały znacznie od siebie oraz aby rozkład charakteryzował się jednym maksimum (rozkład jednomodalny).

Oprócz szeregów rozdzielczych buduje się szeregi skumulowane, które powstają poprzez przyporządkowanie kolejnym wariantom cechy odpowiadającym ich liczebności bądź częstości skumulowanych. Przyporządkowanie to określenie jest definiowane jako dystrybuanty empirycznej. Liczebność skumulowana ncumi jest liczbą jednostek badanej zbiorowości o wariancie cechy nie większym od xi lub nie mniejszym od xi w zależności od sposobu kumulacji (rosnąca lub malejąca).

Skumulowany wskaźnik struktury, wyznacza się go:


$$w_{\text{cumi\ }} = \frac{n_{\text{cumi}}}{n}$$

Przy kumulacji rosnącej liczebność skumulowaną oblicza się według formuły:


$${n \downarrow}_{i} = \sum_{l = 1}^{i}\text{nl}$$

Natomiast dla kumulacji malejącej zgodnie ze wzorem:


$${n \downarrow}_{i} = \sum_{l = i}^{i}\text{nl}$$

Przykład:


xi

ni

ni

ni

x1

n1

n1
n1+n2+n3+n4

x2

n2
n1+n2 n1+n2+n3

x3

n3
n1+n2+ n3 n1+n2

x4

n4
n1+n2+n3+n4
n1

Szereg przestrzenny obrazuje rozmieszczenie badanych zjawisk według jednostek administracyjnych a także części kraju i świata. Szereg dynamiczny prezentuje zmiany poziomu zjawiska w czasie. Jeżeli szereg dotyczy poziomów zjawiska w przedziałach czasowych określa się go mianem szeregu czasowego okresów, a jeśli odnosi się do konkretnych momentów (np. 31 grudnia) jest to szereg czasowy momentów.

Tablica statystyczna jest formą prezentacji materiału statystycznego zawierającą liczbowy opis zbiorowości według jednej (tablice proste) lub większej liczby cech (tablice złożone). Powinny one spełniać określone warunki formalne i merytoryczne a ich zakres i układ zależy od celu prowadzonego badania.

Tytuł boczka Tytuł główki RAZEM
Pozycje główki
Pozycje boczka
razem

Źródło:…………………………………………………

W tablicach statystycznych w polskiej praktyce stosuje się następujące znaczki statystyczne:

(-)- zjawisko nie występuje

(0) – zjawisko występuje ale w jednostkach mniejszych niż pół jednostki miary przeciętnej w tablicy

(.) zupełny brak informacji lub brak informacji wiarygodnych

(x) rubryki nie można wypełnić ze względu na układ tablicy

Wykres statystyczny jest wizualną formą prezentacji danych statystycznych oraz wyników analizy statystycznej.

Wyróżnia się następujące formy wykresów:

W przypadku szeregów rozdzielczych do ich przedstawienia wykorzystuje się następujące wykresy:

Histogram jest to zbiór przylegających prostokątów, których podstawy są równe rozpiętością przedziałów klasowych a wysokości odpowiadają liczebnością tych przedziałów. W przypadku histogramów skumulowanych wartości są odpowiednimi liczebnościami skumulowanymi.

Diagram to łamana powstała przez połączenie punktów które są współ środkami przedziałów klasy i liczebności. W przypadku diagramu liczebności skumulowanej łączymy punkty, których współrzędne są górnymi granicami przedziałów klasowych i odpowiadające im liczebności skumulowane. Diagram liczebności skumulowanej jest jednocześnie wykresem dystrybuanty empirycznej.

Krzywa liczebności jest szczególnym przypadkiem diagramu stosowanym do cech ciągłych. Powstaje ona wyniku zmniejszenia rozpiętości przedziałów i tym samym zwiększenia ich liczby, co prowadzi do otrzymania gęstej siatki punktów. W praktyce krzywa liczebności jest otrzymywana tylko w przybliżeniu, ponieważ do otrzymywania jej dokładnej postaci wymagana jest nieskończona liczba obserwacji.


xi

ni

w1
0 1 0,05
1 6 0,30
2 8 0,40
3 3 0,15
4 1 0,05
5 1 0,05


ni

ni

wi

wi
<17,4;36,9) 6 6 0,06 0,06
<36,9;54,4) 15 21 0,06 0,21
<54,4;75,9) 29 50 0,15 0,50
<75,9;95,4) 19 69 0,29 0,69
<95,4;114,9) 18 87 0,19 0,87
<114,9;134,4) 8 95 0,18 0,95
<134,4;153,9) 5 100 0,03 1

100

Tutaj powinien być jeszcze jeden wykres. Ale nie zdążyłam przerysować.

Opis statystyczny jest syntetyczną charakterystyką zbiorowości co najważniejsze dotyczy tylko i wyłącznie badanej zbiorowości. Przeprowadza się go przy wykorzystaniu określonych charakterystyk liczbowych, zwanych parametrami. W opisie statystycznym zastosowanie znajdują następujące metody.

Wnioskowanie statystyczne ma miejsce gdy badaniu podlega próba wybrana zgodnie z metodami reprezentacyjnymi i polega na uogólnieniu wyników z próby na populację generalną.

Analiza danych statystycznych powinna doprowadzić do zwięzłego przedstawienia wyników badań za pomocą odpowiednio dobranych parametrów. Dobór parametrów powinien być jak najpełniejszy i opierać się na rozkładzie empirycznym badanej cechy. Rozkład empiryczny jest podporządkowaniem na podstawie zebranych w badaniu statystycznym danych, liczebności do wariantów cechy.

Parametry służące do syntetycznego opisu zbiorowości:

Grupa miar PARAMETRY
KLASYCZNE
położenia

Średnia arytmetyczna

Średnia harmoniczna

Średnia geometryczna

rozproszenia

Wariancja

Odchylenie standardowe

Współczynnik zmienności

asymetrii Współczynnik asymetrii
koncentracji

Kurioza

Współczynnik koncentracji Lorenza

Wśród miar przeciętnych wyróżnia się miary klasyczne i pozycyjne. Miary klasyczne oblicza się na podstawie wszystkich wartości szeregu i są to przede wszystkim średnia Arytmetyczna, harmoniczna, geometryczna. Miary położenia pozycyjne charakteryzują szereg pod względem pewnych wyróżniających się wartości i wyróżnia się wśród nich dominantę i kwantylę.

Średnia arytmetyczna jest to iloraz sumy wartości zmiennej wszystkich jednostek badanej zbiorowości do ich liczebności

- szereg wyliczający


$$\overset{\overline{}}{x} = \frac{1}{n}\sum_{t = 1}^{n}x_{i}$$

- szereg rozdzielczy punktowy


$$\overset{\overline{}}{x} = \frac{1}{n}\sum_{t = 1}^{k}x_{i}n_{i} = \sum_{i = 1}^{k}x_{1w_{1}}$$

- szereg rozdzielczy przedziałowy:


$$\overset{\overline{}}{x} = \frac{1}{n}\sum_{t = 1}^{k}x_{i}n_{i} = \sum_{i = 1}^{k}{\hat{x}}_{i}w_{i}$$

Przy czym:


$${\hat{x}}_{i} = \frac{x_{0i} + x_{1i}}{2}$$

Gdzie ${\hat{x}}_{i}\ jest\ srodkiem\ itego\ przedzialu$

W przypadku gdy zbiorowość podzielona jest na kilka podgrup średnią artmetyczną dla całej zbiorowości oblicza się jako tzw. Średnią ze średnich za pomocą wzoru:


$$\overset{\overline{}}{x} = \frac{1}{n}\sum_{i = 1}^{n}{\overset{\overline{}}{x_{}}}_{j}n_{j}$$

Gdzie $\overset{\overline{}}{x}$ średnia arytmetyczna całej zbiorowości $\overset{\overline{}}{x}j$ średnia arytmetyczna dla j-tej podgrupy w zbiorowości nj liczebność j-tej podgrupy w zbiorowości.

Średnia harmoniczna jest odwrotnością średniej arytmetycznej dla odwrotności wariantów cechy. Stosowana jest gdy wartości cechy wyrażone są w jednostkach liczników tych cech. Liczby względne są wielkościami stosunkowymi, otrzymywanymi w wyniku podzielenia dwóch wielkości absolutnych np. gęstość zaludnienia obliczona jako iloraz liczby ludności zamieszkującej określone terytorium do jej powierzchni (wyrażone w osobach na km2).

-szereg wyliczający:

H= $\frac{n}{\sum_{i}^{n}{= i\frac{1}{\text{xi}}}}$

- szereg rozdzielczy punktowy:

H= $\frac{n}{\sum_{i}^{n}{= i\frac{1}{\text{xi}}\ n_{i}}}$

- szereg rozdzielczy przedziałowy

H= $\frac{n}{\sum_{i}^{k}{= i\frac{1}{\text{xi}}\ n_{i}}}$

Średnia geometryczna jest pierwiastkiem n-tego stopnia iloczynu wartości zmiennej wszystkich jednostek badanej zbiorowości. Stosowana jest przy badaniu średniego tempa zmian zjawisk dynamiki i szacowana następująco:

G=$\sqrt{x_{1}}*x_{2}*\ldots.*x_{n}$ = $\sqrt[n]{\prod_{i = 1}^{n}x_{1}}$

Kwantyle dzielą zbiorowość na dwie części o określonych liczebnościach. Najczęściej wykorzystuje się kwartale pierwszy- drugi (zwany medianą i wartością środkową) i trzeci. Ich rząd odpowiednio wynosi 0,25 0,5 i 0,75. Oznacza, że mediana (Me) jest wartością cechy, która dzieli zbiorowość na dwie równe części z których pierwsza posiada warianty cechy nie większe niż mediana, a druga posiada warianty cechy nie mniejsze niż mediana. W przypadku kwartyla pierwszego (Q) ¼ jednostek odznacza się wariantami nie większymi niż Q a w przypadku kwanty la trzeciego Q3 ¾ jednostek odznacza się wariantami nie większymi niż Q3.

Dla szeregów wyliczających i rozdzielczych punktowych medianę wyznacza się wykorzystując następujący wzór:

Me gdy n jest nieparzyste: $\frac{x_{n} + 1}{2}$

Gdy n jest parzyste Me =$\frac{1}{2}$($\frac{x_{n}}{2}$+$\frac{x_{n}}{2 + 1}$)

Dla szeregów rozdzielczych punktowych przy określaniu jednostki środkowej i odpowiadającemu jej wariantu cechy przydatne jest skumulowanie liczebności.

W szeregu rozdzielczym przedziałowym wzory na kwartale są następujące:

Q1=xQ2+$\frac{\frac{n}{4} - n_{1}Q_{1} - 1}{nQ_{1}}$ hQ1


$$Q_{2} = Me = \ x_{02} + \frac{\frac{n}{2} - n_{1}Q_{2} - 1}{n_{1}Q_{2} - 1}\text{\ h}Q_{1}$$

Q3=xQ3+$\frac{\frac{3n}{4} - n_{1}Q_{3} - 1}{nQ_{3}}$ hQ3

Gdzie:

XQ1, xQ2, xQ3 dolna granica przedziału w którym znajduje się kwartyl pierwszy, drugi, trzeci

n/2, n/4, 3n/4 pozycja (jednostka na którą przypada) w szeregu kwartyl

nQ1, nQ2, nQ3 liczebność przedziału w którym znajduje się kwartyl pierwszy, drugi trzeci

nQ1-1, nQ2-1, nQ3-1 liczebność skumulowana przedziału poprzedzającego przedział w którym znajduje się pierwszy, drugi, trzeci kwartyl.

hQ1, hQ2, hQ3 rozpiętość przedziału, w którym znajduje się kwartyl pierwszy, drugi, trzeci.

Graficzne wyznaczanie kwartyli:

Dominanta (wartość najcięższa) jest to wartość cechy, która w danym rozkładzie występuje najczęściej. Dominantę wyznacza się tylko z rozkładów jednomodalnych.

W przypadku szeregów wyliczających i rozdzielczych punktowych dominanta jest wartością cechy której odpowiada największa liczebność.

W szeregu rozdzielczym przedziałowym dominantę przybliża się za pomocą wzoru:


$$D = x_{D} + \frac{n_{D} - n_{D - 1}}{\left( n_{D} - n_{D - 1} \right) + \left( n_{D} - n_{D + 1} \right)}h_{D}$$

Gdzie xD dolna granica przedziału w którym znajduje się dominanta

nD, nD − 1, nD + 1, liczebność przedziału dominanty, poprzedzającego oraz następnego po dominancie.

hD- rozpiętość przedziału dominanty

Graficzne znaczenie dominanty:

Nie zawsze racjonalne jest obliczanie średniej arytmetycznej i dominanty ze względu na brak wartości poznawczej tych miar w niektórych przypadkach.

Średniej arytmetycznej nie powinno się obliczać gdy:

Dominanty nie oblicza się gdy:

W tych przykładach jako miary przeciętne charakteryzujące szereg wykorzystuje się kwantyle.

W rozkładach umiarkowanie asymetrycznych pomiędzy trzema podstawowymi miarami przeciętnymi istnieje następujący związek :

Wzór Pearsona


$$\overset{\overline{}}{x} - D = 3\left( \overset{\overline{}}{x} - Me \right)$$

Znając dwa parametry na podstawie Pearsona można wyznaczyć w przybliżeniu, nieznany, trzeci parametr.

Miary rozproszenia wykorzystywane są do badania zróżnicowania jednostek zbiorowości pod względem analizowanych cech statystycznych. Podobnie jak w przypadku miar przeciętnych wyróżnia się miary klasyczne i pozycyjne. Przy obliczaniu klasycznym miar depresji punktem odniesienia jest średnia arytmetyczna, natomiast w przypadku miar pozycyjnych jest nim median

Klasyczne miary zmienności to wariancja, odchylenie standardowe, odchylenie przeciętne i współczynnik zmienności (obliczany na podstawie odchylenia standardowego i średniej arytmetycznej).

Pozycyjne miary zmienności to odchylenia ćwiartkowe i współczynnik zmienności (obliczany na podstawie odchylenia ćwiartkowego i mediany). Pozycyjne miary zmienności stosuje się do analizy zbiorowości przede wszystkim w sytuacjach, gdy nie powinno stosować się miar klasycznych do charakterystyki zbiorowości.

WARAINCJA jest podstawową miarą zmienności jest obliczana jako średnia arytmetyczna kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej według następujących wzorów:

$s^{2\ } = \ \frac{1}{n}\ \sum_{i = 1}^{n}{(x_{1\ }} - \ \overset{\overline{}}{x})\ {}^{2}$ ( kwadrat odnosi się do nawiasu)

$s^{2\ } = \ \frac{1}{n}\ \sum_{i = 1}^{k}{(x_{1\ }} - \ \overset{\overline{}}{x})\ {}^{2}\text{\ n}$

W przypadku wnioskowania statystycznego, szacując wariancję w populacji na podstawie wyników z próby estymator, którym jest wariancja nieobciążona ${\hat{s}}^{2}$. We wzorze ${\hat{s}}^{2}$ w mianowniku zamiast n występuje n-1.

Wariancja nie posiada interpretacji, dlatego wyznacza się jej pierwiastek, który określany jest mianem odchylenia standardowego.

S= $\sqrt{\mathbf{s}^{\mathbf{2}}}$

Odchylenie standardowe informuje o przeciętnym zróżnicowaniu poszczególnych wartości cechy od średniej arytmetycznej. Jest ono najpowszechniej stosowaną miarą zróżnicowaną w badaniach statystycznych.

W oparciu o średnią arytmetyczną i odchylenie standardowe konstruuje się typowy obszar zmienności badanej cechy w następujący sposób:

$\overset{\overline{}}{x}$- 5< xtyp<$\overset{\overline{}}{x}$+5

W przypadku rozkłady symetrycznych lub umiarkowanych asymetrycznych w obszarze tym mieści się około 2/3 jednostek badanej zbiorowości. Z kolei w przedziale dwóch sigm ($\overset{\overline{}}{x} - 2s\ $; $\overset{\overline{}}{x} + 2s$) znajduje się około 95% jednostek, natomiast w przedziale trzech sigm($\overset{\overline{}}{x} - \ 3s$; $\overset{\overline{}}{x} + 3s$) mieszczą się prawie wszystkie jednostki zbiorowości 97%.

Odchylenie przeciętne obliczane jako średnia arytmetyczna modułów i odchyleń wartości cechy od średniej arytmetycznej i informuje o przeciętnym odchyleniu poszczególnych wartości zmiennej od śr. Aryt.. Do jej wyznaczenia stosuje się następujące wzory:

- szereg wyliczający ( wszędzie na początku ma być małe d)

D= $\frac{1}{n}\sum_{i = 1}^{n}{|x_{\text{i\ \ \ \ \ }}} - \ \overset{\overline{}}{x}|$

- szereg rozdzielny punktowy

D= $\frac{1}{n}\sum_{i = 1}^{k}{|x_{i}} - \ \overset{\overline{}}{x}|n_{i}$

- szereg rozdzielczy przedziałowy

D= $\frac{1}{n}\sum_{i = 1}^{k}{|{\overset{\overline{}}{\hat{x}}}_{\text{i\ \ \ \ \ }}} - \ \overset{\overline{}}{x}|n_{i}$

Odchylenie ćwiartkowe mierzy odchylenie wartości cechy od mediany i oblicza się go na podstawie pierwszego i trzeciego kwartyla:

Q =$\frac{Q_{3}\ - \ Q_{1}}{2}$

Odchylenie ćwiartkowe bada tylko części jednostek zbiorowości pozostałych po odrzuceniu 25% najmniejszych i 25% największych jednostek. Z uwagi na to, że odchylenie ćwiartkowe uwzględnia tylko połowę jednostek badanej zbiorowości która jest najmniej zróżnicowana, przyjmuje ona mniejsze wartości niż odchylenie standardowe

Typowy obszar zmienności wyznacza się w oparciu o medianę i odchylenie ćwiartkowe.

Me-Q < xtyp< Me +Q

I mieści się w nim połowa badanej zbiorowości.

Pomiędzy odchyleniami ćwiartkowymi, przeciętnymi i standardowymi dla zbiorowości zachodzi następująca relacja:

Q<d<s

Współczynnik zmienności jest ilorazem bezwzględnej miary zróżnicowania badanej cechy do odpowiedniej miary położenia. W zależności od zastosowanej miary dyspersji do obliczeń należy wziąć pod uwagę tą miarę średnią, od której wyznacza ona zróżnicowanie. Wartość współczynnika zmienności podawana jest najczęściej w procentach.

Wzory na obliczenie zmienności:

- klasyczne

a) Vs= $\frac{s}{x}$ * 100%

b) Vd= $\frac{d}{x}$ * 100%

- pozycyjne

a) VQ = $\frac{Q}{\text{Me}}$ * 100%

b) VQ1Q3= $\frac{Q_{3\ \ - \ Q_{1}}}{Q_{3} + Q_{1}}$ * 100%

Współczynnik zmienności jest miarą względną, dlatego też po przyjęciu z góry kryteriów można na jego podstawie ocenić stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy. Współczynnik zmienności stosuje się do porównywania zmienności kilku zbiorowości pod względem tej samej cechy lub tej samej zbiorowości pod względem różnych cech.

Miary asymetrii

Miary asymetrii badają rozkład jednostek zbiorowości pod względem wartości cechy w stosunku do wielkości przeciętnych. Pozwalają odpowiedzieć na pytanie czy przeważająca liczba jednostek znajduje się powyżej czy poniżej przeciętnego poziomu badanej cechy.

Asymetrię rozkładu najłatwiej ocenić porównując wartości podstawowych miar przeciętnych dominanty, mediany i średniej arytmetycznej.

W szeregach symetrycznych wszystkie średnie są sobie równe co przedstawia równość

$\overset{\overline{}}{x}$ = Me = D

W szeregu asymetrycznym powyższe miary średnie różnią się i przedstawiają się następująco:

- lewostronnie asymetryczny: $\overset{\overline{}}{x} < Me < D$

- Prawostronnie asymetryczny: $\overset{\overline{}}{x} > Me > D$

Miary asymetrii

Wskaźnik asymetrii jest najprostszą miarą asymetrii i oblicza się zgodnie ze wzorem:

W3= $\overset{\overline{}}{x}$ - D

Wskaźnik skośności wskazuje jedynie kierunek asymetrii nie określając jej siły, gdyż jest on wielkością nieunormowaną. W przypadku rozkładów symetrycznych Ws = O ($\overset{\overline{}}{x}$ =D) lewostronnie asymetrycznych W3<O ($\overset{\overline{}}{x}$ <D) prawostronnie asymetrycznych W3>O( $\overset{\overline{}}{x}$ >D).

Stosując miary pozycyjne wskaźnik asymetrii przybiera postać W2= (Q3- Me) – (Me- Q1)

Współczynnik asymetrii służy do określenia kierunku i siły asymetrii. Umożliwia porównanie asymetrii różnych rozkładów. W zależności od stosowanych miar współczynnik asymetrii można obliczyć z następujących wzorów.:

As= $\frac{\overset{\overline{}}{\text{x\ }} - \ D}{s}$ Ad= $\frac{\overset{\overline{}}{\text{x\ }} - \ D}{d}$

AQ= $\frac{\left( Q3 - Me \right) - \ (Me - Q1)}{\left( Q3 - Me \right) + \ (Me - Q3)}\text{\ \ }$= $\frac{Q3 + Q1 - 2Me}{2Q}$

W przypadku dwóch pierwszych współczynników asymetrii informują jaką część odchylenia standardowego lub przeciętnego stanowi różnica pomiędzy średnią arytmetyczną a dominantą. Pozycyjny współczynnik asymetrii określa kierunek i siłę asymetrii dla jednostek z ograniczonego przedziału ( bez 25% o najmniejszych i 25 % największych wariantach cechy) i jest stosowany przede wszystkim gdy nie może wyznaczyć średniej arytmetycznej lub dominanty.

Wartość współczynnika asymetrii najczęściej zawiera się w przedziale:

-1 As ≤1

Jedynie w przypadku bardzo silnej asymetrii wartości współczynnik wykracza poza Teb przedział. Większa wartość bez względu współczynnik asymetrii oraz silniejszą asymetrię rozkłady.


Wyszukiwarka

Podobne podstrony:
W 27.02.2013, STUDIA PEDAGOGIKA opiekuńczo-wychowawcza z terapią pedagogiczną - własne, licencjat,
Cwiczenie 1 Zakres obliczeń modelowych 27.02.2013, Polibuda, OŚ, Semestr VI, Gospodarka odpadami
27 02
W 2 27 02 13 zdrowia
(2462) stat mat 02, zootechnika, statystykka
W-3 27.02.2008, studia, Kardiologia
Ergonomia dr Paszkowski 27[1].02.2010, Pedagogika
Lab fiz 09, Piotr Mazur Rzesz˙w 27.02.1996
27 02
szablon opisu projektu 27-02-2012, 6 new BDiA
27 02 2013 1
CWICZENIA, Ćwiczenia 2 - 27.02.05, 25
analiza sitowa 27 02 09b
27 02 2010 wyk? 1
27 02 2010r
Obama ogłosił termin wycofania żołnierzy z Iraku (27 02 2009)
Organizacja pracy W1 27-02-2011, CHARAKTERYSTYKA ZAWODU DIETETYKA

więcej podobnych podstron