statystyka opisowa teoria


Statystyka to nauka o ilościowych metodach badania zjawisk (procesów) masowych.
Spełnia ona trzy podstawowe funkcje:
1
" Informacyjną  pełny i obiektywny obraz badanych zjawisk.
" Analityczną  możliwe jest określenie czynników kształtujących procesy i zjawiska.
" Prognostyczną  pozwala na przewidywanie poziomu i struktury zjawisk w przyszłości.
Zastosowanie metod statystycznych do badania zjawisk masowych (występujących w dużej liczbie
przypadków) pozwala na wykrycie prawidłowości statystycznych. Prawidłowości te są wypadkową
oddziaływań na zbiorowości przyczyn
" głównych  oddziałujących systematycznie,
" ubocznych  przypadkowych.
Badanie statystyczne  ogół prac mających na celu poznanie struktury określonej zbiorowości statystycznej.
Zbiorowość (populacja) statystyczna  zbiór dowolnych elementów (osób, przedmiotów, faktów)
podobnych pod względem określonych cech (ale nie identycznych) poddanych badaniu statystycznemu.
Populacja skończona  populacja o skończonej liczbie jednostek np. populacja studentów określonej uczelni
Populacja otwarta  nieograniczona określoną liczbą np. populacja ludzi pijących kawę
Jednostka statystyczna  składowe (elementy) zbiorowości, które podlegają bezpośredniej obserwacji lub
pomiarowi.
Obserwacje statystyczne  proces zbierania informacji (danych) statystycznych.
Zbiór danych zgromadzonych w wyniku obserwacji tworzy materiał statystyczny.
Zbiorowość generalna - wszystkie elementy będące przedmiotem badania, co do których chcemy
formułować wnioski
Próba - podzbiór populacji generalnej, obejmujący część jej elementów (wybranych w określony sposób)
Rodzaje badań statystycznych:
" Pełne (całkowite, wyczerpujące)  obejmują wszystkie jednostki zbiorowości (spis powszechny, rejestr
populacyjny)
o duża dokładność pomiaru
o wysokie koszty przeprowadzenia
o niemożliwe w przypadku populacji nieskończonej
" Częściowe (niekompletne)  obejmujące niektóre jednostki zbiorowości tzw. próbę (badania ankietowe
na części populacji)
o niższe koszty przeprowadzenia badania
o możliwe zarówno w populacji skończonej jak i nieskończonej
o wyniki mogą nie odzwierciedlać populacji (większe ryzyko błędów)
Strategie badawcze:
" strategia badań wyczerpujących (prostych) badamy wszystkich, próba jest jednocześnie populacją.
Otrzymane wnioski są 100% pewne, ponieważ zbadaliśmy całą populację. Opracowanie statystyczne
kończymy na opisie danych.
" strategia badań reprezentatywnych w określonej populacji losujemy próbę. Badanie przeprowadzamy na
próbie, dokonujemy jej opisu a następnie za pomocą odpowiednio dobranego testu ustalamy
prawdopodobieństwo, z jakim uzyskane dane można odnieść do całej populacji. Wyniki zawsze są
prawdopodobne nigdy 100% pewne.
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria
Badania pełne i częściowe mogą być:
" ciągłe (np. rejestracja urodzeń, zgonów, małżeństw, itp.)
2
" okresowe (np. spisy ludności, rolne, przemysłu)
" dorazne (np. spisy klęsk żywiołowych)
Błędy w badaniach statystycznych:
" błędy losowe - związane z procedurą losowania próby do badania, struktura próby może nie
odzwierciedlać badanej populacji
" błędy nielosowe - związane z pomiarem cech oraz z przetwarzaniem danych
Dane:
" pierwotne  zródłowe, indywidualne, uzyskane drogą bezpośredniej obserwacji (ankieta, wywiad,
eksperyment),
" wtórne  pogrupowane, przetworzone dane pierwotne
Schematy losowania próby:
" losowanie proste - każda jednostka z populacji ma takie samo prawdopodobieństwo znalezienie się w
próbie
" losowanie warstwowe - polega na tym, że najpierw dzielimy zbiorowość statystyczną na jakościowo
różniące się części, a następnie losujemy z każdej warstwy jednostki zbiorowości do próby
" losowanie systematyczne - dobór z listy obejmującej wszystkie elementy danej zbiorowości co n-tej (np.
co pięćdziesiątej) jednostki losowania
Cecha statystyczna  podlegająca badaniu właściwość jednostki statystycznej.
Cechę oznaczamy dużą literą (np. X, Y, Z, ...).
Wartość cechy  dla konkretnej jednostki (np. jednostki o numerze i) oznaczamy literami ( ).
Niemierzalne
Quasi - ilościowe
Cechy statystyczne
Mierzalne skokowe
ciągłe
Cechy jakościowe (niemierzalne) - można tylko określić słownie (płeć, kolor włosów); nie można
jednoznacznie scharakteryzować za pomocą liczb (czyli nie można zmierzyć
Cechy ilościowe (mierzalne) - można wyrazić za pomocą liczb o różnych mianach (cm, lata, euro). Cechami
mierzalnymi są na przykład: wzrost (w cm), waga (w kg), wiek (w latach)
Cecha quasi  ilościowa (porządkowa) określa natężenie badanej właściwości w sposób opisowy,
porządkujemy w ten sposób badaną zbiorowość. Cechy takie umożliwiają porządkowanie (lub uszeregowanie)
wszystkich elementów zbioru wyników. Cechy takie najlepiej określa się przymiotnikami i ich stopniowaniem.
Każdemu ze stanów można również przypisać liczbę według wzrostu natężenia. Proces ten nazywa się
rangowaniem. Na przykład, badając wzrost osoby, możemy użyć określeń: "niski", "średni" lub "wysoki".
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria
Cecha skokowa może być wyrażona wyłącznie liczbami zmieniającymi się skokowo, bez wartości
pośrednich.
3
Cecha ciągła może przyjmować każdą wartość z określonego przedziału liczbowego (wzrost, wiek, waga).
Podstawowymi formami prezentacji danych statystycznych w analizie struktury są szeregi szczegółowe i
szeregi rozdzielne. Szeregi szczegółowe wykorzystujemy wówczas, gdy badanie dotyczy małych zbiorowości
statystycznych (kilka, kilkanaście jednostek). Natomiast wraz ze wzrostem liczby jednostek zbiorowości
wskazane jest prezentowanie materiału statystycznego w postaci szeregów rozdzielnych.
Zebrany materiał (duża liczba danych indywidualnych) przedstawiamy najczęściej w postaci szeregu
rozdzielczego. Szereg taki otrzymujemy, gdy zbiór danych podzielimy na klasy według określonej cechy
(jakościowej lub ilościowej) i podamy liczebność każdej z tych klas. W szeregach takich modalna to wartość
cechy, która znajduje się w klasie o największej liczebności.
Szereg statystyczny  materiał statystyczny uporządkowany lub uporządkowany i pogrupowany według
określonych kryteriów (przyjętych wariantów cechy).
Szczegółowy
Szereg statystyczny
Punktowy
Rozdzielczy
Przedziałowy
Szereg szczegółowy  materiał uporządkowany według badanej cechy. Porządkowanie polega na ustawieniu
wartości według kolejności rosnącej lub malejącej.
" RosnÄ…co:
" MalejÄ…co: .
Szereg rozdzielczy punktowy
Częstość
Liczebność
Częstość względna
Wartości cechy Liczebności
skumulowana
skumulowana
Razem
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria
Szereg rozdzielczy z przedziałami klasowymi
4
Częstość
Wartości cechy
Liczebność
Częstość względna
Liczebności
skumulowana
skumulowana
Razem
" ustalenie liczby klas:
n k
40  60 6  8
60  100 7  10
100  200 9  12
200 - 500 11 - 17
" ustalenie rozpiętości przedziałów klasowych
" ustalenie granic poszczególnych klasowych
WYKRESY
historgam wielobok liczebności
krzywa liczebności krzywa liczebności skumulowanych
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria
Rozkładem empirycznym badanej cechy nazywamy przyporządkowanie kolejnym wartościom cechy,
odpowiadających im liczebności. Szereg rozdzielczy dla cechy ilościowej to właśnie tabelaryczna forma
5
przedstawienia rozkładu empirycznego badanej cechy zbiorowości statystycznej
Rodzaje rozkładu empirycznego
(ze względu na liczbę punktów ekstremalnych)
" jednomodalny (jedna wartość dominująca)
" wielomodalny (kilka wartości dominujących)
(ze względu na rodzaj zmienności)
" symetryczne (mają oś symetrii, a po obu jej stronach rozkład ilości jest taki sam)
normalny wysmukły spłaszczony
" antysymetryczne (nie mają osi symetrii); dzielimy je na rozkłady o asymetrii lewostronnej i
prawostronnej (przy czym każda z nich może być skrajna i umiarkowana)
asymetria prawostronna asymetria lewostronna
" równomierne i u  kształtne
Opis statystyczny to obliczenie pewnych charakterystyk liczbowych (zwanych parametrami) badanych
cech. Stanowi on punkt wyjścia do wnioskowania w przypadku badania grupy losowej. Przeprowadzenie
badania na skończonej zbiorowości generalnej eliminuje konieczność użycia metod wnioskowania
statystycznego, czyli uogólniania wyników z grupy na całą populację.
W przypadku badania pełnego mówimy o parametrach populacji, natomiast w przypadku badania
częściowego - o parametrach próby (statystykach).
Parametry tak charakteryzują zbiorowość, że porównywanie różnych zbiorowości statystycznych można
sprowadzić do porównań tych parametrów. Podstawowe zadania parametrów opisowych to:
" określenie przeciętnej wielkości i rozmieszczenia wartości zmiennej - dokonujemy tego przez obliczenie
miar położenia;
" określenie granic obszaru zmienności wartości zmiennej - dokonujemy tego przez obliczenie miar
zmienności;
" określenie skupienia i spłaszczenia (w stosunku do kształtu krzywej normalnej) oraz stopnia zmiany od
idealnej symetrii  dokonuje siÄ™ tego przez obliczenie miar asymetrii i koncentracji.
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria
Parametry opisowe
klasyczne
6
· sÄ… wypadkowÄ… wartoÅ›ci przyjmowanych przez wszystkie jednostki badanej zbiorowoÅ›ci statystycznej.
· przy ich obliczaniu nie jest konieczne porzÄ…dkowanie jednostek.
pozycyjne
· sÄ… wyznaczone na podstawie wartoÅ›ci jednej lub kilku jednostek zajmujÄ…cych szczególnÄ… pozycjÄ™
badanej zbiorowości statystycznej.
· przy ich obliczaniu konieczne jest uporzÄ…dkowanie jednostek wartoÅ›ci badanej cechy.
· gdy nie można policzyć miar klasycznych.
Parametr statystyczny (miara, charakterystyka)  liczbowy sumaryczny opis rozkładu cechy w zbiorowości
statystycznej; liczba, która w sposób syntetyczny określa właściwości badanych zbiorowości statystycznych.
Parametry opisowe umożliwiają:
" sumaryczny opis rozkładu cechy w zbiorowości statystycznej
" porównanie dwóch lub więcej zbiorowości pod względem rozkładu tej samej cechy
" porównanie rozkładów dwóch lub więcej cech w ramach jednej zbiorowości
Parametry można podzielić na:
" absolutne - miary mianowane, wyrażone w takich jednostkach, w jakich ujęta jest badana cecha
" względne (stosunkowe)  niemianowane, najczęściej wyrażone w procentach
Miary położenia
Miary zróżnicowania
PARAMETRY OPISOWE Miary asymetrii
Miary spłaszczenia
Miary koncentracji
Miary tendencji centralnej (miary położenia, przeciętnego poziomu)
" charakteryzują poziom wartości badanej cechy w zbiorowości statystycznej.
" ocena położenia polega na określeniu, w którym miejscu liczb rzeczywistych położone są wartości cechy
" wskazują miejsce wartości najlepiej reprezentujące wszystkie wielkości zmiennej
" określają przeciętny poziom rozważonej cechy
" sÄ… to miary absolutne
Åšrednia Kwartyle
arytmetyczna
Decyle
Miary położenia Moda
Percentyle
Kwantyle
Rozstęp - tzw. empiryczny obszar zmienności, jest różnicą między największą i najmniejszą wartością cechy
w badanej zbiorowości. Jest to miara bardzo prosta, mająca zarazem najmniejszą wartość poznawczą, gdyż nie
daje informacji o zróżnicowaniu poszczególnych wartości cechy w zbiorowości.
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria
Wskazniki struktury w (częstość, frakcja)  określa udział jednostek danego wariantu c o danej wartości
i
cechy w całej zbiorowości
7
n
i
=
w
i
n
Może być wyrażony w postaci ułamka, procentu lub promila.
Wskaznik podobieństwa struktur  najprostsza miara statystyczna pozwalająca ocenić podobieństwo
kształtowania się tej samej struktury dwóch różnych zbiorowości.
Im wskaznik wp bliższy jest jedności, tym bardziej podobne do siebie są rozkłady cech w tych
zbiorowościach.
k
wp = , w2i}
"min{w1i
i=1
Średnia  informuje jaka byłaby wartość cechy, gdyby wszystkie jednostki badanej zbiorowości byłyby
jednakowe.
Warunki stosowania:
" konieczna jest znajomość wszystkich wartości badanej cechy
" zbiorowość powinna być jednorodna z punktu widzenia badanej cechy (czyli rozkład powinien się
charakteryzować niewielkim zróżnicowanie i słabą asymetrią)
Właściwości średniej arytmetycznej
" suma wartości cechy jest równa iloczynowi średniej arytmetycznej liczebności próby
n k
nx = xi nx = ni
" "xi
i=1 i=1
" nie może być mniejsza od najmniejszej wartości cechy, ani też większa od największej jej wartości
xmin d" x d" xmax
" suma odchyleń poszczególnych wartości cechy od średniej jest równa zero
k n
- x)ni = 0 - x)= 0
"(xi "(xi
i=1 i=1
" jest czuła na skrajne wartości cechy.
Średnia dla szeregów z otwartymi przedziałami klasowymi:
przy otwartych przedziałach klasowych można obliczyć średnią gdy są podstawy do domknięcia
otwartych przedziałów klasowych, czyli liczebność w tych przedziałach jest nie większa niż 5% ogólnej
liczebności badanej zbiorowości
gdy nie ma przesłanek do domknięcia przedziałów klasowych, ale liczebność w tych przedziałach jest nie
większa niż 1% ogólnej liczebności zbiorowości, można te przedziały pominąć
Średnia ze średnich (średnia grupowa)  jeżeli znane są średnie arytmetyczne dla pewnych grup, a trzeba
obliczyć średnią arytmetyczną dla wszystkich grup łącznie.
k
i
"x ni
i=1
x =
N
Wartość modalna (dominanta, moda, wartość najczęstsza)  najczęściej powtarzająca się wartość cechy, o ile
istnieje, nie będąca x ani też x
min max
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria
" w szeregach wyliczających i rozdzielczych punktowych dominanta jest wartością cechy, której odpowiada
największa liczebność
8
" dla danych pogrupowanych moda, to środek najliczniejszej klasy z wyjątkiem klas skrajnych
" jeżeli w szeregu rozdzielczym najliczniejszymi są obie klasy skrajne, to szereg rozdzielczy nazywamy
antymodalnym typu U, środek najmniej licznej klasy antymodą, gdy najliczniejsza jest jedna z klas
skrajnych, wtedy szereg rozdzielczy nazywamy antymodalnym typu J.
" gdy istnieje więcej niż jedna wartość modalna, to rozkład cechy nazywamy rozkładem wielomodalnym.
U - kształtny
J - kształtny
antymoda
Warunki stosowania dominanty
" jednakowa rozpiętość przedziałów klasowych
" wyznaczamy i sensownie interpretujemy tylko wtedy, gdy dane sÄ… pogrupowane w szereg rozdzielczy
(punktowy lub przedziałowy)
" liczebność populacji powinna być dostatecznie duża
" asymetria rozkładu jest umiarkowana;
" dla danych pogrupowanych w szereg rozdzielczy przedziałowy wartość modalna nie występuje na
skrajnych przedziałach (pierwszym lub ostatnim)  przypadek skrajnej asymetrii  nie da się analitycznie
wyznaczyć wartości modalnej.
Kwantyle  wartości cechy badanej zbiorowości, które dzielą ją na określone części  pod względem liczby
jednostek. Do najczęściej stosowanych kwantyli należą:
" kwartale  podział zbiorowości na 4 części
" decyle  podział zbiorowości na 10 części
" centyle (percentyle)  podział zbiorowości na 100 części
Mediana (Me, Q ) to wartość jednostki statystycznej położonej w zbiorowości w ten sposób, że liczba
2
jednostek mających wartość niemniejszą od mediany równa jest liczbie jednostek mających wartość niewiększą
od mediany.
" nie zależy ona od wartości krańcowych (odstających)
" można ją wyznaczyć gdy wszystkie liczebności nie są dokładnie znane, wystarczy znać liczebność
zbiorowości i jednostkę środkową.
" medianę można policzyć wtedy, gdy nie można obliczyć średniej arytmetycznej.
" przydatna przy danych jakościowych
Kwartyl pierwszy (Q ) - wartość jednostki, która dzieli zbiorowość uporządkowaną na dwie części w ten
1
sposób, że 25%jednostek ma wartości cechy niższe bądz jej równe i 75%wyższe od niej.
Kwartyl drugi (Q ) - & 50%,& .50%
2
Kwartyl trzeci (Q ) - & 75%,& .25%
3
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria
Rozstęp kwartylowy (odchylenie ćwiartkowe)  różnica pomiędzy kwartylem trzecim i pierwszym.
Określa  długość tej części przedziału zmienności cechy, w której znajduje się 50% środkowych obserwacji.
9
Odstęp
Rozstęp
Miary zmienności (zróżnicowania, rozproszenia, dyspersji) pozwalają określić jakie jest zróżnicowanie
wartości cechy w badanej zbiorowości statystycznej.
" miary absolutne  odpowiadają na pytanie, o ile średnio różnią się wartości cechy przyjmowane przez
poszczególne jednostki zbiorowości od swej wartości przeciętnej.
" miary stosunkowe  odpowiadają na pytanie, jak wielkie są te różnice w stosunku do wartości
przeciętnej.
Przykłady miar zmienności:
Wariancja  to średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej
arytmetycznej całej zbiorowości.
Uwaga. Wariancja obliczona na podstawie szeregów rozdzielczych przedziałowych jest wielkością zawyżoną.
Powoduje to fakt, że do obliczeń wykorzystuje się środki przedziałów klasowych, a nie średnie arytmetyczne z
poszczególnych klas.
Odchylenie standardowe  określa, o ile średnio poszczególne wartości cechy różnią się od średniej
arytmetycznej badanej zmiennej. Im zbiorowość jest bardziej zróżnicowana (większe rozproszenie wyników
pomiarów cechy), tym wyższa jest wartość odchylenia standardowego.
s = s2
Odchylenie ćwiartkowe (Q) - określa, o ile średnio różnią się wartości cechy od mediany.
Mierzy poziom zróżnicowania w tzw. zawężonym obszarze zmienności, czyli dla 50% jednostek, których
wartości znajdują się pomiędzy wartością kwartyla pierwszego i kwartyla trzeciego. Odrzucane są jednostki o
wartościach badanej cechy poniżej pierwszego kwartyla 25% oraz powyżej trzeciego kwartyla 75%.
Stosujemy, gdy:
" nie można policzyć średniej arytmetycznej -np, gdy rozkład badanej cechy jest skrajnie asymetryczny lub
nie znamy wszystkich wartości badanej cechy
" można policzyć średnią arytmetyczną a Q jako dodatkową, uzupełniającą miarą
Współczynnik zmienności
Odchylenie standardowe służy do określenia absolutnej wielkości zróżnicowania wyników obserwacji i jest
wielkością mianowaną. Stwarza to trudności przy porównywaniu zmienności w dwu lub kilku grupach danych.
Dlatego wprowadzono nową miarę, zwaną współczynnikiem zmienności - jest to stosunek odchylenia
standardowego do średniej arytmetycznej.
Duże wartości liczbowe świadczą o niejednorodności zbiorowości.
0  0,3  słabe zróżnicowanie
0,3  0,6  umiarkowane zróżnicowanie
0,6  1  silne zróżnicowanie  zbiorowość niejdenorodna
Klasyczny typowy obszar zmienności  zawiera wartości jednostek z przedziału x - S; x + S
Tu już uwzględniony jest cały obszar zróżnicowania, a nie jak w Q tylko część!
Nie wyznaczamy gdy jest duża asymetria!
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria
Jeżeli rozkład jest symetryczny to 68% (około 2/3) jednostek ma wartości z tego przedziału.
Określa się też jeszcze inne obszary:
10
-2S(x) < x < +2S(x)  95% jednostek
-3S(x) < x < +3S(x)  99,7% jednostek
Pomiędzy odchyleniami zachodzi relacja: S(x) > Q
Miary symetrii  pozwalają zbadać, czy wartości badanej cechy są rozłożone równomiernie w stosunku do
średniej, czy też mają tendencję do skupiania się przy dolnej bądz górnej granicy przedziału zmienności cechy.
Współczynnik asymetrii - służy do określania kierunku i siły asymetrii; najczęściej przyjmuje wartości z
przedziału (-2;2)
O kierunku asymetrii decyduje znak współczynnika asymetrii:
A<0  asymetria lewostronna, czyli wartości cechy mają tendencję do skupiania się przy górnej granicy
przedziałów obszaru zmienności. (rozkład ma dłuższy lewy "ogon")
A>0  asymetria prawostronna, czyli wartości cechy mają tendencję do skupienia są przy dolnej granicy
przedziałów obszaru zmienności (rozkład ma dłuższy prawy "ogon")
A=0  rozkład symetryczny
Współczynnik asymetrii zazwyczaj przyjmuje wartości: z przedziału (-2;2), ale w przypadkach bardzo silnej
asymetrii może przekraczać |2|
A Asymetria
0 brak
0,01-0,20 nikła
0,20-0,80 słaba
0,81-1,20 umiarkowana
1,21-1,80 dość silna
1,81-2,00 bardzo silna
>2 ekstremalna
Określenie kierunku asymetrii:
x > Me > D
x < Me < D x = Me = D
x = Me = D - rozkład symetryczny
x > Me > D - rozkład o asymetrii prawostronnej
x < Me < D - rozkład o asymetrii lewostronnej
Kurtoza  miara koncentracji służąca do badania stopnia nierównomierności rozkładu ogólnej sumy wartości
zmiennej pomiędzy poszczególne jednostki zbiorowości; opisuje koncentrację wartości cechy wokół średniej;
należy ją stosować dla rozkładów o co najwyżej umiarkowanej asymetrii
K=3  rozkład normalny
K>3  rozkład badanej cechy jest wyższy i smuklejszy od rozkładu normalnego
K<3  odwrotnie, niższy i rozłożysty
Im większa wartość K, tym większa koncentracja (diagram wyższy i smuklejszy).
dr Ryszard Motyka
Prowadzący zajęcia
Statystyka opisowa - teoria


Wyszukiwarka

Podobne podstrony:
1 wprowadzenie do statystyki statystyka opisowa
2 Statystyka opisowa S
Statystyka matematyczna i teoria estymacji
Statystyka opisowa
Statystyki opisowe
Statystyka opisowa rozwiÄ…zane kolowkia
Statystyka opisowa
4 Statystyka opisowa i rozkład normalny
Statystyka opisowa
STATYSTYKA OPISOWA
Statystyka opisowa i ekonomiczna Wykład 1
statystyka opisowa 11

więcej podobnych podstron