wyklad 1 wprowadzenie statystyki oisowe


Statystyka
Katarzyna Chudy  Laskowska
http://kc.sd.prz.edu.pl/
1. ORGANIZACJA ZAJĆ
15 h  WYKAADÓW 15 h  LABORATORIÓW
Program komputerowy: Statistica PL 8.1
(wydział posiada licencję, która uprawnia studentów do korzystania
z programu na komputerach domowych)
Warunki zaliczenia przedmiotu:
1. Obecność na zajęciach (dotyczy laboratoriów i wykładów)
2. Laboratoria (dotyczą umiejętności praktycznych wykonywanie zadań i
ich interpretacja) kończą się zaliczeniem przy komputerze (zaliczenie
sprawdza umiejętność interpretacji zagadnień statystycznych).
Zaliczenie laboratoriów jest warunkiem dopuszczającym do egzaminu
2. Uzyskanie pozytywnej oceny z egzaminu (egzamin w formie pisemnej
sprawdza umiejętność rachowania podstawowych zagadnień
statystycznych oraz interpretację.
2
2. WPROWADZENIE W TEMATYK ZAJĆ
1. Krótki rys historyczny.
2. Podstawowe pojęcia.
3. Statystyki opisowe .
(miary położenia, zmienności, asymetrii i koncentracji)
4. Badanie zależności pomiędzy cechami statystycznymi .
(korelacja, test chi kwadrat niezależności Pearsona, test ANOVA)
5. Weryfikacja hipotez statystycznych
(parametrycznych i nieparametrycznych).
6. Rozkłady zmiennych (ciągłe i dyskretne), prawdopodobieństwo,
elementy kombinatoryki.
3. LITERATURA
Podstawowe podręczniki:
1. Ostasiewicz S., Rusnak Z., Siedlecka U. Statystyka elementy teorii i
zadania, AE Wrocław 1999
2. Sobczyk M., Statystyka Wydawnictwo PWN, Warszawa 1998
3. Szwed R. Metody statystyczne w badaniach społecznych, Wydawnictwo
KUL, Lublin 2009
Literatura uzupełniająca
1. Aczel D.A., Statystyka w zarządzaniu, PWN, Warszawa 2000.
2. Koronacki J., Mielniczuk J., Statystyka dla studentów kierunków
technicznych i przyrodniczych, Wydawnictwo Naukowo-Techniczne,
Warszawa 2000.
3. Stanisz A., Przystępny kurs statystyki z wykorzystaniem pakietu
Statistica PL na przykładzie danych z medycyny. Tom I i II. StatSoft
Polska, Kraków 2000.
4. Zając K. Zarys metod statystycznych ,PWE, Warszawa, 1982
5. Luszniewicz A., Słaby T. Statystyka stosowana, PWE, Warszawa, 1997
4. Trochę historii& .
Statystyka
status (łac. państwo) stato (wł. państwo)
SZTUKA NAUKA
ARYTMETYKA
NAUKI O
2000 lat b.c.
POLITYCZNA
PACSTWIE
spisy ludności i zasobów
państw w Egipcie i Chinach
zajmowały się gromadzeniem rozumowanie na podstawie liczb
danych liczbowych i opisem umożliwiające wykrycie
600 lat b.c.
stanu państwa na podstawie prawidłowości wśród pozornie
spisy ludności w Cesarstwie
tych danych chaotycznych zjawiskach masowych
Rzymskim
XVI wiek - Włochy G. Botero XVII wiek  Anglia J. Graunt
XVII wiek -Niemcy H. Conrig W. Petty
300 lat b.c.
G. Achenwall
spisy w Indiach, Grecji,
1662
Babilonii, Persji,
tabelaryczne zestawienia statystyka  dyscyplina naukowa
początkowo charakter
XVII/XVIII Rosja K. Kigiłow ukazała się praca Graunta o
słowny
śmiertelności
pózniej bardziej formalny
XIX w. (1834)
średniowiecze
włączona jako sekcja do
spisy gospodarcze majątków
Brytyjskiego Towarzystwa Postępu
feudalnych i kościelnych
Nauki
5. PODZIAA
Statystyka
współczesna
podstawą statystyki współczesnej jest teoria rachunku
prawdopodobieństwa, która wyjaśnia, w jakich warunkach
ujawniają się prawidłowości w zjawiskach masowych.
Prace arytmetyków politycznych oraz matematyków,
rozwijających rachunek prawdopodobieństwa doprowadziły
do powstania nowego działu statystyki,
jakim jest statystyka matematyczna.
Statystyka opisowa Wnioskowanie statystyczne
zajmuje się gromadzeniem,
pozwala określić prawidłowości i
opracowaniem i prezentacją
scharakteryzować populację generalną za
danych o obserwowanej
pomocą zredukowanej liczby danych
zbiorowości, opisuje zbiorowość
(próby), przy zastosowaniu rachunku
przy wykorzystaniu narzędzi
prawdopodobieństwa.
statystycznych
6. PODSTAWOWE POJCIA
Statystyka to zbiór metod służących
pozyskiwaniu, prezentacji i analizie danych
 Statystyka jest bardziej sposobem myślenia lub
wnioskowania niż pęczkiem recept na młócenie
danych w celu odsłonięcia odpowiedzi . Trzeba ją
traktować jako
 naukę, technikę i sztukę
RAO C.R.,  Statystyka i prawda , PWN, Warszawa 1994 s.64
6. PODSTAWOWE POJCIA, POPULACJA STATYSTYCZNA I PRÓBNA
Realizując badania statystyczne należy zapoznać się z
podstawowymi pojęciami jakie wykorzystywane są na etapie
projektowania badań i doboru metod ich analizy.
Zbiorowość statystyczna (populacja statystyczna) 
jest przedmiotem badania statystycznego,
to zbiór wszystkich elementów NIEIDENTYCZNYCH
(jednostek), które podlegają badaniu z punktu widzenia różnych
kryteriów badawczych (przedsiębiorcy z wybranego
województwa, studenci np. uczelni medycznych, kierowcy autobusów itp.)
Z reguły jest ona dla nas niedostępna w całości do badań
Próba (populacja próbna) stanowić ją może grupa
lub podzbiór jednostek lub elementów całej populacji
(zbiorowości generalnej), który podlega bezpośrednio badaniu
ze względu na rozpatrywaną cechę, co pozwala na
wyciągnięcie wniosków o kształtowaniu się badanej cechy
w populacji generalnej.
6. PODSTAWOWE POJCIA  CECHY STATYSTYCZNE
Cechami statystycznymi nazywamy własności charakteryzujące
każdą jednostkę statystyczną. Podstawowy podział cech
statystycznych wskazuje na możliwość ich opisu. Dzielimy je na
ilościowe (mierzalne) i jakościowe (niemierzalne).
Cechy
statystyczne
Mierzalne
Niemierzalne
(ilościowe)
(jakościowe)
ciągłe i skokowe
interwałowa lub ilorazowa nominalna lub porządkowa
warianty tych cech mogą przyjmować
warianty tych cech mogą przyjmować
tylko postać opisu słownego,
postać ciągłą lub skokową. Realizacje
sprowadzonego jedynie do postaci
cech ciągłych wyrażane są przez dowolne
mierzalnej poprzez zastosowanie
liczby (całkowite lub ułamkowe, np.
umownych skal numerycznych (także
metry, gramy, sztuki) podczas gdy
postać zero-jedynkowa). Można jedynie
realizacje cech skokowych są wyrażane
stwierdzić, który z wariantów cechy
na ogół przez liczby całkowite
występuje u danej jednostki.
6. HISTOGRAMY
Rysunek 1 Przykłady cech ilościowych: ilość czasu spędzanego w komunikacji publicznej oraz ocena punktualności odjazdu autobusów MPK
18%
37%
40%
15%
16% 34%
14%
35%
13%
14%
30%
11%
12%
10% 10%
25%
10%
20%
20%
8%
5%
15%
6%
4% 4% 9%
10%
4%
2% 2% 3%
1% 1%
2% 1% 1% 5%
0% 0% 0% 0% 0% 0%
0%
0%
ndst dst db bdb
ilość czasu spędzanego w komunikacji publicznej ocena punktualności odjazdu autobusów MPK
Rysunek 2 Cechy jakościowe: płeć oraz częstość korzystania z komunikacji miejskiej
70%
63% 47%
50%
60% 45%
40%
50%
35%
29%
37%
40% 30%
25%
30%
20%
14%
20%
15%
9%
10%
10%
5%
0%
0%
kobiety mężczyzni
codziennie kilka razy w raz w tygodniu nie korzystam
tygodniu
5
0
8
15
12
10
14
35
25
75
30
45
20
24
50
40
60
90
120
180
100
240
6. SKALE POMIAROWE
Skala nominalna (nominalna dychotomiczna) - stosuje
wyłącznie opis słowny dla potrzeb identyfikacji jednostki.
Pomiar polega na zastosowaniu liczby jako nazwy, czyli
grupowaniu jednostek w klasy (kategorie). Wartości na tej skali
nie mają oczywistego, wynikającego z natury danego zjawiska
uporządkowania (np. nazwy miejscowości). Nawet jeśli wartości
zmiennej nominalnej są wyrażane liczbowo, to liczby te są tylko
umownymi identyfikatorami, nazwami, nie można więc
wykonywać na nich działań arytmetycznych, ani ich porównywać
miejsce zamieszkania, płeć
6. SKALE POMIAROWE
Skala porządkowa  służy, do porządkowania danych.
Pomiar polega na grupowaniu jednostek w klasy
(kategorie), którym przypisuje się nazwy lub liczby i
porządkuje się te klasy ze względu na stopień natężenia,
w jakim posiadają one badaną cechę.
Wartości mają więc jasno określony porządek
(kolejność), ale jednak nie da się w sensowny sposób
określić różnicy ani ilorazu między dwiema wartościami
wykształcenie, stan zdrowia, stan finansów, kolejność
zawodników na podium
6. SKALE POMIAROWE
Skala ilorazowa (stosunkowa, przedziałowa)  spełnia
wszystkie aksjomaty liczb, stosunki między dwiema jej
wartościami mają interpretację w świecie rzeczywistym; nie
tylko różnice, ale także ilorazy wielkości. Wielkości na skali
ilorazowej można więc dodawać odejmować i dzielić przez
siebie. Pomiary w tej skali charakteryzują się stałymi
ilorazami i zerem bezwzględnym
cena w zł, napięcie elektryczne, inflacja,
bezrobocie, masa, czas wykonywania danej
czynności ,czas przejazdu z miasta do
miasta.
6. SKALE POMIAROWE
Skala interwałowa (przedziałowa)  ma własności skali
porządkowej, gdyż możliwe jest porządkowanie jednostek
statystycznych. Różnice pomiędzy wartościami dają się
obliczyć i mają sensowną interpretację w świecie
rzeczywistym, jednak nie ma sensu dzielenie dwóch
wartości zmiennej przez siebie. Innymi słowy określona jest
jednostka miary, jednak punkt zero jest wybrany umownie.
daty, temperatura w stopniach Celsjusza
7. PODSTAWOWE STATYSTYKI OPISOWE
Miary przeciętne charakteryzują
średni lub typowy poziom badanej
Miary
cechy ilościowej. Są to wartości
wokół których skupiają się
wszystkie pozostałe wartości
położenia
analizowanej cechy
Miary
Miary zmienności charakteryzują
stopień zróżnicowania badanych
jednostek pod względem badanej
Podstawowe
zmienności
cechy
statystyki
Miary asymetrii służą do
Miary
oszacowania czy większa część
opisowe
wartości jest mniejsza czy większa
od przeciętnego poziomu badanego
asymetrii
zjawiska
Miary
Miary koncentracji wskazują jaka
jest koncentracja badanej cechy
wokół średniej
koncentracji
7A. MIARY POAOŻENIA
ŚREDNIA ARYTMETYCZNA
KLASYCZNE ŚREDNIA HARMONICZNA
ŚREDNIA GEOMETRYCZNA
MIARY
POAOŻENIA
MODALNA
DOMINANTA
KWARTYL DOLNY
POZYCYJNE
MEDIANA
KWARTYLE
KWARTYL GÓRNY
DECYLE
KWANTYLE
CENTYLE
7A. MIARY POAOŻENIA
Średnia arytmetyczna (przeciętna) to suma wartości cechy ilościowej
podzielona przez liczbę jednostek badanej grupy. Oblicza się ją
dla danych zgromadzonych w postaci szeregów szczegółowych.
Przykład
W grupie dziesięciu studentów sprawdzono czas dojazdu na uczelnię (w min.).
Wyniki przedstawia szereg: 17,14,11,9,9,9,17,13,17,14. Obliczyć średni czas dojazdu studentów na
uczelnię.
Średni czas dojazdu studentów na uczelnię to 13 minut.
W pewnej firmie transportowej zbadano wiek ośmiu pracowników i otrzymano wyniki:
25, 36, 28, 27, 22, 20, 34, 32.
Policzyć średni wiek pracownika w badanej firmie.
7A. MIARY POAOŻENIA
Średnia arytmetyczna ważona obliczana jest w przypadku
szeregów rozdzielczych punktowych oraz przedziałowych.
Środki przedziałów tylko w przybliżeniu odzwierciedlają
rzeczywiste wartości danych empirycznych. Podstawowym
ograniczeniem w przypadku przedziałów klasowych jest
niemożliwość jej obliczenia gdy pierwszy lub ostatni przedział
klasowy są otwarte.
7A. MIARY POAOŻENIA
Przykład
W grupie dziesięciu studentów sprawdzono czas dojazdu na
uczelnię (w min.). Wyniki przedstawia szereg: 17, 14, 11, 9, 9, 9, 17,
13, 17, 14. Obliczyć średni czas dojazdu studentów na uczelnię.
Dane można przedstawić w postaci szeregu rozdzielczego
punktowego
Tabela 1 Dane dotyczące czasu dojazdu studentów na uczelnię
Numer klasy Czas (min) Liczba
studentów
i xi ni
1 9 3 27
2 11 1 11
3 13 1 13
4 14 2 28
5 17 3 51
S 130
Średnio student potrzebuje 13
minut aby dotrzeć na uczelnię.
7A. MIARY POAOŻENIA
Przykład 3
W postaci szeregu rozdzielczego przedstawiono liczbę linii
krajowych komunikacji autobusowej (dalekobieżnych) w
województwach w Polsce. Policzyć średnią liczbę linii
przypadających na województwo.
Liczba linii krajowych Liczba
dalekobieżnych województw
od 0 do 20 2 10 20
od 20 do 40 6 30 180
od 40 do 60 4 50 200
od 60 do 80 3 70 210
od 80 do 100 1 90 90
S 16 S 700
Średnia liczba linii krajowych dalekobieżnych przypadających na województwo
wynosi 43,75. (około 44 linie)
W pewnej firmie kurierskiej zbadano dzienną dostawę przesyłek
przez 103 pracowników. Wyniki przedstawia tabela:
Liczba dostarczonych Liczba pracowników
przesyłek w ciągu dnia firmy kurierskiej
5-7 13
7-9 22
9-11 31
11-13 26
13-15 11
Obliczyć ile średnio przesyłek dostarczają dziennie kurierzy w badanej firmie.
7A. MIARY POAOŻENIA
Średnia uwzględnia wszystkie informacje zawarte w
zbiorze danych, ale nie zawsze położona jest  w środku
badanego zbioru.
Średnia arytmetyczna ma kilka własności:
suma wartości cechy jest równa iloczynowi średniej
arytmetycznej i liczebności zbiorowości
spełnia warunek
średnia odchyleń poszczególnych wartości cechy od
średniej równa jest zero
średnia arytmetyczna jest wrażliwa na skrajne wartości
(wartości odstające).
7A. MIARY POAOŻENIA
Średnia geometryczna znajduje zastosowanie w przypadku
obliczania średniego tempa zmian wartości zjawisk w czasie
(badań przyrostu w czasie pewnych wartości bądz ich spadku)
Przykład 4
W kolejnych latach w pewnym regionie liczba linii komunikacji
miejskiej wynosiła odpowiednio:
Liczba linii komunikacji
Lata miejskiej w miejscowości A
2007 11
2008 22
2009 33
Należy obliczyć średni przyrost względny liczby linii w pewnym regionie.
7A. MIARY POAOŻENIA
Średnia harmoniczna ma zastosowanie w przypadku gdy
wartości cechy podane są w przeliczeniu na stałą jednostkę
innej zmiennej (km/h, osoby/km2, zł/szt.).
Przykład
Zanotowano czas przejazdu czterech pociągów na trasie
Rzeszów  Kraków. Czasy przejazdu były następujące: 3,10 min,
3,20 min, 3,33 min, oraz 3,41 minut.
Średni czas dojazdu pociągu z Rzeszowa do Krakowa wynosi
około 205 minut czyli 3,25 min.
7A. MIARY POAOŻENIA
Dominanta D (modalna Mo, moda)  to wartość, która
najczęściej pojawia się w badanej zbiorowości (dominuje).
Przykład
Zbadano czas oczekiwania (w minutach) na odprawę celną na
przejściu granicznym z Ukrainą w Medyce przez samochody
osobowe. Wynoszą one odpowiednio: 2, 5 ,8 12, 8, 16, 20, 5, 9, 5, 13,
14, 5. Wskazać dominantę czasu oczekiwania na odprawę celną.
D=5
7A. MIARY POAOŻENIA
Przykład
Zbadano czas oczekiwania (w minutach) samochodów ciężarowych na
odprawę celną na przejściu granicznym z Ukrainą w Medyce. Dane
przedstawiono w tabeli (). Wskazać dominantę czasu oczekiwania na
odprawę celną.
Czas oczekiwania samochodów
Liczba oczekujących
ciężarowych na odprawę celną
samochodów
(min)
od 0 do 10 14
od 10 do 20 20
od 20 do 30 25
od 30 do 40 27 D
od 40 do 50 20
od 50 do 60 9
S 115
Dominanta czasu oczekiwania samochodów ciężarowych na odprawę celną
wynosi 31,67 min.
W pewnej firmie kurierskiej zbadano dzienną dostawę przesyłek
przez 103 pracowników. Wyniki przedstawia tabela:
Liczba dostarczonych Liczba pracowników
przesyłek w ciągu dnia firmy kurierskiej
5-7 13
7-9 22
9-11 31
11-13 26
13-15 11
Wskazać dominantę liczby dostarczonych przesyłek.
7A. MIARY POAOŻENIA
Kwantyle  są pozycyjnymi miarami położenia, zdefiniowane
są jako wartości cechy badanej zbiorowości, przedstawionej w
postacie szeregu, które dzielą zbiorowość na określone części
pod względem liczby jednostek. Najczęściej używanymi
kwantylami są kwartale które dzielą badaną zbiorowość na
cztery części. Często używane są także decyle (dzielące
zbiorowość na dziesięć części oraz percentyle (dzielące
zbiorowość na 100 części procenty).
7A. MIARY POAOŻENIA
Kwartyl dolny (Q1) dzieli zbiorowość na dwie części w
taki sposób że 25% jednostek badanej zbiorowości ma badaną
cechę niższą bądz równą niż wartość Q1 (czyli co czwarta
jednostka) , natomiast 75% () jednostek ma badaną cechę
większą bądz równą Q1
Mediana Me jest to wartość środkowa i dzieli badaną
zbiorowość na dwie równe części. Połowa (50%) jednostek
zbiorowości ma wartości badanej cechy niższe lub równe
medianie a połowa (50%) większe lub równe medianie.
Kwartyl górny (Q3) dzieli zbiorowość na dwie części w
taki sposób że 75% () jednostek badanej zbiorowości ma
badaną cechę niższą bądz równą niż wartość Q3, natomiast
25% (co czwarta jednostka) ma badaną cechę większą bądz
równą Q3.
7A. MIARY POAOŻENIA
Dla szeregu szczegółowego pozycję oraz wartości kwartyli oblicza się ze
wzorów () przy czym należy pamiętać że poszczególne wartości należy
uszeregować w sposób rosnący
Dla szeregów rozdzielczych poszczególne miary można policzyć ze
wzorów () przy czyn należy pamiętać że pozycje poszczególnych miar
pozycyjnych wyznacza się z liczności skumulowanej.
7A. MIARY POAOŻENIA
Przykład
Zbadano czas oczekiwania (w minutach) samochodów ciężarowych
na odprawę celną na przejściu granicznym z Ukrainą w Medyce. Dane
przedstawiono w tabeli (). Wskazać i zinterpretować medianę, kwartyl
dolny i górny.
Liczba
Czas oczekiwania samochodów oczekujący
ciężarowych na odprawę celną ch Pozycja
(min) samochodó
w
14
od 0 do 10 14 5 70
34
od 10 do 20 20 15 300
59
od 20 do 30 25 25 625
86
od 30 do 40 27 35 945
106
od 40 do 50 20 45 900
115
od 50 do 60 9 55 495
S 115 S 3335
W pewnej firmie kurierskiej zbadano dzienną dostawę przesyłek
przez 103 pracowników. Wyniki przedstawia tabela:
Liczba
pracowników
Liczba dostarczonych firmy
przesyłek w ciągu dnia kurierskiej
x n nsk
5-7 13 13
7-9 22 35
9-11 31 66
11-13 26 92
13-15 11 103
Obliczyć kwartyl dolny, medianę i kwartyl górny liczby dostarczanych przesyłek.
7B. MIARY ZMIENNOŚCI
Miary zmienności charakteryzują stopień
zróżnicowania badanych jednostek pod
względem badanej cechy. Dzielą się na miary
klasyczne i pozycyjne.
WARIANCJA
KLASYCZNE ODCHYLENIE STANDARDOWE
ODCHYLENIE PRZECITNE
WSPÓACZYNNIK ZMIENNOŚCI
MIARY
ZMIENNOŚCI
ROZSTP
POZYCYJNE
ODCHYLENIE ĆWIATRKOWE
WSPÓACZYNNIK ZMIENNOŚCI
7B. MIARY ZMIENNOŚCI
Wariancja to średnia arytmetyczna kwadratów
odchyleń poszczególnych wartości cechy od średniej
arytmetycznej. Wariancja jest wartością niemianowaną.
Aby otrzymać informację o zróżnicowaniu zbiorowości
oblicza się pierwiastek kwadratowy z wariancji nazywany
odchyleniem standardowym. Odchylenie informuje o
przeciętnym zróżnicowaniu poszczególnych wartości
cechy od średniej arytmetycznej. Odchylenie
standardowe jest wartością mianowaną i interpretuje się
go w jednostkach badanej cechy.
7B. MIARY ZMIENNOŚCI
Dla szeregu szczegółowego
Odchylenie
standardowe
Dla szeregu rozdzielczego
Przykład
W grupie dziesięciu studentów sprawdzono czas dojazdu na uczelnię (w
min.). Wyniki przedstawia szereg: 17, 14, 11, 9, 9, 9, 17, 13, 17, 14. Obliczyć
wariancję i odchylenie standardowe.
=3,19
Przeciętne zróżnicowanie czasu dojazdu na uczelnię wśród
studentów od cechy średniej wynosi 3,19 min.
7B. MIARY ZMIENNOŚCI
Przykład
Zbadano czas oczekiwania (w minutach) samochodów ciężarowych na
odprawę celną na przejściu granicznym z Ukrainą w Medyce. Dane
przedstawiono w tabeli (). Obliczyć wariancję i odchylenie standardowe.
Czas oczekiwania samochodów Liczba Odchylenie Odchylenie
ciężarowych na odprawę celną (min) samochodów standardowe przeciętne
576 336
8064
od 0 do 10 14 5 70
196 280
3920
od 10 do 20 20 15 300
16 100
400
od 20 do 30 25 25 625
36 162
972
od 30 do 40 27 35 945
256 320
5120
od 40 do 50 20 45 900
676 234
6084
od 50 do 50 9 55 495
S 24560 1432
S 115 S 3335
Przeciętne zróżnicowanie czasu oczekiwania samochodów
ciężarowych na odprawę celną wynosi 14,61 min.
7B. MIARY ZMIENNOŚCI
Typowy przedział zmienności to obszar, w którym mieści się około
2/3 jednostek badanej zbiorowości
Typowy przedział zmienności dla danych z przykładu () wynosi:
7B. MIARY ZMIENNOŚCI
Odchylenie przeciętne d (dewiata) jest średnią arytmetyczną
bezwzględnych odchyleń wartości cechy od średniej arytmetycznej.
Informuje o ile średnio różnią się poszczególne wartości od wartości
średniej.(niezależnie od znaku)
Zazwyczaj odchylenie przeciętne
Dla szeregu szczegółowego
jest mniejsze od odchylenia
standardowego obliczonego dla tych
samych danych.
Dla szeregu rozdzielczego
Średnio wartości czasu oczekiwania na odprawę celną przez samochody ciężarowe
różnią się od wartości średniej o około 12 minut (12,45).
7B. MIARY ZMIENNOŚCI
Współczynnik zmienności jest ilorazem bezwzględnej miary zmienności cechy i
średniej wartości tej cechy. Zazwyczaj wartość współczynnika zmienności podana
jest w procentach. Przyjmuje się że jeśli współczynnik zmienności jest mniejszy
niż 10% to cechy wykazują zróżnicowanie niewielkie (statystycznie nieistotne).
Duże wartości świadczą o znacznym zróżnicowaniu badanej cechy i wskazują na
brak jednorodności w analizowanym zbiorze wyników.
Przykład
Obliczyć współczynnik zmienności czasu oczekiwania samochodów ciężarowych na odprawę
celną (min)gdzie średnia wynosi 29 minut a odchylenie standardowe 14,61 minuty a odchylenie
przeciętne 12,45 minuty.
7B. MIARY ZMIENNOŚCI
Rozstęp. Charakteryzuje on empiryczny obszar zmienności
badanej cechy i jest najprostszą miarą dyspersji. Jest to
różnica między wartością największą a najmniejszą. Rozstęp
jest liczony na podstawie dwóch wartości ekstremalnych.
7B. MIARY ZMIENNOŚCI
Odchylenie ćwiartkowe określa odchylenie wartości cechy od
mediany. (Q) Jest liczony jako połowa różnicy między kwartylem
pierwszym i trzecim. Im większa wartość odchylenia ćwiartkowego tym
większa koncentracja pomiarów w środkowej części wszystkich pomiarów.
W pewnej firmie kurierskiej zbadano dzienną dostawę przesyłek
przez 103 pracowników. Wyniki przedstawia tabela:
Liczba
pracowników
Liczba dostarczonych firmy
przesyłek w ciągu dnia kurierskiej
x n nsk
5-7 13 13
7-9 22 35
9-11 31 66
11-13 26 92
13-15 11 103
Obliczyć podstawowe miary zmienności.
7C. MIARY ASYMETRII
Miary asymetrii służą do oszacowania czy odchylenia od wartości centralnej grupują
się z prawej bądz lewej strony rozkładu empirycznego, inaczej mówiąc czy większa
część wartości jest mniejsza czy większa od przeciętnego poziomu badanego zjawiska.
Rozkłady cech różnią się między sobą siłą i kierunkiem asymetrii. Miary asymetrii można
podzielić także na klasyczne i pozycyjne.
KLASYCZNE WSPÓACZYNNIK ASYMETRII A
WSPÓACZYNNIK SKOŚNOŚCI I
OPARTE NA
MIARY
MIARACH
ASYMETRII
KLASYCZNYCH I
POZYCYJNYCH WSPÓACZYNNIK SKOŚNOŚCI II
POZYCYJNE
WSKAyNIKI SKOŚNOŚCI OPARTE
MA MIARACH POZYCYJNYCH
WSPÓACZYNNIK SKOŚNOŚCI
7C. MIARY ASYMETRII
Do miar klasycznych zalicza się współczynnik asymetrii A. Liczony jest rzadko ze względu na
pracochłonność.
Dla szeregu szczegółowego
n
1
3
&
m3 = - x) ni
Dla szeregu rozdzielczego
(xi
n
i=1
Częściej do określenia asymetrii wykorzystywane są miary pozycyjne. Jeżeli
Są także miary, które wykorzystują do określenia asymetrii zarówno wielkości klasyczne
jak i pozycyjne. Do takich miar zalicza się współczynniki skośności.
" 68% wartości cechy leży w odległości od wartości oczekiwanej;
" 95,5% wartości cechy leży w odległości od wartości oczekiwanej;
" 99,7% wartości cechy leży w odległości od wartości oczekiwanej.
90 140
80
120
70
100
60
80
50
40
60
30
40
20
20
10
0
0
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
0 10 20 30 40 50 60 70 80 90 100 110 120 130
Liczba obserwacji
Liczba obserwacji
7C. MIARY ASYMETRII
Asymetrię rozkładu można także sprawdzić za pomocą położenia średniej względem mediany.
Jeżeli to rozkład jest symetryczny
Jeżeli to rozkład jest asymetryczny prawostronnie
Jeżeli to rozkład jest asymetryczny lewostronnie
Me średnia
7D. MIARY KONCENTRACJI
Między zróżnicowaniem cechy a koncentracją wartości wokół średniej istnieje
pewien związek. Im większe jest zróżnicowanie tym mniejsza jest koncentracja. Miarą
skupienia wokół średniej jest współczynnik skupienia (kurtoza).
dla szeregu szczegółowego
n
1
&i 4
m3 =
dla szeregu rozdzielczego
(x - x) ni
n
i=1
Im wyższa wartość współczynnika K, tym bardziej smukła jest krzywa liczebności a więc
większa koncentracja wartości cechy wokół średniej. Małe wartości wskazują na spłaszczenie
rozkładu zbiorowości względem badanej cechy. Przyjmuje się że:
jeśli K = 3 to zbiorowość ma rozkład normalny,
jeśli K < 3 to rozkład jest bardziej spłaszczony od normalnego- platykurtyczny
jeśli K > 3 to rozkład jest bardziej smukły od normalnego leptokurtyczny
7D. MIARY KONCENTRACJI  KRZYWA LORENZA
KRZYWA Koncentracji Lorenza
Stopień nasilenia koncentracji ilustruje wielobok koncentracji zwany
Krzywą koncentracji albo krzywą Lorenza. Na osi odciętych zaznacza
się skumulowane wskazniki struktury a na osi rzędnych skumulowany
xi
odsetek iloczynu ni . Aącząc punkty o odpowiednich współrzędnych
otrzymuje się Krzywą Lorenza. W przypadku równomiernego rozkłady
cechy wszystkie punkty leżałyby na przekątnej kwadratu o boku równym 100.
Przekątna nosi nazwę linii równomiernego podziału. Im większy stopień
koncentracji tym bardziej krzywa odchyla się od linii równomiernego podziału
A wiec tym większe jest pole figury a (wyznaczonej przez linię równomiernego
podziału i krzywą koncentracji. Maxymalna wartość powierzchni koncentracji
jest równa połowie pola kwadratu (a+b=5000). Stosunek pola a do połowy pola
Kwadratu nosi nazwę współczynnika koncentracji Lorenza.
k
a 5000 - b 1 zisk + zisk-1
KL = 1- wi

5000 5000 5000 2
i=1
KL
Współczynnik przyjmuje wartość ZERO w przypadku równomiernego podziału
a JEDEN w przypadku całkowitej koncentracji.
7D. MIARY KONCENTRACJI  KRZYWA LORENZA
Czas oczekiwania zisk + zisk-1
ni xi xini wi zi wisk zisk wi
na odprawę celną
2
P
od 0 do 10 14 5 70 12,2 2,1 12,2 2,1 12,8
O
L
od 10 do 20 20 15 300 17,4 9,0 29,6 11,1 114,7
A
od 20 do 30 25 25 625 21,7 18,7 51,3 29,8 444,9
F
I
od 30 do 40 27 35 945 23,5 28,3 74,8 58,2 1033,1
G
od 40 do 50 20 45 900 17,4 27,0 92,2 85,2 1246,3
U
od 50 do 50 9 55 495 7,8 14,8 100,0 100,0 724,5
R
S 115 S 3335 3576,4
Graficzna interpretacja miary korelacji
k
a 5000 - b 1 zisk + zisk-1
120
KL = 1- wi

zisk 5000 5000 5000 2
i=1
100
k
80
1 zisk + zisk-1 3576,4
KL 1- wi =1- = 0,28

5000 2 5000
i=1
60
a
40
b
20
0
0 10 20 30 40 50 60 70 80 90
wisk100
7D. MIARY KONCENTRACJI
yródło: www.wikipedia.pl
PODSUMOWANIE:
Biorąc pod uwagę podział na cechy ilościowe i jakościowe, prezentacja danych i ich opis
wygląda odmiennie. Dla cech jakościowych stosuje się rozkład procentowy i jego
interpretację. Jeśli chodzi o cechy ilościowe to dysponuje się szerokim wachlarzem
miar opisowych charakteryzujących badaną zmienną.
STATYSTYKI OPISOWE
MIARY
MIARY
ROZPROSZENIA
ASYMETRII
KLASYCZNE POZYCYJNE
MIARY KLASYCZNE POZYCYJNE
MIARY
POAOŻENIA
KONCENTRACJI
KLASYCZNE POZYCYJNE
KLASYCZNE POZYCYJNE
Miary klasyczne (średnia, odchylenie standardowe i inne) są wyznaczane na
podstawie wszystkich obserwacji - są w związku z tym nieodporne na obserwacje
odstające.
Miary pozycyjne (minimum, maksimum, mediana, kwartyle, percentyle) są
wyznaczane na podstawie pozycji zajmowanej przez odpowiednie obserwacje i w
związku z tym nie są zależne od ewentualnych obserwacji ekstremalnych.
Zadanie 1
Ilość lat eksploatacji samochodów w pewnym przedsiębiorstwie transportowym wynosi:
Ilość lat Liczba
eksploatacji samochodu samochodów
0 -3 9
3-6 13
6-9 18
9-12 10
12-15 4
Policzyć i zinterpretować podstawowe miary opisowe: średnią, odchylenie standardowe,
współczynnik zmienności, medianę, modalną, kwartyle oraz określić asymetrię rozkładu i
dokonać jej interpretacji. Policzyć współczynnik koncentracji.
Zadanie 2
Ocena skuteczności instruktorów PJ Liczba oceniających
0 8
1 9
2 12
3 18
4 36
5 17
Policzyć i zinterpretować podstawowe miary opisowe: średnią, odchylenie standardowe,
współczynnik zmienności, wskazać dominantę.
Zanotowano czas opóznienia pociągów w ostatnich dniach na dworcu
Zadanie 3
kolejowym w pewnej miejscowości:12,13,14,12,18, 16,12,13,16,17,21,28
Policzyć i zinterpretować podstawowe miary opisowe: średnią, odchylenie standardowe,
współczynnik zmienności, medianę, modalną, kwartyle oraz dokonać interpretacji.
8. GRUPOWANIE DANYCH I SZEREGI ROZDZIELCZE
GRAFICZNA PREZENTACJA MATERIAAU
1. Szereg szczegółowy {0,0,0,0,1,1,1,2,2,2,3,3,4,4,4,5,5,6,6,8,9,11,15}
2. Szereg rozdzielczy punktowy
Numer klasy (ilość popełnionych błędów w teście) Liczba kierowców
0 55
1 15
2 10
3 2
3. Szereg rozdzielczy klasowy (przedziałowy)
Czas oczekiwania samochodów Liczba
ciężarowych na odprawę celną (min) samochodów
od 0 do 10 14
od 10 do 20 20
od 20 do 30 25
od 30 do 40 27
od 40 do 50 20
od 50 do 50 9
8. GRUPOWANIE DANYCH I SZEREGI ROZDZIELCZE
GRAFICZNA PREZENTACJA MATERIAAU
Konstrukcja szeregu rozdzielczego z przedziałami klasowymi
xmax - xmin R
h gdzie k = n
Ustalenie rozpiętości przedziału klasowego
k k
Liczba obserwacji Ilość zalecanych klas
od 40 do 60 6-8
od 60 do 100 7-10
od 100 do 200 9-12
od 200 do 500 11-17
ni n
Wskaznik struktury
wi =
w =1 0 Ł wi Ł1
i
n
i=1
8. GRUPOWANIE DANYCH I SZEREGI ROZDZIELCZE
GRAFICZNA PREZENTACJA MATERIAAU
W kilkudziesięciu ośrodkach kształcenia kierowców zbadano liczbę osób
które otrzymały prawo jazdy w ostatnim kwartale:
75,62,94,56,66,90, 72,76,73,64,96,50,70,91, 59, 88,80,54,83,58, 81, 68, 93, 84,
92,71,76,57,85,78,67,76,74,,79,63,86, 74,84,69,55,80,65, 75,87,85,82,82,84,77,
Dokonać prezentacji graficznej i tabelarycznej zebranego materiału.
1. Uszeregowanie obserwacji w ciągu rosnącym:
50,54, 55, 56, 57, 58, 59, 62, 63, 63, 65, 66, 67, 68, 69, 70, 70, 70, 72, 73, 74, 74,
75, 75, 76, 76, 77, 78, 79, 80, 80, 81, 82, 82, 83, 84, 84,84, 85, 85, 86, 87, 88, 90,
91, 92, 93, 94, 96
2. Ustalenie rozpiętości przedziału i liczby klas:
xmax - xmin 96 - 50 46
h 7
k 7
49
8. GRUPOWANIE DANYCH I SZEREGI ROZDZIELCZE
GRAFICZNA PREZENTACJA MATERIAAU
14
Liczba osób, które Liczba
12
12
otrzymały prowo-jazdy ośrodków
10
10
50-57 5
8
8
57-64 5
6
5 5
6
64-71 8
3
4
71-78 10
2
78-85 12
0
85-92 6
50-57 57-64 64-71 71-78 78-85 85-92 92-99
3
92-99
Histogram to zbiór prostokątów, których
Podstawy wyznaczone na osi odciętych stanowią
Rozpiętości poszczególnych przedziałów klasowych
a wysokości są określane na osi rzędnych przez liczebności,
Odpowiadające poszczególnym przedziałom.
Diagram (wielobok liczebności) jest łamaną powstałą
Przez połączenie punktów, których współrzędnymi są
Środki przedziałów klasowych i odpowiadające im liczebności
8. GRUPOWANIE DANYCH I SZEREGI ROZDZIELCZE
GRAFICZNA PREZENTACJA MATERIAAU
Liczba osób, które Liczba Wskaznik
0,3
otrzymały prowo-jazdy ośrodków struktury
0,24
0,25
xi ni wi
0,2
50-57 5 0,10
0,2
0,16
57-64 5 0,10
0,15
0,12
64-71 8 0,16
0,1 0,1
71-78 10 0,20
0,1
0,06
78-85 12 0,24
0,05
85-92 6 0,12
3 0,06 0
92-99
50-57 57-64 64-71 71-78 78-85 85-92 92-99
1,00
0,90
0,80
0,70
0,60
Dystrybuanta empiryczna to diagram liczebności
0,50 (częstości skumulowanej), który jest łamaną powstałą przez
połączenie punktów, których współrzędne to : górne granice
0,40
przedziałów kalsowych i odpowiadające im liczebności
0,30
(częstości skumulowane).
0,20
0,10
0,00
57 64 71 78 85 92 94
W pewnej firmie transportowej sprawdzono dzienne zużycie paliwa przez
samochody rozwożące towar do pobliskich miejscowości: 7, 11, 8, 14, 14, 10, 5, 18,
12, 21, 14, 13, 15, 11, 9, 6, 17, 16, 19, 15, 14, 19, 17, 13, 19, 18, 13, 15, 11, 13, 18, 14, 19, 16,
17, 15, 14, 15, 12, 12, 13, 17, 13, 18, 14, 8, 9, 21, 22, 24, 17, 28,, 22, 14, 15, 19, 17, 19, 23, 12,
13, 8, 9, 11.
Przedstawić dane w postaci szeregu rozdzielczego, przedstawić histogram,
dystrybuantę, policzyć podstawowe statystyki opisowe i dokonać ich
interpretacji.
JAK TO SI ROBI W STATYSTYCE ?


Wyszukiwarka

Podobne podstrony:
WYKŁAD 1 Wprowadzenie do biotechnologii farmaceutycznej
Wykłady z metod statystycznych
03 Wyklad 1 (wprowadzenie do BM)
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 6
Wykład wprowadzajšcy
Wyklad 1 Wprowadzenie do tematyki?z?nych
Wyklad 1 Wprowadzenie do finansow przedsiebiorstwa
Wykład 1 Wprowadzenie do promocji zdrowia
Wyklad 1 Wprowadzenie do zzl, modele zzl
wykład wprowadzenie 01b
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 2
wykład 1 wprowadzenie
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 3
wyklad wprowadzenie do pedagogiki
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 7
20151012 MichalTrzesiok Statystyka wyklad2 miary statystyczne handout
wykład S1 Statystyka matematyczna
SOCR wyklad 1 Wprowadzenie?

więcej podobnych podstron