1 wprowadzenie do statystyki statystyka opisowa


Studia stacjonarne licencjackie
III rok Biologii
Wykład na temat:
Wprowadzenie do statystyki
Jerzy Wołek
1
1. Wprowadzenie
Zalecana literatura
" podstawowa:
WOAEK JERZY 2006: Wprowadzenie do statystyki dla biologów. Wydawnictwo Naukowe Akademii Pedagogicznej,
Kraków
STANISZ A. 2006. Przystępny kurs statystyki z zastosowaniem STATISTICA PL na przykładach z medycyny. T. 1 & 2.
StatSoft, Kraków
" uzupełniająca:
KENDALL M.G. & BUCKLAND W.R. 1986. Słownik terminów statystycznych. Państwowe Wydawnictwo Ekonomiczne,
Warszawa
RADHAKRISHNA RAO C. 1994. Statystyka i prawda. Wydawnictwo Naukowe PWN Sp. z o.o., Warszawa
2
Dlaczego znajomość statystyki jest ważna dla badacza?
" Statystyka  to nauka, która pozwala wydawać sądy o całości na
podstawie części tej całości. Ta całość, o której wydajemy sąd, to
populacja (zbiorowość) statystyczna, a część, na podstawie której
wnioskujemy o populacji, to próba.
" Metody statystyczne pozwalają wykryć w zbiorze danych określone
prawidłowości, tj. wzorce zachowań, wzorce występowania
organizmów w przestrzeni i w czasie, wzorce występowania
pewnych zjawisk, np. fizycznych, chemicznych, biochemicznych,
fizjologicznych, genetycznych, cytologicznych itp., w ściśle
określonych warunkach, itd.
" Statystyka jest najbardziej uniwersalnym narzędziem badacza,
ponieważ jej metody mają zastosowanie zawsze, gdy liczymy i
mierzymy (podejście ilościowe stosowane w metodzie naukowej
w naukach przyrodniczych).
3
Przedmiot statystyki
" Statystykę dzieli się, tradycyjnie, na dwa działy: statystykę
opisową i wnioskowanie statystyczne. Aby móc właściwie
wykorzystywać metody statystyczne niezbędna jest znajomość
podstaw rachunku prawdopodobieństwa  wykorzystywanych,
przede wszystkim, we wnioskowaniu statystycznym  oraz
doświadczalnictwa.
" Należy pamiętać, że WSZYSTKIE metody statystycznego opisu i
wnioskowania oraz metody stosowane w doświadczalnictwie
oparte są na ściśle określonych założeniach, które powinny być
spełnione, by metody te w ogóle mogły być stosowane.
Wiele osób nie zdaje sobie z tego sprawy, dlatego prawdopodobnie
tak często słyszymy, że statystyka kłamie, czy też, że za pomocą
statystyki można wszystko udowodnić.
Nie, nie wszystko!
4
Podejście ilościowe
Badania naukowe można prowadzić stosując podejścia (strategie) jakościowe
lub ilościowe. Podejścia te opierają się na różnych podstawach
teoretycznych.
Podejście ilościowe opiera się na filozofii pozytywistycznej, która zakłada, że:
" świat istnieje obiektywnie;
" poznanie świata jest obiektywne;
" bada się tylko to, co można zmierzyć i policzyć;
" przedmiotem badania są tylko fakty (wyniki pomiarów), przy czym nie mogą to
być pojedyncze fakty lecz ich zbiory;
" w tych zbiorach danych poszukuje się prawidłowości statystycznych, które
 po zweryfikowaniu  mogą być wykorzystywane do celów prognostycznych;
" rezultaty badań ilościowych są intersubiektywnie sprawdzalne;
" w badaniu ilościowym, musi być ściśle określone co i jak będzie badane.
5
Podejście jakościowe
Podejście JAKOŚCIOWE wykracza poza to, co obiektywne, mierzalne i
policzalne. W ramach tego podejścia podejmowana jest tematyka związana
z ocenami, wartościami, przeżyciami. Zakłada ono, że:
" brak jest dualnego podziału na poznającego i poznawany świat;
" przedmiotem badania jest pojedynczy przypadek (nie ich zbiór!)  osoba,
instytucja, zjawisko kulturowe, grupa ludzi, stowarzyszenie itp.)  ponieważ
zakłada się, że każdy przypadek jest wyjątkowy, niepowtarzalny;
" własna wiedza badacza i poznanie świata są subiektywne;
" rezultaty badań jakościowych nie są intersubiektywnie sprawdzalne.
Podejście jakościowe stosuje się wtedy, gdy:
" chcemy poznać, jak jawi się świat badanym jednostkom;
" chcemy poznać losy pojedynczych przypadków, np. osób (motywy ich
postępowania, podejmowanych decyzji, oceny sytuacji) lub dotrzeć w  głąb
badanych zjawisk.
6
Podejście jakościowe (cd.)
Podejście jakościowe może się opierać się na teoretycznych podstawach:
" Fenomenologii
" Hermeneutyki
" Interakcjonizmu symbolicznego
Wspólne dla tych trzech teoretycznych podstaw jest bezzałożeniowość, tj.
rezygnacja z hipotez badawczych. W badaniach jakościowych obowiązuje
dyrektywa  Idz i patrz! Hipotezy mogą pojawiać się w trakcie badania
jakościowego lub jako wynik tego badania i wtedy mogą być one punktem
wyjścia dla badań ilościowych.
Podejście jakościowe jest bardzo popularne w naukach humanistycznych (np.
socjologia, psychologia, pedagogika, historia). Podejście ilościowe
stosowane jest głównie w naukach przyrodniczych (np. biologia, chemia,
fizyka, biochemia, biofizyka). Narzędzi przydatnych do analizy danych 
faktów zebranych za pomocą podejścia ilościowego dostarcza, m. in.,
statystyka.
7
2. Statystyka opisowa
8
Populacja statystyczna
Populacja statystyczna, to zbiór elementów  jednostek
statystycznych, wyróżnionych ze względu na jedną
charakterystykę  cechę, lub na wiele cech. Liczebność
populacji oznaczamy literÄ… N.
Populacja może być:
" jednowymiarowa  badana jest jedna cecha;
" dwuwymiarowa  badane sÄ… dwie cechy;
" Wielowymiarowa  badanych jest wiele cech.
9
Populacja statystyczna (cd.)
Populacja może być:
" nieskończona  np. zbiorowość wszystkich możliwych
wyników pomiarów temperatury (populacja teoretyczna);
" skończona  np. zbiorowość wszystkich kobiet
zameldowanych w Krakowie (populacja naturalna).
10
Próba
" Próba, to podzbiór jednostek statystycznych lub 
ściślej mówiąc  skończony zbiór wyników pomiarów
wykonanych na jednostkach statystycznych tego
podzbioru. Liczebność próby oznacza się literą n.
" Aby można było stosować metody statystycznego
wnioskowania o populacji na podstawie próby, próba ta
musi reprezentować populację, z której została
pobrana. Taka próba, to próba reprezentatywna.
Mówiąc krótko,  próba reprezentatywna, to miniatura
populacji .
11
Losowanie
Losowanie jest najłatwiejszym sposobem
uzyskania próby reprezentatywnej. Istnieje wiele
schematów losowania próby losowej.
Najprostszy z nich, to schemat prowadzÄ…cy do
uzyskania prostej próby losowej. Jest to
zarazem ważny schemat losowania, ponieważ
testy statystyczne i metody estymacji opierajÄ…
się na założeniu, że:
z populacji pobrano prostą próbę losową.
12
Prosta próba losowa
Prostą próbę losową uzyskujemy wtedy, gdy:
" losowanie jednostek statystycznych do próby
dokonywane jest z całej populacji (losowanie
nieograniczone);
" każda jednostka ma jednakowe prawdopodobieństwo
dostania się do próby (losowanie indywidualne);
" prawdopodobieństwo to nie zmienia się w trakcie
losowania.
13
Prosta próba losowa (c.d.)
" Schematu losowania prostej próby nie można
stosować w przypadku populacji nieskończonej. Z taką
populacjÄ… mamy do czynienia w badaniach
eksperymentalnych.
" W tym przypadku, mówiąc o populacji nieskończonej, mamy na myśli
wyniki nieograniczonych w czasie i przestrzeni pomiarów. W sensie, o
którym mowa, populacją nieskończoną mogą być np. wyniki pomiaru masy
ciała królików doświadczalnych, które żyły, żyją i żyć będą.
14
Prosta próba losowa (c.d.)
W badaniach eksperymentalnych, za próbę losową
prostą przyjmuje się więc takie wyniki pomiarów, które
uzyskano:
" w ściśle określonych warunkach, w których działają
czynniki mające wpływ na jedną badaną zmienną lub
wiele badanych zmiennych;
" przy założeniu, że wszystkie zmienne losowe są
niezależne.
15
Inne schematy losowania
Losowanie:
" warstwowe  próba warstwowa
" zespołowe (jednostopniowe wielostopniowe)  próba
zespołowa (gronowa)
Losowanie bez zwracania  losowanie ze zwracaniem.
W praktyce stosuje siÄ™ schemat losowania bez zwracania.
16
Zmienna losowa vs zmienna losowa w
sensie zwykłym (cecha statystyczna)
" Zmienna losowa  zmienna, która może przyjmować każdą
wartość ze zbioru wszystkich możliwych wartości z określonym
prawdopodobieństwem.
" Zmienna w sensie zwykłym (cecha statystyczna)  zmienna,
która może przyjmować każdą wartość ze zbioru wszystkich
możliwych wartości, ale prawdopodobieństwo wystąpienia tej
wartości nie jest znane.
" UWAGA: wartości, które przyjmuje dana zmienna nazywamy
realizacjami tej zmiennej.
17
Cecha statystyczna
" niemierzalna (jakościowa)
üðTo cecha, której kategorii nie da siÄ™ wyrazić za pomocÄ… liczb, natomiast
można to uczynić słownie, np. kolor włosów, płeć, zawód,
wykształcenie, pochodzenie itp.
" mierzalna (ilościowa): skokowa i ciągła
üðZmienna skokowa (dyskretna)  dane pochodzÄ… z policzenia, wiÄ™c
zmienna ta przybiera wartości całkowite: 0, 3, 6, 11, itd., np. liczba
dzieci w rodzinie, liczba uczniów w klasie, liczba płatków korony, liczba
krów na pastwisku, liczba chromosomów w komórce.
üðZmienna ciÄ…gÅ‚a  dane pochodzÄ… z pomiaru, wiÄ™c zmienna ta przyjmuje
wartości należące do określonego przedziału skali ciągłej. W skali
ciągłej mierzymy czas, długość, masę, temperaturę, lata itp.
18
Pomiar
" Dokładność pomiaru  gdy mamy do czynienia ze zmienną ciągłą,
każdy pomiar można wykonać z różną dokładnością. W efekcie,
liczba możliwych wyników jest teoretycznie nieskończona i
nieprzeliczalna. Ale UWAGA: jest to założenie idealne, ponieważ 
dla różnej dokładności pomiaru  liczba możliwych wyników pomiaru
dla danego przedziału skali będzie zawsze skończona choć różna.
" Błędy pomiaru
üðBÅ‚Ä™dy systematyczne
üðBÅ‚Ä™dy grube
üðBÅ‚Ä™dy przypadkowe
19
Skale pomiarowe
" Nominalna  dla cech niemierzalnych (jakościowych) polega na
wyróżnieniu kategorii (klas) cechy jakościowej, np. dla cechy  płeć
można wyróżnić dwie kategorie: samce i samice.
Tabela 1. Wyniki klasyfikacji próby osób (n = 125) ze względu na
dwie cechy: kolor włosów i wzrost (skala nominalna)
Kolor włosów
Wzrost Razem
blondyni bruneci rudzi
Niski 14 10 1 25
Åšredni 40 35 2 77
Wysoki 15 8 0 23
Razem 69 53 3 n = 125
(za: Wołek 2006)
20
Skale pomiarowe
" Porządkowa  dla cech mierzalnych ciągłych polegający na (1)
ocenie natężenia poziomu badanej cechy, (2) uporządkowaniu
jednostek według wzrostu/malenia natężenia poziomu tej cechy,
np. uporządkowaniu uczniów według wzrostu, (3) przypisaniu
uporządkowanym jednostkom numerów, czyli rang.
" Przedziałowa  dla cech mierzalnych ciągłych; arbitralny początek
skali, np. pomiar temperatury w skali Celsjusza, kalendarz, skala
ocen.
" Ilorazowa  dla cech mierzalnych ciągłych; nie arbitralny początek
skali, np. pomiar temperatury w skali Kelwina, pomiar masy,
wzrostu itp.
" Przekształcanie skal pomiarowych polega na przekształcaniu
wyników pomiaru uzyskanych za pomocą skal mocniejszych na
wyniki pomiaru właściwe skalom słabszym, np. pomiar
przedziałowo-ilorazowy możemy przekształcić na porządkowy lub
nominalny.
21
Statystyki, parametry, estymatory
" Statystyka  charakterystyka próby; statystyka zmienia
się od próby do próby jest więc zmienną losową.
Statystyki określa się ogólnie jako miary statystyczne.
" Parametr  charakterystyka populacji; parametr jest
wielkością stałą.
" Estymator  statystyka, która służy do oceny nieznanej
wartości parametru. Proces oceny, to estymacja.
Estymacja może być punktowa lub przedziałowa.
22
Miary statystyczne
" Najczęściej stosowane miary statystyczne, to miary:
üðpoÅ‚ożenia
üðrozproszenia,
üðkorelacji,
üðasymetrii,
üðkurtozy.
" UWAGA: Każda skala pomiaru ma  swoje , specyficzne
miary statystyczne.
23
Miary
Oznaczenie
Nazwa miary
dla próby dla populacji
(statystyka) (parametr)
statystyczne
Miary położenia
kategoria modalna pm śm
wartość modalna mo źo
wartość medialna me źe
średnia arytmetyczna x ź
Miary rozproszenia
Tabela 2.
dyspersja wzglÄ™dna klasyfikacji h Ç
Zestawienie niektórych miar
wariancja s2 Ã2
statystycznych i ich symboli
odchylenie standardowe s Ã
Miary korelacji
współczynnik siÅ‚y zwiÄ…zku rp Áp
współczynnik korelacji rang
rs Ás
Spearmana
współczynnik korelacji rang rk (Ä) Ák
Kendalla
współczynnik konkordancji rw Áw
stosunek korelacyjny e2 ·2
współczynnik korelacji
r Á
liniowej Pearsona
24
(za: Wołek 2006)
Miary statystyczne
Tabela 3. Najczęściej stosowane miary statystyczne, specyficzne dla różnych skal
pomiaru.
Skala Miary statystyczne
położenia rozproszenia korelacji
-kategoria modalna -dyspersja względna -współczynniki siły związku
nominalna
klasyfikacji
-współczynniki korelacji rang
-obiekt medialny
-współczynnik konkordancji
porzÄ…dkowa
-obiekty kwartylowe
pozycyjne bezwzględne
-wartość modalna -rozstęp międzykwartylowy
-wartość medialna -odchylenie kwartylowe
-wartości kwartylowe
przedziałowa
-stosunek korelacyjny
klasyczne bezwzględne
-współczynnik korelacji
-średnia arytmetyczna -wariancja
liniowej
-średnia arytmetyczna -odchylenie standardowe
-współczynnik korelacji
ważona
czÄ…stkowej i wielorakiej
klasyczne względne
-średnia geometryczna -współczynnik zmienności
ilorazowa
-średnia harmoniczna
25
(za: Wołek 2006)
Miary położenia
" Skala nominalna  kategoria modalna
" Skala porzÄ…dkowa  obiekt medialny
" Skala przedziałowo-ilorazowa
ØðMiary pozycyjne
üðWartość modalna
üðWartość medialna
üðWartoÅ›ci kwartylowe
ØðMiary klasyczne
üðÅšrednia arytmetyczna
26
Miary rozproszenia
" Skala nominalna  dyspersja względna klasyfikacji
" Skala porzÄ…dkowa  do oceny rozproszenia wykorzystuje siÄ™
obiekty kwartylowe: dolny (Q1) i górny (Q3)
" Skala przedziałowo-ilorazowa
ØðMiary pozycyjne
üðRozstÄ™p miÄ™dzykwartylowy (Q3 - Q1)
üðOdchylenie kwartylowe
üðPozycyjny współczynnik zmiennoÅ›ci (miara wzglÄ™dna)
ØðMiary klasyczne
üðWariancja (s2)
üðOdchylenie standardowe (s)
üðWspółczynnik zmiennoÅ›ci (miara wzglÄ™dna)
27
Miary korelacji
" Skala nominalna  współczynniki siły związku
" Skala porządkowa  współczynniki korelacji rang
üðDla dwu skal porzÄ…dkowych (współczynnik Kendalla,
współczynnik Spearmana)
üðDla wiÄ™cej iż dwu skal porzÄ…dkowych (współczynnik
konkordancji Kendalla)
" Skala przedziałowo-ilorazowa
üðwspółczynnik korelacji liniowej Pearsona, r
üðwspółczynnik korelacji wielorakiej (wielokrotnej), R
üðwspółczynnik korelacji czÄ…stkowej
28
Rozkłady empiryczne
Szereg statystyczny
" szczegółowy: wyniki nie są pogrupowane
üðnieuporzÄ…dkowany: 5, 3, 7, 0, 10, 8, 2
üðuporzÄ…dkowany: 0, 2, 3, 5, 7, 8, 10
" rozdzielczy (rozkład liczebności): wyniki są pogrupowane
üð typu punktowego
üðtypu przedziaÅ‚owego
" frekwencja (f) vs frakcja (w)
29
Rozkłady empiryczne rozdzielcze
Przedział klasowy
x0i , x1i
" granica dolna / górna:
" zamknięty (są obie granice); otwarty (nie ma dolnej lub
górnej granicy)
" domykanie przedziałów klasowych
- lewostronnie domknięty: x0i d" xi < x1i
- prawostronnie domknięty: x0i < xi d" x1i
- obustronnie domknięty: x0i d" xi d" x1i

x
" środek przedziału klasowego:
30
Szeregi rozdzielcze
Liczba ziarn Frekwencje Frakcje Kumulowane Kumulowane
grochu w strÄ…ku f frekwencje frakcje
w =ð
f
fcum wcum
x n
0 3 0,03 3 0,03
Szereg rozdzielczy typu
1 8 0,08 11 0,11
punktowego
2 28 0,28 39 0,39
3 33 0,33 72 0,72
(dla zmiennej skokowej)
4 18 0,18 90 0,90
n
5 10 0,10 100 1,00
RAZEM = 100 1,00  
Åšrodek Kumulowane Kumulowane
Frekwencje Frakcje przedziału frekwencje frakcje
Wysokość zdzbeł w
cm
f
w =ð fcum wcum
f

(przedział klasowy) x
n
32,5 47,5 1 0,01 40,0 1 0,01
47,5 62,5 5 0,05 55,0 6 0,06
Szereg rozdzielczy typu
62,5 77,5 7 0,07 70,0 13 0,13
przedziałowego
77,5 92,5 15 0,15 85,0 28 0,28
(dla zmiennej ciągłej i
92,5 107,5 30 0,30 100,0 58 0,58
skokowej)
107,5 122,5 25 0,25 115,0 83 0,83
122,5 137,5 10 0,10 130,0 93 0,93
137,5 152,5 5 0,05 145,0 98 0,98
n2
152,5 167,5 0,02 160,0 100 1,00
31
RAZEM =100 1,00   
(za: Wołek 2006)
Graficzna prezentacja szeregu rozdzielczego typu
przedziałowego
" histogram liczebności  frekwencji lub frakcji
" wielobok liczebności  frekwencji lub frakcji (diagram)
(za: Wołek 2006)
32
Graficzna prezentacja szeregu rozdzielczego typu
przedziałowego (c.d.)
" histogram kumulowanych liczebności  frekwencji lub frakcji
" wielobok kumulowanych liczebności  frekwencji lub frakcji
33
(za: Wołek 2006)
Graficzna prezentacja szeregu rozdzielczego typu
przedziałowego (c.d.)
" krzywa liczebności  frekwencji lub frakcji
(za: Wołek 2006)
34
Typy rozkładów liczebności
A  rozkład asymetryczny
prawostronny
B  rozkład symetryczny
C  rozkład asymetryczny
lewostronny
(za: Wołek 2006)
35
Typy rozkładów liczebności
A, B, C  rozkłady asymetryczne; D, E  rozkłady symetryczne;
A, B, D  rozkłady jednomodalne; F  rozkład dwumodalny;
G  rozkład wielomodalny; H  rozkład antymodalny
36
(za: Wołek 2006)
Graficzna prezentacja danych
Wykres:
" liniowy, słupkowy, kołowy (cyklogram)
" dwuwymiarowy, trójwymiarowy (przestrzenny)
" wykres pudełkowy
37
Graficzna prezentacja danych
Wykres liniowy
PUNKTY vs. OCENY
Średnie liczby punktów grupowane względem przedmiotowych ocen semetralnych
38
36
34
32
30
28
26
24
22
20
Åšrednia
2 3 4 5
Min-Maks
OCENY SEMETRALNE
(Opracowanie własne )
38
OSIGNIĆ
PUNKTY UZYSKANE PRZEZ UCZNIÓW W TEŚCIE
Graficzna prezentacja danych
Wykres liniowy
PUNKTY vs. OCENY
PUNKTY = 13,250 + 4,6992 * OCENY
Wsp. korelacji = 0,95457
40
36
32
28
24
Regresja
20
95% p.ufności
2 3 4 5
OCENY SEMETRALNE
(Opracowanie własne )
39
OSIGNIĆ
PUNKTY UZYSKANE PRZEZ UCZNIÓW W TEŚCIE
Graficzna prezentacja danych
Wykres słupkowy
Wykres słupkowy
20
38%
38%
18
16
14
12
21%
21%
10
19%
19%
17%
17%
8
6
4
6%
6%
2
0
bardzo dobry dobry dostateczny dopuszczajÄ…cy niedostateczny
OCENA
(Opracowanie własne )
40
LICZBA OBSERWACJI (frekwencja)
Graficzna prezentacja danych
Wykres kołowy (cyklogram)
Wykres kołowy (cyklogram)
niedostateczny; 3; 6%
niedostateczny; 3; 6%
bardzo dobry; 9; 19%
bardzo dobry; 9; 19%
dopuszczajÄ…cy; 8; 17%
dopuszczajÄ…cy; 8; 17%
dostateczny; 10; 21%
dostateczny; 10; 21%
dobry; 18; 38%
dobry; 18; 38%
OCENA
(Opracowanie własne )
41
Graficzna prezentacja danych
Wykres dwuwymiarowy 3W (przestrzenny)
Rozkład dwuwymiarowy
PYTANIE NR 18: PODGRUPA vs. DZIECI
(Opracowanie własne )
42
Graficzna prezentacja danych
Wykres ramkowy (pudełkowy)
Objaśnienia:
" GWR - górna wartość ramki, np.
średnia + 1.0*błąd standardowy lub
kwartyl górny (= percentyl 75%)
" DWR - dolna wartość ramki, np.
średnia  1.0*błąd standardowy lub
kwartyl dolny (= percentyl 25%)
" H = |GWR  DWR|
" współczynnik dla obserwacji
odstajÄ…cych wynosi 1,5
" współczynnik dla obserwacji
ekstremalnych wynosi 3,0
43
(za: STATISTICA)
Dziękuję za uwagę
44


Wyszukiwarka

Podobne podstrony:
2 Statystyka opisowa S
FOR Ostrzega GUS ogranicza dostep do statystyki pub
Statystyka opisowa
Statystyki opisowe
Statystyka opisowa rozwiÄ…zane kolowkia
Statystyka opisowa
4 Statystyka opisowa i rozkład normalny
Statystyka opisowa
STATYSTYKA OPISOWA
Statystyka opisowa i ekonomiczna Wykład 1
statystyka opisowa 11

więcej podobnych podstron