Jadłospis na dzisiaj:
Jadłospis na dzisiaj:
Dania z zeszłego tygodnia: powtórka
Danie główne : Statystyki
–
MTC
–
Miary dyspersji
–
Miary kwantylowe
–
Miary kształtu rozkładu
Dania z zeszłego tygodnia: powtórka
Jak SPSS zapisuje systemowy brak danych?
Do czego służy rozkład częstości?
Jakie są możliwe formy rozkładu częstości?
Jak obliczamy procent?
Informacja o procencie to informacja o ...?
Na jakie pytania możemy odpowiedzieć w oparciu
o rozkład częstości?
ZAROBKI
1
2.4
2.6
2.6
1
2.4
2.6
5.1
1
2.4
2.6
7.7
1
2.4
2.6
10.3
4
9.5
10.3
20.5
1
2.4
2.6
23.1
1
2.4
2.6
25.6
1
2.4
2.6
28.2
2
4.8
5.1
33.3
1
2.4
2.6
35.9
1
2.4
2.6
38.5
1
2.4
2.6
41.0
1
2.4
2.6
43.6
1
2.4
2.6
46.2
1
2.4
2.6
48.7
1
2.4
2.6
51.3
1
2.4
2.6
53.8
1
2.4
2.6
56.4
1
2.4
2.6
59.0
1
2.4
2.6
61.5
1
2.4
2.6
64.1
1
2.4
2.6
66.7
1
2.4
2.6
69.2
1
2.4
2.6
71.8
1
2.4
2.6
74.4
1
2.4
2.6
76.9
1
2.4
2.6
79.5
1
2.4
2.6
82.1
2
4.8
5.1
87.2
1
2.4
2.6
89.7
1
2.4
2.6
92.3
1
2.4
2.6
94.9
1
2.4
2.6
97.4
1
2.4
2.6
100.0
39
92.9
100.0
3
7.1
42
100.0
735.00
803.00
818.00
861.00
868.00
871.00
893.00
900.00
1000.00
1009.00
1057.00
1070.00
1126.00
1195.00
1196.00
1254.00
1285.00
1298.00
1338.00
1424.00
1425.00
1445.00
1506.00
1586.00
1747.00
1768.00
1824.00
1873.00
1884.00
2117.00
2139.00
2153.00
2181.00
2183.00
Ogółem
Ważne
999998.00
Braki danych
Ogółem
Częstość
Procent
Procent
ważnych
Procent
skumulowany
Jakie jest prawdopodobieństwo
spotkania osób zarabiających
od 1000 do 2000 zł?
Albo:
(19x2.6)+(2x5.1)=~0,59
albo:
87.2 – 28.2 =~0,59
zasada:
to co nas interesuje
minus to co nas
nieinteresuje
Częstości i Prawdopodobieństwo czego
chcieć więcej?
Częstości i prawdopodobieństwo są bardzo użyteczne
Czasami jednak potrzebujemy dodatkowych informacji
Np.:
–
Co wynika z faktu, że prawdopodobieństwo spotkania
osoby zarabiającej między 1000 a 2000 zł wynosi około
0,6 (czyli, że 60% osób mieści się w tym przedziale)?
–
jeżeli dostałem z egzaminu czwórkę, to informacja ta bez
kontekstu jest bezwartościowa
POTRZEBUJEMY JAKIŚ WARTOŚCI OPISOWYCH
- PODSUMOWUJĄCYCH
STATYSTYKI
Statystyki - są to charakterystyki danych, służące temu
aby opisywać dane zrozumiałym językiem.
Statystyki wykonuje się po to, żeby móc porównywać
ze sobą różne rozkłady częstości.
Można też porównywać na oko, ale czy to ma sens?
Często przy wielokategorialnych zmiennych (np. 50
kategorii i więcej), porównywanie „na wyczucie” jest
mało wiarygodne.
WIEK RESPONDENTA
94
90
86
82
78
74
70
66
62
58
54
50
46
42
38
34
30
26
22
18
Ś
re
d
n
ia
S
K
A
L
A
C
H
E
C
I
Z
Y
C
IA
11
10
9
8
7
6
5
4
3
Charakterystyki rozkładów:
Miary Tendencji Centralnej (MTC)
Miary procentowe - kwantylowe
Miary Rozproszenia – miary dyspersji
Miary kształtu rozkładu
STATYSTYKI - MTC
Miary Tendencji Centralnej– to nic innego jak
podawanie informacji o
przypadku typowym,
przeciętnym
– czymś co pozwoli scharakteryzować
dane – np.
przeciętna pensja
,
typowy student
(do
jakiej kategorii należy),
ile najczęściej ludzie jedzą
kulek lodów
?
Wyróżniamy trzy miary tendencji centralnej:
–
średnią
–
medianę
–
modalną
STATYSTYKI - MTC
Średnia – miara, która, jako jedyna z miar tendencji
centralnej, do obliczenia uwzględnia wszystkie
wartości!
Jest najczęściej używaną wartością w przy
charakteryzowaniu różnych danych.
Oblicza się ją wg wzoru:
(X)/N (czyli suma
wszystkich wartości dzielona przez ich liczbę).
STATYSTYKI - MTC
Mediana – taka kategoria zmiennej poniżej której
znajduje się 50% przypadków. Oblicza się ją w
sposób następujący:
–
porządkujemy (sortujemy) dane
–
numerujemy (rangujemy)
–
szukamy wartości, która znajduje się po środku
wypisanych wartości
Można też zastosować wzór: (N + 1)/2 – gdzie N
oznacza liczbę obserwacji
STATYSTYKI - MTC
Przykład 1
–
Dla podanego rozkładu częstości rzutów kostką
policz Medianę.
5 3 2 6 9 10 4
co robić?
Wartością odpowiadającą Me jest ...
A co jeśli: 5 3 2 6 9 10 4 11
Wartością odpowiadającą Me jest ...
STATYSTYKI - MTC
Kwantyle (ntyle) – miary procentowe
mediana należy do zbioru miar opartych na rozkładach
procentach tzw. kwantyli (ntyli lub centyli).
Mediana to połowa zbioru wartości. Kolejne znane
centyle to:
Kwartyle
Percentyle
Decyle
STATYSTYKI - MTC
Modalna– wartość najczęściej występująca – np. jaki
był najczęściej wybierany kolor?
Żeby podać modę (modalną) wystarczy spojrzeć na
częstość
Może być kilka modalnych – rozkłady wielomodalne
Jeżeli dwie najczęstsze wartości występują koło siebie
np. 1
2 2 3 3
4 (wartość 2 i 3) to za modalną
podajemy średnią tych dwu wartości (2,5).
STATYSTYKI - MTC
Jeżeli wartości modalne nie sąsiadują ze sobą to
podajemy dwie wartości – wówczas nie możemy
mówić o modalnej, że wyraża tendencję centralną.
Może nie być wartości najczęstszej – rozkład
prostokątny
STATYSTYKI - MTC
Zadanie 1
–
Dla podanego rozkładu częstości rzutów kostką
policz MTC.
1 - 3
2 - 1
3 - 4
4 - 2
5 - 2
6 - 1
STATYSTYKI - MTC
Kiedy jaka MTC?
–
Najlepszą miarą TC jest średnia
–
Średnia jest zależna od wartości ekstremalnych
(takie wart. “przyciągają” średnią do siebie)
–
Kiedy rozkład jest niesymetryczny (np. zarobki,
albo poczucie szczęścia) to lepsza od średniej jest
MEDIANA
STATYSTYKI - MTC
Jak się liczy MTC w SPSSie?
MTC to część rozkładu częstości, a zatem...
Analiza > opis statystyczny > częstości >
STATYSTYKI
\\wykladowca\all99.sav
Dla której zmiennej ze zbioru można policzyć MTC?
Które MTC się tutaj nadają – które mają sens?
mtc
STATYSTYKI - Rozproszenie
Czasami MTC są niewystarczające do
scharakteryzowania określonego rozkładu
Ilustruje to poniższy przykład dwóch pomiarów
temperatur:
●
15 16 16 17
10 16 16 22
obydwa rozkłady mają tę samą:
–
średnią (M) = 16,
–
medianę (Me) = 16
–
modalną (Mo) = 16
–
ALE...?
STATYSTYKI - Rozproszenie
nie są takie same:
Różnią się rozproszeniem wartości.
Miary rozproszenia:
–
Rozstęp
–
Wariancja
–
Odchylenie standardowe
STATYSTYKI - Rozproszenie
Rozstęp - różnica między wartością największą (Maks.)
a najmniejszą (Min)
–
Rozstęp jest całkowicie zależny od pomiarów
ekstremalnych.
–
Im większy jest rozstęp tym większa zmienność
wyników (czy zawsze?).
●
10 18 19 35 40 50
10 12 12 13 14 50
STATYSTYKI - Rozproszenie
Wariancja i Odchylenie standardowe to dwie
najbardziej popularne miary używane w statystyce.
Założenia i sposób obliczania:
–
Im większa zmienność wyników, tym bardziej
oddalone są one od średniej.
Przykład:
–
Pomiar wzrostu:
160 170 180
150 170 190
STATYSTYKI - Rozproszenie
odchylenie wyników od średniej (x- M)
–
[
(x- M) = 0]
–
[
(x- M)2]
–
W statystyce opieramy się na wartościach
przeciętnych
(x- M)2/N – kiedy obliczamy wariancję w populacji
(
2)
(x- M)2/(N – 1) – kiedy obliczamy wariancję w próbie
(s2)
Dzięki dzieleniu przez mniejszą liczbę (N – 1),
zmniejszamy prawdopodobieństwo popełnienia błędu.
Wariancja, jest wyrażona w jednostkach kwadratowych
–
Wariancja z wagi = 100 to 100 kg
2
–
Wariancja wzrostu = 36 to 36cm
2
Pierwiastek z wariancji, daje nam trzecią miarę
rozproszenia – odchylenie standardowe.
STATYSTYKI - Rozproszenie
STATYSTYKI - rozproszenie
Jak się liczy Rozproszenie w SPSSie?
Rozproszenie jak i MTC to część rozkładu częstości, a
zatem...
Analiza > opis statystyczny > częstości > STATYSTYKI
Co się zmienia w naszej wiedzy o rozkładzie zarobków?
Notatka
–
Jak uzyskać miary: tendencji centralnej, rozproszenia i
kwantyle w spss (ścieżka dostępu)?
–
Czym się różnią od siebie MTC i miary rozproszenia?
–
Jaki jest mianownik we wzorze na wariancję w próbie?
–
Jaki jest stosunek wariancji do odchylenia standardowego?
–
Kiedy nie należy korzystać ze średniej?
GDZIE ZNALEŹĆ INFO?
“Wieczorkowska” s. 51 – 74 (rozdział 2 – rozkład
częstości)
„Pierwsze kroki w teorii” z magazynu lub strony
Dla chętnych materiały od Ireny z www pt: „Kwartyle”
Praca domowa
–
Ze strony www.qstat.prv.pl pobierz plik szablon.sav.
–
w pliku na podstawie wpisanej osoby nr 1:
●
wprowadź dane z ankiet
●
zadeklaruj wartości braków danych,
●
dla zmiennej “ulubiona kuchnia” wprowadź maksymalną
szerokość = 20
Praca domowa
Korzystając z pliku all99.sav zrób rozkład
częstości zmiennej TOTUNEMP
–
Zadeklaruj odpowiednie wartości jako braki danych
–
Jakie jest prawdopodobieństwo spotkania osób
niepracujących:
●
12 mcy
●
Między 10 a 24 mce ( 9 < X < 25)
–
Jaka jest liczba osób niepracujących:
●
Między 10 a 24 mce ( 9 < X < 25)
●
Między 2 a 120 mcy ( 1 < X < 121)