Wykład 5
Rozkład normalny i
prawdopodobieństwo
Krótkie powtórzenie
Badacze zajmujący się psychologią społeczną stwierdzili, że
im osoba bardziej atrakcyjna tym mniej zawiera
znajomości w czasie imprez.
1. Gdyby tę zależność obrazować za pomocą wykresu to
najbardziej adekwatny wydaje się wykres:
2. Gdyby tę zależność opisywać za pomocą współczynnika
korelacji to wartość tego współczynnika wynosiłaby
a. R=0,9 b. R=-0,9 c. R=0
wartości X
10
8
6
4
2
0
w
ar
to
śc
i Y
10
8
6
4
2
0
wartości X
4
2
0
-2
-4
-6
-8
-10
w
ar
to
śc
i Y
10
8
6
4
2
0
-2
-4
3.
Badano zależność między dochodami a poczuciem
szczęścia i uzyskano współczynnik r-Pearsona
wynoszący zero. Oznacza to, że:
A.
Nie ma związku między dochodami a poczuciem
szczęścia
B.
Nie ma związku liniowego między dochodami a
szczęściem
C.
Jest zależność między dochodami a poczuciem
szczęścia – im większe dochody tym mniejsze
poczucie szczęścia
4. Badacz na podstawie wydruku znajdującego się poniżej
stwierdził, że zależność między ilością cukierków a
wykonaniem zadania u dzieci jest idealna. Czy dobrze
odczytał wydruk?
Korelacje
1
,069*
1100
1100
,069*
1
1100
1100
Korelacja Pearsona
N
Korelacja Pearsona
N
cukierki
zadania
cukierki
zadania
*.
5.
Współczynnik korelacji między ilością zjedzonej trawy a ilością
mleka krów rasy holenderskiej wynosi r=0,7. Pomóżmy
naszemu rolnikowi – Panu Jarząbkowi zinterpretować wynik.
A. Krowy, które jedzą dużo trawy dają mało mleka.
B. Krowy, które jedzą dużo trawy dają dużo mleka.
C. Nie ma zależności między ilości trawy zjadanej a ilością mleka.
6. Pan Jarząbek próbował sam policzyć współczynnik korelacji i
uzyskał wartość r = -1,1. Co to oznacza?
A.
Silną ujemną zależność
B.
Silną dodatnią zależność
C.
Pomyłkę obliczeniową
Wykresy
Ludzie uwielbiają obrazki - jest to pierwotny
system komunikacyjny w odróżnieniu od
wtórnego – symbolicznego.
Komunikacja za pomocą symboli obrazkowych
jest bardzo rozpowszechniona
• Gdzie?
W windowsach (ikonki), znakach drogowych,
• Dlaczego?
Bo to szybki system komunikacji
Wykresy słupkowe 1
Na wykresie słupkowym można podsumować różne informacje. Na
poniższym wykresie na pionowej osi znajduje się średnia ze
zmiennej dochód dla każdej grupy wyodrębnionej ze względu na
płeć
Wykresy słupkowe 2
Na wykresie słupkowym można podsumować różne informacje. Na
poniższym wykresie na pionowej osi znajduje się średnia ze
zmiennej dochód dla każdej grupy wyodrębnionej ze względu na
płeć
Płaca początkowa
62
50
0,0
57
50
0,0
52
50
0,0
47
50
0,0
42
50
0,0
37
50
0,0
32
50
0,0
27
50
0,0
22
50
0,0
17
50
0,0
12
50
0,0
75
00
,0
Płaca początkowa
C
zę
st
o
ść
200
100
0
Odch.Std = 6967,98
Średnia = 26064,2
N = 1100,00
Histogram1
Zmienna jest ciągła
więc jest
pogrupowana. Tutaj
na 20 przedziałów
Histogram2
• A tutaj tylko
na 5
przedziałów
Płaca początkowa
60250,0
36250,0
12250,0
Płaca początkowa
C
zę
st
o
ść
800
600
400
200
0
Odch.Std = 6967,98
Średnia = 26064,2
N = 1100,00
Płaca początkowa
Płaca początkowa
C
zę
st
o
ść
100
80
60
40
20
0
Odch.Std = 6967,98
Średnia = 26064,2
N = 1100,00
Histogram3
A tutaj na 80
przedziałów
Rozkład częstości
Skośność
• Skośność określa symetryczność
bądź asymetryczność rozkładu
liczebności.
Rozkład
dodatnio, prawoskośny
najwięcej wyników poniżej
średniej
Taka sytuacja może mieć miejsce, gdy
zrobimy zbyt trudny test i prawie wszyscy
dostaną dwóje. Skośność przyjmuje
wtedy wartości powyżej zera.
Prawoskośny gdyż dłuższe ramię rozkładu
wyciąga się na prawo (albo kopiemy go
prawą nogą)
Rozkład
ujemnie, lewoskośny
najwięcej wyników powyżej
średniej
Dzieje się tak wtedy, gdy robimy zbyt prosty
test i wszyscy zaliczaja go na pięć. Skośność
przyjmuje wartości ujemne. Lewoskośny,
gdyż dłuższe ramię dzwonu sięga w lewo
(lub kopiemy go lewą nogą)
Moda > mediana >
średnia
Moda < mediana <
średnia
Wykres skrzynkowy
Linia w środku skrzynki to
mediana,
Skrzynkę tworzy pierwszy i
trzeci kwartyl
Kółka to przypadki odstające
Gwiazdki to dewianci
631
469
N =
Płeć
Mężczyzna
Kobieta
P
ła
ca
p
o
cz
ąt
ko
w
a
70000
60000
50000
40000
30000
20000
10000
0
327
630
915
459
765
568
276
1008
271
545
925
663
1007
967
Jak oszukiwać za pomocą
wykresów 1
Wniosek:
Kobiety są lepsze od
mężczyzn w testach
słownych a gorsze w
rotacji figur
U mężczyzn wzorzec jest
odwrotny
Jak oszukiwać za pomocą
wykresów 2
Mama Krysi zajrzała do jej dzienniczka
ucznia i zobaczyła następujące oceny
na koniec semestru: 4; 5; 3+; 3+; 3; 5;
6. Co mama może powiedzieć o
rozkładzie ocen swojej córki:
– rozkład ocen jest niesymetryczny
– rozkład ocen jest jednomodalny
– rozkład ocen jest dwumodalny
– rozkład ocen jest skośny dodatnio
Mama Józka zajrzała do jego
dzienniczka i zobaczyła następujące
oceny na koniec semestru: 4; 5; 3; 3;
3; 6. Co mama może powiedzieć
ocenach swego syna:
– średnia ocen jest wyższa od modalnej
– mediana jest większa od średniej
– rozkład ocen Jasia jest skośny ujemnie
– mediana jest równa modalnej
Szczególny przypadek
rozkładu częstości –
ROZKŁAD NORMALNY
Jeszcze trochę o zmienności zmiennych
• Immanentna właściwość zmiennej, np.
Wiek
Waga
Wzrost
•
Ale również
Pamięć (7+-2)
Czas reakcji
Jakich wartości jest najwięcej? Jakie są najczęściej
spotykane?
• Rozkład częstości wielu zmiennych, które
mierzą psychologowie ma symetryczny
kształt, przypominający dzwon
• Przybliżony do precyzyjnie opisanego
rozkładu matematycznego nazywanego
rozkładem normalnym, lub krzywą
normalną
• Alternatywna nazwa: krzywa dzwonowa lub
krzywa Gaussa (od nazwiska astronoma Karla
Friedricha Gaussa)
c
z
ę
s
to
ś
ć
w
y
s
tę
p
o
w
a
n
ia
d
a
n
e
j
w
a
rt
o
ś
c
i
z
m
ie
n
n
e
j
wartości
zmiennej
Rozkład normalny
Krzywa dzwonowa
Krzywa Gaussa
Tło historyczne
• DeMoivre (1667-1754) – przewidywanie
wyników w grach losowych
• Pierre-Simon Laplace (1749-1827) –
precyzyjny opis matematyczny
• Carl Francis Gauss (1777-1855) – bardziej
użytkowa forma
- Laplace i Gauss: rozkład błędów w
obserwacjach astronomicznych
• Adolph Quetelet (1796-1874) – pierwsze
zastosowanie rozkładu normalnego do
danych biologicznych i społecznych
- Średnia – ideał, wariancja – dewiacje
• Krańce rozkładu normalnego stykają się z
osią x w nieskończoności
• Ma kształt dzwonu, jest symetryczny wokół
średniej
• Jest funkcją średniej i odchylenia
standardowego
– Znając średnią i odchylenie standardowe
możemy wyznaczyć krzywą rozkładu normalnego
Charakterystyka rozkładu normalnego
Powinien być symetryczny wokół
średniej
Średnia,
mediana i
modalna są
sobie równe
Wszystkie są
symetryczne,
chociaż, nie są
takie same,
różnią się
rozproszeniem
wyników,
spiczatością
Rozład normalny może nie tylko być przesunięty w lewo
lub prawo ze względu na średnią, ale i rozciągnięty lub
ściśnięty przez odchylenie standardowe
Miarą zagęszczenia (koncentracji wyników wokół
miary centralnej – średniej) jest
kurtoza
Rozkład wysmukły (skoncentrowany)
–
leptokurtyczny
kurtoza przyjmuje wartości większe od
zera
większa gęstość (koncentracja)
wyników wokół wartości średnich niż w
rozkładzie normalnym
Rozkład spłaszczony (rozproszony) –
platykurtyczny
kurtoza przyjmuje wartości mniejsze od
zera
mniejsza gęstość (koncentracja)
wyników wokół wartości średnich niż w
rozkładzie normalnym
Za ciasno - źle, za luźno – też niedobrze
Jak staje się normalny?
• Istnieje dowód matematyczny na to,
że jeżeli jest wiele zdarzeń i
wszystkie wpływy na wartości
zmiennej zależnej mają charakter
losowy, otrzymamy precyzyjną
krzywą normalną
• Np., w teście zapamiętywania
Im więcej obserwacji, tym rozkład bardziej normalny
Lata nauki szkolnej
18,3
16,3
14,3
12,3
10,3
8,3
6,3
4,3
5
4
3
2
1
0
Odch.Std = 3,67
Średnia = 13,7
N = 20,00
N = 20
Lata nauki szkolnej
16
14
12
10
8
6
4
2
0
Odch.Std = 3,25
Średnia = 14,1
N = 60,00
N = 60
Lata nauki szkolnej
500
400
300
200
100
0
Odch.Std = 3,07
Średnia = 13,0
N = 1496,00
N = 1496
Jaki z niego pożytek?
• Z samego rozkładu normalnego
niewielki,
Ale
• Z wystandaryzowanego rozkładu
normalnego już znaczny
Standaryzacja - przypomnienie
• Ankieta asertywności Kuhla
Średnia=50 std. Dev=5
Jaś=55
• Ankieta asertywnosci Golemana
Średnia=20 std. Dev=4
Małgosia=32
Ile wynosi średnia po standaryzacji?
Ile wynosi odchylenie std po standaryzacji?
Czy wyniki Jasia i Oli są takie same?
Jaś Z=2 Ola Z=-2
Kto ma niższy wynik?
• Standardowy kształt krzywej umożliwia ustalenie
procenta przypadków poniżej lub powyżej dowolnego jej
punktu oraz procentów w zakresie pomiędzy dowolnymi
wartościami Z
• 50% przypadków
poniżej średniej -
rozkład symetryczny
• między średnią a
wynikiem odległym
o 1 odchylenie
standardowe
znajduje się 34%
przypadków – jest to
także punkt
przegięcia tej
krzywej: od tego
miejsca bardziej
odchyla się na
zewnątrz niż opada
w dół.
Przydatność regularności
• np. wyniki IQ – średni wynik IQ = 100, a odchylenie
standardowe 16
• jeśli 34% przypadków trafia między średnią a 1
odchylenie standardowe, to 34% ludzi ma IQ
pomiędzy 100 a 116,
• taki sam procent (34%) ma wynik pomiędzy 84 a
100
• czyli 68% ludzi ma wynik IQ od 84 do 116
• odwrotność: na podstawie procentów możemy
podać ilość odchyleń standardowych od średniej:
Jeśli wyniki testu mają rozkład normalny i dany wynik
znalazł się w górnych 2%, to osoba ta musi mieć wynik
przynajmniej 2 os wyższy od średniej