Rozkład zmiennej losowej

• Prawdopodobieństwo
• Rozkład normalny
• Przedział ufności

PODSTAWY

STATYSTYKI OPISOWEJ

Parametry

opisowe

zbiorowoś

statystycz

nej

charakterystyki

liczbowe, dające

sumaryczny i

skrócony opis

zbiorowości

statystycznej.

Jeżeli na n osób m jest liczbą kobiet, to możemy
powiedzieć, że prawdopodobieństwo że x jest
kobietą, co zapiszemy P(x=kobieta) wynosi
m/n; 0<=P<=1

Rozkład normalny
W statystyce istnieje wiele rozkładów

teoretycznych. Najczęściej
występującym to rozkład normalny:

P(-<x<)=1

Rozkład normalny określony przez
funkcję gęstości:

)

(

)

(

















gdzie:
e,  - stałe matematyczne
 - średnia w populacji;
 - odchylenie standardowe w populacji

Zmienna losowa ma rozkład normalny o
parametrach





, co piszemy N(





Parametr



wyznacza środek symetrii

wykresu, a parametr



decyduje o jego

wysokości

Reguła 3 sigm



)

f(x)

0,0

0,1

0,2

0,3

0,4

0,5

-3

-2

-1

Wykres funkcji gęstości rozkładu normalnego dla =0

i =1

Jeżeli zmienna losowa X ma rozkład normalny N(



,σ) to:



- σ<x<



+ σ) =0, 6827 - 68,27 % wyników jest w przedziale (



-σ,



+ σ)



-2σ<x<



+2σ) =0, 9545 - 95,45 % wyników jest w przedziale (



-2σ,



+2σ)



- 3σ<x<



+ 3σ) =0, 9973 - 99,73 % wyników jest w przedziale (



-3σ,



+ 3σ)

Estymatory punktowe

średniej



szereg
szczegółowy





szereg rozdzielczy punktowy





szereg rozdzielczy

przedziałach

klasowych







Zmierzono wzrost 100 siedmioletnich dzieci.
Obliczona średnia x=35 cm i odchylenie standardowe

s=5 cm.
Przy założeniu że cecha ta ma rozkład normalny i
korzystając z prawa „trzech sigm” można wyliczyć
odpowiednie przedziały:

P(35-5<x< 35+5) =0, 6827  68,27 % wyników jest w

przedziale (30, 40),
P(35-10<x< 35+10) =0, 9545  95,45 % wyników jest w

przedziale (25, 45),
P(35-15<x< 35+15) =0, 9973  99,73 % wyników jest w

przedziale (20, 50).

Wiele metod statystycznych stosowanych do analizy
danych wymaga założeń normalności rozkładu badanej
cechy.

Przykład

ZADANIA PARAMETRÓW

OPISOWYCH

Określenie:
• przeciętnego poziomu zmiennych opisujących

analizowane cechy statystyczne przez wybór

pojedynczej wartości, tj. miary przeciętnej

(położenia), reprezentującej wszystkie

wartości szeregu,

• zmienności (dyspersji, rozproszenia) wartości

zmiennych w obserwowanej zbiorowości,

• miary asymetrii tj. w jakim stopniu badany

szereg odbiega od idealnej symetrii,

• miary koncentracji tj. stopnia skupienia

poszczególnych jednostek wokół średniej.

PODSTAWOWE RÓŻNICE

MIĘDZY ZBIOROWOŚCIAMI

• Rozkłady mogą się różnić:
• położeniem, tzn. wartością zmiennej,

w pobliżu której skupiają się obserwacje,

• obserwacje mogą się skupiać wokół tej

samej wartości, lecz różnić obszarem
zmienności,

• rozkłady mogą różnić się jednocześnie

co do obu tych charakterystyk
liczbowych.

KLASYFIKACJA MIAR

ŚREDNICH

ś re d n ia a ry tm e ty c z n a

ś re d n ia h a rm o n ic z n a

ś re d n ia g e o m e try c z n a

ś re d n ia k w a d ra to w a

k la s y c z n e

d o m in a n ta , m o d a ln a

k w a rty le z m e d ia n ą

k w in ty le

d e c y le

c e n tyle

k w a n ty le

p o z yc y jn e

m ia ry ś re d n ie

•

xi - wartości zmiennej, i-ty wariant badanej

cechy,

•

ni - liczebność grup reprezentujących i-ty

przedział klasowy

•

(tzw. wagi),

•

n - liczba jednostek objętych badaniem

•

k - liczba wyróżnionych wariantów badanej

cechy statystycznej,

•

liczba przedziałów klasowych,

•

- środek przedziału klasowego.

OZNACZENIA W OBLICZENIACH ŚREDNIEJ

ARYTMETYCZNEJ







Weryfikacja i testy statystyczne

• H0: hipoteza zerowa (1= 2)

• H1: hipoteza alternatywna (1 2,)

• W oparciu o wynik obliczonego testu z

danych z próby możemy H0: odrzucić lub

nie.

• Nie wiemy czy H0: zachodzi w populacji.

• Zatem można popełnić:

• błąd I rodzaju jeśli odrzucimy H0 jeśli

jest prawdziwa w populacji

• błąd II rodzaju jeśli nie odrzucimy H0

wtedy kiedy jest ona fałszywa w populacji

• W naukach medycznych przyjmujemy

poziom istotności  = 0,05

Błędy przy wnioskowaniu

 = prawdopodobieństwo popełnienia

błędu I rodzaju

= prawdopodobieństwo popełnienia błędu

II rodzaju

Populacja

jest

prawdziw

jest fałszywa

Czyli prawdziwa

jest

Decyzj
a z
wynikó
w
oblicze
ń

próby

Przyjęcie

1- 

Błąd II rodzaju



Odrzucenie

Błąd I

rodzaju



1- 

Sformułować hipotezę zerową H

i alternatywną

oraz dobrać odpowiedni test do weryfikacji

Wykonać obliczenia i wybrać potrzebne

wyniki, przede wszystkim wartość p określającą

prawdopodobieństwo

popełnienia

błędu

odrzucenia H

, gdy jest prawdziwa w populacji

(błąd I rodzaju).

Przyjąć poziom istotności , ale mniejszy niż

lub równy 0,05.

Podjąć decyzję o hipotezie zerowej H

jeżeli obliczona wartość p ≤ , odrzucamy H

przyjmujemy H

jeżeli obliczona wartość p > , to brak podstaw

do odrzucenia H

• Wniosek w populacji z obliczeń w grupie

Schemat weryfikacji

hipotez

Test t-Studenta

Założenie:

Cecha X ma rozkład normalny w obu

populacjach o jednorodnych wariancjach, czyli N(



)



)

leptokurtyczny

platokurtyczny

normalny

Test t-Studenta dla dwóch średnich

• H0: 1= 2 hipoteza zerowa

• H1: 1 2, hipoteza alternatywna

• Gdzie

• dane, średnie i liczebności w próbach

• W pakiecie statystycznym wyliczamy t i wartość p równą

prawdopodobieństwu popełnienia błędu I rodzaju

(odrzucenie prawdziwej H0 )

• Wartość p porównujemy z przyjętym poziomem istotności 

• Jeżeli p<  odrzucamy H0 i stwierdzamy istotną różnicę

między średnimi

• Przykłady w STATISTICA

)

(

)

(

)

(

















Przykład

H0: średni wzrost mężczyzn= średni

wzrost kobiet w populacji

H0: średni wzrost mężczyzn średni

wzrost kobiet w populacji

n Średnia Odch.std. n Średnia Odch.std.

WZROST (m) 65 1,72

0,05 81 1,67

0,05 6,25 0,000 1,22 0,40

Cecha

Równość średnich

jednorodność

wariancji

Mężczyźni

Kobiety

p iloraz F p

Analiza wariancji

kilka populacji

• Dodatkowym założeniem które powinno być

spełnione to jednorodność wariancji. Należy

więc zweryfikować hipotezę zerową Ho:

21=. . . =2k kontra alternatywnej H1:

wariancje są niejednorodne (test Levene’a)

• ANOVA

• Hipoteza zerowa Ho: 1=. . . =k

• H1: średnie są różne pomiędzy sobą.

• Jeżeli stwierdza się istotność różnic pomiędzy

średnimi, to należy znaleźć pomiędzy którymi

średnimi te różnice są istotne (test Scheffego)

Tablica z wynikami analizy

wariancji

(

)







G d z ie: k – lic z b a g r u p ; n – lic z b a w sz y stk ic h o só b z e w sz y stk ic h g r u p

(

) ;

(

)

i j

S S











 

w y n ik c e c h y u i- tej o so b y w j- tej g r u p ie , n

– lic z b a o só b w j- te j g r u p ie

 x

– śr e d n ia w j - tej g r u p ie ,  x – śr e d n ia z w sz y stk ic h p o m ia r ó w

Jeżeli wartość p <0,05 to są różnice między średnimi, należy

znaleźć między którymi (test Scheffe’go)

Przykład ANOVA



chirurgia

39,1

2,8

interna

53,9

3,4

ginekologia

58,4

3,6

oddział

wiek

Test Levene'a

wiek

1,61

0,21

Źródło

SS Stopnie V

oddział

4265,4

2 2132,7 198,00 0,00

Błąd

646,3

10,8

Bieżący efekt: F(2, 60)=198,00, p=0,0000

Pionowe słupki oznaczają 0,95 przedziały ufności

chirurgia

interna

ginekologia

oddział

Test Manna-Whitneya

• Stosowany do oceny różnic jednej cechy pomiędzy dwoma

populacjami, gdy nie spełnione założenia przy teście t_Studenta

Dane: x

, . . . x

z 1-szej populacji; x

, . . . x

z 2-giej populacji.

Porządkujemy obie próby razem i nadajemy im rangi oddzielnie.

Wartość tego testu wyliczana jest z wzoru:

(

n n

U nm









gdzie: n, m liczebności grup, R

jest sumą rang w 1-szej grupie.

Jeżeli p<  stwierdzamy istotną różnicę

analizowanej cechy między populacjami

Przykład

U kobiet tętno w

cukrzycy

est U Manna-Whitneya (bazaStomat)

Wzg.zmienn. Cukrzyca

zmienna

Sum.rang

NIE

Sum.rang

TAK

U poziom p

Tętno

2470

1717

771

0,038

Histogram: Tętno

100

110

X <= Granica klasy

Wykres ramka-wąsy dla grup

Zmienna: Tętno

Mediana
25%-75%
Min.-Maks.

NIE

TAK

Cukrzyca

100

110

120

Tę

Test Chi2

Dane w tabeli czteropolowej:

Cechy

: cechy X, Y są niezależne

: cechy X, Y są zależne

(

)(

)

( )( )( )( )

cabcd

acbdabcd





   

Jeżeli wartość p <0,05 to cechy X, Y są zależne

Przykład.Cukrzyca i

płeć

abela liczności (bazaStomat)

abela:Płeć(2) x Cukrzyca(2)

Płeć

Cukrzyca

NIE

Cukrzyca

TAK

Wiersz

Razem

Ogół grp

101

71 172

Płeć x Cukrzyca

Statystyki:

Chi-kwadr

Chi kwadrat Pearso

2,844759

p=,09168

Roz kład dwuwymiarowy: Płeć x Cukrz yca

Korelacja prostoliniowa

Pearsona

: cechy X, Y są niezależne

: cechy X, Y są zależne

Dane: x

, . . . x

wyniki 1-szej cechy; y

, . . . y

2-giej cechy

w n-elementowej próbie.

(

)

(

)

(

)

(

)

x xy y

x x

y y











Jeżeli wartość p <0,05 to cechy X, Y są zależne

Regresja prostoliniowa

y=ax+b

Dane: x

, . . . x

wyniki 1-szej cechy; y

, . . . y

2-giej cechy

w n-elementowej próbie.

;

(

)(

)

(

)

x x y y

b y ax

x x







 





• Współczynniki regresji a i b liczymy wtedy jeżeli x i

y są skorelowane

Przykład: waga i wzrost

Korelacje

Zmienna

WAGA (kg)

WZROST (m)

r=0,4340

p=,000

WZROST (m) vs. WAGA (kg)

WAGA (kg) = -48,32 + 75,884 * WZROST (m)

Korelacja: r = ,43400

1,50

1,55

1,60

1,65

1,70

1,75

1,80

1,85

1,90

WZ ROST (m)

100

110

(

)

Regresja logistyczna

• W naukach medycznych mamy często

sytuacje, gdy zmienna zależna jest typu
dychotomicznego. Przykładowo może to być
cecha występowanie choroby z poziomami:
1 - tak, 2 - nie.

• Szukamy wówczas powiązania, podobnego

do funkcji regresji, pomiędzy
prawdopodobieństwem wystąpienia choroby
grupą zmiennych niezależnych, takich jak
np: wiek, płeć lub nawyki palenia.

Tabela

Narażenie

Nowotwór płuc

wystąpił

nie wystąpił

Palący

243

Niepalący

240

Propozycja doboru testu statystycznego w zależności

od rodzaju cechy i typu analizy

Rodzaj cechy

Ilościowa

Spełnione założenia stosowania testu

parametrycznego

Typ analizy

Tak

Testy parametryczne

Nie

Testy

nieparametryczne

Jakościowa

1 cecha

grupy

Test t-Studenta

dla prób

niezależnych

Test Manna-

Whitney’a

Wilcoxona

Test



1 cecha

Więcej

niż 2

grupy

Analiza

wariancji

ANOVA

Test

Kruskala-

Wallisa

Test



1 cecha

mierzona

2 razy

grupa

Test t-Studenta

dla prób

zależnych

Test rang

Wilcoxona

dla prób

zależnych

Test 

lub test McNemary

2 cechy

grupa

Współczynnik

korelacji

prostoliniowej

Pearsona

Współczynnik

korelacji rang

Spearmana

Test



i współczynniki

siły związku

Document Outline