background image

 

 

Postawy statystyki vol. 2

background image

 

 

Kilka znaczeń

• Populacja – dowolnie określony zespół 

przedmiotów, obserwacji, osób itp.

• Próba – dowolny podzespół pobrany z 

populacji

• Parametr – właściwość opisująca 

populację

• Estymator – właściwość opisująca 

próbę

background image

 

 

• Na podstawie pomiarów pochodzących z 

próby oblicza się estymator, który 

odpowiada wartości w populacji 

(parametrowi).

• W większości populacji parametry są 

nieznane i musza być oszacowane na 

podstawie danych z próby.

• Statystyka próby – zestaw metod 

statystycznych służących do formułowania 

twierdzeń na temat parametrów populacji 

na podstawie statystyk z próby.

background image

 

 

Metody pobierania prób

• Wnioskowanie statystyczne - 

indukcyjne.

• Aby na podstawie próby móc wyciągać 

wnioski na temat populacji - próba 

musi być losowa.

• Próba pobrana losowo z populacji – tzn. 

ze każdy element populacji może się w 

niej znaleźć z takim samym 

prawdopodobieństwem. Np. losowanie 

„z kapelusza”

background image

 

 

Błędy próby

background image

 

 

Przykład

• Np. wiemy ze w populacji studentów 

(N = 1000) średnia w teście IQ 

wynosi 120. W wylosowanej próbie 

100 studentów  średnia = 136.

• Zatem: 120 – 136 = - 16

• Często nie znamy wartości w 

populacji. Jak w takiej sytuacji 

oszacować wielkość błędu próby?

background image

 

 

Przykład

• Np. wielokrotnie powtarzając pomiar.
• Kolejne pomiary długości stołu. Dwie 

procedury:

• A: 55.95, 56.23, 56.25, 56.41, 56.54
• B: 54.80, 55.31, 56.44, 56.52, 57.29
• Która procedura obarczona jest 

większym błędem i dlaczego?

background image

 

 

• Druga.

• W przykładzie μ była stała, a średnia 

zmieniała się w zależności od próby.

• Można by zatem użyć jakiejś miary 

zmienności, aby opisać teoretyczny rozkład 
średnich z próby.

• Dobra miara jest odchylenie standardowe.
• Na tej mierze zbudowany jest błąd 

standardowy (błąd próby).

Przykład

background image

 

 

Błąd standardowy

• Błąd standarowy danej statystyki (miary, 

np. średniej) to odchylenie standardowe 
rozkładu tej wartości z prób. Błąd 
standardowy
 inaczej nazywany jest 
odchyleniem standardowym teoretycznego 
rozkładu z próby. Sama idea błędu 
standardowego jest bardzo teoretyczna, aby 
lepiej zrozumieć tę miarę należy odnieść ją 
do teorii estymacji parametrów. Dla lepszego 
zobrazowania opisanego zjawiska posłużymy 
się przykładem. 

background image

 

 

Przykład

• Badacz chciał sprawdzić jaki jest średni wzrost w populacji mężczyzn w wieku 

25-30 lat. Aby uzyskać dokładną wartość średniego wzrostu w populacji badacz 

musiałby przebadać wszystkich mężczyzn w tym wieku. Z praktycznego 

punktu widzenia jest to raczej niemożliwe i nieopłacalne. Badacz chciał 

estymować prawdziwą wartość średniego wzrostu w tej populacji na podstawie 

próby 100 mężczyzn. Stwierdził, że średni wzrost w jego próbie wyniósł 178,9 

cm. Czy jest to faktyczna średnia wartość wzrostu w całej populacji? 

Najprawdopodobniej nie! Jest to wartość zbliżona do faktycznej wartości, ale 

najprawdopodobniej nie jest ona identyczna. Średnia z próby (z jednego 

badania) stanowi estymator (przybliżenie) wartości prawdziwej w populacji. 

Jeżeli badacz przeprowadziłby wielokrotnie takie badanie, dla każdej z prób 

(dla każdego z badania) otrzymałby jakiś średni wynik. Za każdym razem ten 

wynik byłby "przybliżeniem" prawdziwej średniej wartości wzrostu. Błąd 

standardowy jest miarą zróżnicowania tych średnich z prób, z kolejnych badań, 

czyli na ile nasz estymowany (w populacji) średni wynik zmienia się w 

poszczególnych próbach.

Im błąd standardowy jest mniejszy tym dokładniej przewidywany jest dany 

parametr, miara, statystyka. Oczywiście, błąd standardowy uzależniony jest od 

wielkości zróżnicowania (wariancji) danej cechy. Jeżeli nasza cecha 

charakteryzuje się dużą zmiennością (wariancją) tym nasze oszacowanie 

prawdziwej wartości będzie mniej dokładne. 

background image

 

 

• Problem z tym, że w praktyce zazwyczaj nie znamy jaka jest 

zmienność w populacji dla danej cechy oraz nie mamy do 

czynienia z wieloma próbami badającymi określone zjawisko, 

lecz najczęściej z jedną próbą, z badaniem, które właśnie 

przeprowadzamy. W tym celu również musimy estymować 

wartość błędu standardowego danego parametru. 

Wykorzystując odpowiednie wzory statystyczne możemy 

oszacować prawdziwą wartość błędu standardowego dla 

danej cechy w badanej populacji. 

W powyżej zamieszczonym przykładzie omówiliśmy błąd 

standardowy średniej, jednakże błąd standardowy dotyczy 

również innych parametrów, np. dla mediany, wariancji, 

współczynnika korelacji. Błąd standardowy określa nam to 

na ile dany parametr może się zmieniać w różnych 

badaniach tego samego zjawiska.

W przypadku błędu standardowego dla średniej w celu 

oszacowania wartości błędy standardowego korzystamy ze 

wzoru: 

SE (standard error) = s/√N , gdzie:

s oznacza odchylenie standardowe 

N oznacza liczbę obserwacji 

background image

 

 

Zadanie

• Wywnioskuj, jaka jest zależność 

między liczebnością a SE, oraz SE a 
oszacowaniem badanej właściwości

background image

 

 

Zadanie

• 100 studentów rozwiazało test 

mierzacy nasilenie neurotyczności. 
Srednia w tej grupie wyniosła 20 a 
odchylenie standardowe 4. 

• Oblicz bład standardowy sredniej.

background image

 

 

Centralne twierdzenie 

graniczne

• W miarę wzrostu liczności próby (dla 

prób użytych do wyznaczenia rozkładu 
statystyki z próby) rozkład statystyki z 
próby upodabnia się coraz bardziej do 
rozkładu normalnego. 

• Dla n=30 rozkład jest "nieomal" 

doskonale zgodny z normalnym (jak 
widzimy dopasowany rozkład 
normalny jest bardzo bliski rozkładowi 
statystyki z próby).

background image

 

 

GIF animowany tutaj: 

http://www.statsoft.pl/textbook/graphics/an_sampl.gif

background image

 

 

Na podstawie danych z próby szacuje się 
wiele wartości w populacji,np.:
- jakie jest poparcie partii politycznej X;
- jaki odsetek populacji stanowia osoby z 
depresją

Problem: dlaczego rózne sondaze podaja 
rózne wyniki?

W populacji istnieje pewna zmienność 
(zróżnicowanie) wartości mierzonej zmiennej, 
które wpływa na błąd pomiaru.

Jak mówiliśmy tydzień temu, czerpiąc różne 
próbki można dojść do różnych wniosków

background image

 

 

Rodzaje oszacowań

• Oszacowanie punktowe – otrzymane 

bezpośrednio z obliczeń, np. średni wynik 

z testu wiedzy w grupie studentów = 

26,88.

–  Nie dostarcza ono informacji o błędzie jakim 

jest obciążony estymator.

• Oszacowanie przedziałowe – 

uwzględniając błąd, twierdzimy z pewnym 

stopniem ufności, ze wartość populacji 

znajduje się w obrębie przedziału.

– Np. średnia z testu wiedzy mieści się w 

granicach 24,92 a 28,84 przedział ufności.

background image

 

 

Właściwości oszacowań

• Nie obciążone– gdy estymator w 

kolejnych pobieranych próbach nie 
odbiega systematycznie od parametru. 
Czyli nie jest obciążony stałym błędem.

• Inaczej: estymator równy jest wartości 

oczekiwanej.

• Wartość oczekiwana – uzyskana po 

uśrednieniu wartości w nieskończenie 
wielkiej liczbie powtarzanych prób 
losowych.

background image

 

 

Właściwości oszacowań

• Spójne – jeśli oszacowanie to coraz 

bardziej zbliża się do parametru populacji 
w miarę wzrostu liczebności próby.

• Efektywne – jeżeli mamy dwie metody 

szacowania tego samego parametru 
populacji, to efektywniejsza jest metoda o 
mniejszej wariancji (np. średnia i 
mediana)?

• Wystarczające – gdy jest bardziej 

efektywne niż inne metody.

background image

 

 

Przedział ufności

• Przedział ufności dla danej miary 

statystycznej (np. średniej) informuje nas "na 
ile możemy ufać danej wartości" - jak sama 
nazwa wskazuje. Przedział ufności pokazuje 
nam że poszukiwana przez nas rzeczywista 
wartość mieści się w pewnym przedziale z 
założonym prawdopodobieństwem. Przedział 
ufności jest ściśle związany z teorią estymacji 
w statystyce. 

background image

 

 

Przedział ufności

• Aby wyznaczyć jaki jest średni poziom danej cechy w 

populacji przeprowadzamy badania na pewnej próbie. 

Badanie dostarcza nam naszego poszukiwanego wyniku 

średniego. Na podstawie tego badania próby chcemy 

określić jaka jest rzeczywista średnia wartość danej 

cechy w całej populacji, nie tylko w próbie. 

• Wyniki naszego badania dostarczają nam średni poziom 

danej cechy, ale nie możemy na jego podstawie 

wywnioskować, że w całej populacji jest DOKŁADNIE 

taka sama średnia wartość tej cechy. Wartość ta jest 

zbliżona do tej, wyliczonej z badania próby. 

• Na ile jest ona zbliżona, nie wiadomo do końca, 

jednakże można wyznaczyć tzw. przedziały ufności 

dla poszukiwanej wartości. Na podstawie badania próby 

możemy wyznaczyć przedziały, w których z założonym 

prawdopodobieństwem (np. 95%) mieści się prawdziwa 

wartość poszukiwanej miary. 

background image

 

 

Przykład

Badacz chciał sprawdzić jaki jest średni poziom 

inteligencji wśród polskich studentów. 
Przeprowadził badanie na pewnej próbie 
polskich studentów. W jego badaniu średni 
poziom inteligencji wyniósł 120. Za pomocą 
obliczeń statystycznych wykazał, że z 95% 
prawdopodobieństwem prawdziwy średni 
poziom inteligencji polskich studentów 
mieści się w granicach 112-128.

background image

 

 

Przykład

Badacz na podstawie badania (jeżeli nie bada całej 

populacji lecz tylko jej wycinek) nie może podać 

dokładnej wartości danej cechy w populacji. Aby 

mógł to zrobić musiałby przebadać wszystkich 

studentów (ale statystyka umożliwia nam 

wnioskowanie statystyczne na temat populacji na 

podstawie jedynie próby tej populacji). Badacz może 

natomiast z pewnym prawdopodobieństwem, np. 

90%, 95%, 99% podać przedziały (nasze przedziały 

ufności), w których mieści się (znajduje się) 

poszukiwana przez badacza wartość. Jego badania 

wykazały, że prawdziwy poziom inteligencji polskich 

studentów mieści się pomiędzy 112 i 128 pkt. 

background image

 

 

Przykład

Oczywiście, założone prawdopodobieństwo może być 

dla nas nie wystarczające, 95% oznacza, że mamy 

5% szans na pomylenie się w naszych badaniach (5% 

szans na to, że prawdziwa wartość średnia znajduje 

się poza wyznaczonym przedziałem). Jeżeli 

zwiększymy prawdopodobieństwo, np interesowałby 

nas poziom 99% to wyznaczony zakres ulegnie 

rozszerzeniu i na odwrót, jeżeli zmniejszymy 

prawdopodobieństwo, np. 90%, to zakres ulegnie 

zmniejszeniu. Kolejną wartością wpływającą na 

przedział ufności jest liczebność próby. Im nasze 

badanie jest przeprowadzane na większej liczbie 

osób, tym przedział ufności maleje. Jest to oczywiste 

z racji faktu, że większa liczba przebadanych osób to 

większa część badanej populacji, a im więcej wiemy 

tym mniej się mylimy (oczywiste).

background image

 

 

• Podsumowując, przedział ufności dostarcza 

nam zakresu (wartość od do), w którym z 
założonym prawdopodobieństwem 
znajduje się nasza poszukiwana wartość w 
populacji (w rzeczywistości, nie w 
jednostkowym badaniu próby). 

• Znając błąd standardowy można zbudować 

przedział w którym znajduje się średnia

background image

 

 

Przedział ufności

• Znając błąd standardowy można 

zbudować przedział w którym 
znajduje się średnia.

• Np. średnia z testu wiedzy mieści się 

w granicach 24,92 a 28,84 – to tzw. 
przedział ufności.

• Błąd wyznacza dolna i górna granice 

przedziału ufności.

background image

 

 

Przedział ufności dla średnich z 

prób dużych

• Rozkład zbliża się coraz bardziej do 

normalnego wraz ze wzrostem liczebności 

próby.

• Dlatego tez dla dużych prób stosuje się 

rozkład normalny w celu oszacowania wyniku.

• Do obliczenia błędu standardowego stosuje się 

odchylenie rozkładu z próby średnich, czyli:

SE (standard error) = s/√N , gdzie:

s oznacza odchylenie standardowe 

N oznacza liczbę obserwacji 

background image

 

 

Przedział ufności dla średnich z 

prób dużych

• Chcąc oszacować różnice miedzy średnia w próbie 

a średnia w populacji, czyli:

μ

• Musimy w oszacowanie uwzględnić błąd 

standardowy, zatem:

(X−μ) / SE

• Rozkład z próby średniej będzie normalny 

(zgodnie z centralnym twierdzeniem granicznym) 

o średniej μ. Zatem równanie przedstawia wynik 

standardowy dla średniej z próby w odniesieniu 

do rozkładu z próby średniej:

z = (X−μ) / SE

background image

 

 

Przedział ufności dla średnich z 

prób dużych

• Rozkład z próby średniej będzie normalny 

(zgodnie z centralnym twierdzeniem granicznym) 

o średniej μ. Zatem równanie przedstawia wynik 

standardowy dla średniej z próby w odniesieniu 

do rozkładu z próby średniej:

• z = ( −μ) / SE

• +-1,96 odchylenia standardowego mieści 95% 

powierzchni rozkładu

• normalnego

• +-2,58 odchylenia standardowego mieści 99% 

powierzchni

background image

 

 

Przedział ufności

• Przy założeniu normalności z, istnieje 95% 

prawdopodobieństwo, ze prawdziwe jest 

następujące twierdzenie:
-1,96 ≤ z = (  −μ)/SE ≥ 1,96

• Aby przekształcić te nierówność, tak aby odnosiła 

się do wyników surowych, mnożymy wszystkie 

człony przez odchylenie i dodajemy średnią, 

dostajemy:

 - 1,96*SE ≤ μ ≤   + 1,96*SE

• Ogólnie: odjecie i dodanie do średniej odpowiedniej 

wartości z pomnożonej przez błąd standardowy.

background image

 

 

Przedział ufności

• Wartości dla prawdopodobieństw (z 

tablic) najcześciej przyjmowanych:

• 68% = 1
• 85% = 1,44
• 90% = 1,64
• 95% = 1,96
• 99% = 2,58

background image

 

 

Przykład

• Ustal przedział ufności. Średni iloraz 

inteligencji w grupie 100 uczniów 
szkoły średniej wynosi 114, a 
odchylenie standardowe 17.

• Przyjmij p = 95%

background image

 

 

Podpowiedź

• Znajdź błąd standardowy ze wzoru 

podanego kilka slajdów wcześniej a 
następnie skonfrontuj go ze średnią

background image

 

 

Znaczenie

• Gdyby pobierać duża liczbę prób i 

sporządzać przedziały ufności dla 
średniej, to:

–  95% otrzymanych przedziałów 

zawierałoby średnią 

– 5% - nie.

background image

 

 

Zadanie 2

• Aby wypróbować swój nowy 

samochód, pan Henio przejechał nim 
36 razy na trasie Warszawa-
Kolbuszowa. Obliczył, ze jego 
samochód spalał srednio 8 litrów 
benzyny, a odchylenie standardowe 
wynosiło 3. Zbuduj przedział ufności 
dla tej średniej z 95% 
prawdopodobieństwem.

background image

 

 

Zadanie 3

background image

 

 

• ROZKLAD T

background image

 

 

Przedziały ufności dla średnich 

z prób małych

• Rozkład z próby średniej, zbliża się do 

rozkładu normalnego wraz ze 
wzrostem liczebności próby, 
niezależnie od kształtu rozkładu w 
populacji.

• Dla małych prób jednak często 

odbiega od normalnego.

• W próbach małych stosuje się rozkład 

t.

background image

 

 

Rozkład t

background image

 

 

Rozkład t

• Rozkład nie jest normalny, ale zbliża 

się do rozkładu normalnego wraz ze 

wzrostem n.

• Rozkład t odbiega znacznie od 

normalnego przy małych próbach 

(np. n=5)

Wygląda inaczej w zależnosci od 

wielkości próby (stopni swobody).

background image

 

 

Stopnie swobody

• Stopnie swobody jest jedną z najważniejszych miar 

statystycznych. Większość dostępnych tablic statystycznych 

wykorzystuje stopnie swobody to oszacowania prawdopodobieństwa 

zajścia danego wyniku testu statystycznego. Liczba stopni swobody 

wykorzystywana jest również we wzorach statystycznych. 

Z teoretycznego punktu widzenia stopnie swobody odnoszą się do 

liczby niezależnych obserwacji / wyników / porównań występujących 

w badanej przez nas grupie obserwacji. Stopnie swobody równe są 

liczbie niezależnych parametrów / danych służących do wyliczania / 

estymacji danego parametru statystycznego. Gdy szacujemy średnią 

z populacji na podstawie próby we wzorze statystycznym dzielimy 

sumę wyników przez ilość obserwacji. Jednakże, gdy szacujemy 

wariancję czy odchylenie standardowe z próby dzielimy wyniki przez 

liczbę obserwacji minus 1. Dlaczego? Ponieważ zmieniła nam się 

liczba niezależnych parametrów. Należy zauważyć, że we wzorze na 

wariancję, czy odchylenie standardowe używamy również obliczonej 

na podstawie próby wartości średniej. To sprawia, że ilość 

niezależnych obserwacji zmienia się o 1 jednostkę. 

background image

 

 

Stopnie swobody

• W jakim celu stosuje się w statystyce 

stopnie swobody? Dlaczego jest to tak 

ważna miara statystyczna, na której 

opierają się wyliczenia testów 

statystycznych? 

• Związane jest to w występowaniem błędu 

oszacowania, estymacji poszukiwanego 

parametru w populacji na podstawie 

wylosowanej próby. Jeżeli w analizach 

uwzględnialibyśmy liczbę zebranych 

obserwacji a nie liczbę stopni swobody dla 

liczby tych obserwacji nasze oszacowanie 

poszukiwanego parametru / wyniku byłoby 

obciążone błędem systematycznym. 

background image

 

 

(na przyszłość )

Liczba stopni swobody wykorzystywana jest we wzorach statystycznych. 

Poniżej przedstawiamy wzory na liczbę stopni swobody dla 

najpopularniejszych testów statystycznych: 

test t-Studenta dla prób niezależnych: N (n1 + n2) - 2 

test t-Studenta dla prób zależnych: N - 1 

korelacja r-Pearsona: N - 2 

analiza wariancji:

• liczba stopni swobody międzyobiektowych: liczba grup - 1 

• liczba stopni swobody wewnątrzobiektowych: liczba osób - liczba grup

test zgodności chi-kwadrat: liczba kategorii - 1 

test niezależności chi-kwadrat: (liczba kategorii pierwszej zmiennej) - 1 * 

(liczba kategorii drugiej zmiennej) - 1 

background image

 

 

Jak to działa?

• Pomiary 10, 14, 6, 5, 5 
• Średnia 8
• Odchylenia od średniej: 2, 6, -2, -3, 

-3. 

• Suma odchyleń = 0. 
• Jeżeli zatem znamy 4 z tych odchyleń 

to piąte jest zdeterminowane.

background image

 

 

Stopnie swobody

Przykład 2. 

Średnia = 4, pomiary: 2,4 i ?

background image

 

 

• Ostatni musi być 6

background image

 

 

• Rozkład t ma średnia = 0.
• Obszar pod krzywa jest inny niż w 

rozkładzie normalnym – zależy od 
wielkości próby, czyli od stopni 
swobody

Obszar pod rozkładem t

background image

 

 

background image

 

 

Rozkład t - Studenta

• Rozkład t – Studenta. Twórca William 

Gossett, pisał pod pseudonimem 
Student.

• Przy dużym N, rozkład t jest taki sam 

jak rozkład normalny.

• Niektórzy przyjmują, ze duże N – 

powyżej 30 obserwacji.

background image

 

 

Tablica rozkładu t

http://www.statsoft.pl/textbook/stathome.
html

Na samym dole w spisie treści są tablice 

rozkładów. Tam wybieracie tablica t

P – prawdopodobieństwo po prawej 

stronie

Df – liczba stopni swobody

background image

 

 

Tablica rozkładu t - idea

• Aby sprawdzić, czy wartość statystyki t (test t-

Studenta) wskazuje na istotne statystycznie 

różnice, musimy sprawdzić, posługując się tablicą 

rozkładu t-Studenta, czy dana wartość wskazuje 

na istotne statystycznie różnice. 

Aby tego dokonać, musimy znać:

• wartość statystyki t (wynik testu t) 

• liczbę przebadanych osób 

• poziom istotności (poziom prawdopodobieństwa), 

dla którego dany wynik będzie wskazywał na 

istotne różnice 

background image

 

 

Tablica rozkładu t - idea

• Dla przykładu, jeżeli przyjmiemy, że interesuje nas czy 

dany wynik jest istotny statystycznie, przy założeniu 

5% szans popełnienia błedu przy wnioskowaniu (p = 

0,05) i do tego wiemy, że zbadaliśmy 100 osób - to na 

skrzyżowaniu tych dwóch wartości odczytujemy 

wartość statystyki t i porównujemy ją z uzyskaną w 

naszych obliczeniach statystyką. 

Jeżeli wartość naszego testu będzie większa niż 

wartość z tablicy uznamy, że wynik jest istotny 

statystycznie (przy założeniu p = 0,05) 

Jeżeli natomiast wartość naszego testu będzie 

mniejsza niż wartość z tablicy uznamy wtedy, że 

wynik nie jest istotny statystycznie. 

background image

 

 

• W praktyce wygląda to natomiast tak, że 

programy statystyczne robią to już za nas i są 

one o wiele bardziej dokładne niż takie 

podstawowe tablice. Dostarczają informacji, 

przy jakim p (jaka wartość p) wynik jest 

istotny statystycznie. Jeżeli program podaje p 

= 0,03 to wiemy, że godząc się na p = 0,05 

uzyskaliśmy istotny statystycznie wynik - 

ponieważ p = 0,03 jest mniejsze niż 

zakładany przez nas maksymalny próg p = 

0,05. 

background image

 

 

Przedziały ufnosci dla srednich 

z prób małych

• Średnia = 24,26, odchylenie=8
• Błąd standardowy = 2
• Wartość t dla 95% powierzchni przy 15 

df wynosi 2,13 po obu stronach średniej

• Granice to:

– Dolna 24,26 – 4,26 czyli 20
– Górna 24,26 + 4,26 czyli 28,52

background image

 

 

Zadanie

• Oszacuj 95% i 99% granice ufnosci 

dla sredniej=20, N = 9 i s = 6.

background image

 

 

Zadanie 2

• Znajdź taka wartość t dla df = 20, 

aby część powierzchni pod krzywa:

• na prawo od t wynosiła 0,025
• na lewo od t wynosiła 0,0005
• miedzy średnia a t wynosiła 0,45
• miedzy +-t wynosiła 0,90

background image

 

 

Zadanie 3

• Oszacuj 95% i 99% granice ufności 

dla średniej=40 i s=15 dla 400 
osobowej grupy badanej

background image

 

 

Zadanie 4

• Jaka część rozkładu pod krzywa t 

mieści sie:

• poniżej t= - 2,262, przy df =9
• powyżej t = -1,476 przy df=5
• między t=+-2,228, przy df=10
• między t=-1,533 i t=2,776 przy df=4


Document Outline