prezentacja 2 Stat 2014

background image

Postawy statystyki vol. 2

background image

Kilka znaczeń

• Populacja – dowolnie określony zespół

przedmiotów, obserwacji, osób itp.

• Próba – dowolny podzespół pobrany z

populacji

• Parametr – właściwość opisująca

populację

• Estymator – właściwość opisująca

próbę

background image

• Na podstawie pomiarów pochodzących z

próby oblicza się estymator, który

odpowiada wartości w populacji

(parametrowi).

• W większości populacji parametry są

nieznane i musza być oszacowane na

podstawie danych z próby.

• Statystyka próby – zestaw metod

statystycznych służących do formułowania

twierdzeń na temat parametrów populacji

na podstawie statystyk z próby.

background image

Metody pobierania prób

• Wnioskowanie statystyczne -

indukcyjne.

• Aby na podstawie próby móc wyciągać

wnioski na temat populacji - próba

musi być losowa.

• Próba pobrana losowo z populacji – tzn.

ze każdy element populacji może się w

niej znaleźć z takim samym

prawdopodobieństwem. Np. losowanie

„z kapelusza”

background image

Błędy próby

background image

Przykład

• Np. wiemy ze w populacji studentów

(N = 1000) średnia w teście IQ

wynosi 120. W wylosowanej próbie

100 studentów średnia = 136.

• Zatem: 120 – 136 = - 16

• Często nie znamy wartości w

populacji. Jak w takiej sytuacji

oszacować wielkość błędu próby?

background image

Przykład

• Np. wielokrotnie powtarzając pomiar.
• Kolejne pomiary długości stołu. Dwie

procedury:

• A: 55.95, 56.23, 56.25, 56.41, 56.54
• B: 54.80, 55.31, 56.44, 56.52, 57.29
• Która procedura obarczona jest

większym błędem i dlaczego?

background image

• Druga.

• W przykładzie μ była stała, a średnia

zmieniała się w zależności od próby.

• Można by zatem użyć jakiejś miary

zmienności, aby opisać teoretyczny rozkład
średnich z próby.

• Dobra miara jest odchylenie standardowe.
• Na tej mierze zbudowany jest błąd

standardowy (błąd próby).

Przykład

background image

Błąd standardowy

Błąd standarowy danej statystyki (miary,

np. średniej) to odchylenie standardowe
rozkładu tej wartości z prób. Błąd
standardowy
inaczej nazywany jest
odchyleniem standardowym teoretycznego
rozkładu z próby. Sama idea błędu
standardowego jest bardzo teoretyczna, aby
lepiej zrozumieć tę miarę należy odnieść ją
do teorii estymacji parametrów. Dla lepszego
zobrazowania opisanego zjawiska posłużymy
się przykładem.

background image

Przykład

• Badacz chciał sprawdzić jaki jest średni wzrost w populacji mężczyzn w wieku

25-30 lat. Aby uzyskać dokładną wartość średniego wzrostu w populacji badacz

musiałby przebadać wszystkich mężczyzn w tym wieku. Z praktycznego

punktu widzenia jest to raczej niemożliwe i nieopłacalne. Badacz chciał

estymować prawdziwą wartość średniego wzrostu w tej populacji na podstawie

próby 100 mężczyzn. Stwierdził, że średni wzrost w jego próbie wyniósł 178,9

cm. Czy jest to faktyczna średnia wartość wzrostu w całej populacji?

Najprawdopodobniej nie! Jest to wartość zbliżona do faktycznej wartości, ale

najprawdopodobniej nie jest ona identyczna. Średnia z próby (z jednego

badania) stanowi estymator (przybliżenie) wartości prawdziwej w populacji.

Jeżeli badacz przeprowadziłby wielokrotnie takie badanie, dla każdej z prób

(dla każdego z badania) otrzymałby jakiś średni wynik. Za każdym razem ten

wynik byłby "przybliżeniem" prawdziwej średniej wartości wzrostu. Błąd

standardowy jest miarą zróżnicowania tych średnich z prób, z kolejnych badań,

czyli na ile nasz estymowany (w populacji) średni wynik zmienia się w

poszczególnych próbach.

Im błąd standardowy jest mniejszy tym dokładniej przewidywany jest dany

parametr, miara, statystyka. Oczywiście, błąd standardowy uzależniony jest od

wielkości zróżnicowania (wariancji) danej cechy. Jeżeli nasza cecha

charakteryzuje się dużą zmiennością (wariancją) tym nasze oszacowanie

prawdziwej wartości będzie mniej dokładne.

background image

• Problem z tym, że w praktyce zazwyczaj nie znamy jaka jest

zmienność w populacji dla danej cechy oraz nie mamy do

czynienia z wieloma próbami badającymi określone zjawisko,

lecz najczęściej z jedną próbą, z badaniem, które właśnie

przeprowadzamy. W tym celu również musimy estymować

wartość błędu standardowego danego parametru.

Wykorzystując odpowiednie wzory statystyczne możemy

oszacować prawdziwą wartość błędu standardowego dla

danej cechy w badanej populacji.

W powyżej zamieszczonym przykładzie omówiliśmy błąd

standardowy średniej, jednakże błąd standardowy dotyczy

również innych parametrów, np. dla mediany, wariancji,

współczynnika korelacji. Błąd standardowy określa nam to

na ile dany parametr może się zmieniać w różnych

badaniach tego samego zjawiska.

W przypadku błędu standardowego dla średniej w celu

oszacowania wartości błędy standardowego korzystamy ze

wzoru:

SE (standard error) = s/√N , gdzie:

s oznacza odchylenie standardowe

N oznacza liczbę obserwacji

background image

Zadanie

• Wywnioskuj, jaka jest zależność

między liczebnością a SE, oraz SE a
oszacowaniem badanej właściwości

background image

Zadanie

• 100 studentów rozwiazało test

mierzacy nasilenie neurotyczności.
Srednia w tej grupie wyniosła 20 a
odchylenie standardowe 4.

• Oblicz bład standardowy sredniej.

background image

Centralne twierdzenie

graniczne

• W miarę wzrostu liczności próby (dla

prób użytych do wyznaczenia rozkładu
statystyki z próby) rozkład statystyki z
próby upodabnia się coraz bardziej do
rozkładu normalnego.

• Dla n=30 rozkład jest "nieomal"

doskonale zgodny z normalnym (jak
widzimy dopasowany rozkład
normalny jest bardzo bliski rozkładowi
statystyki z próby).

background image

GIF animowany tutaj:

http://www.statsoft.pl/textbook/graphics/an_sampl.gif

background image

Na podstawie danych z próby szacuje się
wiele wartości w populacji,np.:
- jakie jest poparcie partii politycznej X;
- jaki odsetek populacji stanowia osoby z
depresją

Problem: dlaczego rózne sondaze podaja
rózne wyniki?

W populacji istnieje pewna zmienność
(zróżnicowanie) wartości mierzonej zmiennej,
które wpływa na błąd pomiaru.

Jak mówiliśmy tydzień temu, czerpiąc różne
próbki można dojść do różnych wniosków

background image

Rodzaje oszacowań

• Oszacowanie punktowe – otrzymane

bezpośrednio z obliczeń, np. średni wynik

z testu wiedzy w grupie studentów =

26,88.

– Nie dostarcza ono informacji o błędzie jakim

jest obciążony estymator.

• Oszacowanie przedziałowe

uwzględniając błąd, twierdzimy z pewnym

stopniem ufności, ze wartość populacji

znajduje się w obrębie przedziału.

– Np. średnia z testu wiedzy mieści się w

granicach 24,92 a 28,84 przedział ufności.

background image

Właściwości oszacowań

Nie obciążone– gdy estymator w

kolejnych pobieranych próbach nie
odbiega systematycznie od parametru.
Czyli nie jest obciążony stałym błędem.

• Inaczej: estymator równy jest wartości

oczekiwanej.

• Wartość oczekiwana – uzyskana po

uśrednieniu wartości w nieskończenie
wielkiej liczbie powtarzanych prób
losowych.

background image

Właściwości oszacowań

Spójne – jeśli oszacowanie to coraz

bardziej zbliża się do parametru populacji
w miarę wzrostu liczebności próby.

Efektywne – jeżeli mamy dwie metody

szacowania tego samego parametru
populacji, to efektywniejsza jest metoda o
mniejszej wariancji (np. średnia i
mediana)?

Wystarczające – gdy jest bardziej

efektywne niż inne metody.

background image

Przedział ufności

Przedział ufności dla danej miary

statystycznej (np. średniej) informuje nas "na
ile możemy ufać danej wartości" - jak sama
nazwa wskazuje. Przedział ufności pokazuje
nam że poszukiwana przez nas rzeczywista
wartość mieści się w pewnym przedziale z
założonym prawdopodobieństwem. Przedział
ufności jest ściśle związany z teorią estymacji
w statystyce.

background image

Przedział ufności

• Aby wyznaczyć jaki jest średni poziom danej cechy w

populacji przeprowadzamy badania na pewnej próbie.

Badanie dostarcza nam naszego poszukiwanego wyniku

średniego. Na podstawie tego badania próby chcemy

określić jaka jest rzeczywista średnia wartość danej

cechy w całej populacji, nie tylko w próbie.

• Wyniki naszego badania dostarczają nam średni poziom

danej cechy, ale nie możemy na jego podstawie

wywnioskować, że w całej populacji jest DOKŁADNIE

taka sama średnia wartość tej cechy. Wartość ta jest

zbliżona do tej, wyliczonej z badania próby.

• Na ile jest ona zbliżona, nie wiadomo do końca,

jednakże można wyznaczyć tzw. przedziały ufności

dla poszukiwanej wartości. Na podstawie badania próby

możemy wyznaczyć przedziały, w których z założonym

prawdopodobieństwem (np. 95%) mieści się prawdziwa

wartość poszukiwanej miary.

background image

Przykład

Badacz chciał sprawdzić jaki jest średni poziom

inteligencji wśród polskich studentów.
Przeprowadził badanie na pewnej próbie
polskich studentów. W jego badaniu średni
poziom inteligencji wyniósł 120. Za pomocą
obliczeń statystycznych wykazał, że z 95%
prawdopodobieństwem prawdziwy średni
poziom inteligencji polskich studentów
mieści się w granicach 112-128.

background image

Przykład

Badacz na podstawie badania (jeżeli nie bada całej

populacji lecz tylko jej wycinek) nie może podać

dokładnej wartości danej cechy w populacji. Aby

mógł to zrobić musiałby przebadać wszystkich

studentów (ale statystyka umożliwia nam

wnioskowanie statystyczne na temat populacji na

podstawie jedynie próby tej populacji). Badacz może

natomiast z pewnym prawdopodobieństwem, np.

90%, 95%, 99% podać przedziały (nasze przedziały

ufności), w których mieści się (znajduje się)

poszukiwana przez badacza wartość. Jego badania

wykazały, że prawdziwy poziom inteligencji polskich

studentów mieści się pomiędzy 112 i 128 pkt.

background image

Przykład

Oczywiście, założone prawdopodobieństwo może być

dla nas nie wystarczające, 95% oznacza, że mamy

5% szans na pomylenie się w naszych badaniach (5%

szans na to, że prawdziwa wartość średnia znajduje

się poza wyznaczonym przedziałem). Jeżeli

zwiększymy prawdopodobieństwo, np interesowałby

nas poziom 99% to wyznaczony zakres ulegnie

rozszerzeniu i na odwrót, jeżeli zmniejszymy

prawdopodobieństwo, np. 90%, to zakres ulegnie

zmniejszeniu. Kolejną wartością wpływającą na

przedział ufności jest liczebność próby. Im nasze

badanie jest przeprowadzane na większej liczbie

osób, tym przedział ufności maleje. Jest to oczywiste

z racji faktu, że większa liczba przebadanych osób to

większa część badanej populacji, a im więcej wiemy

tym mniej się mylimy (oczywiste).

background image

• Podsumowując, przedział ufności dostarcza

nam zakresu (wartość od do), w którym z
założonym prawdopodobieństwem
znajduje się nasza poszukiwana wartość w
populacji (w rzeczywistości, nie w
jednostkowym badaniu próby).

• Znając błąd standardowy można zbudować

przedział w którym znajduje się średnia

background image

Przedział ufności

• Znając błąd standardowy można

zbudować przedział w którym
znajduje się średnia.

• Np. średnia z testu wiedzy mieści się

w granicach 24,92 a 28,84 – to tzw.
przedział ufności.

• Błąd wyznacza dolna i górna granice

przedziału ufności.

background image

Przedział ufności dla średnich z

prób dużych

• Rozkład zbliża się coraz bardziej do

normalnego wraz ze wzrostem liczebności

próby.

• Dlatego tez dla dużych prób stosuje się

rozkład normalny w celu oszacowania wyniku.

• Do obliczenia błędu standardowego stosuje się

odchylenie rozkładu z próby średnich, czyli:

SE (standard error) = s/√N , gdzie:

s oznacza odchylenie standardowe

N oznacza liczbę obserwacji

background image

Przedział ufności dla średnich z

prób dużych

• Chcąc oszacować różnice miedzy średnia w próbie

a średnia w populacji, czyli:

X - μ

• Musimy w oszacowanie uwzględnić błąd

standardowy, zatem:

(X−μ) / SE

• Rozkład z próby średniej będzie normalny

(zgodnie z centralnym twierdzeniem granicznym)

o średniej μ. Zatem równanie przedstawia wynik

standardowy dla średniej z próby w odniesieniu

do rozkładu z próby średniej:

z = (X−μ) / SE

background image

Przedział ufności dla średnich z

prób dużych

• Rozkład z próby średniej będzie normalny

(zgodnie z centralnym twierdzeniem granicznym)

o średniej μ. Zatem równanie przedstawia wynik

standardowy dla średniej z próby w odniesieniu

do rozkładu z próby średniej:

• z = ( −μ) / SE

• +-1,96 odchylenia standardowego mieści 95%

powierzchni rozkładu

• normalnego

• +-2,58 odchylenia standardowego mieści 99%

powierzchni

background image

Przedział ufności

• Przy założeniu normalności z, istnieje 95%

prawdopodobieństwo, ze prawdziwe jest

następujące twierdzenie:
-1,96 z = ( −μ)/SE ≥ 1,96

• Aby przekształcić te nierówność, tak aby odnosiła

się do wyników surowych, mnożymy wszystkie

człony przez odchylenie i dodajemy średnią,

dostajemy:

- 1,96*SE ≤ μ ≤ + 1,96*SE

• Ogólnie: odjecie i dodanie do średniej odpowiedniej

wartości z pomnożonej przez błąd standardowy.

background image

Przedział ufności

• Wartości z dla prawdopodobieństw (z

tablic) najcześciej przyjmowanych:

• 68% = 1
• 85% = 1,44
• 90% = 1,64
• 95% = 1,96
• 99% = 2,58

background image

Przykład

• Ustal przedział ufności. Średni iloraz

inteligencji w grupie 100 uczniów
szkoły średniej wynosi 114, a
odchylenie standardowe 17.

• Przyjmij p = 95%

background image

Podpowiedź

• Znajdź błąd standardowy ze wzoru

podanego kilka slajdów wcześniej a
następnie skonfrontuj go ze średnią

background image

Znaczenie

• Gdyby pobierać duża liczbę prób i

sporządzać przedziały ufności dla
średniej, to:

– 95% otrzymanych przedziałów

zawierałoby średnią

– 5% - nie.

background image

Zadanie 2

• Aby wypróbować swój nowy

samochód, pan Henio przejechał nim
36 razy na trasie Warszawa-
Kolbuszowa. Obliczył, ze jego
samochód spalał srednio 8 litrów
benzyny, a odchylenie standardowe
wynosiło 3. Zbuduj przedział ufności
dla tej średniej z 95%
prawdopodobieństwem.

background image

Zadanie 3

background image

• ROZKLAD T

background image

Przedziały ufności dla średnich

z prób małych

• Rozkład z próby średniej, zbliża się do

rozkładu normalnego wraz ze
wzrostem liczebności próby,
niezależnie od kształtu rozkładu w
populacji.

• Dla małych prób jednak często

odbiega od normalnego.

• W próbach małych stosuje się rozkład

t.

background image

Rozkład t

background image

Rozkład t

• Rozkład t nie jest normalny, ale zbliża

się do rozkładu normalnego wraz ze

wzrostem n.

• Rozkład t odbiega znacznie od

normalnego przy małych próbach

(np. n=5)

Wygląda inaczej w zależnosci od

wielkości próby (stopni swobody).

background image

Stopnie swobody

Stopnie swobody jest jedną z najważniejszych miar

statystycznych. Większość dostępnych tablic statystycznych

wykorzystuje stopnie swobody to oszacowania prawdopodobieństwa

zajścia danego wyniku testu statystycznego. Liczba stopni swobody

wykorzystywana jest również we wzorach statystycznych.

Z teoretycznego punktu widzenia stopnie swobody odnoszą się do

liczby niezależnych obserwacji / wyników / porównań występujących

w badanej przez nas grupie obserwacji. Stopnie swobody równe są

liczbie niezależnych parametrów / danych służących do wyliczania /

estymacji danego parametru statystycznego. Gdy szacujemy średnią

z populacji na podstawie próby we wzorze statystycznym dzielimy

sumę wyników przez ilość obserwacji. Jednakże, gdy szacujemy

wariancję czy odchylenie standardowe z próby dzielimy wyniki przez

liczbę obserwacji minus 1. Dlaczego? Ponieważ zmieniła nam się

liczba niezależnych parametrów. Należy zauważyć, że we wzorze na

wariancję, czy odchylenie standardowe używamy również obliczonej

na podstawie próby wartości średniej. To sprawia, że ilość

niezależnych obserwacji zmienia się o 1 jednostkę.

background image

Stopnie swobody

• W jakim celu stosuje się w statystyce

stopnie swobody? Dlaczego jest to tak

ważna miara statystyczna, na której

opierają się wyliczenia testów

statystycznych?

• Związane jest to w występowaniem błędu

oszacowania, estymacji poszukiwanego

parametru w populacji na podstawie

wylosowanej próby. Jeżeli w analizach

uwzględnialibyśmy liczbę zebranych

obserwacji a nie liczbę stopni swobody dla

liczby tych obserwacji nasze oszacowanie

poszukiwanego parametru / wyniku byłoby

obciążone błędem systematycznym.

background image

(na przyszłość )

Liczba stopni swobody wykorzystywana jest we wzorach statystycznych.

Poniżej przedstawiamy wzory na liczbę stopni swobody dla

najpopularniejszych testów statystycznych:

test t-Studenta dla prób niezależnych: N (n1 + n2) - 2

test t-Studenta dla prób zależnych: N - 1

korelacja r-Pearsona: N - 2

analiza wariancji:

• liczba stopni swobody międzyobiektowych: liczba grup - 1

• liczba stopni swobody wewnątrzobiektowych: liczba osób - liczba grup

test zgodności chi-kwadrat: liczba kategorii - 1

test niezależności chi-kwadrat: (liczba kategorii pierwszej zmiennej) - 1 *

(liczba kategorii drugiej zmiennej) - 1

background image

Jak to działa?

• Pomiary 10, 14, 6, 5, 5
• Średnia 8
• Odchylenia od średniej: 2, 6, -2, -3,

-3.

• Suma odchyleń = 0.
• Jeżeli zatem znamy 4 z tych odchyleń

to piąte jest zdeterminowane.

background image

Stopnie swobody

Przykład 2.

Średnia = 4, pomiary: 2,4 i ?

background image

• Ostatni musi być 6

background image

• Rozkład t ma średnia = 0.
• Obszar pod krzywa jest inny niż w

rozkładzie normalnym – zależy od
wielkości próby, czyli od stopni
swobody

Obszar pod rozkładem t

background image

background image

Rozkład t - Studenta

• Rozkład t – Studenta. Twórca William

Gossett, pisał pod pseudonimem
Student.

• Przy dużym N, rozkład t jest taki sam

jak rozkład normalny.

• Niektórzy przyjmują, ze duże N –

powyżej 30 obserwacji.

background image

Tablica rozkładu t

http://www.statsoft.pl/textbook/stathome.
html

Na samym dole w spisie treści są tablice

rozkładów. Tam wybieracie tablica t

P – prawdopodobieństwo po prawej

stronie

Df – liczba stopni swobody

background image

Tablica rozkładu t - idea

• Aby sprawdzić, czy wartość statystyki t (test t-

Studenta) wskazuje na istotne statystycznie

różnice, musimy sprawdzić, posługując się tablicą

rozkładu t-Studenta, czy dana wartość wskazuje

na istotne statystycznie różnice.

Aby tego dokonać, musimy znać:

• wartość statystyki t (wynik testu t)

• liczbę przebadanych osób

• poziom istotności (poziom prawdopodobieństwa),

dla którego dany wynik będzie wskazywał na

istotne różnice

background image

Tablica rozkładu t - idea

• Dla przykładu, jeżeli przyjmiemy, że interesuje nas czy

dany wynik jest istotny statystycznie, przy założeniu

5% szans popełnienia błedu przy wnioskowaniu (p =

0,05) i do tego wiemy, że zbadaliśmy 100 osób - to na

skrzyżowaniu tych dwóch wartości odczytujemy

wartość statystyki t i porównujemy ją z uzyskaną w

naszych obliczeniach statystyką.

Jeżeli wartość naszego testu będzie większa niż

wartość z tablicy uznamy, że wynik jest istotny

statystycznie (przy założeniu p = 0,05)

Jeżeli natomiast wartość naszego testu będzie

mniejsza niż wartość z tablicy uznamy wtedy, że

wynik nie jest istotny statystycznie.

background image

• W praktyce wygląda to natomiast tak, że

programy statystyczne robią to już za nas i są

one o wiele bardziej dokładne niż takie

podstawowe tablice. Dostarczają informacji,

przy jakim p (jaka wartość p) wynik jest

istotny statystycznie. Jeżeli program podaje p

= 0,03 to wiemy, że godząc się na p = 0,05

uzyskaliśmy istotny statystycznie wynik -

ponieważ p = 0,03 jest mniejsze niż

zakładany przez nas maksymalny próg p =

0,05.

background image

Przedziały ufnosci dla srednich

z prób małych

• Średnia = 24,26, odchylenie=8
• Błąd standardowy = 2
• Wartość t dla 95% powierzchni przy 15

df wynosi 2,13 po obu stronach średniej

• Granice to:

– Dolna 24,26 – 4,26 czyli 20
– Górna 24,26 + 4,26 czyli 28,52

background image

Zadanie

• Oszacuj 95% i 99% granice ufnosci

dla sredniej=20, N = 9 i s = 6.

background image

Zadanie 2

• Znajdź taka wartość t dla df = 20,

aby część powierzchni pod krzywa:

• na prawo od t wynosiła 0,025
• na lewo od t wynosiła 0,0005
• miedzy średnia a t wynosiła 0,45
• miedzy +-t wynosiła 0,90

background image

Zadanie 3

• Oszacuj 95% i 99% granice ufności

dla średniej=40 i s=15 dla 400
osobowej grupy badanej

background image

Zadanie 4

• Jaka część rozkładu pod krzywa t

mieści sie:

• poniżej t= - 2,262, przy df =9
• powyżej t = -1,476 przy df=5
• między t=+-2,228, przy df=10
• między t=-1,533 i t=2,776 przy df=4


Document Outline


Wyszukiwarka

Podobne podstrony:
prezentacja 1 Stat 2014
prezentacja 3 Stat 2014
prezentacja 1 Stat 2014
Prezentacja SPSS 2014
Prezentacja SPSS 2014
Prezentacja SSSPZ 02 12 2014 MTomaszewska
prezentacja RPO WZ 2014 2020
Pomoc społeczna, służby społeczne, praca socjalna program prezentacji 2014 15
Prezentacja 2014
Indywidualne prawo pracy prezentacja 2014 2015 2
TEKST PREZENTACJA, WZR UG ZARZĄDZANIE - ZMP I STOPIEŃ, IV SEMESTR (letni) 2013-2014, PROMOCJA; S. Ba
uzdolnienia, Pedagogika ogólna APS 2013 - 2016, I ROK 2013 - 2014, II semestr, 6) Pedagogika wczesno
Prezentacja2 2 2014
PREZENTACJA I przewodzenie prądu elektrycznego 2014
Przepis na interesującą i kreatywną prezentację multimedialną, zk 2014
zywienie psow i kotow prezentacja 2014
Wykaz grup do prezentacji IV rok?nt sem zimowy 13 2014
Prezentacja SSSPZ 02 12 2014 MTomaszewska
prezentacja RPO WZ 2014 2020

więcej podobnych podstron