statystyka- wyklad2semestr, statystyka i demografia


STATYSTYKA semestr 2.

4.03.2008

MIARY ŚREDNIE

0x08 graphic

Średnia harmoniczna (H, XH)

0x08 graphic
N

H = Σ 1/xi - dla szeregu szczegółowego (odwrotność średniej

arytmetycznej z odwrotnością wartości zmiennej)

0x08 graphic
N

H = Σ 1/xi * ni - dla sz. punktowego i przedziałowego

Kiedy używamy średniej harmonicznej?

Zadanie :

Gęstość zaludnienia w mieście A wynosi 400 osób/ km2 a w mieście B 600 os/ km2. Oba miasta mają 60.000 mieszkańców. Jaka jest przeciętna gęstość zaludnienia?

N = 2

0x08 graphic
2

H = 1/400 + 1/600 = 480 os/ km2

0x08 graphic
60000 + 60000

Lub : H = 1/400 * 60000 + 1/600 * 60000 -?????

0x08 graphic
ŚREDNIA GEOMETRYCZNA (G, XG)

0x08 graphic
G = N√ x1 * x2.....* xn

Kiedy ją stosujemy?

Zadanie :

Z danych ludności pewnego miasta wyniki, że w 3 kolejnych okresach liczba ludności wynosiła kolejno 5000, 7500, 8250. Oblicz średni przyrost względny ludności

n1 = 5000 n2 = 7500 n3 = 8250

x1 = 7500 / 5000 = 1,5

x2 = 8250 / 7500 = 1,1

0x08 graphic
0x08 graphic

0x08 graphic
G = 2√ x1 * x2 = 2√ 1,5 * 1,1 = 2√ 1,65 = 1,2845

MIARY ZRÓŻNICOWANIA

0x08 graphic
s

0x08 graphic
Vs = x * 100 %

0x08 graphic
d

0x08 graphic
lub Vd = x * 100 %

Q3 - Q1

0x08 graphic
Q = 2

VQ = Q / Md

Q3 - Q1

0x08 graphic
VQ1Q3 = Q3 + Q1

11.03.2008

Q - odchylenie ćwiartkowe Q= Q3 - Q1 / 2

Q3 - kwartyl trzeci

Q1 - kwartyl pierwszy

V - współczynnik zmienności

Vs = s / x

Vd = d / x (gdy zamiast `s' bierzemy `d' - czyli odchylenie średnie)

Vs = s / x

Vd = d / x

VQ = Q / Md

VQ1Q3 = Q3-Q1 / Q3+Q1

ROZKŁAD

Rozkład statystyczny

Rozkład liczebności

Rozkład częstości

Rozkład empiryczny

*rozkłady teoretyczne - coś innego

rozkład empiryczny - przyporządkowanie odpowiednim kategoriom lub wartościom zmiennej odpowiadających im liczebności

np.

katolicy

120

prawosławni

32

(np. szereg statystyczny rozdzielczy lub przedziałowy to też rozkład. Natomiast szereg szczegółowy rozkładem nie jest)

TYPY ROZKŁADÓW STATYSTYCZNYCH

ROZKŁADY

0x08 graphic
0x08 graphic

dla cechy skokowej dla cechy ciągłej

wielomodalne jednomodalne jednomodalne wielomodalne

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic

symetryczny skrajnie

- normalny asymetryczny

- platokurtyczny - prawoskośny

- leptokurtyczny umiarkowanie - lewoskośny

asymetryczny

- prawoskośny

- lewoskośny

rozkłady dla cechy skokowej możemy prezentować w układzie współrzędnych :

liczebności

0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

wartości

rozkłady dla cechy ciągłej :

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

rozkład jednomodalny - ma jedno maximum

0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic

A tu są 2 maxima (maxima lokalne)

Rozkład symetryczny - taki, w którym liczebności odpowiadające wartościom zmiennej rozkładają się symetrycznie wokół liczebności największej

0x08 graphic

0x08 graphic

0x08 graphic

0x08 graphic

Taki wykres w ogóle nie jest jednomodalny - (więc nie nazwiemy go symetrycznym)

Rozkład symetryczny :

0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic

Rozkład normalny

Rozkład normalny (krzywa Gaussa) - dlaczego jest taki ważny?

Każdy rozkład normalny jest rozkładem symetrycznym

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic

Rozkład leptokurtyczny (w stosunku do normalnego jest bardziej wysoki)

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

Rozkład platokurtyczny (spłaszczony w stosunku do normalnego)

Rozkłady umiarkowanie i skrajnie asymetryczne :

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

Umiarkowanie asymetryczny, prawoskośny - dla cechy ciągłej (prawoskośny - bo prawe ramię jest dłuższe)

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

Umiarkowanie asymetryczny, prawoskośny - dla cechy skokowej

0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

Umiarkowanie asymetryczny, lewoskośny - dla cechy skokowej

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

Skrajnie asymetryczny, prawoskośny - dla cechy ciągłej

0x08 graphic

0x08 graphic
0x08 graphic

0x08 graphic

Skrajnie asymetryczny, lewoskośny - dla cechy ciągłej

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

Rozkład ukształtny (siodłowy) - nie jest ani jednomodalny, ani wielomodalny

MIARY ASYMETRII

Wyróżniamy miary :

za pomocą miar asymetrii możemy otrzymać informację, czy rozkład jest symetryczny, prawoskośny...itp.

miary asymetrii informują nas o tym, z jakim rodzajem rozkładu mamy do czynienia

0x08 graphic
prawoskośny

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
D Md x

D - dominanta

Md - mediana

0x08 graphic
x- średnia

0x08 graphic
0x08 graphic
0x08 graphic
lewoskośny

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic

x Md D

miary asymetrii wykorzystują miary średnie poprzez porównanie ich wielkości. W ten sposób najwygodniej jest uzyskać informacje o tym, czy rozkład jest symetryczny, czy jest prawoskośny, czy lewoskośny

w rozkładach symetrycznych średnia, mediana i dominanta są sobie równe

w rozkładach asymetrycznych możemy wskazać nierówności, które te miary spełniają

wskaźnik asymetrii - Ws

0x08 graphic
Ws = x - D

Prawoskośny - Ws > 0

Symetryczny - Ws = 0

Lewoskośny - Ws < 0

(lecz Ws nie informuje o sile, o natężeniu tej asymetrii)

Współczynnik asymetrii - As (współczynnik pozwala porównywać)

0x08 graphic
As = x - D / s

Mamy tu informację zarówno o kierunku jak i o sile asymetrii

As przybiera wartości z przedziału <-1 ; 1>

As = 0 - symetryczny

0x08 graphic
As ujemny - lewoskośny kierunek

As dodatni - prawoskośny

0x08 graphic
Siła im bardziej się zbliża do wartości skrajnych

O sile asymetrii informuje nas odległość od zera. Im bliżej bezwzględnie do 1, tym asymetria jest silniejsza

18.03.2008

PRAWDOPODOBIEŃSTWO

Kombinatoryka - dział matematyki zajmujący się obliczaniem liczby zbiorów jakie można utworzyć przy pewnych warunkach

Np. ile można utworzyć par postaci (aj, bk) - zależy ile jest tych j, k

Np.

  1. płeć - 2 kategorie

  2. wykształcenie - 4

  3. miejsce zamieszkania - 3

  4. wiek - 4

0x08 graphic
więc - 2*4*3*4 = 96

tyle będzie różnych kategorii

SILNIA !

6! = 1*2*3*4*5*6

0! = 1

1! = 1

0x08 graphic
0x08 graphic
0x08 graphic
n n!

k = k! (n - k)!

Populacja generalna - zbiór złożony z „n” różnych elementów

Próbka - dowolny zbiór, którego elementy są elementami populacji generalnej (podzbiór)

Najpierw powinniśmy odpowiedzieć sobie na pytania :

WARIACJA

liczbę wariacji bez powtórzeń określamy takim wzorem :

k n!

0x08 graphic
Vn = (n - k)!

k

Vn = nk

PERMUTACJE BEZ POWTÓRZEŃ - zbiór składający się z n elementów, uporządkowanych i różnych, utworzony z n elementów

Permutacja bez powtórzeń jest wariacją z n elementów po n

Pn = n!

0x08 graphic
0x08 graphic
0x08 graphic
n n! n! n!

0x08 graphic
0x08 graphic
0x08 graphic
Pn = Vn = (n - n)! = 0! = 1 = n!

PERMUTACJĄ Z POWTÓRZENIAMI nazywamy zbiór składający się z n elementów uporządkowanych, wśród których pewne elementy powtarzają się odpowiednio n1, n2,....nk razy

0x08 graphic
n1,n2...nk n!

Pn = n1! * n2! * nk!

KOMBINACJA BEZ POWTÓRZEŃ z n elementów po k nazywamy zbiór składający się z k różnych elementów wybrany spośród n różnych elementów, przy czym obojętne jest w jakim porządku elementy tego zbioru są rozmieszczone

0x08 graphic
0x08 graphic
0x08 graphic
k n n!

Cn = k = k! (n - k) !

KOMBINACJA Z POWTÓRZENIAMI z n elementów po k to zbiór składający się z k elementów różnych lub nieróżniących się między sobą, wybrany spośród n różnych elementów, przy czym obojętne jest w jakim porządku elementy tego zbioru są rozmieszczone

0x08 graphic
0x08 graphic

_ k n + k - 1

Cn = k

0x08 graphic
0x08 graphic
ZDARZENIE LOSOWE

JEDNORAZOWE MASOWE

- nie można przewidzieć wyniku - powtarzające się, cykliczne

W teorii prawdopodobieństwa interesujemy się zdarzeniami masowymi (badanie prawidłowości zdarzeń masowych)

ZDARZENIE LOSOWE - takie zdarzenie, którego zajścia lub niezajścia nie można przewidzieć (na 100 %) i powiedzenie, że zachodzi lub nie, ma sens. (w tych właśnie kategoriach możemy je rozpatrywać - że ono zachodzi lub nie)

ZDARZENIE ELEMENTARNE - jeśli zdarzenia A nie można przedstawić w postaci sumy co najmniej dwóch zdarzeń różnych od A, to takie zdarzenie nazywamy zdarzeniem elementarnym

*zdarzenie losowe - podzbiór przestrzeni zdarzeń elementarnych

ZDARZENIE NIEMOŻLIWE - zdarzenie losowe niezawierające żadnego zdarzenia elementarnego

ZDARZENIE PEWNE - zdarzenie losowe zawierające wszystkie elementy przestrzeni zdarzeń elementarnych

KLASYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA - jeżeli zbiór podstawowy składa się z n zdarzeń elementarnych jednakowo możliwych i jeżeli wśród nich jest k zdarzeń sprzyjających zajściu zdarzenia A, to liczbę P(A) równą k/n nazywamy prawdopodobieństwem zajścia zdarzenia A

0x08 graphic
k

P(A) = n

n

0

=> czyli : 0 ≤ P(A) ≤ 1

1.04.2008

PRAWDOPODOBIEŃSTWO WARUNKOWE - prawdopodobieństwo zajścia zdarzenia A pod warunkiem, że zaszło zdarzenie B. Oznaczamy je i obliczamy w ten sposób :

0x08 graphic
P (A ∩ B)

P(A/B) = P(B)

Po przekształceniu : P (A ∩ B) = P(A/B) * P(B)

P (A ∩ B) - prawdopodobieństwo jednoczesnego zajścia zdarzenia A i zdarzenia B

SCHEMAT BERNOULLIEGO

0x08 graphic
0x08 graphic

n

PN(k) = k pk * qN-k

N - liczba prób

k - liczba sukcesów

p - prawdopodobieństwo sukcesu p + q = 1

q - prawdopodobieństwo porażki

Drzewko :

np. rzucamy 2 razy monetą :

0x08 graphic
0x08 graphic
1. rzut

0x08 graphic
0x08 graphic
1 1

2 2

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
orzeł reszka

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
1 1 1 1

2 2 2 2 2. rzut

orzeł reszka orzeł reszka

½ * ½ = ¼ - czyli wyrzucenie 2 razy orła ma prawdopodobieństwo ¼ (i reszki też)

ZMIENNA LOSOWA - zmienną losową nazywamy każdą funkcję o wartościach rzeczywistych na przestrzeni zdarzeń elementarnych

0x08 graphic

X(w)

Y(w) symbole zmiennej losowej

Rozkład zmiennej losowej - zbiór

0x08 graphic
{(xi, pi) : i = 1,2....,n }

zbiór par postaci (xi, pi) gdzie xi oznacza wartość zmiennej losowej x, a pi oznacza prawdopodobieństwo, z jakim x przyjmuje wartość xi

WARTOŚĆ OCZEKIWANA ZMIENNEJ LOSOWEJ

Ex = Σ xipi

Σ pi = 1

WARIANCJA ZMIENNEJ LOSOWEJ

D2(x) = E (x - Ex)2

ROZKŁAD NORMALNY

ROZKŁAD - przyporządkowanie odpowiednim wartościom odpowiadających im liczebności

0x08 graphic
Przykładowe pytanie egzaminacyjne : od czego uzależniona jest postać krzywej normalnej?

gdy zmienia się średnia, to kształt się nie zmiena, tylko krzywa się przesuwa w lewo lub w prawo :

0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic
X

D

Md

Krzywa przesunęła się w lewo (średnia się zmniejszyła)

(a jeśli średnia by się zwiększyła, to krzywa przesunęłaby się w prawo)

s - odchylenie standardowe - decyduje o tym, czy rozkład jest bardziej spłaszczony czy spiczasty

ZBIOROWOŚCI

0x08 graphic
0x08 graphic

POPULACJE PRÓBA

w populacji) (miara obliczana w próbie)

0x08 graphic
M - „mi” - średnia w populacji x, M - średnia

σ - odchylenie w populacji (mała sigma) s - odchylenie

8.04.2008

Reguła trzech sigm

np. N ( 90; 11 ) - rozkład normalny o średniej 90 i odchyleniu 11

Z - pomiar standaryzowany

0x08 graphic
x - x

0x08 graphic
Z = s

Z - mówi nam, ile odchyleń standardowych leży w odległości od średniej (Z to odległość punktu od średniej w jednostkach odchylenia stand.)

*odczytujemy z tablic, że np. Z = 1,35 → 41,15 %

WNIOSKOWANIE STATYSTYCZNE

Dwie kategorie wnioskowania statystycznego :

  1. Sytuacje polegające na tym, że na podstawie pewnych charakterystyk, rozkładów danej zmiennej w próbie (zwanych statystykami lub estymatorami, np. średnia, proporcja) próbujemy oszacować odpowiadające im parametry rozkładu tej zmiennej w populacji. (metody estymacji parametrów populacji)

  2. W sytuacjach tych bądź stwierdzamy, iż pewne podgrupy w przebadanej przez nas próbie, czy też próby pobrane z różnych populacji różnią się swoimi parametrami, bądź też stwierdzamy, iż zmienne w badanej przez nas próbie są powiązane określonymi statystycznymi zależnościami, a następnie staramy się uogólnić owe różnice lub zależności na populację lub populacje, z których próby te zostały wylosowane (metody weryfikacji hipotez)

15.04.2008

Weryfikacja hipotez statystycznych

Hipoteza - twierdzenie (wypowiedziane językiem statystyki)

0x08 graphic
0x08 graphic
HIPOTEZY

ZEROWA BADAWCZA

*hipotezy kierunkowe i bezkierunkowe

Rozumowanie weryfikacja potwierdzenie/obalenie

Etapy testowania hipotez statystycznych (najczęściej mówi się o 5 krokach, które trzeba wykonać, aby przeprowadzić tę procedurę weryfikacji) :

  1. określenie zmiennych i ich skal pomiarowych. Sformułowanie założeń i hipotez

  2. wybór testu statystycznego i określenie rozkładu statystyki

  3. ustalenie reguły decyzyjnej. Wybór poziomu istotności, określenie obszaru krytycznego i wartości krytycznej

  4. obliczenie wartości statystyki dla otrzymanych wyników

  5. podjęcie decyzji

ROZKŁAD Z PRÓBY - rozkład, w którym jednostką jest próba, a zmienną statystyka obliczona dla tej próby (możemy w każdej próbie obliczyć średnią i przedstawić ten rozkład)

TEORETYCZNY ROZKŁAD Z PRÓBY - nie pobieramy żadnych prób ani nie przeprowadzamy żadnego doświadczenia (jest efektem teoretycznych rozważań na fundamencie rachunku prawdopodobieństwa)

EKSPERYMENTALNY ROZKŁAD Z PRÓBY - wynik rzeczywistego doświadczenia

0x08 graphic
__

0x08 graphic
X x

0x08 graphic
S x rozkład eksperymentalny

0x08 graphic

M 0x08 graphic
x

0x08 graphic
σ x rozkład teoretyczny

(literką `M' oznaczam tu „mi” - nie mogłam w symbolach znaleźć fachowego oznaczenia :)

__

0x08 graphic
X x - średnia z eksperymentalnego rozkładu próby średniej

0x08 graphic
S x - odchylenie stand. z eksperymentalnego rozkładu próby średniej

0x08 graphic
M x - średnia z teoretycznego rozkładu próby średniej (M - „mi”)

0x08 graphic
σ x - odchylenie stand. z teoretycznego rozkładu próby średniej

22.04.2008

M s2 - średnia z teoretycznego rozkładu próby wariancji (statystyki s2)

MM = M - średnia z teoretycznego rozkładu próby średniej jest równa średniej w populacji (M - średnia w populacji)

M s2 = σ2

Błąd standardowy - odchylenie standardowe rozkładu dowolnej statystyki

0x08 graphic
Błąd standardowy statystyki M - σM

0x08 graphic
σ2 σ

0x08 graphic
σM2 = N σM = √N N = liczebność próby

CENTRALNE TWIERDZENIE GRANICZNE

Warunki zaistnienia CTG :

  1. pobieramy próby losowe o liczebności N

  2. populacja ma dowolny rozkład ze średnią M i wariancją σ2

  3. 0x08 graphic
    jeśli próby są wystarczająco duże to rozkład z próby średnich jest rozkładem normalnym o średniej M i wariancji σ2

N

σ

0x08 graphic
N (M ; √N ) - rozkład próby średniej

0x08 graphic
Σ (xi - x)2

S2 = N - 1 - wariancja

0x08 graphic

W próbie dzielimy przez N - 1

Dzieląc przez N otrzymalibyśmy nieobciążony estymator σ2 który wykazywałby systematyczną tendencję do oddalania się od σ2 o stałe obciążenie równe N - 1 / N

Gdy będziemy dzielić przez N - 1 to taki estymator nie będzie wykazywał systematycznej tendencji do tego, by być mniejszym lub większym niż σ2

29.04.2008

Hipoteza we wnioskowaniu statyst. jest sformułowana w języku statystyki (matematyki)

hipoteza zerowa wyklucza się z hipotezą badawczą

Chcemy potwierdzić H1, budujemy H0 przeciwstawną do H1. Zakładamy że H0 jest prawdziwe i staramy się doprowadzić do sprzeczności, tzn. uzyskać wynik mało prawdopodobny.

Co to znaczy wynik mało prawdopodobny?

POZIOM ISTOTNOŚCI

α

α = 0,05

α = 0,01

O prawdopodobieństwie, na jakie decyduje się badacz informuje nas poziom istotności (α)

Można się również spotkać z oznaczeniami p zamiast α

OBSZAR KRYTYCZNY (OBSZAR ODRZUCENIA) - obszar rozkładu z próby, który stanowi odpowiedni procent całego rozkładu z próby zdefiniowany przez poziom istotności

0x08 graphic

Obszar krytyczny -

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
α = 0,05 zakreskowany

0x08 graphic

2,5 % 2,5 %

Jeśli w badaniach otrzymaliśmy wynik mało prawdopodobny to znaczy że albo mieliśmy fuksa :) albo nasze założenia są fałszywe. Naszym założeniem była prawdziwość hipotezy zerowej. Jeśli wynik w badaniu przetworzony za pomocą wzoru na dany test wpada do obszaru odrzuceń to znaczy że należy odrzucić hipotezę zerową - w konsekwencji przyjąć hipotezę badawczą. Jeśli wynik nie wpada do obszaru odrzuceń, to brak podstaw do odrzucenia hipotezy zerowej - w konsekwencji odrzucamy hipotezę badawczą

Wynik istotny statystycznie to wynik, który pozwala odrzucić hipotezę zerową

TEST

WARTOŚĆ KRYTYCZNA - wartość, która dzieli rozkład z próby na dwie części : na obszar krytyczny i obszar, w którym nie odrzucamy hipotezy zerowej

0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic

Wartość krytyczna

STOPNIE SWOBODY - liczbę wartości, które mają swobodę dowolnego zmieniania się, nazywamy stopniami swobody

Przykład :

Mamy 3 liczby : 7, 8, 15

Średnia = 10

Odchylenia od średniej : odpowiednio : -3, -2, 5

Suma odchyleń od średniej równa się zawsze 0 -3 + (-2) + 5 = 0

Jeśli więc znamy dwa odchylenia, to trzecie jest już ustalone (nie może się zmienić)

0x08 graphic
Test z - oparty na rozkładzie normalnym

Test t - studenta - skale ilościowe

Test λ2 ( “chi kwadrat”) - skala nominalna

Od czego zależy wybór testu?

13.05.2008

Dokładniej, wybór testu zależy od :

Algorytm wyboru testu istotności - pewien sposób postępowania

  1. algorytm wyboru testu istotności różnic - dane zależne

  • algorytm wyboru testu istotności różnic - dane niezależne