STATYSTYKA semestr 2.
4.03.2008
MIARY ŚREDNIE
Średnia harmoniczna (H, XH)
tempo zjawisk i jego zmian (głównie problemy demograficzne)
N
H = Σ 1/xi - dla szeregu szczegółowego (odwrotność średniej
arytmetycznej z odwrotnością wartości zmiennej)
N
H = Σ 1/xi * ni - dla sz. punktowego i przedziałowego
Kiedy używamy średniej harmonicznej?
gdy jednostki, w których wyrażamy dane zmienne podane są w jednostkach względnych tzn. coś na coś (km/h ; m/s )
Zadanie :
Gęstość zaludnienia w mieście A wynosi 400 osób/ km2 a w mieście B 600 os/ km2. Oba miasta mają 60.000 mieszkańców. Jaka jest przeciętna gęstość zaludnienia?
N = 2
2
H = 1/400 + 1/600 = 480 os/ km2
60000 + 60000
Lub : H = 1/400 * 60000 + 1/600 * 60000 -?????
ŚREDNIA GEOMETRYCZNA (G, XG)
G = N√ x1 * x2.....* xn
Kiedy ją stosujemy?
badanie dynamiki zjawisk (zagadnienia ekonomiczno - demograficzne)
w pedagogice
Zadanie :
Z danych ludności pewnego miasta wyniki, że w 3 kolejnych okresach liczba ludności wynosiła kolejno 5000, 7500, 8250. Oblicz średni przyrost względny ludności
n1 = 5000 n2 = 7500 n3 = 8250
x1 = 7500 / 5000 = 1,5
x2 = 8250 / 7500 = 1,1
G = 2√ x1 * x2 = 2√ 1,5 * 1,1 = 2√ 1,65 = 1,2845
MIARY ZRÓŻNICOWANIA
współczynnik zmienności (miara klasyczna)
s
Vs = x * 100 %
d
lub Vd = x * 100 %
odchylenie ćwiartkowe - oblicza się za pomocą kwartyli (zmienność w obszarze obejmującym tylko 50 % spośród wszystkich jednostek)
Q3 - Q1
Q = 2
współczynnik zmienności (miara pozycyjna)
VQ = Q / Md
Q3 - Q1
VQ1Q3 = Q3 + Q1
11.03.2008
Miary zróżnicowania
Q - odchylenie ćwiartkowe Q= Q3 - Q1 / 2
Q3 - kwartyl trzeci
Q1 - kwartyl pierwszy
V - współczynnik zmienności
Vs = s / x
Vd = d / x (gdy zamiast `s' bierzemy `d' - czyli odchylenie średnie)
Miary zmienności
Klasyczne
Vs = s / x
Vd = d / x
Pozycyjne
VQ = Q / Md
VQ1Q3 = Q3-Q1 / Q3+Q1
ROZKŁAD
Rozkład statystyczny
Rozkład liczebności
Rozkład częstości
Rozkład empiryczny
*rozkłady teoretyczne - coś innego
rozkład empiryczny - przyporządkowanie odpowiednim kategoriom lub wartościom zmiennej odpowiadających im liczebności
np.
katolicy |
120 |
prawosławni |
32 |
(np. szereg statystyczny rozdzielczy lub przedziałowy to też rozkład. Natomiast szereg szczegółowy rozkładem nie jest)
TYPY ROZKŁADÓW STATYSTYCZNYCH
ROZKŁADY
dla cechy skokowej dla cechy ciągłej
wielomodalne jednomodalne jednomodalne wielomodalne
symetryczny skrajnie
- normalny asymetryczny
- platokurtyczny - prawoskośny
- leptokurtyczny umiarkowanie - lewoskośny
asymetryczny
- prawoskośny
- lewoskośny
rozkłady dla cechy skokowej możemy prezentować w układzie współrzędnych :
liczebności
wartości
rozkłady dla cechy ciągłej :
rozkład jednomodalny - ma jedno maximum
Dla cechy ciągłej mówimy, że jest to krzywa liczebności
Dla cechy skokowej - diagram
Dla cechy ciągłej - krzywa liczebności ma 1 maximum
Dla cechy skokowej - diagram ma 1 maximum
A tu są 2 maxima (maxima lokalne)
Rozkład symetryczny - taki, w którym liczebności odpowiadające wartościom zmiennej rozkładają się symetrycznie wokół liczebności największej
Taki wykres w ogóle nie jest jednomodalny - (więc nie nazwiemy go symetrycznym)
Rozkład symetryczny :
normalny
leptokurtyczny
platokurtyczny
Rozkład normalny
Rozkład normalny (krzywa Gaussa) - dlaczego jest taki ważny?
wiele rozkładów w rzeczywistości (przyrodzie) ma rozkład zbliżony do r. normalnego (np. wzrost ludzi)
rozkład normalny jest rozkładem statystyki
Każdy rozkład normalny jest rozkładem symetrycznym
Rozkład leptokurtyczny (w stosunku do normalnego jest bardziej wysoki)
Rozkład platokurtyczny (spłaszczony w stosunku do normalnego)
Rozkłady umiarkowanie i skrajnie asymetryczne :
Umiarkowanie asymetryczny, prawoskośny - dla cechy ciągłej (prawoskośny - bo prawe ramię jest dłuższe)
Umiarkowanie asymetryczny, prawoskośny - dla cechy skokowej
Umiarkowanie asymetryczny, lewoskośny - dla cechy skokowej
Skrajnie asymetryczny, prawoskośny - dla cechy ciągłej
Skrajnie asymetryczny, lewoskośny - dla cechy ciągłej
rozkłady asymetryczne to takie, w których prostopadła do osi x poprowadzona z punktu maximum dzieli powierzchnię pod krzywą na 2 nierówne części
rozkład prawoskośny - taki, dla którego większa powierzchnia wraz z dłuższym ramieniem znajduje się z prawej strony punktu maximum
lewoskośny - analogicznie - ... z lewej strony
rozkład umiarkowanie asymetryczny - taki, który ma 2 ramiona
rozkład skrajnie asymetryczny - ma tylko 1 ramię
rozkład bimodalny - taki, który ma 2 maxima
rozkład wielomodalny - taki, który ma więcej niż jedno (lub więcej niż 2 maxima)
Rozkład ukształtny (siodłowy) - nie jest ani jednomodalny, ani wielomodalny
MIARY ASYMETRII
Wyróżniamy miary :
średnie
zróżnicowania
asymetrii
za pomocą miar asymetrii możemy otrzymać informację, czy rozkład jest symetryczny, prawoskośny...itp.
miary asymetrii informują nas o tym, z jakim rodzajem rozkładu mamy do czynienia
prawoskośny
D Md x
D - dominanta
Md - mediana
x- średnia
lewoskośny
x Md D
miary asymetrii wykorzystują miary średnie poprzez porównanie ich wielkości. W ten sposób najwygodniej jest uzyskać informacje o tym, czy rozkład jest symetryczny, czy jest prawoskośny, czy lewoskośny
w rozkładach symetrycznych średnia, mediana i dominanta są sobie równe
w rozkładach asymetrycznych możemy wskazać nierówności, które te miary spełniają
wskaźnik asymetrii - Ws
Ws = x - D
Prawoskośny - Ws > 0
Symetryczny - Ws = 0
Lewoskośny - Ws < 0
(lecz Ws nie informuje o sile, o natężeniu tej asymetrii)
Współczynnik asymetrii - As (współczynnik pozwala porównywać)
As = x - D / s
Mamy tu informację zarówno o kierunku jak i o sile asymetrii
As przybiera wartości z przedziału <-1 ; 1>
As = 0 - symetryczny
As ujemny - lewoskośny kierunek
As dodatni - prawoskośny
Siła im bardziej się zbliża do wartości skrajnych
O sile asymetrii informuje nas odległość od zera. Im bliżej bezwzględnie do 1, tym asymetria jest silniejsza
18.03.2008
PRAWDOPODOBIEŃSTWO
Kombinatoryka - dział matematyki zajmujący się obliczaniem liczby zbiorów jakie można utworzyć przy pewnych warunkach
Np. ile można utworzyć par postaci (aj, bk) - zależy ile jest tych j, k
Np.
płeć - 2 kategorie
wykształcenie - 4
miejsce zamieszkania - 3
wiek - 4
więc - 2*4*3*4 = 96
tyle będzie różnych kategorii
SILNIA !
6! = 1*2*3*4*5*6
0! = 1
1! = 1
n n!
k = k! (n - k)!
Populacja generalna - zbiór złożony z „n” różnych elementów
Próbka - dowolny zbiór, którego elementy są elementami populacji generalnej (podzbiór)
Najpierw powinniśmy odpowiedzieć sobie na pytania :
ile mamy do dyspozycji elementów
ilu-elementowy zbiór tworzymy
czy elementy mogą się powtarzać
czy kolejność elementów w zbiorze odgrywa rolę
WARIACJA
wariacją bez powtórzeń z n elementów po k nazywamy uporządkowany zbiór składający się z k różnych elementów, wybranych spośród n różnych elementów (*zbiór uporządkowany - czyli kolejność odgrywa rolę)
liczbę wariacji bez powtórzeń określamy takim wzorem :
k n!
Vn = (n - k)!
Wariacja z powtórzeniami - uporządkowany zbiór składający się z k elementów różnych lub nieróżniących się między sobą, wybranych spośród n różnych elementów
k
Vn = nk
PERMUTACJE BEZ POWTÓRZEŃ - zbiór składający się z n elementów, uporządkowanych i różnych, utworzony z n elementów
Permutacja bez powtórzeń jest wariacją z n elementów po n
Pn = n!
n n! n! n!
Pn = Vn = (n - n)! = 0! = 1 = n!
PERMUTACJĄ Z POWTÓRZENIAMI nazywamy zbiór składający się z n elementów uporządkowanych, wśród których pewne elementy powtarzają się odpowiednio n1, n2,....nk razy
n1,n2...nk n!
Pn = n1! * n2! * nk!
KOMBINACJA BEZ POWTÓRZEŃ z n elementów po k nazywamy zbiór składający się z k różnych elementów wybrany spośród n różnych elementów, przy czym obojętne jest w jakim porządku elementy tego zbioru są rozmieszczone
k n n!
Cn = k = k! (n - k) !
KOMBINACJA Z POWTÓRZENIAMI z n elementów po k to zbiór składający się z k elementów różnych lub nieróżniących się między sobą, wybrany spośród n różnych elementów, przy czym obojętne jest w jakim porządku elementy tego zbioru są rozmieszczone
_ k n + k - 1
Cn = k
ZDARZENIE LOSOWE
JEDNORAZOWE MASOWE
- nie można przewidzieć wyniku - powtarzające się, cykliczne
W teorii prawdopodobieństwa interesujemy się zdarzeniami masowymi (badanie prawidłowości zdarzeń masowych)
ZDARZENIE LOSOWE - takie zdarzenie, którego zajścia lub niezajścia nie można przewidzieć (na 100 %) i powiedzenie, że zachodzi lub nie, ma sens. (w tych właśnie kategoriach możemy je rozpatrywać - że ono zachodzi lub nie)
ZDARZENIE ELEMENTARNE - jeśli zdarzenia A nie można przedstawić w postaci sumy co najmniej dwóch zdarzeń różnych od A, to takie zdarzenie nazywamy zdarzeniem elementarnym
- przestrzeń zdarzeń elementarnych (wszystkie możliwe zdarzenia elementarne danego doświadczenia)
*zdarzenie losowe - podzbiór przestrzeni zdarzeń elementarnych
ZDARZENIE NIEMOŻLIWE - zdarzenie losowe niezawierające żadnego zdarzenia elementarnego
ZDARZENIE PEWNE - zdarzenie losowe zawierające wszystkie elementy przestrzeni zdarzeń elementarnych
KLASYCZNA DEFINICJA PRAWDOPODOBIEŃSTWA - jeżeli zbiór podstawowy składa się z n zdarzeń elementarnych jednakowo możliwych i jeżeli wśród nich jest k zdarzeń sprzyjających zajściu zdarzenia A, to liczbę P(A) równą k/n nazywamy prawdopodobieństwem zajścia zdarzenia A
k
P(A) = n
n
prawdopodobieństwo zajścia zdarzenia pewnego = n = 1
0
prawdopodobieństwo zajścia zdarzenia niemożliwego = n = 0
=> czyli : 0 ≤ P(A) ≤ 1
1.04.2008
PRAWDOPODOBIEŃSTWO WARUNKOWE - prawdopodobieństwo zajścia zdarzenia A pod warunkiem, że zaszło zdarzenie B. Oznaczamy je i obliczamy w ten sposób :
P (A ∩ B)
P(A/B) = P(B)
Po przekształceniu : P (A ∩ B) = P(A/B) * P(B)
P (A ∩ B) - prawdopodobieństwo jednoczesnego zajścia zdarzenia A i zdarzenia B
dopuszczalne są „drzewka” :)
SCHEMAT BERNOULLIEGO
w schemacie N prób Bernoulliego prawdopodobieństwo PN(k) otrzymania dokładnie k sukcesów wyraża się wzorem :
n
PN(k) = k pk * qN-k
N - liczba prób
k - liczba sukcesów
p - prawdopodobieństwo sukcesu p + q = 1
q - prawdopodobieństwo porażki
Drzewko :
np. rzucamy 2 razy monetą :
1. rzut
1 1
2 2
orzeł reszka
1 1 1 1
2 2 2 2 2. rzut
orzeł reszka orzeł reszka
½ * ½ = ¼ - czyli wyrzucenie 2 razy orła ma prawdopodobieństwo ¼ (i reszki też)
ZMIENNA LOSOWA - zmienną losową nazywamy każdą funkcję o wartościach rzeczywistych na przestrzeni zdarzeń elementarnych
X(w)
Y(w) symbole zmiennej losowej
Rozkład zmiennej losowej - zbiór
{(xi, pi) : i = 1,2....,n }
zbiór par postaci (xi, pi) gdzie xi oznacza wartość zmiennej losowej x, a pi oznacza prawdopodobieństwo, z jakim x przyjmuje wartość xi
WARTOŚĆ OCZEKIWANA ZMIENNEJ LOSOWEJ
w. oczekiwaną zmiennej losowej X o rozkładzie {(xi, pi) : i = 1,2....,n } nazywamy liczbę Ex = x1p1 + x2p2 +... + xNpN
Ex = Σ xipi
Σ pi = 1
WARIANCJA ZMIENNEJ LOSOWEJ
wariancją zmiennej losowej x nazywamy liczbę oznaczoną symbolem D2(x) i określamy wzorem E (x - Ex)2
D2(x) = E (x - Ex)2
ROZKŁAD NORMALNY
ROZKŁAD - przyporządkowanie odpowiednim wartościom odpowiadających im liczebności
Przykładowe pytanie egzaminacyjne : od czego uzależniona jest postać krzywej normalnej?
odpowiedź : od średniej arytmetycznej i odchylenia standardowego
gdy zmienia się średnia, to kształt się nie zmiena, tylko krzywa się przesuwa w lewo lub w prawo :
X
D
Md
Krzywa przesunęła się w lewo (średnia się zmniejszyła)
(a jeśli średnia by się zwiększyła, to krzywa przesunęłaby się w prawo)
s - odchylenie standardowe - decyduje o tym, czy rozkład jest bardziej spłaszczony czy spiczasty
gdy s się zwiększa, to rozkład jest bardziej spłaszczony (bo wtedy jest bardziej zróżnicowana zbiorowość, s jest bardziej oddalone od średniej)
ZBIOROWOŚCI
POPULACJE PRÓBA
parametr (miara którą obliczamy - statystyka, estymator
w populacji) (miara obliczana w próbie)
M - „mi” - średnia w populacji x, M - średnia
σ - odchylenie w populacji (mała sigma) s - odchylenie
8.04.2008
Reguła trzech sigm
reguła ta mówi o tym, jaką część powierzchni całkowitej pod krzywą normalną zajmują powierzchnie wyznaczone przez odkładanie od średniej odcinków odchylenia standardowego
np. N ( 90; 11 ) - rozkład normalny o średniej 90 i odchyleniu 11
Z - pomiar standaryzowany
x - x
Z = s
Z - mówi nam, ile odchyleń standardowych leży w odległości od średniej (Z to odległość punktu od średniej w jednostkach odchylenia stand.)
*odczytujemy z tablic, że np. Z = 1,35 → 41,15 %
WNIOSKOWANIE STATYSTYCZNE
Dwie kategorie wnioskowania statystycznego :
Sytuacje polegające na tym, że na podstawie pewnych charakterystyk, rozkładów danej zmiennej w próbie (zwanych statystykami lub estymatorami, np. średnia, proporcja) próbujemy oszacować odpowiadające im parametry rozkładu tej zmiennej w populacji. (metody estymacji parametrów populacji)
W sytuacjach tych bądź stwierdzamy, iż pewne podgrupy w przebadanej przez nas próbie, czy też próby pobrane z różnych populacji różnią się swoimi parametrami, bądź też stwierdzamy, iż zmienne w badanej przez nas próbie są powiązane określonymi statystycznymi zależnościami, a następnie staramy się uogólnić owe różnice lub zależności na populację lub populacje, z których próby te zostały wylosowane (metody weryfikacji hipotez)
15.04.2008
Weryfikacja hipotez statystycznych
Hipoteza - twierdzenie (wypowiedziane językiem statystyki)
równania lub nierówności
sformułowania typu : coś ma wpływ na coś, coś jest uzależnione od czegoś...
HIPOTEZY
ZEROWA BADAWCZA
*hipotezy kierunkowe i bezkierunkowe
Rozumowanie weryfikacja potwierdzenie/obalenie
Etapy testowania hipotez statystycznych (najczęściej mówi się o 5 krokach, które trzeba wykonać, aby przeprowadzić tę procedurę weryfikacji) :
określenie zmiennych i ich skal pomiarowych. Sformułowanie założeń i hipotez
wybór testu statystycznego i określenie rozkładu statystyki
ustalenie reguły decyzyjnej. Wybór poziomu istotności, określenie obszaru krytycznego i wartości krytycznej
obliczenie wartości statystyki dla otrzymanych wyników
podjęcie decyzji
dla każdego testu stosujemy tę samą procedurę
oprócz tych 5 punktów - na początku wyraźnie zaznaczyć problem, na końcu udzielić odpowiedzi
procedura : porównanie 2 liczb : uzyskaną ze wzoru i wyczytaną z tablic
ROZKŁAD Z PRÓBY - rozkład, w którym jednostką jest próba, a zmienną statystyka obliczona dla tej próby (możemy w każdej próbie obliczyć średnią i przedstawić ten rozkład)
TEORETYCZNY ROZKŁAD Z PRÓBY - nie pobieramy żadnych prób ani nie przeprowadzamy żadnego doświadczenia (jest efektem teoretycznych rozważań na fundamencie rachunku prawdopodobieństwa)
EKSPERYMENTALNY ROZKŁAD Z PRÓBY - wynik rzeczywistego doświadczenia
__
X x
S x rozkład eksperymentalny
M
x
σ x rozkład teoretyczny
(literką `M' oznaczam tu „mi” - nie mogłam w symbolach znaleźć fachowego oznaczenia :)
__
X x - średnia z eksperymentalnego rozkładu próby średniej
S x - odchylenie stand. z eksperymentalnego rozkładu próby średniej
M x - średnia z teoretycznego rozkładu próby średniej (M - „mi”)
σ x - odchylenie stand. z teoretycznego rozkładu próby średniej
22.04.2008
M s2 - średnia z teoretycznego rozkładu próby wariancji (statystyki s2)
MM = M - średnia z teoretycznego rozkładu próby średniej jest równa średniej w populacji (M - średnia w populacji)
M s2 = σ2
Błąd standardowy - odchylenie standardowe rozkładu dowolnej statystyki
Błąd standardowy statystyki M - σM
σ2 σ
σM2 = N σM = √N N = liczebność próby
CENTRALNE TWIERDZENIE GRANICZNE
Warunki zaistnienia CTG :
pobieramy próby losowe o liczebności N
populacja ma dowolny rozkład ze średnią M i wariancją σ2
jeśli próby są wystarczająco duże to rozkład z próby średnich jest rozkładem normalnym o średniej M i wariancji σ2
N
σ
N (M ; √N ) - rozkład próby średniej
Σ (xi - x)2
S2 = N - 1 - wariancja
W próbie dzielimy przez N - 1
Dzieląc przez N otrzymalibyśmy nieobciążony estymator σ2 który wykazywałby systematyczną tendencję do oddalania się od σ2 o stałe obciążenie równe N - 1 / N
Gdy będziemy dzielić przez N - 1 to taki estymator nie będzie wykazywał systematycznej tendencji do tego, by być mniejszym lub większym niż σ2
29.04.2008
Hipoteza we wnioskowaniu statyst. jest sformułowana w języku statystyki (matematyki)
hipoteza zerowa - coś nie ma związku, wpływu ; coś jest czemuś równe ; nie różni się (np. sposób prowadzenia zajęć nie wpływa na wyniki kolokwium). Tutaj mamy dwie decyzje : odrzucamy H0 lub brak podstaw do odrzucenia H0
hipoteza badawcza
≠ bezkierunkowa (np. sposób prowadzenia zajęć wpływa na oceny z kolokwium. - ale nie określamy jak wpływa)
> < kierunkowe (że np. coś wpływa pozytywnie lub negatywnie na coś - określamy jaki jest ten wpływ)
hipoteza zerowa wyklucza się z hipotezą badawczą
Chcemy potwierdzić H1, budujemy H0 przeciwstawną do H1. Zakładamy że H0 jest prawdziwe i staramy się doprowadzić do sprzeczności, tzn. uzyskać wynik mało prawdopodobny.
Co to znaczy wynik mało prawdopodobny?
w naukach społ. za mało prawdopodobne uważa się wyniki, których prawdopodobieństwo jest mniejsze niż 0,05 (5%) (ale też może być 0,01)
POZIOM ISTOTNOŚCI
α
α = 0,05
α = 0,01
O prawdopodobieństwie, na jakie decyduje się badacz informuje nas poziom istotności (α)
Można się również spotkać z oznaczeniami p zamiast α
OBSZAR KRYTYCZNY (OBSZAR ODRZUCENIA) - obszar rozkładu z próby, który stanowi odpowiedni procent całego rozkładu z próby zdefiniowany przez poziom istotności
Obszar krytyczny -
α = 0,05 zakreskowany
2,5 % 2,5 %
gdy liczba ze wzoru należy do obszaru krytycznego, należy odrzucić hipotezę zerową
gdy liczba ze wzoru jest gdzieś indziej (nie należy do obszaru odrzucenia) to jest brak podstaw do odrzucenia hipotezy zerowej
Jeśli w badaniach otrzymaliśmy wynik mało prawdopodobny to znaczy że albo mieliśmy fuksa :) albo nasze założenia są fałszywe. Naszym założeniem była prawdziwość hipotezy zerowej. Jeśli wynik w badaniu przetworzony za pomocą wzoru na dany test wpada do obszaru odrzuceń to znaczy że należy odrzucić hipotezę zerową - w konsekwencji przyjąć hipotezę badawczą. Jeśli wynik nie wpada do obszaru odrzuceń, to brak podstaw do odrzucenia hipotezy zerowej - w konsekwencji odrzucamy hipotezę badawczą
Wynik istotny statystycznie to wynik, który pozwala odrzucić hipotezę zerową
TEST
wzór (różne dla tego samego testu)
tablice (możemy z nich odczytać wartości tych skrajnych punktów) - przy ustalonym poziomie istotności tablica pozwala nam zdefiniować obszar krytyczny
WARTOŚĆ KRYTYCZNA - wartość, która dzieli rozkład z próby na dwie części : na obszar krytyczny i obszar, w którym nie odrzucamy hipotezy zerowej
Wartość krytyczna
STOPNIE SWOBODY - liczbę wartości, które mają swobodę dowolnego zmieniania się, nazywamy stopniami swobody
uzależnione od liczebności
mówią jakie elementy mogą się swobodnie zmieniać
Przykład :
Mamy 3 liczby : 7, 8, 15
Średnia = 10
Odchylenia od średniej : odpowiednio : -3, -2, 5
Suma odchyleń od średniej równa się zawsze 0 -3 + (-2) + 5 = 0
Jeśli więc znamy dwa odchylenia, to trzecie jest już ustalone (nie może się zmienić)
Test z - oparty na rozkładzie normalnym
Test t - studenta - skale ilościowe
Test λ2 ( “chi kwadrat”) - skala nominalna
Od czego zależy wybór testu?
od założeń dotyczących badania
od tego, ile mamy grup porównawczych (albo dwie grupy albo więcej)
od tego, jaka jest skala pomiarowa ( test z i t-studenta są dla skali ilościowej - ilorazowa i interwałowa - natomiast test λ2 dla skali nominalnej)
13.05.2008
Dokładniej, wybór testu zależy od :
typu, rodzaju zmiennych
od operacjonalizacji tych zmiennych (np. zmienna `wiek' - jak ją zoperacjonalizujemy? Można np. podzielić na tych, którzy mają 20 lat i którzy nie mają, można uszeregować wg wieku itp.)
konkretniej : od skali pomiaru, od ilości grup porównawczych, od zaufania do tego pomiaru, od typu pytania badawczego
Algorytm wyboru testu istotności - pewien sposób postępowania
algorytm wyboru testu istotności różnic - dane zależne
jeśli mamy dane zależne (próby zależne, grupy zależne) to na tej samej grupie obiektów dokonujemy pomiaru przynajmniej dwukrotnie w międzyczasie stosując jakiś bodziec
algorytm wyboru testu istotności różnic - dane niezależne
gdy mamy dane (próby, grupy) niezależne, to badamy przynajmniej 2 grupy w różnych warunkach
Przykład :
Gdy mamy dwie różne grupy, w których w różny sposób prowadzono zajęcia i chcemy sprawdzić czy ten sposób prowadzenia zajęć ma wpływ na wyniki z kolokwium - to wtedy mamy do czynienia z danymi niezależnymi (bo badamy dwie grupy w różnych warunkach - w każdej z grup w inny sposób prowadzono zajęcia)
A gdy na jednej próbie (grupie) dwa razy przeprowadzamy badanie i działa jakiś bodziec - np. za pierwszym razem pytamy badanych o preferencje wyborcze, notujemy wyniki, a za drugim razem puszczamy np. film o jakimś polityku i znów pytamy ich o preferencje wyborcze - wtedy dane zależne
Należy więc ustalić, czy mamy do czynienia z danymi niezależnymi czy zależnymi
ALGORYTM WYBORU TESTU ISTOTNOŚCI RÓŻNIC :
Ile jest grup porównawczych?
2 grupy p (p>2) grup
Jaka jest skala pomiarowa zmiennej zależnej Y?
ilorazowa porządkowa nominalna ilorazowa porządkowa nominalna
i interwałowa i interwałowa
czy rozkład test Manna - test dokładnego czy rozkład test Kruskala - test λ2
zmiennej Whitneya prawdopodobieństwa zmiennej zależnej Wallisa
zależnej jest i Walda - FISHERA jest normalny test median
normalny Wolfowitza
TAK NIE - (jak w porządkowej) TAK NIE - (jak w porządkowej)
Jaka jest wielkość grup Czy wariancje są homogeniczne?
porównawczych?
Duża Mała TAK NIE - (jak w porządkowej)
nj > 3 nj < 3
test z Czy wariancje są test F analizy wariancji
homogeniczne? One Way ANOVA
TAK NIE
Test t - studenta test Cochrana i Coxa -
Welcha, Kołmogorowa - Smirnowa
28.05.2008
KORELACJA
ważny problem w nauce (czy jedno jest uzależnione od drugiego)
mechaniczne obliczenia, ale ważne jest żeby potrafić uargumentować, że taki związek istnieje, a nie jest zbiegiem okoliczności
pojęcia towarzyszące zagadnieniom :
korelacja - związek między zmiennymi (współzmienność, współwystępowanie). Może być między 2 zmiennymi (analiza 2 - zmiennowa) i więcej niż 2 zmienne (wielozmiennowa)
predykcja - przewidywanie - przewidujemy jedną zmienną na podstawie drugiej zmiennej
Ocena korelacji na podstawie wykresu, tabelki, diagramy, interpretacja zebranych danych - nieostra kategoria (widać albo nie widać korelacji)
Obliczanie współczynnika korelacji - miara związku między zmiennymi - obliczamy za pomocą wzoru i sprawdzamy jak możemy to interpretować (wybór współczynnika korelacji - jaki współczynnik powinniśmy zastosować)
Konsekwentnie powinniśmy stosować :
nazwę współczynnika
symbol współczynnika
wzór
informacja, jakie może przybierać wartości (od 0 do 1 lub od - 1 do 1 wartości jakie przybiera dany współczynnik)
a) < 0, 1> b) < - 1, 1 >
słaby czy silny siła, kierunek
a) siła związku 0 1
brak związku związek idealny
b) siła, kierunek - 1 0 1
związek idealny brak związek idealny
ujemny związku dodatni
(odwrotnie proporcjonalny) (wprost proporcjonalny)
Badanie istotności współczynnika korelacji - w jaki sposób badamy, czyli za pomocą jakiego testu i jaki wzór oraz zdefiniowanie hipotezy zerowej (czyli że H0 = wartość korelacji = 0 )
H0 : r = 0 r - dowolny współczynnik
Σ - współczynnik korelacji
Korelacje u Darwina po raz pierwszy w nowożytności
Darwin Galton Karl Pearson
Znaczący układ w badaniu związków - za pomocą
korelacji współczynników
zmienne zależne i niezależne - co jest przyczyną a co skutkiem? Matematycznie nie ma to znaczenia, ale w ramach dyscypliny trzeba się zastanowić co wpływa na co
zmienna niezależna - ta, której wpływ chcemy badać
zmienna zależna - ta, którą badamy, której wartość zależy od zmiennej niezależnej
Korelacja cząstkowa - korelacja między zmiennymi po wyeliminowaniu jakiejś innej zmiennej lub zmiennych
Badanie korelacyjne - ma nam pokazać związek między zmiennymi
Co decyduje o wyborze interpretacji korelacji?
Ile jest zmiennych
Jakiego typu są to zmienne - na jakiej skali są zmierzone? - warunek, że zmienne muszą być analizowane w tej samej skali, jeśli są to zmienne wyrażone w 2 różnych skalach, to zmienną wyższego rzędu „obniżamy” do tej drugiej zmiennej (rekodowanie)
Np.
Klasa społ. |
Przynależność religijna |
ogółem |
||
|
katolicy |
Żydzi |
Protestanci |
|
wyższa |
0 |
0 |
8 |
8 |
średnia |
0 |
8 |
0 |
8 |
niższa |
8 |
0 |
0 |
8 |
ogółem |
8 |
8 |
8 |
24 |
Istnieje idealna współzależność
W kolumnach najczęściej zamieszcza się zmienną niezależną, a w wierszach zmienną zależną
Przykład 2.
Klasa społ. |
Przynależność religijna |
Ogółem |
||
|
katolicy |
żydzi |
protestanci |
|
Wyższa |
0 |
2 |
6 |
8 |
Średnia |
1 |
6 |
1 |
8 |
Niższa |
7 |
0 |
1 |
8 |
ogółem |
8 |
8 |
8 |
24 |
Istnieje umiarkowana współzależność
Przykład 3.
Klasa społ. |
Przynależność religijna |
ogółem |
||
|
katolicy |
żydzi |
protestanci |
|
Wyższa |
2 |
3 |
3 |
8 |
Średnia |
3 |
2 |
3 |
8 |
Niższa |
3 |
3 |
2 |
8 |
Ogółem |
8 |
8 |
8 |
24 |
Współzależność prawie nie istnieje
*zmienne ilościowe - diagram korelacyjny (interpretacja graficzna)
zmienna Y
zmienna x
Dodatni silny
Ujemny silny