LEKCJA 3 ostatnia lekcja statystyki :) (część 3/3 ostatnia :) ) Szybkimi krokami zbliżamy się do końca nauki statystyki :) . W międzyczasie kilka osób poruszyło ciekawe wątki i przypomniało mi się jeszcze kilka rzeczy, o które możecie być zapytani na egzaminie. Na początek mała powtórka :) ZMIENNE ZALEŻNE/NIEZALEŻNE W statystyce występują dwa rodzaje zmiennych zależne i niezależne. Fachową definicją zmiennej zależnej jest: Zmienna, którą badacz chce wyjaśnić, nazywamy zmienną zależną. Jest nią bezpośredni lub pośredni skutek oddziaływania zmiennych niezależnych. Jest to zjawisko, które badacz wyjaśnia, lub którego poszukuje. Natomiast zmienna niezależna to: Zmienna, za pomocą której badacz chce wyjaśnić zmiany w wartościach zmiennej zależnej nazywany zmienną niezależną. Zmienną niezależną jest ta, która wyjaśnia badane zjawisko i która powoduje zmiany w wartościach zmiennych zależnych. Jest zakładaną przyczyną zmian wartości zmiennej zależnej. Uchodzi za przyczynę zmiennej zależnej, która jest jej skutkiem. Trudno to wyjaśnić definicyjnie, łatwo zrozumieć w praktyce :) Krótko mówiąc: Jeśli badamy czy poczucie szczęścia zależy od ilości posiadanych pieniędzy , to: - poczucie szczęścia to zmienna zależna - a ilość posiadanych pieniędzy to zmienna niezależna :) Tak to najłatwiej zrozumieć. Jeśli będziecie o to zapytani, odpowiadajcie własnymi słowami tak, jak rozumiecie. EFEKT GAÓWNY Czasem pada pytanie o to, czym jest efekt główny. Definicja poniżej: w schemacie badawczym 2x2 wpływ, jaki jedna zmienna niezależna ma na zmienną zależną, bez względu na drugą zmienną niezależną lub interakcję obu zmiennych czyli gdybyśmy badali poczucie szczęścia i empatyczność w zależności od ilości pieniędzy i płci , to efekt główny to np. to jak ilość posiadanych pieniędzy wpływa na empatyczność osoby (bez względu na to, jak wpływa na to płeć) :) PRZEDZIAA UFNOŚCI Przedział ufności to coś zupełnie innego niż poziom istotności. Te dwa pojęcia najczęściej się ze sobą mylą. Poziom istotności wytłumaczony został w lekcji 3 (część 1, strona 2). Przedział ufności jest natomiast pojęciem związanym z estymacją przedziałową. Krótkie powtórzenie: Jeśli mamy jakąś próbę (np. 100 osób), każdej z tych osób zrobimy np. test na IQ i wyciągniemy średnią ze wszystkich 100 wyników, to otrzymamy średnią całej naszej próby. Ale co z tego? ;) Nadal nie będziemy wiedzieli w jaki sposób nasza próba ma się do populacji (czyli średniego IQ całej planety). I właśnie po to wymyślono przedziały ufności. Dzięki nim można określić, że np. 1 / 6 z 95% dokładnością, średnia populacji znajduje się pomiędzy IQ=98,34 a IQ=101,66 . Oczywiście możemy zakładać różne przedziały, pojawia się jednak wówczas zjawisko, które warto zapamiętać: - im przedział ma większą dokładność (im bliżej 100%), tym będzie szerszy Jest to logiczne, bo jeśli chcemy znać średnią z dokładnością 99,99% to będziemy mieli szerszą ramkę w której ta średnia może być (np. gdzieś pomiędzy 85 a 115). Przy założeniu tak wyśrubowanej dokładności mamy 0,01% szansy na to, że średniej tam jednak nie będzie. Gdy zakładamy dokładność równą 90%, to przedział może być węższy np. <98; 102> ale za to już jest 10% szansy na to, że średnia jednak umknie poza przedział ;) I to tak z grubsza tyle :) Przedziały ufności wyznaczamy wzorem: ź " < X z * S ; X + z * S > x x lub: X z * S d" ź d" X + z * S x x Ten wzór oznacza to samo, tylko jest inaczej zapisany. Można z niego wywnioskować to, że przedział ufności jest symetrycznie ułożony po obu stronach średniej :) z, którego używamy w tym wzorze odpowiada za dokładność, którą chcemy uzyskać: z = 1 dokładność 68% 1,44 dokładność 85% 1,64 dokładność 90% 1,96 dokładność 95% 2,58 dokładność 99% (dobrze jest się tego nauczyć na pamięć procenty biorą się z odchyleń standardowych od średniej uproszczony wykres tego był w lekcji 1 na stronie 7). S to błąd standardowy (wzór jest w lekcji 2 na stronie 10) x X to średnia z naszej próby STANDARYZACJA Na wszelki wypadek dobrze jest wiedzieć, czym jest standaryzacja :) . Aby to zrozumieć wyobrazmy sobie taką historyjkę: Jesteśmy znanymi naukowcami i bierzemy udział w międzygalaktycznej konferencji dla psychologów. Właśnie występuje znany prelegent i opowiada historię swojego niezwykłego pacjenta (możesz wymyślić ją jak chcesz ;) ). Na zakończenie mówi o wyniku testu IQ, który osiągnął tenże pacjent 140. Wszyscy biją brawo. Każdy wie, gdzie w populacji go to plasuje. Teraz nadchodzi nasza kolej po super atrakcyjnym zaprezentowaniu historii przypadku przed międzygalaktycznym audytorium, nadchodzi czas na podsumowanie. I mówimy wszystkim, że w naszym własnym teście empatyczności EA-x1 pacjent otrzymał wynik 67,84. Nikt nie wie co to oznacza, ani czy to dobrze, czy zle ;) . Mówimy dalej w tym teście średnia wynosi 58,16 a odchylenie standardowe 6,79. Nadal nikt nie wie o co chodzi. Zanim ktoś policzy ile odchyleń standardowych od średniej jest nasz pacjent, miną wieki. Tutaj z ratunkiem przychodzi standaryzacja. Standaryzacja to metoda polegająca na zamianie surowych wyników (IQ= 115, EA-x1=71,74 itp.) na ilość odchyleń standardowych od średniej (z=1, z=2...). Dzięki temu, po przeliczeniu nasz zagmatwany wynik będzie zrozumiały dla każdego 2 / 6 ( pacjent ma empatyczność w trzecim odchyleniu standardowym ). Wzór na standaryzację lekcja 2, strona 10 :) . Znajdz go i przepisz poniżej: z = Jeśli padnie polecenie narysowania rozkładu normalnego wystandaryzowanego, to po prostu rysujemy rozkład normalny: Zero na środku oznacza, że na środku wypada średnia (brak odchyleń standardowych). Gdyby rozkład miał być niewystandaryzowany, wtedy zamiast zera byłby średni wynik surowy (np. IQ=100). OBSZAR KRYTYCZNY Otwórz notatki na lekcji 3 (część 1, dół pierwszej strony) i przypomnij sobie co to jest wartość krytyczna. Obszar krytyczny to po prostu obszar w którym musi znalezć się wynik naszego testu, aby móc odrzucić hipotezę zerową. Przykładowo jeśli nasze t jest większe od t krytycznego (odczytanego z tablic), to znaczy, że nasze t znalazło się w obszarze krytycznym. Graficznie ilustruje się to tak: ! a tutaj X do zamknięcia okienka ;) 3 / 6 KORELACJA (Test r-Pearsona) To mój ulubiony temat :D . Wierzę, że Ty też go polubisz :) Korelacja to dość użyteczna metoda służąca do sprawdzenia, czy dwie zmienne mają ze sobą jakiś związek. Możemy sprawdzać dzięki niej wszystko, co nam przyjdzie do głowy, jeśli zmienna jest mierzalna (czyli znajduje się w skali przedziałowej lub stosunkowej, czyli jest ciągłymi cyframi) np. sprawdzamy czy jest wpływ między wzrostem, a ilością godzin spędzonych przed TV, albo między rozmiarem buta, a długością.. nogi. I tak dalej ;) . Możesz badać, co tylko chcesz i co Cię interesuje :) Aby to zbadać musimy oczywiście mieć odpowiednio liczną (reprezentatywną) próbę, którą zbadamy :) . W naszym przykładzie będziemy badać, czy jest korelacja między ilością zjedzonych batoników i wagą oraz ilością zjedzonych batoników i stanem portfela. Wyobrazmy sobie, że zrobiliśmy badania i nałożyliśmy je na wykres. W idealnej formie powinien nam wyjść nam któryś z takich przypadków: Na osi X (poziomej) piszemy jedną badaną rzecz (np. ilość jedzonych batoników dziennie), na osi Y (pionowej) zapisujemy drugą badaną rzecz np. wagę osoby, lub stan jej portfela. W rzeczywistości wykresy nie są tak czytelne i wyglądają mniej więcej tak: Teraz, mając zbadane osoby wszystkie dane podstawilibyśmy do wzoru na r-Pearsona (inaczej mówiąc ro Pearsona). Wzór ten jest podany w lekcji 2 na stronie 2. 4 / 6 Wynik, który uzyskamy może mieć wartości tylko z przedziału <-1; 1> . Czyli może mieć i -1, i 0, i 0,2, i 0,4532. Pamiętaj, że nie może być ani mniejszy, ani większy od wartości granicznych <-1;1>. R mówi nam o trzech bardzo istotnych rzeczach o tym, czy jest jakiś związek między oboma badanymi cechami, o tym czy związek jest dodatni, czy ujemny (o tym za chwilę) i mówi nam też o sile związku. Jeśli r=0 wtedy korelacja nie występuje. Oznaczałoby to, że wykres wyglądałby tak: Czyli wszystkie wartości byłyby rozproszone równomiernie, nie da się przeciągnąć nigdzie prostej korelacji (prostej, która obrazowałaby jakoś tę zależność) nie byłoby między nimi związku. W przypadku batoników oznaczałoby to, że ilość zjadanych codziennie batoników nie ma wpływu na wagę człowieka :) Jeśli r>0 wtedy mówimy o korelacji dodatniej. Oznacza to, że jest zależność między oboma wartościami. Wykres wyglądałby wtedy tak: Waga osoby Ilość zjedzonych batoników Możemy z niego odczytać, że im więcej ktoś je batoników w ciągu dnia, tym więcej waży. Jeśli r<0, wtedy mamy do czynienia z korelacją ujemną. Wykres: Ilość $ Ilość kupowanych batoników Mówi nam to o tym, że im więcej kupujesz batoników, tym mniej masz pieniędzy. 5 / 6 Podchwytliwym pytaniem na egzaminie (które u mnie w grupie się pojawiło), jest pytanie, jaka korelacja wystąpi, jeśli punkty ułożą się tak: Ponieważ z założenia korelacja jest liniowa (czyli kropki mają być zbliżone do jakiejś prostej, aby mogła zaistnieć), w tej sytuacji mówimy śmiało nie występuje korelacja liniowa. (W ramach ciekawostki p.Aranowska nazywa tak wyglądający wykres tropangą - to taki robal ;) ) " Siła związku Im nasze r jest bliżej 1, tym związek między zmiennymi jest silniejszy, im bliższa zero, tym bardziej go nie ma. Jeśli nasze r równa się 1 oznaczałoby to, że zawsze, w każdej sytuacji, ktoś kto je X batoników dziennie musi ważyć wagę Y (niezależnie od płci, wieku, wzrostu itd.). Gdyby r=0 oznaczałoby to, że u każdego jest inaczej. I analogicznie poniżej zera jeśli r=-1 oznacza to, że zawsze, gdy wartość zakupionych batoników rośnie, ilość pieniędzy w portfelu spada i nie ma innej opcji. Gdyby r było równe -0,5 oznaczałoby to, że czasem jest tak, a czasem nie. Powstała tabelka z miarą sił związku, jest dość prosta, polecam :) r: siła związku: 0 0,2 bardzo słaby 0,2 0,4 słaby 0,4 0,7 przeciętny 0,7 0,9 silny 0,9 01 bardzo silny Warto przy tym pamiętać, że to umowne założenia w psychologii wartość korelacji w badaniach wychodzi na poziomie 0,2-0,3, jeśli wyjdzie na poziomie 0,6 to wszyscy się cieszą, a 0,8 uważają za sfałszowane ;) . W fizyce wartość r jest bardzo duża (0,9 1), a aby coś było prawem fizycznym r musi być równie 1. Po pytaniu o siłę związku możesz powiedzieć tą ciekawostkę, ale jeśli nie czujesz się pewnie, lepiej trzymaj się tabelki :) Pamiętaj o rozkładzie r-Pearsona (lekcja 1, strona 7). Zapamiętaj też koniecznie założenia (lekcja 3, część 2, strona 5), wyraz homoscedastyczność i pamiętaj, że w wypadku korelacji, dla każdego X, Y ma rozkład normalny i dla każdego Y, X ma rozkład normalny. To trzeba po prostu zapamiętać :) Powodzenia :) . Pamiętaj, aby na egzaminie zrobić dobry nastrój uśmiechaj się, nie daj po sobie poznać, że nie umiesz, jeśli nie umiesz (nie mów yyy... jak to było? , mów ojej, jeszcze rano to powtarzałem ;) albo o, to dobre pytanie... ). Masz prawo się zastanawiać, nie masz prawa się poddać :) Pamiętaj aby nie palić tuż przed egzaminem (p.Aranowska jest bardzo czuła na tym punkcie, więc nie tylko sobie uprzykrzysz życie, ale i innym ;) ). Pamiętaj też, że są osoby, które nie odpowiedziały na żadne pytanie i zaliczyły. Trzymam za Ciebie kciuki i wierzę, że zdasz :) . Wszystkiego dobrego! 6 / 6