WYKŁAD VI (04.04.07)
Rozkład normalny ma taką właściwość, że nie możemy znaleźć prawdopodobieństwa uzyskania jednego wyniku. Można natomiast znaleźć prawdopodobieństwo uzyskania wyników z jakiegoś przedziału.
Prawdopodobieństwo uzyskania wyniku z przedziału (a,b) w rozkładzie normalnym to pole powierzchni poniżej rozkładu ograniczone przez proste przechodzące przez punkty a i b
Żeby policzyć bez użycia komputera:
zamienić wyniki które mamy na wyniki standaryzowane,
specjalna tablica.
Proporcje i centyle dla rozkładu normalnego standaryzowanego. Ile wszystkich wyników jest poniżej danej wartości?
Iloraz inteligencji między 90 a 110 ma połowa ludzi :)
Ile ludzi ma iloraz inteligencji powyżej 120? 120 zamieniam na wyniki standaryzowane „z” (120 - 100) / 15 = 1,33. W tabeli szukam 1,33. Proporcja poniżej tej wartości 0,91, to powyżej 120 = 0,09.
Na egzaminie będzie:
Podana jakaś średnia, np. 100, jakieś odchylenie standardowe, np. 110 i dwie liczby. I będzie wklejony odpowiedni fragmencik tablicy. I policzyć to co wyżej.
Ile % Polaków ma wykształcenie wyższe lub studiuje? Załóżmy, że 20% i że to ludzie o najwyższym poziomie inteligencji. Jak sprawdzić? Muszę znaleźć taką wartość, której nie znam powyżej której znajduje się 20% wszystkich obserwacji. Jeżeli poniżej, to 80. Szukam proporcję „z” = 0,84 (wiem z tabelki). Żeby znaleźć się w tych 20%, trzeba mieć iloraz inteligencji co najmniej 112,6 :) Ale to żaden wyczyn.
Dowcip Ramseyera: rozkład normalny ma tę właściwość, że jest symetryczny wokół średniej. Oznacza to, że w rozkładzie normalnym średnia równa się medianie. Wyobraź sobie osobę, która jest przeciętnie głupia. Zgodnie z tym rozkładem, połowa ludzi od tej osoby, jest jeszcze głupsza. Hahaha.
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO
Podstawy wnioskowania statystycznego - wnioskowanie to wyciąganie wniosków na temat populacji na podstawie informacji o badanej próbie. Ta próba musi być reprezentatywna, tzn. że skład odzwierciedla dokładnie skład badanej populacji. Próby reprezentatywne dla Polaków wynoszą między 900 a 1100 osób. Próby możemy podzielić na dwie grupy:
nielosowa,
losowa.
Losowe - w których reprezentanci populacji są dobierani w sposób losowy.
Próba prosta - cała populacja, losowo wyciągamy egzemplarze. Losowy podzbiór populacji, przygotowany w taki sposób, że każdy egzemplarz populacji ma jednakowe szanse do dostania się do próby.
Próba warstwowa - próba, w której populacja dzielona jest na warstwy zgodnie z cechami istotnymi dla badania, a potem z każdej warstwy losowane są obiekty do próby, np. uznam, że ważną zmienną jest wykształcenie, to dzielę Polaków na warstwy i losuję taką próbę, aby proporcja ludzi z wykształceniem wyższym, średnim, podstawowym itp., była w próbie taka sama jak popualcji.
Dwa rodzaje prób nielosowych:
wygodna - osoby badane znalazły się, ponieważ łatwo je było znaleźć :)
uznaniowa - z góry wiem, kogo będę badał.
Różnica w nich jest w sumie niewielka.
Jeśli mam całą populację i wyniki danych wszystkich, to nie muszę nic wnioskować, bo wszystko wiem.
Prawo małych liczb (Kahnema i Tversky):
Załóżmy, że średni iloraz inteligencji dzieci w ostatniej klasie szkoły podstawowej w pewnym mieście wynosi 100. do badań wylosowano grupę 50 dzieci. Iloraz pierwszego z badanych wyniósł 150. jaki będzie średni iloraz w całej 50-osobowej grupie dzieci? Nie wynosi 100, dlaczego? Powinniśmy policzyć średnią ważoną.
Prawo małych liczb jest złudzeniem poznawczym i jest tendencją do tego, by spodziewać się, że w małych próbach wystąpią zjawiska z regularnością taką samą jak w całej populacji, np. wiemy, że wśród wszystkich ludzi połowa to kobiety, połowa to mężczyźni. Idziemy na Grochowską i liczymy wszystkich, którzy koło nas przechodzą (ich płeć). Czy będzie tak, że zobaczymy 50 kobiet i 50 mężczyzn? Nie, to logiczne. Bo mogę zobaczyć, np. pielgrzymkę siatkarek.
Jeżeli wielokrotnie wypada coś na niekorzyść hazardzistów, liczą na to, że w końcu wypadnie coś na ich korzyść.
Prawo wielkich liczb Jakuba Bernoulliego: jeżeli w dowolnej populacji X wylosuje się wiele próbek o tej samej liczebności n-elementowej i dla każdej z tych próbek obliczy się średnią arytmetyczną, to prawdopodobieństwo, że średnia arytmetyczna z tych średnich będzie taka sama, jak średnia w populacji X, zbliża się do 1 wraz ze wzrostem liczebności tych próbek.
POLSKI GENERALNY SONDAŻ SPOŁECZNY: (przykład)
jakie są twoje dochody,
na jakie dochody zasługujesz.
Im większa próbka, tym większa szansa, że w tej grupie będzie taka średnia jak w populacji.
Gdybym losował dużo prób i policzył z tych prób średnią, to ta średnia ze średnich będzie się bardzo zbliżać do średniej w populacji (coraz bardziej).
Rozkład w próbie to zbiór konkretnych wyników, np. odpowiedzi na jakieś pytanie, które zgromadziliśmy w wyniku badań.
WYKŁAD VII (11.03.07)
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO
Wnioskowanie statystyczne - nigdy nie dotyczy populacji, nie wyciągamy żadnych wniosków. Zawsze dotyczy próby.
Prawo wielkich liczb Bernoulliego - mówi, że jeżeli jest jakaś teoretyczna właściwość rozkładu danych wynikająca z wyniku prawdopodobieństwa i będziemy dane doświadczenie powtarzać często, to teoretyczna właściwość się ujawni. Im więcej mamy powtórzeń, tym większa szansa, że dane które uzyskamy, odzwierciedlą prawidłowość, która wynika z rachunku prawdopodobieństwa. Jeżeli rzucę monetą 3 razy, to proporcją orłów i reszek nie będzie połowa. Jeżeli podrzucę 10 razy, to jest większe prawdopodobieństwo 50% na 50%, jeżeli rzucę 100 razy, będzie jeszcze większe prawdopodobieństwo.
Prawo wielkich liczb dotyczy średnich. Średnia z tych próbek będzie taka sama jak średnia populacji. Im większe próbki losuję, tym większa szansa, że średnia ze średnich będzie taka jak w populacji.
Załóżmy, że osoby które wzięły udział w badaniu, np. 543 osoby, to cała populacja. W tej populacji przypadkiem losuję pewien podzbiór i sprawdzam jaka jest średnia w tym zbiorze. Średnia w tym rozkładzie wynosi 1046 zł, a w całej populacji...
Rozkład w próbie to zbiór konkretnych wyników, np. odpowiedzi na jakieś pytanie, które zgromadziliśmy w wyniku badań. Mam próbę ludzi, która jest tzw. próbą wygodną. Tych ludzi jest mi wygodnie zbadać, bo akurat przyszli.
Rozkład w populacji to zbiór wszystkich możliwych wyników pochodzących od osób tworzących całą populację. Próba - obecni na danym wykładzie w danym dniu, populacja - wszyscy zapisani na kurs.
Rozkład z próby to rozkład jakiejś statystyki (np. średniej) obliczonej dla pewnej liczby prób. Zmiennymi są pewne statystyki policzone dla prób, np. średnia arytmetyczna. Byłby to rozkład nie odpowiedzi, ale średnich arytmetycznych z badania powtarzanego cały czas w takiej samej grupie.
Oszacowanie wartości parametru w populacji na podstawie rozkładu z próby nazywamy estymacją.
Centralne twierdzenie graniczne - rozkład średniej z próby n-elementowej pobranej z populacji o średniej „u” i wariancji „σ do kwadratu” jest rozkładem normalnym o średniej „u” i wariancji „σ” do kwadratu dzielone przez n.
Sigma - σ
Mam populację i pobieram z niej jakieś próbki. Centralne - najważniejsze, graniczne - co by się działo, gdybym powtarzał wiele razy.
Każdy rozkład normalny jest jednoznacznie zdefiniowany przez dwa parametry (któryś z wcześniejszych wykładów).
Im większa próbka, tym rozrzut jest mniejszy.
Estymacja - oszacowanie parametrów populacji na podstawie statystyk w próbie.
Estymacja punktowa - sytuacja, w której parametr populacji oszacowujemy za pomocą jednego punktu, czyli jednej wartości liczbowej. Parametr populacji - jedna liczba jest estymatorem.
Każdą statystykę dla próby, którą wykorzystujemy do oszacowania, czyli estymacji parametru populacji, nazywamy estymatorem danego parametru.
Statystyka oznacza po pierwsze dział matematyki, po drugie - różnego rodzaju wskaźniki obliczone dla zbioru danych.
Estymator powinien być: nieobciążony - wolny od systematycznych błędów, efektywny - minimalizacja błędu oszacowania, czyli jak najmniejsza wariancja, i zgodny - taki, który podlega prawu wielkich liczb (im większa próba, tym większe prawdopodobieństwo bliskości średniej w populacji) - (nie trzeba umieć).
Średnia jest estymatorem efektywnym, czyli ma najmniejszy rozrzut.
Średnia arytmetyczna obliczona dla próby jest najlepszym estymatorem średniej w populacji.
Jeżeli obliczam wartość jakiejś statystyki dla całej populacji, to tę statystykę nazywam parametrem populacji. Parametr może oznaczać także różnego rodzaju właściwości teoretycznych rozkładów zmiennych losowych.
Najpierw użyjemy słowa parametr, jako własność teoretycznego rozkładu. Mamy zmienną - rzut monetą. Jeżeli wypadnie orzeł dajemy 1, jeżeli reszka dajemy 0. Jaka jest teoretycznie średnia w tym rozkładzie? ½. Mamy populację monet wyprodukowanych w mennicy państwowej. Znowu robimy tak, że jeżeli orzeł to 1, jeżeli reszka to 0. Jeżeli obliczymy średnią to będzie to parametr populacji..
Średnia w próbie jest najlepszym estymatorem średniej w populacji.
Która z tych średnich jest lepszym oszacowaniem w populacji? 1150 czy 1206? Nie ma nigdy sytuacji, że mam dwie próbki i muszę się zastanawiać, która jest lepsza.
Parametry populacji prawie zawsze oznaczamy literami greckimi. Jeżeli wykorzystujemy, opisujemy parametry w tekście, zawsze pisze się je prostą czcionką.
TU WKLEJAM TABELKE
Statystyki w próbie oznaczamy łaciną i kursywą.
Obciążony i nieobciążony estymator wariancji (elearning).
Obciążony - gdybym dla próby policzył wariancję tak jak dla całej populacji - nie byłoby żadnego grzechu.
Nieobciążony estymator wariancji (6.1.) W praktyce nie używa się słów obciążony, nieobciążony, tylko - wzór na wariancję. Najczęściej wykorzystywane są uproszczone dwie wersje - wariancję w populacji i wariancję w próbie.
Dlaczego nie możemy obliczać wariancji w próbie na podstawie wzoru obciążonego estymatora wariancji? Możemy, nikt nas za to nie rozstrzela :)
Co byłoby najlepszym estymatorem mediany w populacji? - mediana w próbie. A najlepszym estymatorem 3 kwartyla - 3 kwartyl w próbie.
Estymacja przedziałowa - mamy do czynienia, gdy wartość parametru populacji oszacowana jest za pomocą pewnego przedziału liczbowego zwanego przedziałem ufności.
Współczesne metody statystyczne !!!!!!!
Mamy 10 liczb. Jak ocenić jakie są oczekiwania wszystkich studentów, którzy chodzą na wykład? Ci którzy chodzą na wykład, oczekują średniej 4,2. mam tylko te 10 liczb. Z nich losuję następne 10 liczb. Zapisuję, wkładam z powrotem do urny. I losuję znowu nowe. Robię jeszcze raz to samo. I tak cały czas. Mam 3 zestawy po 10 liczb. Wszystkie powstały z tej pierwszej próbki.
Metoda do obliczania dzięki której powtarzamy badanie 10 000 razy. Niestety w naszej szkole takiej metody się nie stosuje. Potrzebny jest program, który można ściągnąć z internetu. Metoda nazywa się bootstrapping.
Mam nieskończenie wiele próbek 10elementowych (jakie są twoje aktualne dochody). Nie wiem jaka jest średnia. Założyłem, że taka sama jak w mojej 10elementowej próbie. Zrobiłem rozkład tych średnich z próbek 10elementowych. Jeżeli założę, że średnia populacji jest taka sama jak w 10elementowej próbie, to najniższa możliwa wartość będzie minus nieskończoność, a najwyższa będzie plus nieskończoność. Jaka jest szansa na to, że gdzieś pod tym rozkładem znajduje się średnia w populacji? (wykres: w jakim przedziale może być „prawdziwa” średnia). Prawdopodobieństwo jest 1, czyli 100%.
Przy estymacji przedziałowej oszacowujemy średnią za pomocą przedziału, w którym rzeczywista średnia w populacji może znaleźć się z prawdopodobieństwem 0,95. Często zamiast prawdopodobieństwa 0,95 używa się wartości 0,99 oraz 0,999. Jedyny problem który posiadam, muszę wiedzieć gdzie są granice tego przedziału. Granice te mogę łatwo sobie policzyć, bo rozkład jest normalny.
Błąd standardowy średniej - równy odchyleniu standardowemu w populacji podzielone przez pierwiastek z „n”.
Wielkość przedziału ufności - wzoru nie trzeba umieć; jeżeli mamy z = -1,96 i +1,96, to mamy środkowe 95% wszystkich średnich.
Im większa wariancja, tym rozkład jest bardziej płaski. Zależy od populacji i wielkości próby.
W badanej próbie średnia arytmetyczna wynosi 1200. Jakie są twoje aktualne dochody? Średnia z odpowiedzi na pytanie, na jakie dochody zasługujesz. Szansa, że 1200 pochodzi z rozkładu ... jest bardzo mała, a dla drugiego jest bardzo duża.
Co to jest test statystyczny? Pierwszy test przeprowadził John Arbuthnot. Był wyznawcą tzw. kreacjonizmu, czyli wszystkie gatunki na ziemi zostały stworzone przez Boga. Bóg musiał zadbać o szczegóły techniczne, np. że kobiety żyją dłużej niż mężczyźni. Chłopcy żyją krócej, więc musi się ich rodzić więcej. Przestudiował księgi meldunkowe w Londynie. Wyszło mu, że w każdym kolejnym roku rodziło się więcej chłopców. Każdy rok, jest jak rzut monetą. Czy jest możliwość, żeby 82 razy rzucając wylosować orła (kobietę)? Tak, ale musimy mieć szczęście. Czyli prawdopodobieństwo, że urodzi się więcej chłopców niż dziewczynek, jest takie jak rzucić 82 razy orła.
Jak mało to jest mało? Możemy przyjąć zasadę, którą wprowadził Karl Pearson, uznał, że jeżeli jakiś wynik mogę uzyskać rzadziej niż 5 razy na 100, to należy uznać, że wynik ten nie jest dziełem przypadku. Prawdopodobieństwo to jest oznaczane symbolem alfa, nazywa się prawdopodobieństwem odrzucenia hipotezy zerowej.
Hipoteza zerowa to zdanie twierdzące mówiące, że otrzymane wyniki są przypadkowe. W Londynie rodzi się tyle samo mężczyzn co kobiet.
Hipoteza alternatywna - wyniki nie są przypadkowe. Jest odzwierciedleniem hipotezy badawczej. Rodzi się więcej mężczyzn niż kobiet.
Szczegółowe wersje zależą od sytuacji.
Test dla jednej próby, czyli sprawdzam czy próba pochodzi z populacji o znanych parametrach.
Etapy testowania hipotez (elearning, strona 24).
Wnioskowanie statystyczne ma charakter indukcyjny, tzn. że chyba tak jest.