Opracowanie - statystyka
OPRACOWANIE NR 1
Ad 1. CO TO JEST ROZKŁAD NORMALNY (REGUŁA 3 SIGM - RYSUNEK)
ROZKŁAD NORMALNY - Rozkład normalny (krzywa Gaussa)
wiele rozkładów w rzeczywistości (przyrodzie) ma rozkład zbliżony do r. normalnego (np. wzrost ludzi)
rozkład normalny jest rozkładem statystyki
Każdy rozkład normalny jest rozkładem symetrycznym
Przykładowe pytanie egzaminacyjne : od czego uzależniona jest postać krzywej normalnej?
odpowiedź : od średniej arytmetycznej i odchylenia standardowego
gdy zmienia się średnia, to kształt się nie zmiena, tylko krzywa się przesuwa w lewo lub w prawo :
Krzywa przesunęła się w lewo (średnia się zmniejszyła)
(a jeśli średnia by się zwiększyła, to krzywa przesunęłaby się w prawo)
s - odchylenie standardowe - decyduje o tym, czy rozkład jest bardziej spłaszczony czy spiczasty
gdy s się zwiększa, to rozkład jest bardziej spłaszczony (bo wtedy jest bardziej zróżnicowana zbiorowość, s jest bardziej oddalone od średniej)
REGUŁA TRZECH SIGM
reguła ta mówi o tym, jaką część powierzchni całkowitej pod krzywą normalną zajmują powierzchnie wyznaczone przez odkładanie od średniej odcinków odchylenia standardowego
np. N ( 90; 11 ) - rozkład normalny o średniej 90 i odchyleniu 11
Z - pomiar standaryzowany
x - x
Z = s
Z - mówi nam, ile odchyleń standardowych leży w odległości od średniej (Z to odległość punktu od średniej w jednostkach odchylenia stand.)
*odczytujemy z tablic, że np. Z = 1,35 → 41,15 %
AD 2. CO OZNACZA, ŻE ODCHYLENIE STANDARDOWE WYNOSI 10?
Odchylenie standardowe oznacza średnie odchylenie danych od średniej arytmetycznej. W tym przykładzie odchylenie wynosi 10 i oznacza ono wartość oddaloną o 10 od średniej arytmetycznej.
AD 3. CO TO JEST JEDNOSTKA STATYSTYCZNA?
JEDNOSTKA STATYSTYCZNA - Obiekt, element należący do zbiorowości statystycznej, podlegający badaniu statystycznemu
AD 4. CO TO JEST WNIOSKOWANIE STATYSTYCZNE?
Dwie kategorie wnioskowania statystycznego :
Sytuacje polegające na tym, że na podstawie pewnych charakterystyk, rozkładów danej zmiennej w próbie (zwanych statystykami lub estymatorami, np. średnia, proporcja) próbujemy oszacować odpowiadające im parametry rozkładu tej zmiennej w populacji. (metody estymacji parametrów populacji)
W sytuacjach tych bądź stwierdzamy, iż pewne podgrupy w przebadanej przez nas próbie, czy też próby pobrane z różnych populacji różnią się swoimi parametrami, bądź też stwierdzamy, iż zmienne w badanej przez nas próbie są powiązane określonymi statystycznymi zależnościami, a następnie staramy się uogólnić owe różnice lub zależności na populację lub populacje, z których próby te zostały wylosowane (metody weryfikacji hipotez)
AD 5. CO TO JEST SKALA POMIARU I JAKIE SĄ SKALE?
skala pomiaru - układ wartości, jakie przybierać może określona wielkość
Skala nominalna- tylko podział na kategorie (podział rozłączny i wyczerpujący), dana jednostka zostaje tylko zakwalifikowana do danej kategorii; nie można porównywać ze sobą danych mówiąc, że coś jest lepsze a coś gorsze; kategorie nie są ułożone po kolei; zmienne w skali nominalnej to np. płeć, wiek, kolory(oczu, włosów),
Skala porządkowa- to, co w porządkowej + porównanie między jednostkami należącymi do dwóch różnych kategorii, np. wykształcenie- można powiedzieć, że ktoś ma lepsze bądź gorsze wykształcenie, wyższe lub niższe; wiek- ktoś jest w wieku przedprodukcyjnym, produkcyjnym, poprodukcyjnym,
Skala interwałowa- można mówić, że coś jest większe lub mniejsze o konkretną wartość, np. temperatura, gdyż nie można powiedzieć ile razy wyższa bądź niższa, ponieważ inaczej będzie to wyglądało w stopniach Celsjusza, a inaczej Fahrenheita,
Skala ilorazowa- to, co w interwałowej + ile razy większe.
*Rozróżnienie dwóch ostatnich skal z punktu widzenia socjologa jest nieostre-> obie skale są skalami ilościowymi.
AD 6. CO OZNACZA, ŻE MEDIANA WYNOSI 20?
Oznacza to, że wartość środkowa w danym szeregu wynosi 20. dzieli zbiór obserwowanych wartości wskaźników na dwie równe części, oznacza to, że 50% obserwowanych wyników ma wartość wyższą od 20 i 50% niższą
AD 7. OD CZEGO ZALEŻY WYBÓR TESTU ISTOTNOŚCI?
Od czego zależy wybór testu?
od założeń dotyczących badania
od tego, ile mamy grup porównawczych (albo dwie grupy albo więcej)
od tego, jaka jest skala pomiarowa ( test z i t-studenta są dla skali ilościowej - ilorazowa i interwałowa - natomiast test chi2 dla skali nominalnej)
Dokładniej, wybór testu zależy od :
typu, rodzaju zmiennych
od operacjonalizacji tych zmiennych (np. zmienna `wiek' - jak ją zoperacjonalizujemy? Można np. podzielić na tych, którzy mają 20 lat i którzy nie mają, można uszeregować wg wieku itp.)
konkretniej : od skali pomiaru, od ilości grup porównawczych, od zaufania do tego pomiaru, od typu pytania badawczego
Przykład :
Gdy mamy dwie różne grupy, w których w różny sposób prowadzono zajęcia i chcemy sprawdzić czy ten sposób prowadzenia zajęć ma wpływ na wyniki z kolokwium - to wtedy mamy do czynienia z danymi niezależnymi (bo badamy dwie grupy w różnych warunkach - w każdej z grup w inny sposób prowadzono zajęcia)
A gdy na jednej próbie (grupie) dwa razy przeprowadzamy badanie i działa jakiś bodziec - np. za pierwszym razem pytamy badanych o preferencje wyborcze, notujemy wyniki, a za drugim razem puszczamy np. film o jakimś polityku i znów pytamy ich o preferencje wyborcze - wtedy dane zależne
Należy więc ustalić, czy mamy do czynienia z danymi niezależnymi czy zależnymi
AD 8. OD CZEGO ZALEŻY WYBÓR POZIOMU ISTOTNOŚCI?
Wybór wartości α zależy od badacza, natury problemu i od tego jak dokładnie chce on weryfikować swoje hipotezy
AD 9. OD CZEGO ZALEŻY WYBÓR MIARY SIŁY ZWIĄZKU?
Siłę współzależności dwóch zmiennych można wyrazić liczbowo za pomocą wielu mierników. Ich wybór jest uzależniony m.in. od rodzaju cech, między którymi badana jest zależność (mierzalne, niemierzalne, mieszane); liczby obserwacji (tablica korelacyjna, szeregi korelacyjne), kształtu zależności (regresja, prostoliniowa, krzywoliniowa).
gdy choc jedna z cech jest cecha jakościowa stosujemy chi2
AD 10. W JAKICH GRANICACH MOGĄ PRZYJMOWAĆ WARTOŚCI WSPÓŁCZYNNIKI: LAMBDA, GAMMA ITP.?
AD 11. CO TO JEST POZIOM ISTOTNOŚCI?
Poziom istotności - jest to maksymalne dopuszczalne prawdopodobieństwo popełnienia błędu I rodzaju (zazwyczaj oznaczane symbolem α). Określa tym samym maksymalne ryzyko błędu, jakie badacz jest skłonny zaakceptować. Wybór wartości α zależy od badacza, natury problemu i od tego jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się α = 0,05; rzadziej 0,1, 0,03, 0,01 lub 0,001.
AD 12. WYBORY W PL - KTÓRA Z METOD I DLA JAKICH PARTII JEST KORZYSTNIEJSZA?
Metoda Sainte-Laguë generuje wyniki lepiej odzwierciedlające poglądy wyborców, podczas gdy metoda d'Hondta sprzyja większym partiom.
AD 13. CO TO JEST TEST JEDNOSTRONNY I OBUSTRONNY?
Test jednostronny - test statystyczny, dla którego skrajne wartości obserwowanej zmiennej znajdują się po lewej lub prawej stronie jej rozkładu.
Test dwustronny - test statystyczny, dla którego skrajne wartości obserwowanej zmiennej znajdują się po obydwu stronach jej rozkładu.
AD 14. HIPOTEZA KIERUNKOWA I BEZKIERUNKOWA
Hipoteza kierunkowa zakłada jakiś kierunek zależności. Hipoteza niekierunkowa ma formę eksploracyjną. Dla przykładu:
Hipoteza kierunkowa: Mężczyźni są bardziej szczerzy niż kobiety.
Hipoteza niekierunkowa: Kobiety różnią się od mężczyzn pod względem szczerości.
Pierwsza hipoteza zakłada jakiś kierunek zależności, że dana grupa jest lepsza/gorsza. W przypadku hipotezy niekierunkowej nie zakładamy żadnego kierunku różnic. Stwierdzamy tylko, że one będą, ale nie wiemy, w którą stronę.
Gdy mam podstawy teoretyczne, tzw. przesłanki powinniśmy stawiać hipotezy kierunkowe. Gdy chcemy sprawdzić, czy mogą być jakieś różnice, choć nie wiemy na czyją korzyść/niekorzyść powinniśmy postawić hipotezę niekierunkową.
Stawianie hipotez kierunkowych i niekierunkowych uzależnia potem wybór rodzaju istotności (jednostronnej lub dwustronnej) w testowaniu uzyskanego wyniku w teście statystycznym.
AD 15. ETAPY TESTOWANIA HIPOTEZ
Etapy testowania hipotez statystycznych (najczęściej mówi się o 5 krokach, które trzeba wykonać, aby przeprowadzić tę procedurę weryfikacji) :
określenie zmiennych i ich skal pomiarowych. Sformułowanie założeń i hipotez
wybór testu statystycznego i określenie rozkładu statystyki
ustalenie reguły decyzyjnej. Wybór poziomu istotności, określenie obszaru krytycznego i wartości krytycznej
obliczenie wartości statystyki dla otrzymanych wyników
podjęcie decyzji
dla każdego testu stosujemy tę samą procedurę
oprócz tych 5 punktów - na początku wyraźnie zaznaczyć problem, na końcu udzielić odpowiedzi
procedura : porównanie 2 liczb : uzyskaną ze wzoru i wyczytaną z tablic
AD 16. ROZKŁAD Z PRÓBY
ROZKŁAD Z PRÓBY - rozkład, w którym jednostką jest próba, a zmienną statystyka obliczona dla tej próby (możemy w każdej próbie obliczyć średnią i przedstawić ten rozkład)
AD 17. JAKIE MIARY TENDENCJI CENTRALNEJ STOSUJE SIĘ DO POZIOMU NOMINALNEGO, PORZĄDKOWEGO, INTERWAŁOWEGO, ILORAZOWEGO?
AD 18. KTÓRA ZE ZBIOROWOŚCI JEST BARDZIEJ ZRÓŻNICOWANA - PODANE N, ŚREDNIA I s.
AD 19. ZINTERPRETOWAĆ WYNIK
AD 21. CO TO JEST KORELACJA CZĄSTKOWA?
Korelacja cząstkowa - miara zależności zmiennych losowych przy usuniętym wpływie innych zmiennych losowych z ustalonego zbioru.
AD 22.PRÓBA REPREZENTATYWNA
Próba reprezentatywna - część populacji, wybrana do badania metodami statystycznymi, w założeniu badacza, zachowująca strukturę wyróżnionych cech populacji przy założonym poziomie istotności.
AD 23.PRÓBA LOSOWA
Próba losowa - zbiór elementów populacji pobranych w taki sposób, że każdy element populacji miał równe szansę znalezienia się w tym zbiorze. Próba losowa może być podstawą wnioskowania statystycznego pozwalającego z zadaną dokładnością uogólnić spostrzeżenia o elementach próby na populację, z której została wylosowana.
AD 24.MIARY ŚREDNIE; ZRÓŻNICOWANIA I ASYMETRII
Miara zróżnicowania rozkładu to taka miara rozkładu, która opisuje relację pomiędzy rozkładami różniącymi się zróżnicowaniem (rozproszeniem) wartości cechy wokół wartości centralnych.
Przykładowymi miarami zróżnicowania rozkładu są:
odchylenie standardowe
wariancja
średnie odchylenie bezwzględne
współczynnik zmienności
rozstęp
rozstęp ćwiartkowy
odchylenie ćwiartkowe
miary średnie:
→ klasyczne: średnia arytmetyczna, geometryczna, harmoniczna
→ pozycyjne: dominanta, kwartyle, kwintyle, decyle, centyle, mediana
Miara asymetrii rozkładu to taka miara rozkładu, która dostarcza informacji na temat symetrii rozkładu lub jej braku.
Do przykładowych miar asymetrii rozkładu należą:
Współczynnik asymetrii
Trzeci moment centralny
Współczynnik skośności
Miary średnie(tendencji centralnej, położenia, przeciętne poziomu wartości zmiennej)- służą do tego, aby za pomocą jakiejś liczby określić wokół jakiej wartości rozmieszczone są wszystkie wartości danej zbiorowości.
Klasyczne (charakteryzują zbiorowość na podstawie wszystkich wartości szeregu):
Średnia asymetryczna
Średnia harmoniczna
Średnia harmoniczna
Pozycyjne (są wartościami konkretnych wyrazów szeregu, w szeregu wyróżniają się pod jakimś względem:
Dominanta (modalna)
Kwantyle:
kwartyle,
kwintyle,
decyle,
centyle,
mediana
Miary zróżnicowania (rozproszenia, zmienności, dyspersji)- mówią o rozproszeniu jednostek.
Klasyczne:
Odchylenie standardowe,
Odchylenie średnie(przeciętne),
Wariancja,
Współczynnik zmienności*,
Pozycyjne:
Odchylenie ćwiartkowe,
Rozstęp,
Współczynnik zmienności,
*w zależności od stosowanego wzoru.
Miary asymetrii(skośności)- służą do badania kierunku zróżnicowania danej zmiennej.
Miary koncentracji- służą do tego, by określić wokół jakiej wartości koncentrują się badane jednostki lub w jaki sposób koncentrują się wokół średniej.
Miary te służą do tego:
by lepiej niż graficznie przedstawić dane,
by opisać badaną zbiorowość,
by opisać prawidłowości zachodzące w badanej zbiorowości,
by porównać dwie różne zbiorowości pod względem tej samej zmiennej,
by porównać w ramach tej samej zbiorowości dwie lub większą liczbę zmiennych.
AD 25. CO DAJE NAM WSPÓŁCZYNNIK ZMIENNOŚCI?
Współczynnik zmienności- Służy on do porównywania zróżnicowania dwóch (lub więcej) zbiorowości lub zmiennych.
Dzięki niemu możemy odpowiadać na pytania typu „Która ze zbiorowości jest bardziej zróżnicowana” warunkiem jest, żeby współczynnik w obu (lub więcej) zbiorowościach był liczony z tego samego wzoru.
AD 26. BADANIA PEŁNE I NIEPEŁNE
Badania pełne- badanie to obejmuje wszystkie jednostki statystyczne wchodzące w skład zbiorowości statystycznej. Jest to spis powszechny (spis statystyczny).
Badania częściowe - badaniu poddajemy część jednostek zbiorowości generalnej, czyli próba.
OPRACOWANIE NR 2.
Która populacja jest bardziej zróżnicowana mając do dyspozycji.
Ta jest bardziej zróżnicowana, która ma większe s
Udowodnij, że mimo różnych wyników badania sondażowe są przeprowadzane rzetelnie
różny czas przeprowadzania badań
przez inne firmy zostały zlecone
wyniki zostały inaczej zinterpretowane
próba na innej grupie osób
różna liczba ankietowanych
Jakie miary tendencji centralnej można obliczyć przy jakich skalach pomiaru ?
Mając podany średni dochód na osobę w rodzinie, medianę, dominantę i odchylenie średnie-wyciągnij wnioski
mediana - wartość cechy w szeregu uporządkowanym, powyżej i poniżej której znajduje się jednakowa liczba obserwacji.
Dominanta - wskazująca na wartość o największym prawdopodobieństwie wystąpienia, lub wartość najczęściej występująca w próbie.
Odchylenie średnie - mierzy stopień odchylenia od średniej
Jedno z prawdopodobieństwa - wylicz jakie jest prawdopodobieństwo wylosowania kart rosnąco, lub malejąco
Algorytmy?
Która metoda obliczania głosów jest lepsza dla mniejszych partii?
Metoda saint - lague, ponieważ mniejsze partie dostaną więcej mandatów, aniżeli byłoby to przeliczane metodą d'hondta
Obliczanie mediany, średniej, dominanty, odchyleń i współczynnika zmienności
Co to jest wynik istotny statystycznie?
Wynik istotny statystycznie - Jeżeli odrzucamy H0 to wynik jest "statystycznie istotny"
DODATKOWE ZAGADNIENIA
ESTYMACJA
Estymacja to dział wnioskowania statystycznego będący zbiorem metod pozwalających na uogólnianie wyników badania próby losowej na nieznaną postać i parametry rozkładu zmiennej losowej całej populacji oraz szacowanie błędów wynikających z tego uogólnienia. Wyrażenie nieznana postać jest kluczem do odróżnienia estymacji od drugiego działu wnioskowania statystycznego, jakim jest weryfikacja hipotez statystycznych, w którym najpierw stawiamy przypuszczenia na temat rozkładu, a następnie sprawdzamy ich poprawność.
KORELACJA
Co decyduje o wyborze interpretacji korelacji?
Ile jest zmiennych
Jakiego typu są to zmienne - na jakiej skali są zmierzone? - warunek, że zmienne muszą być analizowane w tej samej skali, jeśli są to zmienne wyrażone w 2 różnych skalach, to zmienną wyższego rzędu „obniżamy” do tej drugiej zmiennej (rekodowanie)
STATYSTYKA OPISOWA
Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych uzyskanych podczas badania statystycznego. Celem stosowania metod statystyki opisowej jest podsumowanie zbioru danych i wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru.
Statystykę opisową stosuje się zazwyczaj jako pierwszy i podstawowy krok w analizie zebranych danych.
WNIOSKOWANIE STATYSTYCZNE
Wnioskowanie statystyczne to dział statystyki zajmujący się problemami uogólniania wyników badania próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia (patrz badanie statystyczne).
Wyróżnia się dwie grupy metod uogólniania wyników, definiujące jednocześnie dwa działy wnioskowania statystycznego:
Estymacja - szacowanie wartości nieznanych parametrów rozkładu.
Weryfikacja hipotez statystycznych - sprawdzanie poprawności przypuszczeń na temat rozkładu.
ZBIOROWOŚĆ STATYSTYCZNA
Zbiorowość statystyczna, jednoznacznie określony i wyodrębniony zbiór jednostek (np. osób, przedmiotów, zjawisk) poddanych badaniu statystycznemu.
Jednostki te mają jedną lub kilka cech wspólnych (są to cechy statystyczne, podlegające badaniu), ale są zróżnicowane pod względem ich wartości i jakości, a także pod względem innych posiadanych cech.
BADANIE STATYSTYCZNE-etapy
Etapy przygotowania badania statystycznego:
przygotowanie( organizacja) badania
jaki cel badania,
wybranie metody,
zdefiniowanie zbiorowości statystycznej,
jaki problem,
obserwacja statystyczna:
uzależniony od metody, próby, czego dotyczy badanie (ogólne odpowiedzi na punkt pierwszy)
ustalenie wartości, wariantów cech jednostek badanej społeczności,
obserwacja statystyczna polega na ustaleniu wariantów lub odmian cech jakościowych lub ustaleniu wartości cech ilościowych u wszystkich jednostek zbiorowości lub u jednostek próby,
opracowanie i prezentacja materiału statystycznego:
grupowanie danych (wyodrębnienie z całej próby różnych grup)- różne sposoby w zależności od celu badania,
opis lub wnioskowanie statystyczne:
Opis statystyczny ma charakter sumaryczny, dotyczy całej zbiorowości a nie poszczególnych jednostek. Opisu statystycznego dokonujemy za pomocą miar (średnia, odchylenie standardowe). Dotyczy zbiorowości lub próby.
Wnioskowanie statystyczne- jest związane z badaniem reprezentatywnym na próbie losowej, gdy wyniki uzyskane z tej próby są uogólnione na całą populację.
LUB
ETAPY BADANIA STATYSTYCZNEGO
1) Projektowanie badania (cel, określenie zbiorowości)
2) Gromadzenie materiału statystycznego(pomiar, obserwacja statystyczna)
3) Opracowanie w postaci tablic i wykresów materiału statystycznego (obserwacja
statystyczna)
Analiza wyników obserwacji
RODZAJE szeregów statystycznych:
→ Szczegółowe (wyliczające)
→ Rozdzielczne:
a) Cech mierzalnych
• Punktowe
• Przedziałowe
b) Cech niemierzalnych
• Strukturalne
• Geograficzne i inne
→ Czasowe
Momentów
Okresów
ROZKŁADY STATYSTYCZE
ROZKŁAD NORMALNY - Rozkład normalny (krzywa Gaussa)
wiele rozkładów w rzeczywistości (przyrodzie) ma rozkład zbliżony do r. normalnego (np. wzrost ludzi)
rozkład normalny jest rozkładem statystyki
Każdy rozkład normalny jest rozkładem symetrycznym
Przykładowe pytanie egzaminacyjne : od czego uzależniona jest postać krzywej normalnej?
odpowiedź : od średniej arytmetycznej i odchylenia standardowego
ROZKŁAD SYMETRYCZNY - każdy rozkład normalny jest symetryczny, lecz nie każdy symetryczny jest normalny
ROZKŁAD SKOŚNY W LEWO - skośność <0
ROZKŁAD SKOŚNY W PRAWO - skośność >0