PYTANIA ZALICZENIOWE ZE STATYSTYKI 2012/2013
1.Próba, a populacja. Pojęcia. Przykłady
PRÓBA- część populacji pobrana do badań, np. klasa, grupa studentów, 100 Polaków, 20 gimnazjalistów
POPULACJA- zbiór jednostek(przedmiotów, reakcji) charakteryzujących się wyłącznym układem cech, np. obywatele Polski, wszyscy studenci uczelni, wszyscy gimnazjaliści
2. Statystyka, a parametr. Pojęcia. Przykłady
STATYSTYKA- wartość liczbowa obliczona na podstawie badań próby, np. średni iloraz inteligencji 20 studentów wybranych losowo z całej uczelni (statystyki obliczamy)
PARAMETR- wartość liczbowa obliczona ze wszystkich elementów populacji, np. średni iloraz inteligencji wszystkich studentów z całej uczelni (parametry wnioskujemy)
3. Pojęcie i rodzaje zmiennych
ZMIENNA-pewna cecha, która różnicuje jednostki populacji między sobą, np. wiek, wzrost, uroda
Podział zmiennych:
-ze względu na wielkość zbioru, z którego dana zmienna przyjmuje wartości:
a) dwuwartościowe (dychotomiczne): dla wszystkich osób w populacji w sposób naturalny
przyjmowane są dwie wartości, np. płeć
b) wielowartościowe- dla wszystkich osób w populacji przyjmowane są różne wartości, np. wzrost,
masa ciała
c) zdychotomizowane- zmienne wielowartościowe sprowadzone do postaci dwuwartościowej, np.
wzrost: wysoki (powyżej 170cm) i niski (poniżej 170)
- ze względu na ciągłość:
a) zmienne ciągłe- zbiór wartości tworzy kontinuum (ciągłość) i jeśli między sąsiednimi
wartościami zmiennej możliwe jest znalezienie trzeciej wartości, np. wzrost, wiek, masa ciała,
inteligencja
b) zmienne skokowe (dyskretne)- jeżeli między dwiema sąsiednimi wartościami zmiennej nie
występuje trzecia wartość, czyli nie ma wartości pośrednich, np. płeć, poziom wykształcenia w
sensie formalnym.
- ze względu na rolę w procesie badawczym:
a) zmienne zależne y- zmienna, która jest przedmiotem naszego badania; której związki z innymi
zmiennymi chcemy określić; ona podlega wpływowi (ulega wpływom)
b) zmienne niezależne x- zmienne, które wpływają na zmienną zależną; to co wpływa, np. płeć,
wiek
4. Pomiar nominalny. Pojęcie. Przykłady
POMIAR NOMINALNY-klasyfikowanie, przyporządkowywanie do określonych kategorii; kategorie te nie mają naturalnego uporządkowania; w tym przypadku nie mierzymy nasilenia badanej cechy (zmiennej), a jedynie posiadanie jej lub nie, np. pomiar grupy studentek II roku Logopedii ze względu na kolor włosów, ze względu na zainteresowania, rodzaj słuchanej muzyki; tego pomiaru należy dokonywać na dużych grupach.
5. Pomiar porządkowy. Pojęcia. Przykłady
POMIAR PORZĄDKOWY- przyporządkowywanie przedmiotom liczb (rang-miejca w szeregu uporządkowanym) oznaczających mniejsze lub większe nasilenie mierzonej cechy- uszeregowanie nauczycieli pewnej szkoły według ich stażu pracy, miss według urody, firmy według zarobków czy klientów (ranga może być od góry(1 miejsce osoba z najbardziej nasiloną cechą) lub od dołu(1miejsce osoba z najsłabiej nasiloną cechą)) - na podstawie określamy nasilenie mierzonej cechy ale nie wiemy jaka różnica.
6. Pomiar ilościowy. Pojęcia. Przykłady
- interwałowy: posiada jednostkę miary (ustalone odległości między jej punktami, czyli
wielkości przedziałów) ;jest podziałem ilościowym w ścisłym tego słowa znaczeniu ( elementy zbioru są uporządkowane, a ponadto liczby na skali pomiarowej informują nas o wielkości różnic
ten pomiar pozwala na rozpatrywanie (wykreślanie) rozkładu wyników
- ilorazowy: poza właściwościami skali interwałowej posiada naturalny punkt zerowy (zero
absolutne), w którym zupełnie brak mierzonej cechy;
pozwala na porównanie wielkości posiadanej cechy (a nie tylko wyniku)
długość(m) skoku w dal, czas(sek.)biegu przełajowego, temp (C)
7. Miary opisowe właściwe dla skali nominalnej procenty, frakcje i kategorie modalności.
8.Miary opisu jednocechowego właściwe dla pomiaru ilościowego
ILOŚCIOWE MIARY OPISOWE:
- miary położenia = I rzędu
- miary rozproszenia =I rzędu
- miary asymetrii = II rzędu
- miary kurtozy( spiętrzenia) =II rzędu
MIARY KLASYCZNE- do ich obliczenia konieczna jest znajomość wszystkich wartości zmiennej w badanej próbie
MIARY POZYCYJNE- do ich obliczenia bierze się pod uwagę tylko niektóre wartości zmiennej, znajdujące się na określonej pozycji (gdy uczniowie piszą test i 5 z nich nie wyrobi się w czasie to nie znamy wszystkich
wartości, więc nie możemy zastosować miary klasycznej, wtedy używamy miary pozycyjnej )
9. Własności średniej arytmetycznej i przeciwwskazana do jej stosowania.
ŚREDNIA ARYTMETYCZNA- suma wszystkich wyników (wartości zmiennej) dzielona przez ich ilość.=
Własności ŚREDNIEJ ARYTMETYCZNEJ:
spełnia nierówność <średnia<
suma odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej jest równa 0
najbardziej rzetelna miara tendencji centralnej
jako miara klasyczna nie jest możliwa do obliczenia w rozkładach niepełnych
geometrycznie jest środkiem ciężkości próby
na jej wysokości silny wpływ mają wartości skrajne (ekstremalne)
Przeciwwskazania do stosowania ŚREDNIEJ ARYTMETYCZNEJ w opisie próby:
rozkład wyników dwu- i wielowierzchołkowych
rozkład wyników wybitnie asymetryczny
w próbie występują wyniki skrajne, znacznie odbiegające od pozostałych (dotyczy małych prób)
10. Pojęcie i zastosowanie dominanty
DOMINANTA (MODALNA)- wartość najczęściej występująca; wartość zmiennej odpowiadająca maksimum funkcji matematycznej opisującej dany rozkład; geometrycznie- DOMINANTA to wartość, nad którą leży wierzchołek rozkładu.
Wskazania do stosowania DOMINANTY (MODALNEJ):
wymagana jest jak najszybsza ocena wartości centralnej
wystarczy przybliżona ocena wartości centralnej
chcemy znać wartość najbardziej typową
11. Pojęcie i zastosowanie mediany
MEDIANA- wartość środkowa (lub punkt na skali pomiarowej), która dzieli zbiór obserwacji na dwie równe części; geometrycznie- MEDIANA dzieli powierzchnię pod krzywą rozkładu wyników na dwie równe części.
Wskazania do stosowania MEDIANY:
liczebność próby jest mała
rozkład wskazuje znaczną asymetrię
rozkład jest niepełny
interesuje nas, czy obserwacje przypadają w dolnej lub górnej części rozkładu, a nie ich oddalenie od środka
12. Pojęcie i rodzaj miar położenia właściwych dla pomiaru ilościowego
ŚREDNIA ARYTMETYCZNA-suma wszystkich wyników(wartości zmiennej) dzielona przez ich ilość
MEDIANA- wartość środkowa(lub punkt na skali pomiarowej),która dzieli zbiór obserwacji na dwie równe części; geometrycznie-mediana dzieli powierzchnię pod krzywą rozkładu wyników na dwie równe części
DOMINANTA(MODALNA)-wartość najczęściej występująca; wartość zmiennej odpowiadająca maksimum funkcji matematycznej opisującej dany rozkład; geometrycznie-dominanta to wartość, nad którą leży wierzchołek rozkładu
KWARTYLE- wartości zmiennej(lub punkty na skali pomiarowej), które dzielą zbiór obserwacji na cztery równe części; geometrycznie- kwartyle dzielą płaszczyznę pod krzywą rozkładu na cztery równe części; kwartyl drugi to mediana; kwartyle: 1 i 3 wskazują 25% najniższych i 25% najwyższych wyników w próbie
13. Pojęcie i zastosowanie miar rozproszenia.
MIARY ROZPROSZENIA- należą do ilościowych miar opisowych; stosuje się je w celu obliczenie zróżnicowania jednostek zbiorowości statystycznej (próby, populacji) ze względu na wartości badanej zmiennej ; rozróżniamy takie miary rozproszenia jak:
I POZYCYJNE:
Rozstęp- różnica między wynikiem najwyższym i najniższym R=xmax-xmin+1
Odchylenie ćwiartkowe- połowa różnicy między trzecim i pierwszym kwartylem (kwartyl pierwszy i trzeci wyznacza się w ten sposób, że w dwóch częściach zbiorowości, które powstały po wyznaczeniu mediany, ponownie wyznacza się medianę; mediana w pierwszej części odpowiada kwartylowi pierwszemu, a w drugiej kwartylowi trzeciemu)Q=
II KLASYCZNE:
Odchylenie przeciętne -jest to średnia arytmetyczna wartości bezwzględnych odchyleń poszczególnych wyników od ich średniej arytmetycznej
Wariancja- jest to średnia arytmetyczna kwadratów odchyleń obserwacji od ich średniej arytmetycznej
Odchylenie standardowe- jest to pierwiastek kwadratowy ze średniej arytmetycznej kwadratów odchyleń obserwacji od ich średniej arytmetycznej; jego interpretacja pozwala nam określić stopień spiętrzenia rozkładu -(∑)2
14. Własności rozkładu normalnego
jest rozkładem jednowierzchołkowym
symetryczny względem środka (wyniki typowe leżą w środku rozkładu)
przeciętny stopień spiętrzenia ( w odległości jednego odchylenia standardowego od środka w obie strony znajduje się 68,26% wszystkich wyników)
posiada 2 pkt przecięcia
klasyczny obszar typowy
15. Kurtoza rozkładu i jej znaczenie dla opisu wyników próby. Przykład
KURTOZA ROZKŁADU- stopień spiętrzenia; zależy od gęstości obserwacji w pobliżu średniej arytmetycznej; informuje nas jak duży jest "rozrzut" uzyskanych wyników, np. dwie grupy różnią się poziomem zmiennej, ale maja taka samą wartość przeciętnej.
Miary kształtu rozkładu:
ROZKŁAD MESOKURTYCZNY- zmienność wyników w badanej próbie normalna- rozkład normalny, k=68,26%
ROZKŁAD LEPTOKURTYCZNY- zmienność wyników w badanej próbie mniejsza, niż normalnie (grupa jednorodna, mało zróżnicowana)- rozkład spiętrzony, k>68,26%
ROZKŁAD PLATOKURTYCZNY- zmienność wyników w badanej próbie większa, niż normalnie (grupa niejednorodna, znacznie zróżnicowana), rozkład spłaszczony, k<68,26%
PRZYKŁAD ZMIENNEJ O DODATNIEJ KURTOZIE: cena kilograma jabłek (dane hipotetyczne) w sierpniu w danym mieście w Polsce. Badacz zbadał cenę w kilkunastu miejscach, w których sprzedawane są jabłka. Średnia cena wyniosła około 3zł.
PRZYKŁAD ZMIENNEJ O UJEMNEJ KURTOZIE: wiek uczestników pewnego turnieju szachowego. Jak wiadomo, grą w szachy interesują się osoby w różnym wieku. Do turnieju zgłosiła się podobna liczba osób w młodym, średnim i starszym wieku. Średnia wieku wyniosła około 33 lat (30-35 lat)
16. Asymetria rozkładu i jej znaczenie dla charakterystyki próby. Przykład
ASYMETRIA ROZKŁADU- polega na nierównomierności prawo- i lewostronnego rozproszenia, co wyraża się również i tym, że wartości średniej arytmetycznej, mediany i dominanty nie pokrywają się, np. rozkład wyników w teście całej grupy jest umiarkowanie lewoskośny tzn. istotnie więcej osób w grupie miało wyniki wyższe od średniej grupowej (przewaga wyników lepszych). w obrębie środkowych 50% obserwacji rozkład jest symetryczny.
I WSKAŹNIK ASYMETRII : - klasyczny Ws=x-D
- pozycyjny Wspoz=(Q3-Q2)-(Q2-Q1)
gdy asymetria >0, to ROZKŁAD PRAWOSKOŚNY
gdy asymetria <0, to ROZKŁAD LEWOSKOŚNY
II WSPÓŁCZYNNIK ASYMETRII : - klasyczny As=Ws:s
- pozycyjny Aspoz=(Q3-Q2)+(Q2-Q1)
Przykład:Badamy poziom intelektualny w grupie studentów.As=-0.75- mamy rozkład lewo skośny, bo -0.75<0 co oznacza, że przeciętny poziom intelektualny w badanej grupie jest znacznie wyższy.
17. Metody badania korelacji między zmiennymi w zależności od poziomu pomiaru:
Ilościowy-korelacja r-Spearmana
Nominalny-c-pearsona/fi Youlea/r-tetrachoryczne
Porządkowy-r-Spearman
18. Warunki stosowania korelacji liniowej r-Pearsona. Sprawdzanie.
WSPÓŁCZYNNIK KOLERALCJI r-PEARSONA to najczęściej stosowana miara siły związku miedzy dwiema zmiennymi, przy pomiarze ilościowym. Informuje nas o tym, w jakim stopniu dwa zjawiska są ze sobą powiązane, w jakim stopniu zmianie jednego zjawiska, towarzyszy zmiana drugiego zjawiska.
Warunki stosowania korelacji liniowej r-Pearsona:
poziom pomiaru zmiennych musi być co najmniej INTERWAŁOWY
charakter zależności między zmiennymi PROSTOLINIOWY
rozkłady obu zmiennych w populacji NORMALNE
19. Etapy wnioskowania statystycznego
estymacja - szacowanie (ocena) nieznanych parametrów populacji na podstawie statystyk w
próbie. na podstawie wyników badania próby formułujemy wnioski dotyczące populacji.
weryfikacja hipotez (testy statystyczne) - formułujemy wnioski (hipotezy) dotyczące populacji i
weryfikujemy je w oparciu o wyniki otrzymane w próbie
etapy weryfikacji hipotez:
· sformułowanie hipotez
· określenie poziomu istotności
· wybór testu statystycznego
· obliczenie wartości empirycznej
· zdefiniowanie obszaru odrzuceń hipotezy zerowej
· podjęcie decyzji weryfikacyjnej i interpretacja merytoryczna
20. Rodzaje testów statystycznych. Przykłady
testy parametryczne- szukamy tylko wartości pewnych parametrów rozkładu; dzielą się na:
testy istotności dotyczące miar średnich , odchyleń standardowych, proporcji,
testy nieparametryczne- służą do weryfikacji hipotez nieparametrycznych, tj. hipotez
niedotyczących wartości nieznanych parametrów populacji. dzielą się na: testy zgodności, jednorodnośc i , losowości
21. Rodzaje hipotez statystycznych. Przykłady
hipotezą statystyczną nazywamy każde przypuszczenie (założenie) dotyczące:
· nieznanego poziomu parametrów populacji (hipotezy parametryczne)
· nieznanej postaci rozkładu badanej zmiennej w populacji (hipotezy nieparametryczne)
hipoteza zerowa - zakłada zawsze brak różnic lub brak zależności. jest hipotezą główną.
hipotezy alternatywne - mogą zakładać:
· istnienie różnic (zależności) bez określonego kierunku - hipotezy dwustronne
· istnienie różnic ze wskazaniem kierunku- hipotezy jednostronne
22. Kryteria wyboru testu statystycznego ( Z lub T) :
poziom pomiaru
rodzaj hipotez
wielkość próby
dodatkowe kryterium decydujące o wariancie testu (do badań natury związków wykorzystujemy metody korelacyjne oraz regresyjne, natomiast do różnicowych takie jak testy t, analiza wariancji.)
23. Obszar krytyczny i obszar przyjęć we wnioskowaniu statystycznym
Obszar odrzuceń hipotezy zerowej to inaczej obszar krytyczny (Ek). Lokaliazcja obszaru krytycznego zależy od rodzaju i wariantu testu statystycznego. W testach parametrycznych lokalizacja Ek jest ściśle powiązana z postacią hipotezy alternatywnej. H1:µ1≠µ2-h.obustronna Ek-obustronny, H1:µ1>µ2 h.prawostronna,Ek-prawostronny, H1:µ1<µ2 h.lewostronna,Ek-lewostronny.
Obszar przyjęć to zbiór wartości, które przemawiają za przyjęciem hipotezy zerowej.
24.zasady podejmowania decyzji weryfikacyjnej w testach parametrycznych
Decyzję weryfikacyjną podejmujemy w oparciu o stwierdzenie w jakim obszarze znajduje się wartość empiryczna testu :
-w Ep-brak podstaw do odrzucenia H0
-w Ek-odrzucenie H0
W przypadku odrzucenia hipotezy zerowej przyjmujemy hipotezę alternatywną z określonym prawdopodobieństwem.
25. Warunki stosowania testów parametrycznych:
zmienne ilościowe
rozkłady zmiennych w populacji, z których pochodzą badane próby są normalne
próby losowe
26. Pojęcie i zastosowanie testów nieparametrycznych. zalety.
testy niepara. - służą do weryfikacji hipotez nieparametrycznych, tj. hipotez niedotyczących
wartości nieznanych parametrów populacji.
• zastosowanie:
-poziom pomiaru zmiennej jest niższy niż interwałowy( może być tylko porządkowy)
-poziom pomiaru interwałowy, ale nie są spełnione warunki do zastosowania testu
parametrycznego.
• zalety:
-są niezależne od rozkładu zmiennej w populacji
-prosta w obliczeniach
27. Rodzaje testów nieparametrycznych. przykłady zastosowania
-test u-manna whitnye'a (dla danych niezależnych)
-test t-wilcoxona (dla danych zależnych)
-test serii walda-wolfowitza (do bad. losowości próby)
-testy zgodności kołomogorowa i chi-kwadrat (zgodnośc rozkładu empirycznego z rozkładem
normalnym)
-test niezależności
-test istotności zmian- mc-nemara (dla danych zależnych)
28. Wady i ograniczenia testów nieparametrycznych
-wykazują tendencję do nieodrzucania h0 (maja mniejszą moc)
-w większości testów nieparametrycznych wymagana jest zmienna ciągła
29. Test niezależności chi-kwadrat.Zastosowanie.Sposób formułowania hipotez.
TEST NIEZALEŻNOŚCI CHI KWADRAT- najczęściej stosowany test nieparametryczny(niezależnym od rozkładu)
Zastosowanie: stosujemy gdy problem badawczy dotyczy zależności, a mierzone zmienne są mierzone na poziomie nominalnym. Warunkiem koniecznym jest ponadto aby próba badana liczyła nie mniej niż 40 osób ,a wartości oczekiwane klas były większe od 5
Sposób formułowania hipotez:-formułujemy go opisowo
-H0 :między badanymi zmiennymi(...) nie istnieje zależność
-H1:m-dzy badanymi zmiennymi (…) istnieje zależność
-wzór na obliczenie wartości empirycznej testu
- obszar krytyczny w tym teście jest zawsze prawostronny- tzn., że warunkiem odrzucenia hipotezy zerowej jest spełnienie nierózwności
- w przypadku odrzucenia Ho i przyjęcia H1 siłę zależności badamy za pomocą współczynnika kontyngencji C- Pearsona