WPROWADZENIE DO STATYSTYCZNEJ ANALIZY DANYCH
Przykłady pytań egzaminacyjnych
Europejska karta ubezpieczenia zdrowotnego
Określ typ zmiennych powstałych w oparciu o następujące pytania/polecenia:
(N - nominalna, D - dychotomiczna, P - porządkowa, I - interwałowa lub ilorazowa)
przez ile godzin tygodniowo korzystasz przeciętnie z internetu?
N D P I
czy masz rodzeństwo?
N D P I
w jakich językach potrafisz się porozumieć?
N D P I
jak często zdarza ci się przechodzić na czerwonym świetle (nigdy - rzadko - czasami - dość często - bardzo często)?
N D P I
którą z dwu sytuacji wolisz: A) niskie podatki i niskie wydatki państwa na cele społeczne, czy raczej B) wysokie podatki i wysokie wydatki państwa na cele społeczne?
N D P I
Dla poniższej macierzy wylicz następujące wartości
(pamiętaj, że i to wskaźnik wierszy, a j - kolumn):
|
X1 |
X2 |
X3 |
k1 |
2 |
4 |
1 |
k2 |
3 |
5 |
2 |
k3 |
3 |
2 |
2 |
całość = 24
(2+4+1)=7
(4+1+5+2)=12
Żeby policzyć rachunek na początku sprawdzasz liczbę nad znakiem sumy, oznacza ona liczbę wartości z wierszy/kolumn, które musisz uwzględnić w wyliczeniu, a dokładniej DO której z nich (wierszy/kolumn) masz rozpocząć rachunek. Następnie sprawdzasz liczbę pod znakiem sumy, która to określa nam numer OD którego wiersza (i) oraz kolumny (j) masz sumować wartości w macierzy. (np. w 3 przykładzie, 2 na górze mówi, że wykluczamy trzeci wiersz (sumuj DO 2), a 1 na dole, że mamy patrzeć OD 1 wiersza, dlatego zostają nam wartości 2,4,1 / 3,5,2 - teraz patrzymy na j - 3 na górze mówi, że uwzględniamy wartości DO 3 kolumny, a wartość na dole, że interesują nas wartości OD 2 kolumny i tym sposobem z wcześniej wyselekcjonowanych liczb odrzucamy jeszcze 2 i 3 z pierwszej kolumny) Teraz patrzymy na X, jeśli mamy za nim ij, oznacza to, że mamy sumować wszystkie wartości zarówno z wierszy jak i kolumn, natomiast tak jak w przykładzie drugim na miejscu i mamy 1, za pomocą której, mamy ściśle określone, że w rachunku interesuje nas wyłącznie wiersz 1, dlatego sumujemy jedynie 3 wartości co wyczytaliśmy wcześniej z oznaczeń sumy.
Mam nadzieję, że udało mi się to jakoś na polski przełożyć;)
Medianę można wyliczyć :
tylko dla zmiennej nominalnej
dla zmiennej nominalnej i porządkowej
dla zmiennej porządkowej i interwałowej
tylko dla zmiennej porządkowej
Przeczytaj uważnie poniższe zdanie i zaznacz odpowiedź, która jest NA PEWNO prawidłowa:
„W państwie A średni plon jęczmienia wynosi 18 kwintali z hektara, choć w pewnych regionach jest nieco wyższy.”
tyle samo regionów ma plon poniżej 18, co powyżej 18 kwintali z hektara
w żadnym regionie plon nie przekracza 36 kwintali z hektara
w większości regionów plon wynosi 18 kwintali z hektara
w niektórych regionach państwa A plon jest niższy niż 18 kwintali z hektara
W pewnej firmie wszystkim osobom obniżono zarobki o 50 złotych. Zaznacz symbolem „+” te wartości, które w związku z tym ulegną zmianie, a znakiem „-” te, które się nie zmienią:
Rozstęp -
Średnia +
Wariancja -
Modalna+
Odchylenie standardowe i wariancja ZMIENI SIĘ tylko kiedy * lub /, NIE zmieni się przy + i -
Siedmiu uczniów zapytano o liczbę książek przeczytanych w ciągu ostatniego półrocza. Uzyskano następujące odpowiedzi: 4, 6, 1, 7, 0, 13, 4.
Zaznacz kółkiem prawidłową wartość statystyki:
a) mediana: 3 4 5 6
b) modalna: 0 1 2 4
b) średnia: 3 4 4,5 5
c) rozstęp: 0 1 10 13 (max-min)
d) odchylenie standardowe: 2,87 3,33 4,00 4,25
4, 6, 1, 7, 0, 13, 4; n=7; średnia=5
Xi - średnia 4-5; 6-5; 1-5; 7-5; 0-5; 13-5; 4-5
-1, 1, -4 2 -5 8 -1
(Xi - średnia)2 1 + 1 + 16 + 4 + 25 + 64 + 1 = 112
Odchyl. Stand = 112/7 = 16 √16=4
Na podstawie 78 kwestionariuszy badacz wyliczył, że średni dochód w badanej grupie wynosi 1400 złotych. Spóźnieni ankieterzy donieśli jeszcze dwa kwestionariusze: jedna osoba zarabiała 4000 złotych, a druga 7800. Ile będzie wynosić nowa średnia?
(78*1400+4000+7800)/80
Nowa średnia = ………………
Stosowanie testów statystycznych w przypadku próby nielosowej:
nie daje miarodajnych rezultatów
daje miarodajne rezultaty przy dużych próbach (n>100)
zwiększa błąd standardowy oszacowania
zwiększa szanse na odrzucenie hipotezy zerowej
Standaryzacja zmiennej polega na przekształceniu jej do postaci, w której:
średnia = 0, a odchylenie standardowe = 1.
średnia = 1, a odchylenia standardowe = 0.
średnia = 0, a odchylenie standardowe = 1,96.
średnia = 1, a odchylenie standardowe = 1,96.
Odchylenie standardowe równe -1 oznacza, że:
rozkład jest skośny ujemnie
zmienna nie ma rozkładu normalnego
większość obserwacji leży poniżej średniej
popełniono błąd w rachunkach.( WARTOŚĆ UJEMNĄ PRZYJMUJE TYLKO TAU!)
Poniższy wykres przedstawia dwie zmienne o rozkładzie normalnym. Porównaj je pod względem średniej (μ) i odchylenia standardowego (σ), wstawiając odpowiedni znak nierówności (> albo <).
μ(X) > μ(Y)
σ(X) < σ(Y)
Błąd standardowy estymatora średniej zależy od:
odchylenia standardowego zmiennej i liczebności próby
średniej i odchylenia standardowego zmiennej
średniej i liczebności próby
średniej, odchylenia standardowego i liczebności próby
Hipoteza zerowa testu χ2 (chi kwadrat) brzmi:
w populacji istnieje zależność między zmiennymi
w próbie istnieje zależność między zmiennymi
w populacji nie istnieje zależność między zmiennymi
w próbie nie istnieje zależność między zmiennymi
Przy użyciu testu χ2 sprawdzono zależność między noszeniem okularów a kierunkiem studiów na losowej próbie 600 słuchaczy krakowskich uczelni wyższych. Prawdopodobieństwo testowe wyliczone przez komputer wyniosło 0,25. Jaki wyciągamy stąd wniosek?
stwierdzamy istnienie związku przy poziomie istotności α = 0,05
stwierdzamy istnienie związku przy poziomie istotności α = 0,01
nie stwierdzamy istnienia związku przy poziomie α = 0,05
siła związku między zmiennymi wynosi 0,25.
TEST CHI-KW NIE MIERZY SIŁY ZWIĄZKU, TYLKO JEGO SPRAWDZA JEGO ISTNIENIE
Jaka jest minimalna i maksymalna wartość V Cramera?
minimum = 0, maksimum zależy od wymiarów tabeli
minimum = -1, maksimum = 1.
minimum zależy od wymiarów tabeli, maksimum = 1.
minimum = 0, maksimum = 1.
W poniższej tabeli chcemy sprawdzić, w jaki sposób mieszkanie w młodości z wujem wpłynęło na przekonanie respondenta o tym, że krajem powinni rządzić mężczyźni. Jakie procentowanie powinniśmy w tym celu zastosować?
a) kolumnowe b) wierszowe c) kierunkowe d) całości
W powyższej tabeli występuje pewna, choć niezbyt silna, zależność. Zaznacz jaka:
Mieszkanie z wujem zwiększa szansę na zgadzanie się.
Mieszkanie z wujem zwiększa szansę na niezgadzanie się.
Mieszkanie bez wuja zmniejsza szansę na niezgadzanie się.
Mieszkanie bez wuja zmniejsza szansę na wyrażanie niepewności.
Dla poniższej tabeli wylicz współczynnik λ (lambda), za zmienną niezależną przyjmując liczbę egzaminów, a za zmienną zależną kierunek studiów:
Kierunek |
Liczba egzaminów w sesji |
Ogółem |
||||
|
trzy |
Cztery |
Pięć |
sześć |
siedem |
|
Socjologia |
3 |
|
7 |
|
|
10 |
Fizyka |
|
6 |
|
|
4 |
10 |
Medycyna |
|
|
|
10 |
|
10 |
Ogółem |
3 |
6 |
7 |
10 |
4 |
30 |
wartość λ wynosi: -1,00 0,00 0,65 1,00 (WYTŁUMACZONE W WYKŁADZIE 11, PRZY MIARACH TYPU PRE)
Osoba A waży 50 kg i ma 165 cm wzrostu, osoba B waży 165 kg i ma 210 cm wzrostu. Jest to przykład pary:
zgodnej
niezgodnej
o rangach związanych na zmiennej waga
o rangach związanych na obu zmiennych.
Docent Ostrzany badał związek między długością przemówienia prelegentów (krótkie, średnie, długie) a długością ich krawatów (krótkie, średnie, długie). W tym celu obliczył V Cramera, które dało wynik +0,87. Oznacza to, że:
im dłuższy krawat, tym dłuższe przemówienie.
im dłuższy krawat, tym krótsze przemówienie.
związek między długością krawata a długością przemówienia jest nieistotny statystycznie.
właściciele różnych krawatów wygłaszają referaty różnej długości.
W grupie 50 osób było 30 kobiet i 20 mężczyzn. Spośród mężczyzn 16 posiadało prawo jazdy. Ile kobiet powinno mieć prawo jazdy, jeśli nie ma żadnego związku między płcią a posiadaniem prawa jazdy? Zapisz wyliczenie i zaznacz właściwą odpowiedź:
a) 15 b) 18 c) 20 d) 24
JEŚLI NIE ZAKŁADAMY ISTNIENIA ZWIĄZKU, MUSI BYĆ RÓWNY STOSUNEK %
20/16
20 - 100%
16 - x
X = 1600/20 = 80%
30 - 100%
X - 80%
X= 30*80/100=24
Dysponując danymi z losowej próby młodych małżeństw dr Całujek obliczyła średnią liczbę pocałunków w ciągu dnia oraz błąd standardowy tej średniej. Na tej podstawie ustaliła, że 95% przedział ufności dla średniej liczby pocałunków w ciągu dnia wynosi 26±6 pocałunków. Oznacza to, że:
mamy 95% pewności, że w populacji młodych małżeństw średnia liczba pocałunków w ciągu dnia wynosi między 20 a 32
95% młodych małżeństw całuje się między 20 a 32 razy dziennie
możemy odrzucić hipotezę, że w populacji małżeństwa całują się dokładnie 26 razy dziennie
liczba pocałunków w populacji młodych małżeństw jest o 6 większa niż w populacji starych małżeństw
W TYCH PYTANIACH SŁOWO KLUCZ TO MAMY ..% PEWNOŚCI, a treść jest nieistotna:p
Jaka jest hipoteza zerowa analizy wariancji?
Średnie w populacjach są takie same
Jakie są założenia analizy wariancji?
-interwałowy lub ilorazowy poziom pomiaru
- rozkłady nominalne
- jednorodność wariancji
W jaki sposób zmiana jednostki miary z centymetrów na milimetry wpłynie na współczynnik zmienności?
Współczynnik ten zmienia się jedynie przy + i -, dlatego w tym przypadku nie ulegnie zmianie.
Na czym polega błąd II rodzaju?
Przyjęcie fałszywej H0
Czy doświadczony analityk jest w stanie zabezpieczyć się przed popełnieniem błędów I i II rodzaju? Jeśli tak, w jaki sposób?
Czym w teście Studenta hipoteza alternatywna kierunkowa różni się od bezkierunkowej ?
Jaka jest konieczna wielkość próby dla populacji dorosłych Polaków, by szacować procenty z ufnością 95% i dokładnością ±2%?
1,96 * 1/2√n = 0,02
n= (1,96)2 / 4(0,02)2 = 3,8416/0,0016 ~ 2401
Czy większą próbę musimy losować z populacji skończonej (małej) czy nieskończonej (bardzo dużej)?
Na czym polega różnica między testem t Studenta dla prób zależnych i niezależnych?
Przeanalizuj tabelę i odpowiedz na pytania.
Jaka jest modalna dla zmiennej „prezydent” a jaka dla zmiennej „socjalizm”? Kwaśniewski/kwaśniewski
Jakie są mediany dla tych zmiennych? Nie ma mediany bo to zmienna nominalna!
Jaki procent wyborców Wałęsy był zdecydowanie za socjalizmem? 3,8%
Jaki procent niewiedzących, czy są za czy przeciw socjalizmowi, stanowili wyborcy Olechowskiego? 9,1
Jaki procent próby stanowili „nie pamiętający” na kogo głosowali? 5,6
Jaki procent próby stanowili wyborcy Krzaklewskiego nie będący ani za, ani przeciw socjalizmowi?0,7
Co oznacza wartość 100% w prawym górnym rogu?
Przeanalizować wszystkie wartości w komórce Olechowski & raczej przeciw.
Biorąc pod uwagę kombinację obydwu zmiennych, jaki typ wyborcy był w próbie najczęstszy? Jaki stanowił odsetek całości?
Jaki elektorat dominuje wśród „zdecydowanych socjalistów”?
Jaki elektorat dominuje wśród „zdecydowanych przeciwników socjalizmu”?
Który elektorat najbardziej odstawał od pozostałych? Pod jakim względem?
W którym elektoracie najczęściej uchylano się od odpowiedzi?
Do których wyborców najbardziej podobni są ci, którzy „nie pamiętają”?