TEST ZADANIAegzamin czerwiec 2009


Collegium Civitas. Egzamin ze statystyki
imiÄ™ i nazwisko piszÄ…cego nr albumu
6/27/2009, test nr XX
Na każde z pytań testowych odpowiedz  T - tak lub  N  nie.
6. Dane są zmienne X   pensja w zł oraz Y   o ile pensja
1. Dystrybuanta zmiennej losowej X to: w złotych musiała by być wyższa, żeby dana osoba
zarabiała 10.000 zł . Czy zatem:
Funkcja, która przyjmuje wyłącznie wartości ze zbioru <0; 1> T
Współczynnik korelacji liniowej rho = -1 T
X,Y
Funkcja, której wartości są określone przez N
Y=10.000-X T
prawdopodobieństwo: F(r)=P(X>r)
Zmienne X i Y mogą być niezależne stochastycznie N
Funkcja, która jest prawdopodobieństwem jakiegoś zdarzenia T
Stosunek korelacyjny eta2 =1 T
X|Y
Funkcja, która me sens wyłącznie dla zmiennych o rozkładzie N
normalnym
7. Zmienna X jest niezależna korelacyjnie (tzn. w sensie
zależności przy regresji średnich) od zmiennej Y. Czy
2. Średnia zarobków w przedsiębiorstwie wynosi 2100 zł, a
wynika z tego, że:
odchylenie standardowe 200 zł. Przyjęto dwóch nowych
Zmienne X i Y są nieskorelowane (niezależne) liniowo T
pracowników. Okazało się, że każdy z nich będzie zarabiał po 2100
Zmienna Y jest niezależna korelacyjnie od zmiennej X N
zł. Czy w wyniku przyjęcia nowych pracowników
Zmienna X jest niezależna w sensie zależności przy N
średnia zarobków w przedsiębiorstwie może się zmienić N
regresji median od zmiennej Y
mediana zarobków w przedsiębiorstwie może się zmienić T
Zmienne X i Y są niezależne stochastycznie N
wariancja zarobków na pewno zmaleje T
odsetek pracowników o najwyższych zarobkach (tj. tych, T
8. Statystyka  średnia X z próby (dla prostej, zwrotnej próby
których zarobki równe są maksimum zarobków wśród
losowej)&
wszystkich pracowników) może ulec zmianie
& ma wartość oczekiwaną równą E(X) T
3. Standaryzowany wzrost Jasia to +1, zaÅ› standaryzowany
& ma wartość oczekiwaną równą E(X) tylko dla prób N
wzrost Małgosi to +1,5. Jaś ma 130 cm. wzrostu, zaś
nieskończenie (w praktyce: wystarczająco) dużych
Małgosia 135. Czy wynika z tego, że
Wzrost Jasia przekracza średnią T
& zawsze przyjmuje wartość E(X) N
Średnia wzrostu w populacji, do której należą Jaś i Małgosia N
& ma wariancję D2(X)/n, gdzie n to liczebność próby T
jest większa niż 126 cm
Standaryzowany wzrost Aukasza, który ma 115 cm wzrostu T
wynosi  0,5
9. Estymator, to
W tej populacji na pewno są osoby, których standaryzowany T
& parametr populacyjny N
wzrost jest ujemny
& taka liczba, która jest równa wartości nieznanego N
4. W populacji pracowników pewnej firmy 30% stanowią
parametru populacyjnego
kobiety. Wiadomo też, że 40% zatrudnionych pali, zaś
& wartość oczekiwana średniej z próby N
zmienne  płeć i  palenie są niezależne stochastycznie.
Czy wynika z tego, że:
& pewna statystyka z próby T
60% kobiet zatrudnionych w tej firmie to osoby niepalÄ…ce T
Palący mężczyzni stanowią 28% pracowników firmy T
10. Na podstawie 200 elementowej próby prostej niezależnej
Odsetek mężczyzn wśród palących jest taki sam, jak wśród T
oszacowano odsetek osób popierających kandydata A jako
niepalÄ…cych
należący do przedziału <18%, 22%> na poziomie ufności
Wśród niepalących jest tyle samo kobiet, co mężczyzn N
równym 0,95. Czy wynika z tego, że:
5. Zmienne X (zadowolenie z życia: 0  niezadowolony; 1 
20% osób w próbie popiera kandydata A T
zadowolony) i Y (stan zdrowia: 0  chory; 1  zdrowy) sÄ…
20% osób w populacji popiera kandydata A N
maksymalnie skorelowane liniowo. Czy wynika z tego, że:
Chorych można spotkać równie często wśród N
5% dwustuelementowych prostych niezależnych prób T
zadowolonych z życia jak wśród niezadowolonych z życia
losowych da nam błędne przedziałowe oszacowanie odsetka
Albo wszyscy chorzy sÄ… zadowoleni albo wszyscy chorzy T
osób popierających kandydata A
sÄ… niezadowoleni
Prawdopodobieństwo, że odsetek osób w populacji, N
eta2 = eta2 = 1 T
X|Y Y|X
popierających kandydata A będzie zawierał się w przedziale
Regresja średnich X od Y jest funkcja stałą N
<18%, 22%> wynosi 0,95
COLLEGIUM CIVITAS

ProwadzÄ…cy
27 czerwca 2009 r.
Egzamin ze statystyki - translacje i zadania [55 pkt]
zajęcia

ImiÄ™ i nazwisko:
CZYTELNIE
JK MJ
TAUMACZENIE ZDAC [10 pkt]
Zbadano mieszkańców pewnej gminy i określono następujące zmienne:
X  płeć (0  kobieta; 1  mężczyzna) Y  wykształcenie (1  podstawowe, 2  średnie, 3  wyższe)
Z  zarobki w pln
Zapisz (na osobnej kartce) za pomocą symboli statystycznych następujące zdania
a) Średnie zarobki mężczyzn z wyższym wykształceniem były wyższe od średnich zarobków w całej populacji gminy.
b) Kobiety stanowiły większy odsetek osób o wyższym wykształceniu niż mężczyzni.
Wyjaśnij (na osobnej kartce) znaczenie poniższych zapisów, nie odwołując się do terminologii statystycznej nie występującej w potocznym
języku
c) P(X = 0 '" Y = 3 | Z=1000) < P(X = 0 | Y = 3 '" Z=1000)
d) E(X | Y=2) = E(X | Y=3)
RozwiÄ…zanie:
a) E(Z|X=1 '" Y=3) > E(Z)
b) P(X=0|Y=3) > P(X=1|Y=3)
c) Udział kobiet z wyższym wykształceniem wśród osób zarabiających 1000 zł był mniejszy niż udział
kobiet wśród osób z wyższym wykształceniem, które zarabiały 1000 zł.
d) Odsetek (udział) mężczyzn był taki sam wśród osób z wyższym wykształceniem, jak ze średnim.
ZADANIA [45 pkt]
Uwaga!
Wszystkie odpowiedzi należy uzasadnić.
Rozwiązania bez uzasadnienia nie będą punktowane
Zadanie 1 [25 PKT]
W zbiorowości studentów pewnej uczelni określone są zmienne: X (liczba zdanych egzaminów w sesji) i Y (liczba tygodni poświęconych
na naukę do sesji). Dana jest rodzina rozkładów warunkowych częstości zmiennej Y ze względu na wartości X oraz rozkład brzegowy
zmiennej X:
Y
xi P(X=xi)
X 1 2 3 4
1 S! S! S! 1 1 S!
2 ½ ½ 1 2 S!
3 S! S! S! 1 3 S!
1
a) Wyznacz regresję średnich zmiennej X względem zmiennej Y. [5 pkt]
b) Wyznacz regresję liniową zmiennej X względem zmiennej Y. [6 pkt]
c) Wyznacz mierniki siły zależności związane z każdą z regresji. [8 pkt]
d) Zinterpretuj parametry równania regresji liniowej zmiennej X względem zmiennej Y. [6 pkt]
COLLEGIUM CIVITAS
RozwiÄ…zanie zadania 1:
a) Zaczynamy od zamiany rodziny rozkładów warunkowych Y ze względu na X na rodzinę rozkładów warunkowych X ze
względu na Y
Rozkład łączny częstości Rodzina rozkładów warunkowych X ze względu na Y
Y Y
X 1 2 3 4 X 1 2 3 4
1 1 1
1 0 1 0,4 0,5 0,5
9 9 9
1 1
2 0 0 2 0,6 0,6
6 6
1 1 1
3 0 3 0 0,5 0,5 0,4
9 9 9
5 4 4 5
1 1 1 1
18 18 18 18
Regresja średnich
1,6 dla Y = 1
ż#
E(X|Y=1) = 1*0,4 + 2*0,6 = 0,4+1,2 = 1,6
ª#2 dla Y = 2
E(X|Y=2) = 1*0,5 + 3*0,5 = 2
ª#
Ć
XY =
¨#2 dla Y = 3
E(X|Y=3) = 1*0,5 + 3*0,5 = 2
ª#
E(X|Y=4) = 2*0,6 + 3*0,4 = 1,2+1,2 = 2,4
ª#2,4 dla Y = 4
©#
b) Regresja liniowa
Zaczynamy od wyznaczenie kowariancji
C(X,Y) = E(XY)  E(X)E(Y)
E(X)=2, E(Y)=2,5  oba rozkłady są symetryczne, więc to widać bez wykonywania obliczeń.
P
XY
1* 2 + 2 *5 + 3* 2 + 6 * 2 + 8*3 + 9 * 2 +12* 2 96 16
E(XY ) = = =
1
18 18 3
1
9
16 16 -15 1
cov(X ,Y ) = - 2 * 2,5 = =
5
3 3 3
2
18
5 4 4 5
D2 (Y ) = (1- 2,5)2 * + (2 - 2,5)2 * + (3 - 2,5)2 * + (4 - 2,5)2 * =
1
3 18 18 18 18
9
9 5 1 4 9 5 1 4 90 + 8 49
1 = * + * + * + * = =
6
4 18 4 18 4 18 4 18 36 18
9
1
8 1
6
6 2,5* 6 98 -15 83
3
bX |Y = = aX |Y = 2 - = =
1
49
9 49 49 49 49
9
18
1
12
83 6
Ć
Równanie regresji liniowej: XY = + Y
9
49 49
1
COLLEGIUM CIVITAS
c) Mierniki siły zależności
1 1 2
Potrzebna będzie wariancja zmiennej X, której jeszcze nie mamy wyliczonej: D2 (X ) = (1- 2)2 * + (3 - 2)2 * =
3 3 3
1
cov2 (X ,Y ) 3
2 9
Á = = =
X ,Y
2 49
D2 (X )D2 (Y ) 49
*
3 18
Do obliczenia eta-kwadrat potrzebujemy wariancji średnich warunkowych lub średniej wariancji warunkowych. Ze względów
rachunkowych średnia wariancji wydaje się łatwiejsza do obliczenia:
D2 (X | Y = 1) = D2 (X | Y = 4) = 0,24 D2 (X | Y = 2) = D2 (X | Y = 3) = 1
5 4 52
zatem: E[D2 (X | Y )] = 0,24 * +1* =
9 9 90
2 52
-
8 2
2 3 90
· = = =
X |Y
2
60 15
3
d) interpretacja parametrów równania regresji liniowej
83 6
Ć
Równanie regresji liniowej: XY = + Y
49 49
83
Przewidywana liczba zdanych egzaminów dla studenta, który nie uczył się (poświęcił 0 tygodni na naukę)
49
6
Jeśli porównamy dwóch studentów, którzy różnią się o 1 tydzień czasem poświęconym na naukę, to przewidujemy, że student,
który uczył się dłużej zda o 6/49 (czyli ok. 0,12) egzaminu więcej niż ten, który uczył się krócej.
49
Zadanie 2. [5 PKT]
Dana jest trzyosobowa populacja: {Anna, Beata, Karol}. W populacji tej określono zmienną X - wzrost w cm. Anna ma 160 cm, Beata -
170 cm, Karol - 180 cm wzrostu.
a) Wypisz wszystkie dwuelementowe próby losowe proste niezależne (tzn. zwrotne), które można wylosować z tej populacji. [1 pkt]
b) Wyznacz rozkład statystyki  średnia wzrostu z dwuelementowej prostej niezależnej próby losowej . [4 pkt]
RozwiÄ…zanie zadania 2
a) Dwuelementowe próby proste, niezależne:
1) Anna, Anna; 2) Anna, Beata; 3) Anna, Karol;
4) Beata, Anna; 5) Beata, Beata; 6) Beata, Karol
7) Karol, Anna; 8) Karol, Beata; 9) Karol, Karol
b) Rozkład statystyki  średni wzrost z dwuelementowej próby
Próba Wzrost w Średni wzrost w Rozkład statystyki W -  średni
próbie próbie wzrost z dwuelementowej próby
1) Anna, Anna; 160, 160 160 wi P(W=wi)
2) Anna, Beata; 160, 170 165 160 1/9
3) Anna, Karol; 160, 180 170 165 2/9
4) Beata, Anna; 170, 160 165 170 3/9
5) Beata, Beata; 170, 170 170 175 2/9
6) Beata, Karol 170, 180 175 180 1/9
7) Karol, Anna; 180, 160 170
8) Karol, Beata; 180, 170 175
9) Karol, Karol 180, 180 180
COLLEGIUM CIVITAS
Zadanie 3. [15 pkt]
Dla oszacowania przedziałowego frekwencji wyborczej (odsetka osób uczestniczących w wyborach) w populacji obywateli pewnego kraju
wylosowano prostą, niezależną próbę losową o liczebności 900 osób. Okazało się, że procent osób planujących pójść na wybory w
zbadanej próbie wynosił 90%.
a. Oszacuj przedziałowo frekwencję wyborczą przyjmując poziom ufności równy 0,98 [10 pkt]
b. Jak liczną należałoby wylosować próbę, aby na tym samym poziomie ufności oszacować frekwencję wyborczą z dokładnością do
+/- 2 punktów procentowych? [5 pkt]
RozwiÄ…zanie zadania 3
Zakładamy, że w badanej populacji określona jest dychotomiczna (zerojedynkowa) zmienna X przyjmująca wartość 0 jeśli respondent nie
zamierza wziąć udziału w wyborach i 1  jeśli zamierza. Rozkład zmiennej w zbadanej próbie będzie więc następujący:
Xi N(X=xi) Średnia tej zmiennej w próbie wynosi E(X)=0,9 i jest równa udziałowi osób W PRÓBIE,
0 90 które zamierzają wziąć udział w wyborach.
W POPULACJI średnia tej samej zmiennej również jest równa udziałowi osób, które
1 810
zamierzają wziąć udział w wyborach
razem 900
a) WYZNACZANIE PRZEDZIAAU UFNOÅšCI DLA ÅšREDNIEJ
Przedział ufności dla średniej wyznacza się ze wzoru:
Ã
x ą ł , gdzie x jest wynikiem badania próby.
n
Dla poziomu ufności 0,98 mamy: Ś(ł ) = 0,99 zatem ł = 2,33
Nie mamy odchylenia standardowego w populacji Ã, w zwiÄ…zku z tym musimy dokonać estymacji punktowej odchylenia na podstawie
zbadanej próby à = s = 0,9 * 0,1 = 0,3
W rezultacie otrzymujemy:
0,3
d = 2,33 = 0,0233 , czyli odsetek osób, które zamierzają wziąć udział w nadchodzących wyborach znajduje się w przedziale:
30
(88,67%; 92,33%)
b) WYZNACZANIE MINIMALNEJ LICZEBNOŚCI PRÓBY
Jeśli chcemy dopiero wylosować próbę, by oszacować frekwencję, to nie wiemy  oczywiście  jaka ona może być i tym samym  jakie
może być odchylenie standardowe zmiennej X w populacji. Zakładamy najmniej optymistyczny scenariusz, że odchylenie to będzie
maksymalne, czyli, że będzie wynosiło 0,5.
Przekształcamy wzór na d względem n:
2 2
Å‚Ã
2,3320,25
2
Jeśli d = 0,02 to d = 0,0004, więc n = = = 3393,063
2
d 0,0004
Minimalna liczebność próby, która musielibyśmy wylosować wynosi n=3394


Wyszukiwarka