R 11, Statystyka, Kasperowicz-Ruka


Rozdział 11

11. WYKORZYSTANIE WNIOSKOWANIA STATYSTYCZNEGO Z PODSTAWOWEGO KURSU STATYSTYKI DO INTERPRETACJI WYNIKÓW BADAŃ OPINII PUBLICZNEJ

Pytanie 11.1. Dlaczego często podawana w prasie, radiu czy telewizji informacja, iż błąd szacunku wyników badań opinii publicznej nie jest większy niż 3%, wymaga dodatkowej informacji, potwierdzającej prawdziwość pierwszej, że o opinię pytano nie mniej niż 1068 wylosowanych do próby osób?

(Przy estymacji przedziałowej przyjmuje się najczęściej współczynnik ufności na poziomie 0,95 i taki współczynnik ufności wybieramy do poniższych rozważań.)

Uzasadnienie odpowiedzi na pytanie 11.1

      Do sformułowania odpowiedzi jest nam potrzebny wzór przedziału ufności dla parameru p skonstruowanego przy użyciu estymatora 0x01 graphic
 metody majwiększej wiarogodności, gdzie zmienna losowa X jest liczbą sukcesów w n-elementowej próbie. Zmienna losowa X jest sumą n zmiennych zero-jedynkowych. Pytaniom zadawanym w badaniach opinii publicznej przypisujemy odpowiedzi zero-jedynkowe. Odpowiedź z przypisaną jej wartością 1 jest głównym przedmiotem naszego zainteresowania. W nazewnictwie związanym z rozkładem zero-jedynkowym i dwumianowym odpowiedź z przypisaną jej wartością 1 jest utożsamiana z sukcesem. Prawdopodobieństwo sukcesu wynosi p, parametr p przyjmuje wartości z przedziału liczbowego <0;1>. Odpowiedź z przypisaną jej wartością zero może być w istocie zbiorem wszystkich innych możliwych odpowiedzi poza tą, której przypisano wartość 1. Odpowiedź ta jest utożsamiana z porażką. Prawdopodobieństwo porażki wynosi (1 - p).

Prawdopodobieństwo udzielenia przez pojedynczego obywatela odpowiedzi, do której przypisana jest wartość 1, wynosi p (obywatele danego kraju stanowią w większości badań opinii publicznej populację generalną).

Najkrócej p nazywa się frakcją, a p x 100% nazywa się procentową frakcją elementów wyróżnionych w populacji generalnej.

Z punktu widzenia badań opinii publicznej p x 100% jest procentową frakcją obywateli wyróżnionych odpowiedzią, do której przypisano wartość 1. Jest to na przykład odpowiedź "tak" na pytanie: czy popiera pani/pan ostatnią decyzję prezydenta naszego kraju w sprawie podatków od osób fizycznych?

Parametr p można poznać pytając o opinię wszystkich obywateli, zdajemy sobie jednak wszyscy sprawę, jak byłoby to kosztowne i pracochłonne. Dlatego też parametr p jest szacowany na podstawie wyników badania próby prostej, losowo wybranej z populacji generalnej obywateli danego kraju.

W n-elementowej próbie prostej, wylosowanej z populacji generalnej, zmienna losowa X jest liczbą odpowiedzi, do której przypisana jest wartość 1, a 0x01 graphic
 jest częstością odpowiedzi, do której przypisana jest wartość 1. Częstość 0x01 graphic
 mnożona przez 100% jest procentowym udziałem (procentową frakcją) odpowiedzi z przypisaną im wartością 1 w ogólnej liczbie n odpowiedzi.

Najkrócej możemy powiedzieć, że 0x01 graphic
 nazywa się frakcją, a 0x01 graphic
 100% nazywa się procentową frakcją elementów wyróżnionych w n-elementowej próbie. Iloraz 0x01 graphic
 oznaczamy jako 0x01 graphic
.

Założenie

1)   Zmienna losowa X ma w populacji generalnej rozkład zero-jedynkowy, określony parametrem p. Próbę prostą n-elementową tworzy ciąg zmiennych losowych (X1, X2, X3,..., Xn) o rozkładach identycznych i jednakowych z rozkładem zmiennej losowej X w populacji generalnej.

      Zmienna standaryzowana U zmiennej losowej 0x01 graphic
 jest postaci

(11.A) 0x01 graphic
, bowiem estymator metody największej wiarogodności 0x01 graphic
 parametru p ma, dla n 6 0x01 graphic
, rozkład: 0x01 graphic
, co wynika z twierdzenia de Moivre'a-Laplace'a (por. J. Jóźwiak, J. Podgórski, Statystyka od podstaw, PWE, Warszawa, 1998, s. 177). Stąd U : N [0; 1].

Jak powiedziano wyżej, 0x01 graphic
 jest frakcją, a X liczbą elementów wyróżnionych w n-elementowej próbie.

Wzór ogólny przedziału ufności budowanego na podstawie standardowego rozkładu normalnego jest następujący:

(11.1) P(-uα < U < uα) = 1 - α.

Ustalamy współczynnik ufności 1 - α na określonym poziomie, najczęściej z przedziału liczbowego < 0,9; 1) odczytujemy z tablic standardowego rozkładu normalnego wartość uα odpowiadającą przyjętemu 1 - α.

Wzór (11.A) wstawiamy do ogólnego wzoru przedziału ufności (11.1)

P(-uα < 0x01 graphic
 < uα) = 1 - α.

Stąd:

(11.2) P(0x01 graphic
- uα 0x01 graphic
 < p < 0x01 graphic
 + uα 0x01 graphic
) = 1 - α.

Maksymalny błąd szacunku parametru p nie powinien przekraczać ustalonej z góry wartości oznaczonej literą d:

uα 0x01 graphic
 ≤ d,

Po rozwiązaniu tej nierówności względem niewiadomej n otrzymujemy nierówność (11.3), a stąd wzór na minimalną liczebność losowej próby:

(11.3) n0x01 graphic
, czyli nmin = 0x01 graphic
.

Jeżeli brak jest informacji z badania pilotażowego o wartości 0x01 graphic
, to można przyjąć, że 0x01 graphic
 = 0,5, a wówczas 0x01 graphic
 = 0,25, co jest maksymalną wartością tego iloczynu. Stąd:

(11.4) n0x01 graphic
 x 0,25, czyli nmin = 0x01 graphic
 x 0,25.

Wykorzystano tu informację, iż zakres możliwych realizacji estymatora 0x01 graphic
 w próbie n-elementowej to przedział liczbowy <0,1>, a maksymalna wartość, jaką może przyjąć wyrażenie 0x01 graphic
, to 0,25 (dla 0x01 graphic
 = 0,5).

Przy 1 - α = 0,95 odczytujemy z tablic rozkładu normalnego standardowego uα=0,05 = 1,96, zamiast wyrażenia 0x01 graphic
 wstawiamy 0,25, a miarą trzyprocentowego błędu jest d = 0,03.

Zatem: n0x01 graphic
 (1,96)2 0,25, stąd n ≥ 1068 osób.

Odpowiedź na pytanie 11.1

      Powodem, dla którego niezbędna jest dodatkowa informacja, potwierdzająca prawdziwość pierwszej, jest warunek: błąd szacunku frakcji elementów wyróżnionych ze względu na dowolne, zadane w badaniu pytanie nie przekracza 3%, jeżeli losowa próba liczy przynajmniej 1068 osób.

Pytanie 11.2. Jakie warunki powinny spełniać oba badania, gdyby zmiany opinii publicznej na dowolnie wybrany temat przejawiające się w różnicach frakcji odpowiedzi z przypisaną im wartością 1 w dwóch różnych momentach czasu planowano publikować z błędem szacunku nie przekraczającym, co do wartości bezwzględnej, 3%?

Uzasadnienie odpowiedzi na pytanie 11.2

      Założenia

1)   Zmienna losowa X ma w populacji generalnej rozkład zero-jedynkowy, określony parametrem p. Próbę prostą n-elementową tworzy ciąg niezależnych zmiennych losowych (X1, X2, X3,..., Xn) o rozkładach identycznych i jednakowych z rozkładem zmiennej losowej X w populacji generalnej.

2)   Mamy tu do czynienia z dwiema populacjami generalnymi; założenie 1) dotyczy obu populacji, ale rozkład zero-jedynkowy populacji pierwszej jest określony parametrem p1 a populacji drugiej parametrem p2. Próby proste liczące n1 i n2 elementów są niezależne.

      Zmienna standaryzowana U zmiennej losowej 0x01 graphic
 ma postać

(11.B) 0x01 graphic
, bowiem estymator 0x01 graphic
 parametru p1 - p2, dla n1 6 0x01 graphic
 oraz n2 6 0x01 graphic
, ma rozkład:

0x01 graphic
, co wynika z cytowanego wyżej twierdzenia de Moivre'a-Laplace'a oraz z własności addytywności rozkładu normalnego (por. J. Jóźwiak, J. Podgórski... op. cit., s. 177 i s. 166). Stąd U : N [0; 1].

Jak powiedziano wyżej, 0x01 graphic
 jest frakcją, a X1 liczbą elementów wyróżnionych w n1-elementowej próbie oraz 0x01 graphic
 jest frakcją, a X2 liczbą elementów wyróżnionych w n2-elementowej próbie.

Wzór (11.B) wstawiamy do ogólnego wzoru przedziału ufności (11.1):

0x01 graphic
.

Stąd

(11.5) 0x01 graphic

Maksymalny błąd szacunku parametru p1 - p2 nie powinien przekraczać ustalonej z góry wartości oznaczonej literą d:

0x01 graphic

Aby rozwiązać tę nierówność względem dwóch niewiadomych n1 i n2, należy przyjąć założenia upraszczające.

Założenie a) 0x01 graphic
. Jeżeli spełnione jest założenie a), to

(11.6)  0x01 graphic
 ≥ 0x01 graphic
, czyli 0x01 graphic
 0x01 graphic
.

Założenie b) n1 = n2 = n. Jeżeli spełnione jest założenie b), to

(11.7)  0x01 graphic
, czyli nmin = 0x01 graphic
.

Najczęściej brak jest informacji z badania pilotażowego o wartościach 0x01 graphic
 i 0x01 graphic
. Można wówczas przyjąć 0x01 graphic
 = 0,5, a wtedy 0x01 graphic
 = 0,25, co jest maksymalną wartością tego iloczynu, oraz 0x01 graphic
 = 0,5 a wtedy 0x01 graphic
 = 0,25, co jest również maksymalną wartością tego iloczynu.

Założenie c) 0x01 graphic
 = 0,25 oraz 0x01 graphic
 = 0,25.

Jeżeli spełnione jest założenie c), to z warunku

0x01 graphic
 wynika, że

(11.8) 0x01 graphic
, czyli 0x01 graphic
,

Założenie b) i założenie c): n1 = n2 = n oraz 0x01 graphic
 = 0,25 i 0x01 graphic
 = 0,25.

Jeżeli spełnione jest założenie b) i założenie c), to

(11.9) n0x01 graphic
 0,25 x 2, czyli nmin = 0x01 graphic
 0,25 x 2.

Przy 1 - α = 0,95 odczytujemy z tablic rozkładu normalnego standardowego wartość uα=0,05 = 1,96, miarą trzyprocentowego błędu jest d = 0,03.

Zatem n0x01 graphic
 (1,96)2 0,25 x 2,

stąd: n ≥ 1068 x 2, czyli n ≥ 2136 osób.

Odpowiedź na pytanie 11.2

      Gdyby różnice w opiniach na dowolnie wybrany temat w dwóch różnych momentach czasu planowano publikować z błędem nie przekraczającym, co do wartości bezwzględnej, 3%, to w obu badaniach opinii publicznej należałoby pobierać równoliczne, niezależne próby, każdą licząca przynajmniej 2136 osób (osób różnych w obu badaniach, zakładamy bowiem, że próby są niezależne).

Pytanie 11.3. Jeżeli ośrodki badań opinii publicznej prowadzą badania opinii na ten sam temat w dwóch różnych momentach czasu, wybierając do losowej próby w obu badaniach po nie mniej niż 1068 osób, to jaka jest górna granica procentowej różnicy między frakcjami, czyli wynikami obu badań, poniżej której nie można uznać zmiany opinii publicznej na dowolnie wybrany temat za statystycznie znaczącą?

Uzasadnienie odpowiedzi na pytanie 11.3

      Ażeby sprawdzić, na podstawie wyników dwóch niezależnych losowych prób liczących n1 i n2 osób, czy nastąpiła zmiana opinii publicznej na wybrany temat, należy zweryfikować hipotezę zerową mówiącą, że frakcje p1 i p2 elementów wyróżnionych z punktu widzenia zadanego pytania w obu populacjach (populacji pierwszej badanej wcześniej oraz populacji drugiej badanej później) są jednakowe. Hipotezę sprawdzaną x0 i alternatywną wobec sprawdzanej x1 zapisujemy:

x0 : p1 = p2;

x1 : p1p2.

Narzędziem weryfikacji hipotezy sprawdzanej jest statystyka U, która ma standardowy rozkład normalny:

(11.10) 0x01 graphic
.

Jak wiadomo z poprzednich rozważań, 0x01 graphic
 jest frakcją, a X1 liczbą elementów wyróżnionych w n1-elementowej próbie, 0x01 graphic
 jest frakcją, a X2 liczbą elementów wyróżnionych w n2-elementowej próbie i 0x01 graphic
 jest frakcją, a (X1 + X2) łączną liczbą elementów wyróżnionych w (n1 + n2)-elementowej próbie.

Jeżeli hipoteza alternatywna jest dwustronna, to zbiorem wartości krytycznych w parametrycznym teście istotności, opartym na rozkładzie standardowym normalnym zmiennej losowej U, jest zbiór K:

K = {u : u 0 (- nieskończoność ; -uα > lub < uα, + nieskończoność )}, gdzie uα jest wartością odczytaną z tablic rozkładu normalnego standardowego przy przyjętym poziomie istotności α. Jeżeli obliczona, na podstawie wyników n-elementowej losowej próby, statystyka U o rozkładzie standardowym normalnym n narzędzie weryfikacji hipotezy sprawdzanej n przyjmie wartość uobl nie należącą do zbioru wartości krytycznych K, co zapisujemy inaczej: |uobl| < uα to, przy przyjętym poziomie istotności α, nie mamy podstaw do odrzucenia hipotezy sprawdzanej x0.

Brak statystycznie znaczących zmian wyników badania opinii publicznej ma zatem miejsce wtedy, gdy |U| < uα, czyli

(11.11) 0x01 graphic

Przy α = 0,05 odczytujemy uα=0,05 = 1,96. Mamy n1 = 1068 oraz n2 = 1068.

Jeżeli z badania pilotażowego lub z innych informacji znana jest wartość wyrażenia 0x01 graphic
, to

0x01 graphic
,

a stąd

0x01 graphic
.

Zatem

(11.12) 0x01 graphic

Gdyby, na przykład, w pierwszym badaniu na 1068 (n1) wylosowanych do próby osób pozytywną opinię o postępowaniu ministra A w sprawie b wyraziło 150 (X1 = k1) osób, a w następnym badaniu już tylko 100 (X2 = k2) osób na 1068 (n2) wylosowanych, to

0x01 graphic
 < 0,084816 0x01 graphic
, gdzie 0x01 graphic
,

a stąd

0x01 graphic
 < 0,027266.

Wynik obliczeń wskazuje, że w tym przypadku zmiana opinii publicznej wyrażająca się różnicą frakcji osób zgłaszających pozytywną opinię (na przykład o decyzji ministra A w sprawie b) nie jest statystycznie znacząca, dopóki różnica ta, co do wartości bezwzględnej, nie przekroczy 2,73% (bowiem 100% x 0x01 graphic
 < 2,73%).

Z przykładu wynika, że znając dokładną wartość wyrażenia 0x01 graphic
 przed lub po badaniu możemy obliczyć dokładną graniczną różnicę frakcji uznaną za jeszcze statystycznie nieznaczącą.

Gdy planujemy badanie opinii publicznej, nie zawsze mamy wyniki badań pilotażowych lub badań poprzednich, które ułatwiają nam ustalenie, chociażby w przybliżony sposób, wartości wyrażenia 0x01 graphic
. Zamiast 0x01 graphic
 do wzoru (11.11) wstawiamy wówczas maksymalną wartość tego wyrażenia, czyli 0,25. Liczebności obu prób wynoszą po 1068 osób. W odpowiedzi otrzymamy graniczną, dla wszystkich możliwych wyników badań, różnicę frakcji uznaną za jeszcze statystycznie nieznaczącą. A zatem:

(11.13) 0x01 graphic
 < 1,96 0x01 graphic
,

czyli 0x01 graphic
 < 0,042, a zatem 100% x 0x01 graphic
 < 4,2%.

Odpowiedź na pytanie 11.3

      Wnioskowanie statystyczne na podstawie dwóch niezależnych losowych prób liczących po 1068 osób o zmianach opinii publicznej na dowolnie wybrany temat może nie mieć charakteru wnioskowania statystycznie znaczącego wówczas, gdy procentowe różnice między frakcjami z obu prób będą niższe (co do wartości bezwzględnej) od 4,2%.

Zauważmy, iż nie mają tu znaczenia liczbowe wartości obu frakcji, otrzymane na podstawie wyników dwóch losowych prób, odpowiedź dotyczy bowiem różnicy ich wartości. Dopiero gdy procentowe różnice dwóch frakcji, bez względu na ich wartość liczbową, przekroczą, co do wartości bezwzględnej, 4,2%, wówczas bez żadnych dodatkowych obliczeń możemy uznać zmianę opinii publicznej wyrażoną przez 1068 dwukrotnie losowo wybranych (różnych) osób na dowolnie wybrany temat za statystycznie znaczącą.

Pytania 11.4 n 11.6 nawiązujące do pytań 11.1 oraz 11.3

Pytanie 11.4 (nawiązujące do pytania 11.1). Jak liczna powinna być próba losowa w badaniu opinii publicznej, aby błąd szacunku frakcji elementów wyróżnionych

(p x 100%) nie przekraczał: a) 2%, b) 1%?

Jeżeli koszty badania uznać za proporcjonalne do liczby wylosowywanych do próby osób, to ile razy wzrosłyby koszty badania opinii publicznej, gdyby podjęta została decyzja o prezentacji wyników z błędem niższym niż 3%, a mianowicie z błędem nie przekraczającym: a) 2%, b) 1%?

Uzasadnienie odpowiedzi na pytanie 11.4

Dla d = 0,02 mamy n0x01 graphic
 (1,96)2 x 0,25, stąd n ≥ 2401 osób.

Dla d = 0,01 mamy n0x01 graphic
 (1,96)2 x 0,25, stąd n ≥ 9604 osób.

Odpowiedź na pytanie 11.4

      Błąd szacunku frakcji elementów wyróżnionych w populacji generalnej nie przekroczyłby 2%, gdyby losowa próba liczyła przynajmniej 2401 osób, a nie przekroczyłby 1% przy próbie liczącej nie mniej niż 9604 osoby.

Koszty badania wzrosłyby w pierwszym przypadku o 125% 0x01 graphic
, a w drugim blisko dziewięciokrotnie 0x01 graphic
.

Pytanie 11.5 (nawiązujące do pytania 11.3). Gdyby ośrodki badań opinii publicznej prowadziły badania opinii na ten sam temat w dwóch różnych momentach czasu, wybierając do losowej próby w obu niezależnych badaniach po 2401 osób wówczas do jakiej procentowej różnicy między wynikami obu badań nie można byłoby uznać zmiany opini publicznej na dowolnie wybrany temat za statystycznie znaczącą?

Uzasadnienie odpowiedzi na pytanie 11.5

      Jak w pytaniu 11.3 przy α = 0,05 odczytujemy uα=0,05 = 1,96. Zamiast 0x01 graphic
 wstawiamy do wzoru (11.11) maksymalną wartość tego wyrażenia, czyli 0,25. Liczebności obu niezależnych prób wynoszą po 2401 osób. Stąd

(11.14) 0x01 graphic
 < 1,96 0x01 graphic
, czyli

0x01 graphic
< 0,028, a zatem 100% x 0x01 graphic
 < 2,8%.

Odpowiedź na pytanie 11.5

      Zmiany opinii publicznej na dowolnie wybrany temat przy losowych próbach liczących w obu niezależnych badaniach przynajmniej po 2401 osób nie byłyby statystycznie znaczące, gdyby procentowe różnice wyników obu badań różniły się (co do wartości bezwzględnej) o mniej niż 2,8%.

Pytanie 11.6 (nawiązujące do pytania 11.3). Gdyby ośrodki badań opinii publicznej prowadziły badania opinii na ten sam, dowolnie wybrany, temat w dwóch różnych momentach czasu wybierając do losowej próby, w obu badaniach, po nie mniej niż 9604 osoby, wówczas do jakiej procentowej różnicy między wynikami obu badań nie można byłoby uznać zmiany opinii publicznej za statystycznie znaczącą?

Uzasadnienie odpowiedzi na pytanie 11.6

      Tak jak w poprzednich pytaniach 11.3 i 11.5 przy α = 0,05 odczytujemy uα=0,05 = 1,96. Zamiast 0x01 graphic
 wstawiamy do wzoru (11.11) maksymalną wartość tego wyrażenia, czyli 0,25. Liczebności obu prób wynoszą po 9604 osób. Stąd

(11.15) 0x01 graphic
 < 1,96 0x01 graphic
,

czyli 0x01 graphic
 < 0,014, a zatem 100% x 0x01 graphic
 < 1,4%.

Odpowiedź na pytanie 11.6

      Zmiany opinii publicznej na dowolnie wybrany temat mogłyby nie być statystycznie znaczące dla niezależnych losowych prób liczących w obu badaniach przynajmniej po 9604 osób, gdyby procentowe różnice wyników obu badań były, co do wartości bezwzględnej, niższe od 1,4%.

Wykorzystaniu wnioskowania statystycznego do badań opinii publicznej poświęcone jest zadanie 14.4. W odpowiedzi do zadania 14.4 zostały omówione warunki przy których ulega zmianie decyzja weryfikacyjna dotycząca hipotezy mówiącej, iż frakcje elementów wyróżnionych w dwóch populacjach generalnych są jednakowe. Warunki te dotyczą nie frakcji a liczby elementów wyróżnionych w niezależnych losowych próbach liczących n1 oraz n2 elementów.



Wyszukiwarka

Podobne podstrony:
Wzory 11, Statystyka, Kasperowicz-Ruka
Wzory 24, Statystyka, Kasperowicz-Ruka
Wzory 21, Statystyka, Kasperowicz-Ruka
R 2, Statystyka, Kasperowicz-Ruka
Wzory 23, Statystyka, Kasperowicz-Ruka
R8, Statystyka, Kasperowicz-Ruka
WSTEP, Statystyka, Kasperowicz-Ruka
Wzory 15, Statystyka, Kasperowicz-Ruka
Wzory 34, Statystyka, Kasperowicz-Ruka
R4, Statystyka, Kasperowicz-Ruka
Wzory 33, Statystyka, Kasperowicz-Ruka
Wzory 32, Statystyka, Kasperowicz-Ruka
R7, Statystyka, Kasperowicz-Ruka
R10, Statystyka, Kasperowicz-Ruka
Wzory 5, Statystyka, Kasperowicz-Ruka
Wzory 2, Statystyka, Kasperowicz-Ruka
Wzory 16, Statystyka, Kasperowicz-Ruka
R9, Statystyka, Kasperowicz-Ruka
Wzory 9, Statystyka, Kasperowicz-Ruka

więcej podobnych podstron