Obliczanie prawdopodobieństw.
Zadanie 1.
Poniżej podano kilka przykładów wraz z rozwiązaniami. Korzystając z tych przykładów rozwiąż poniższe zadania pamiętając iż:
„Prawdopodobieństwo wystąpienia zdarzenia pewnego = 1”
„Prawdopodobieństwo wystąpienia zdarzenia niemożliwego = 0”
„Prawdopodobieństwa zdarzeń niezależnych są mnożone”
„Prawdopodobieństwa zdarzeń wykluczających się są dodawane”
W pewnym zagajniku rosną tylko dwa gatunki drzew: 1200 sosen i 800 dębów. Stwierdzono też, że 30% drzew ma dziuple (występowanie dziupli będziemy umownie określać jako „sukces”), przy czym obecność dziupli jest zjawiskiem niezależnym od gatunku drzewa. Oszacuj prawdopodobieństwa, że losowo wybrane drzewo:
jest dębem, 800/2000=0,4 Prawdopodobieństwo że drzewo jest dębem jest równe 0,4
jest sosną,1200/2000=0,6.
jest sosną lub dębem, 1200/2000 + 800/2000=1
nie jest ani sosną, ani dębem, 0/2000= 0
nie ma dziupli, 1-(30/100)= 0,7 ma dziuplę, 1-(70/100)= 0,3
ma lub nie ma dziupli, (0,7+03)=1
jest dębem z dziuplą, (800/2000)*(30/100)=0,12
jest dębem z dziuplą lub sosną bez dziupli, 0,12+(1200/2000)*(70/100) = 0,12+(0,6*0,7)0,12+0,42=0,54
Zadanie 2
We wspomnianym powyżej zagajniku wybrano losowo dwa drzewa. Oszacuj prawdopodobieństwa, że wśród tych dwóch:
oba są sosnami (1200/2000) * (1200/2000 ) = 0,6*0,6=0,36
jedno ma dziuplę 0,3*0,7=0,21
oba mają dziuple 0,3*0,3=0,09
co najwyżej jedno ma dziuplę (0,7*0,3)+(0,7*0,7)=0,49+0,21=0,7
pierwsze z wybranych drzew jest sosną, a drugie dębem, 0,4*0,6 = 0,24
pierwsze z wybranych jest dębem, a drugie sosną (800/2000)*(1200/2000 )=0,24
żadne nie jest sosną, (800/2000) * (800/2000)=0,16
oba są sosnami i oba mają dziuple (0,6*0,6)+(0,3*0,3)=0,36*0,09=0,0324
Rozkład dwumianowy.
Rozkład dwumianowy - dotyczy elementów opisanych dychotomiczną skalą nominalną.
Zależy od parametrów jakimi są: N - liczba prób, k - ilość sukcesów, p -prawdopodobieństwo sukcesu
Oznaczenie w Excelu |
Oznaczenie w książce |
Opis |
|
S |
k |
liczba sukcesów w próbach. |
|
Próby |
n |
liczba niezależnych prób |
|
Prawdopodobieństwo_s. |
p |
prawdopodobieństwo sukcesu w pojedynczej próbie |
|
Skumulowany |
Umożliwia obliczenie prawdopodobieństwa wystąpienia DOKŁADNIE „k” sukcesów albo obliczenie CO NAJWYŻEJ „k” sukcesów. Można mu nadawać atrybuty PRAWDA albo FAŁSZ Jeżeli nadamy mu atrybut PRAWDA będzie obliczane prawdopodobieństwo wystąpienia CO NAJWYŻEJ „k” sukcesów. Jeżeli nadamy mu atrybut FAŁSZ będzie obliczane prawdopodobieństwo wystąpienia DOKŁADNIE „K” SUKCESÓW |
Zadanie 3
Wyniki rzutów monetą mogą być opisane dychotomiczną skalą nominalną - {orzeł; reszka}. Można do ich analizy stosować rozkład dwumianowy. Rzucamy rzetelną monetą. Wypadnięcie orła umownie będziemy nazywali „sukcesem” (możemy oczywiście przyjąć, że wyrzucenie reszki będzie „sukcesem”, bo jest to kwestia umowy). Przy rzucie kostką również musimy przyjąć ze wyrzucenie jakiejś liczby oczek jest „sukcesem”. Jeżeli przyjmiemy ze jest to szóstka to dychotomiczna skala nominalna będzie miła postać: {szóstka; „nie szóstka - czyli pozostała liczba oczek”}
Podaj parametry poszczególnych zdarzeń a następnie oblicz prawdopodobieństwa wystąpienia zdarzeń. Do obliczania prawdopodobieństw wystąpienia zdarzeń wykorzystaj Excela Wstaw funkcję / Rozkład dwum. Służy ona do obliczania prawdopodobieństwa P, że pobierając N prób otrzymamy dokładnie k sukcesów pod warunkiem ze prawdopodobieństwo (pojedynczego) sukcesu wynosi p. W Excelu parametry rozkładu dwumianowego noszą inną nazwę (patrz tabelka powyżej)
Zdarzenie |
Próby = n = liczba prób |
s = k = liczba sukcesów |
Prawdopodobieństwo s = p = prawdopodobieństwo sukcesu |
Skumulowany (prawda albo fałsz) |
Obliczone prawdopodobieństwo zdarzenia |
w jednokrotnym rzucie pojedynczą monetą wypadnie orzeł |
1 |
1 |
0,5 |
fałsz |
……………… |
W rzucie dwoma monetami wypadną dokładnie dwa orły |
2 |
2 |
0,5 |
fałsz |
…………….. |
W rzucie pięcioma monetami wypadną dokładnie dwa orły |
5 |
2 |
………. |
………… |
…………….. |
W rzucie pięcioma monetami wypadną co najwyżej dwa orły |
5 |
2 |
0,5 |
prawda |
|
W rzucie trzema monetami wypadnie 1 orzeł |
…… |
……… |
............. |
…………. |
……………… |
W rzucie pięcioma monetami wypadnie co najwyżej 1 orzeł |
…… |
……… |
............. |
…………. |
……………… |
W rzucie pięcioma monetami nie wypadnie ani jeden orzeł |
…… |
……… |
............. |
…………. |
……………… |
W rzucie pięcioma monetami wypadnie więcej niż trzy orły |
…… |
……… |
............. |
…………. |
……………… |
w rzucie sześcioma kościami do gry wypadnie jedna szóstka |
6 |
1 |
1/6 = 0,16667 |
fałsz |
|
w rzucie sześcioma kościami do gry wypadną cztery czwórki |
…… |
……… |
............. |
…………. |
……………… |
w rzucie sześcioma kościami do gry wypadną co najwyżej cztery czwórki |
…… |
……… |
............. |
…………. |
……………… |
w rzucie sześcioma kościami do gry wypadną CO NAJMNIEJ cztery czwórki |
…… |
……… |
............. |
…………. |
……………… |
Zadanie 4
W pewnym zagajniku 30% drzew ma dziuple (występowanie dziupli będziemy umownie określać jako „sukces”). Używając Excela Wstaw funkcję / Rozkład dwum oszacuj prawdopodobieństwa, że:
:
Zdarzenie |
Próby = n = liczba prób |
s = k = liczba sukcesów |
Prawdopodobieństwo s = p = prawdopodobieństwo sukcesu |
Skumulowany (prawda albo fałsz) |
Obliczone prawdopodobieństwo zdarzenia |
Spośród dwóch losowo wybranych drzew tylko jedno ma dziuplę |
2 |
1 |
30/100 = 0,3 |
fałsz |
……………… |
Spośród dwóch losowo wybranych drzew oba drzewa mają dziuplę |
………. |
2 |
………. |
………. |
……………… |
Spośród dwóch losowo wybranych drzew co najwyżej jedno ma dziuplę |
…… |
……… |
………. |
prawda |
…………….. |
Testowanie hipotez
Zadanie 5
Czy w populacji gawronów jest taka sama ilość samic co samców? czyli Czy stosunek płci w populacji gawronów wynosi 1:1? Załóżmy że wystąpienie samicy oznaczymy jako „sukces” żeby móc opisać je wartością prawdopodobieństwa. ->. Czy proporcja samic w generalnej populacji gawronów wynosi p=0,5?
Chcemy to sprawdzić na podstawie próby 10 osobników. Złapaliśmy 10 osobników gawronów i okazało się że w tej próbie są 2 samice i 8 samców Czy w takim przypadku nasza teoria jest błędna i stosunek samic do samców nie wynosi 1:1? Czy to tylko kwestia przypadku, że w próbie jest nieco więcej samców niż samic?
Jak to ustalić?
Formułujemy sobie hipotezę zerową H0 która mówi że proporcja samic w populacji jest równa p = 0,5. Przeciwstawną do niej będzie hipoteza alternatywna H1 która mówi że proporcja samic w populacji jest różna od p=0,5. Będziemy się starali obalić hipotezę zerową.
Można to próbować to zrobić posługując się tablicami rozkładu dwumianowego podającymi prawdopodobieństwo P, że pobierając N prób otrzymamy dokładnie k sukcesów pod warunkiem ze prawdopodobieństwo (pojedynczego) sukcesu wynosi p. )
Żeby skorzystać z tych tablic musimy ustalić, jakie są parametry naszego rozkładu. Stawiamy sobie pytanie jaką liczną próbę obserwujemy? Ponieważ łowimy po 10 gawronów to n = 10. Jakie jest prawdopodobieństwo sukcesu? Zakładamy ze w populacji stosunek samic do samców wynosi 1:1. Czyli że prawdopodobieństwo że pojedynczy złapany ptak będzie samicą jest takie same jak to ze będzie samcem czyli 50 procent szans. A zatem prawdopodobieństwo sukcesu p = 0,5
Musimy sobie założyć, na jakim poziomie istotności chcemy wnioskować. Jeżeli dopuszczamy możliwość pomylenia się raz na 100 razy to przyjmiemy poziom istotności 0,001. Jeżeli dopuszczamy możliwość pomylenia się 5 razy na 100 to przyjmiemy poziom istotności 0,05. Załóżmy ze przyjęliśmy poziom istotności 0,05.
Musimy znaleźć odpowiedni fragment tablicy rozkładu dwumianowego.
Szukamy tego fragmentu, który dotyczy liczebności N= 10.
Następnie szukamy kolumny, w której są wartości dla prawdopodobieństwa p=0,50 (bo takie jest nasze prawdopodobieństwo pojedynczego „sukcesu”)
Ponieważ dopuszczamy sytuację w której w populacji może być więcej samców albo więcej samic to musimy zrobić test dwustronny. Ponieważ robimy tzw. test dwustronny to z obu „końców” danej kolumny wybieramy zdarzenia (wartości k), które są najmniej prawdopodobne i których suma prawdopodobieństw nie jest większa od 0,05. Te wartości to obszar krytyczny. Obszar krytyczny to zbiór wartości, przy których odrzucamy hipotezę zerową. (0,001+0,010+0,010+0,001) = 0,022. Są to wartości odczytane dla k =0 oraz 1 oraz 9 oraz 10.
Hipotezę zerową mówiącą, że proporcja samic jest równa 0,5 obalimy (odrzucimy) kiedy w naszej próbie nie będzie żadnej samicy, albo będzie tylko jedna samica, albo będzie 9 samic albo będzie 10 samic gawronów. Tym samym przyjmując hipotezę alternatywną mówiącą że proporcja samic w populacji jest różna od p=0,5.
Hipotezę zerową mówiącą, że proporcja samic jest równa 0,5 przyjmiemy kiedy w naszej próbie znajdzie się od 2 do 8 samic gawronów.
Na samym początku rozważań napisaliśmy ze w naszej złowionej próbie są 4 samice i 6 samców, czyli przyjmujemy hipotezę zerową ze stosunek samic do samców w tej populacji wynosi 1: 1 czyli prawdopodobieństwo złowienia samicy jest równe p = 0,5.
Testy statystyczne są konserwatywne. Nie pozwalają na łatwe podważenie obowiązującego do tej pory stwierdzenia badaczowi, który jest zwykle zainteresowany jego obaleniem (hipoteza zerowa to zwykle obowiązujące do tej pory twierdzenia). Nie oznacza to, że proporcja samic w stosunku do samców jest rzeczywiście równa 0,5 a jedynie ze nie udało się nam udowodnić że jest inaczej czyli wykazać, iż w rzeczywistość różni się od tej proporcji.
Zadanie 6 - Test znaków
Przez pewien kompleks leśny poprowadzono autostradę. W celu sprawdzenia wpływu autostrady na otaczające je zbiorowiska roślinne policzono liczbę budujących je gatunków roślin na kilka lat przed i kilka lat po wybudowaniu autostrady. Odpowiednim testem sprawdź czy budowa autostrady spowodowała istotne statystycznie zmniejszenie lub zwiększenie liczby gatunków roślin w zbiorowiskach.
Zdajemy sobie sprawę że liczba gatunków w poszczególnych badanych przez nas płatach nie musi być stała, ale może się wahać. Jeżeli to nie autostrada wpływa na te wahania, to wzrost liczby gatunków w każdym płacie jest tak samo prawdopodobny jak spadek ich liczby a zatem p=0,5. Nie będzie nas interesować o ile liczba gatunków się zmieniła a jedynie czy się zwiększyła albo czy się zmniejszyła. Jeżeli zwiększyła się liczba gatunków to w tabeli wpisujemy „+”, jeżeli się zmniejszyła to wpisujemy „-”. Jeżeli pozostała bez zmian to wpisujemy „0”. W teście znaków nie można uwzględnić tych płatów, w których nie zmieniła się liczba gatunków, czyli musimy odrzucić wszystkie wyniki które są równe zero „0”
Wyniki badań:
Numer stanowiska |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Liczba roślin w zbiorowisku przed wybudowaniem autostrady |
22 |
15 |
10 |
19 |
18 |
44 |
60 |
36 |
10 |
12 |
34 |
47 |
Liczba roślin w zbiorowisku po wybudowaniu autostrady |
27 |
15 |
8 |
10 |
19 |
40 |
6 |
36 |
7 |
11 |
31 |
44 |
Zmiana liczby gatunków (możliwości to: plus +; minus -; zero 0) |
+ |
0 |
- |
- |
+ |
- |
- |
0 |
- |
- |
- |
- |
Do rozwiązania tego zadania możemy wykorzystać rozkład dwumianowy. Można próbować to zrobić posługując się tablicami rozkładu dwumianowego podającymi prawdopodobieństwo P, że pobierając N prób otrzymamy dokładnie k sukcesów pod warunkiem ze prawdopodobieństwo (pojedynczego) sukcesu wynosi p.
Musimy zatem określić parametry tego rozkładu. Przyjmiemy umownie, że zwiększenie liczby gatunków będziemy określali jako „sukces”. Prawdopodobieństwo pojedynczego sukcesu p=0,5 (bo zakładamy że tak samo prawdopodobny jest wzrost co spadek liczby gatunków w płacie).
Mamy dane dla dwunastu płatów ale w dwóch z nich liczba gatunków nie uległa zmianie i tych płatów nie możemy uwzględnić w analizie i je odrzucamy. A zatem mamy N=10 prób.
Musimy sobie założyć, na jakim poziomie istotności chcemy wnioskować. Jeżeli dopuszczamy możliwość pomylenia się raz na 100 razy to przyjmiemy poziom istotności 0,001. Jeżeli dopuszczamy możliwość pomylenia się 5 razy na 100 to przyjmiemy poziom istotności 0,05. Załóżmy ze przyjęliśmy poziom istotności 0,05.
Formułujemy hipotezę zerową H0 która mówi że wybudowanie drogi nie miało wpływu na zmianę liczby gatunków budujących płaty. Przeciwstawną do niej będzie hipoteza alternatywna H1 która mówi że wybudowanie drogi miało wpływ na liczbę gatunków budujących płaty (będzie powodowało zwiększenie lub zmniejszenie liczby gatunków budujących płaty).
Musimy znaleźć odpowiedni fragment tablicy rozkładu dwumianowego dla N = 10 i p = 0,5. Następnie z obu „końców” danej kolumny wybieramy zdarzenia (wartości k), które są najmniej prawdopodobne i których suma prawdopodobieństw nie jest większa od 0,05. Te wartości to obszar krytyczny. Obszar krytyczny to zbiór wartości, przy których odrzucamy hipotezę zerową. (0,001+0,010+0,010+0,001) = 0,022. Są to wartości odczytane dla k =0 oraz 1 oraz 9 oraz 10.
Po wyznaczeniu obszaru krytycznego wiemy że:
Hipotezę zerową mówiącą że wybudowanie drogi nie miało wpływu na zmianę liczby gatunków budujących płaty obalimy (odrzucimy) kiedy wśród analizowanych przez nas płatów (czyli tylko tych 10 na których zaszła zmiana) na żadnym nie zwiększy się liczba gatunków, lub zwiększy się tylko na 1 lub zwiększy się na 9 płatach lub zwiększy się na wszystkich. Odrzucając hipotezę zerową przyjmujemy hipotezę alternatywną mówiącą, że prawdopodobieństwo zmiany liczby gatunków po wybudowaniu autostrady jest różne od p=0,5.
Hipotezę zerową przyjmiemy w takich przypadkach, kiedy w naszej próbie liczba gatunków zwiększy się w 2 płatach albo w 3 płatach albo w 4 płatach itd aż do 8 płatów.
Przyjęliśmy umownie, że zwiększenie liczby gatunków będziemy określali jako „sukces”. Biorąc pod uwagę, że w 2 płatach liczba gatunków uległa zwiększeniu, w naszym konkretnym przypadku mamy k =2. To zdarzenie znajduje się poza obszarem krytycznym. Nie możemy zatem odrzucić hipotezy zerowej że wybudowanie drogi nie miało wpływu na zmianę liczby gatunków budujących płaty czyli przyjmujemy hipotezę zerową.
Wniosek:
Nie udało się udowodnić, iż wybudowanie autostrady miało wpływ na zmianę liczby gatunków budujących poszczególne płaty
Dla zainteresowanych
Uzyskany w poprzednim zadaniu wynik nie oznacza, że autostrada nie wpływa na zmianę liczby gatunków, a jedynie ze nie udało się takiego wpływu udowodnić na podstawie analizowanej próby. Jest możliwe, że autostrada nie wpływa na zmianie liczby gatunków ale jest również możliwe że uzyskany rezultat wynikał z tego że próba była zbyt mała. Zwiększenie wielkości próby często pozwala na udowodnienie istnienia takiego wpływu. Załóżmy że badanie przeprowadzaliśmy w 100 płatach. W 20 z nich zaobserwowano zwiększenie liczby gatunków a w 80 spadek liczby gatunków. Proporcja 20:80 jest taka sama jak w poprzednim przypadku 2:8. Chcemy wyznaczyć obszar krytyczny. W tablicach nie ma podanych wartości dla liczebności próby większej niż N=20 ale możemy wykorzystać Excela aby je obliczyć. Parametry rozkładu to wielkość próby N=100; prawdopodobieństwo pojedynczego sukcesu p=0,5; liczba sukcesów k=20. Prawdopodobieństwo P dla rozkładu o tych parametrach obliczamy używając funkcji Wstaw funkcję / Rozkład dwum. W okienku „Skumulowany” piszemy PRAWDA bo chcemy uzyskać sumę wszystkich prawdopodobieństw poczynając od prawdopodobieństwa dla „0” sukcesów aż do prawdopodobieństwa dla „20” sukcesów. Obliczona wartość P=0,00000000056 jest mniejsza od założonego przez nas poziomu istotności 0,05 a zatem mieści się w granicach obszaru krytycznego. Pamiętamy że jeżeli wartość mieści się w obrębie obszaru krytycznego to odrzucamy hipotezę zerową mówiącą że prawdopodobieństwo zmiany liczby gatunków po wybudowaniu autostrady jest równe p=0,5 (nie zależy od obecności lub braku autostrady). Obliczona przez nas wartość P=0,00000000056 jest to wartość „z jednej strony rozkładu”. Musimy pamiętać, że powinniśmy zrobić test dwustronny a zatem należy sprawdzić czy po podwojeniu tej wartości nadal będziemy w obszarze krytycznym. P=0,00000000056 * 2 = 0,0000000011 jest mniejsze od 0,05 nadal jesteśmy w obszarze krytycznym i odrzucamy hipotezę zerową. Podwojenie wartości jest możliwe jedynie w przypadku gdy p=0,5.
1