Statystyka i modelowanie środowiska (12.05.2011)
T: Miary zmienności
Miary zmienne są to zjawiska masowo uwarunkowane działaniem:
-przyczyn głównych (wywołujących zmienność statystyczną)
-przyczyn ubocznych (wywołujących zmienność przypadkową)
Liczbowy rozmiar badanego zjawiska masowego może być zatem rozłożony na dwa składniki, będące rezultatami zmienności systematycznej i przypadkowej.
Przybliżonym miernikiem składnika systematycznego zbiorowości statystycznej są miary średnie.
Odchylenia poszczególnych wartości jednostek od wartości średnich powstają pod wpływem przyczyn przypadkowych.
Do pomiaru tych odchyleń wykorzystuje się miary zmienności (zróżnicowania, dyspersji, rozproszenia), które informują o zmienności badanej cechy.
Dyspersją nazywamy zróżnicowanie jednostek zbiorowości statystycznej ze względu na wartość badanej cechy.
Miary zmienności:
-bezwzględne (absolutne)
-względne (relatywne)
Do bezwzględnych miar zróżnicowania zalicza się:
- obszar zmienności,
- wariancję,
- odchylenie standardowe,
- odchylenie przeciętne
odchylenie ćwiartkowe.
Odchylenie przeciętne - określa o ile wszystkie jednostki danej zbiorowości różnią się średnio ze względu na wartość zmiennej od średniej arytmetycznej tej zmiennej.
Odchylenie przeciętne jest średnią arytmetyczną bezwzględnych wartości (modułów) odchyleń wartości cechy od jej średniej arytmetycznej.
Odchylenie przeciętne wylicza się ze wzorów:
Wariancja- to średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej całej zbiorowości.
Oblicza się ją w następujący sposób:
Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji, czyli:
Odchylenie standardowe określa, o ile wszystkie jednostki badanej zbiorowości różnią się średnio ze względu na wartość badanej zmiennej od średniej arytmetycznej tej zmiennej. Z zależności między wariancją a odchyleniem standardowym wynika, że zawsze gdy chcemy obliczyć odchylenie standardowe, etapem pośrednim jest wyliczenie wariancji.
Odchylenie standardowe można wykorzystać do konstrukcji typowego obszaru zmienności badanej cechy. W obszarze tym mieści się około 2/3 wszystkich jednostek badanej zbiorowości statystycznej, gdyż jest on zawarty w granicach dwóch odchyleń standardowych.
Typowy obszar zmienności określa wzór:
Z odchyleniem standardowym wiąże się tzw. Reguła trzech sigm. W myśl tej reguły wystąpienie obserwacji o wartości cechy spoza przedziału
jest mało prawdopodobne.
Według tej reguły blisko trzecia część wszystkich obserwacji wartości zmiennej rózni się od średniej arytmetycznej o więcej niż +/- s, około jedna na 20 obserwacji przekracza tę średnią o wielkość +/-2s, a tylko jedna na 370 obserwacji przkracza średnią arytmetyczną o +/-3s.
Dlatego też w analizie dyspersji powszechnie stosuje się względną miarę zróżnicowania - współczynnik zmienności.
Współczynnik zmienności jest ilorazem bezwzględnej miary dyspersji do odpowiednich wartości średnich. Współczynnik zmienności wyrażamy w procentach.
Współczynniki zmienności informują o sile dyspersji. Duże ich wartości liczbowe świadczą o niejednorodności zbiorowości.
Można wyliczyć współczynniki zmienności kilkoma metodami (klasyczny, klasyczny, precyzyjny, precyzyjny)
Przykład
Średnie miesięczne wpływy za świadczenia usług noclegowych w trzech lodsowo wybranych hotelach A,B i C były równe xA -600 tys. zł, xB - 300 tys. zł. XC - 500 tys. zł. Odchylenia standardowe wartości sprzedanych usług wynosiły SA=110 tys. zł, SB= 90 tys. zł., SC= 120 tys. zł. W którym hotelu występuje największa dyspersja miesięcznych wpływów za świadczenie usług noclegowych?
Podane w tym przykładzie wartości odchyleń standardowych nie mogą być podstawą do wyciągania wniosków o sile dyspersji ze względu na znaczne różnice w średnim poziomie wpływów w poszczególnych hotelach. Do tego celu należy zastosować współczynnik zmienności. Podstawiając odpowiednie wartości liczbowe otrzymujemy:
Dla hotelu A : Vs= 110/600*100 = 18,3%
Dla hotelu B : Vs= 90/300*100= 30,0%
Dla hotelu C : Vs=120/500*100= 24,0%
Tak więc największe względne zróżnicowanie miesięcznych wpływów za świadczenie usług noclegowych miało miejsce w hotelu B, najmniejsze zaś w hotelu A.
Rachunek prawdopodobieństwa
Statystyka a prawdopodobieństwo:
-rachunek prawdopodobieństwa - statystyka
-zmienna losowa - cecha
-prawdopodobieństwo - częstość względna
-dystrybuanta zmiennej losowej - dystrybuanta empiryczna
-rozkład zmiennej losowej - rozkład empiryczny
Elementy rachunku prawdopodobieństwa:
Rachunek prawdopodobieństwa zajmuje się badaniem praw rządzących zdarzeniami losowymi (przypadkowymi).
Doświadczenie nazywamy losowym, jeżeli pomimo sprecyzowania warunków, w których jest ono realizowane nie jesteśmy w stanie przewidzieć jego wyniku.
Z każdym doświadczeniem losowym związany jest zbiór zdarzeń najprostszych - wyników doświadczenia, tzw. zdarzeń elementarnych i oznaczamy przez omegę (Ω).
Zdarzenia elementarne (małą omegę ω) mają własności:
-dane zdarzenie elementarne może zajść lub nie;
-jedno ze zdarzeń elementarnych na pewno zajdzie;
-zajście jednego zdarzenia elementarnego wyklucza zajście innego zdarzenia elementarnego w tym samym doświadczeniu.
Przykłady:
Rzucamy monetą. Zbiór zdarzeń elementarnych Ω składa się z dwóch elementów ω1 i ω2 (orzeł lub reszka). Ω={ω1, ω2}
Rzucamy kostką symetryczną do gry. Elementów jest 6: Ω={ω1, ω2, ω3, ω4, ω5, ω6}. Zdarzenie polegające na wyrzuceniu i- oczek, gdzie i = E -{ω1, ω2, ω3, ω4, ω5, ω6}.
Dwukrotny rzut monetą. Ω={(o, o); (o, r); ( r, o); (r, r)}, przedziału 0-1.
Każdy podzbiór przestrzeni zdarzeń elementarnych nazywamy zdarzeniem losowym.
(np. zdarzenie polegające na wyrzuceniu parzystej liczby oczek Ω={ω2, ω4, ω6})
Tabela1. Częstość wypadnięcia orła w danej serii rzutów.
Liczba rzutów N |
Liczba n pojawień się orła w N rzutach |
n/N |
200 |
116 |
0,5800 |
300 |
153 |
0,5100 |
500 |
251 |
0,5020 |
1000 |
504 |
0,5040 |
2000 |
1002 |
0,5010 |
5000 |
2529 |
0,5058 |
10000 |
4982 |
0,4982 |
Widać, ze wraz ze wzrostem N liczby n/N są bliższe wartości 0,5.
Różnicą zdarzeń A i B (A-B, A/B) nazywamy zdarzenie oznaczone A-B, które składa się z tych wszystkich zdarzeń elementarnych, które należą do A i nie należą do B.
Czyli polegające na zajściu zdarzenia A i nie zajściu zdarzenia B.
Przykład
padła parzysta liczba oczek
wypadła liczba oczek większa niż 3
A-B = {e2, e4, e6}- {e4, e5, e6}= {e2}
Tzn. A-B jest zdarzeniem „wypadły dwa oczka“.
Sumą lub alternatywą zdarzeń A i B (A∪B) nazywamy zdarzenie składające się z tych wszystkich zdarzeń elementarnych, które należą do A lub do B.
Czyli polegające na zajściu przynajmniej jednego z tych zdarzeń.
Przykład
padła nieparzysta liczba oczek na ścianie kostki
wypadła liczba oczek nie mniejsza niż 4
Zdarzeniu A sprzyjają zdarzenia elementarne: e1, e3, e5
Zdarzeniu B sprzyjają zdarzenia elementarne: e1, e2, e3
Zdarzenie C jest sumą zbiorów A i B:
A∪B = C
Koniunkcją lub iloczynem zdarzeń A i B (A∩B) nazywamy zdarzenie złożone z tych wszystkich zdarzeń elementarnych, które należą do A i do B.
Czyli polegające na tym, że zawiera te i tylko te zdarzenia elementarne, które sprzyjają jednocześnie zdarzeniu A i B.
Przykład
wylosowanie z listy mężczyzny
wylosowanie osoby palącej
Wtedy (A∩B) oznacza wylosowanie palącego mężczyzny.
Jeżeli iloczyn zdarzeń A i B tworzy zbiór pusty (zdarzenie niemożliwe) to zdarzenia A i B nazywamy wykluczającymi się (wyłączającymi).
Przykład
wyrzucenie liczby oczek mniejszej niż 2
wyrzucenie liczby oczek większej niż 4
Zdarzeniem przeciwstawnym do zdarzenia A nazywamy zdarzenie oznaczane symbolem A', do którego należą wszystkie zdarzenia elementarne nie należące do A.
Czyli A jest zdarzeniem dowolnym.
Przykład
wyrzucenie nieparzystej liczby oczek
E- wyrzucenie jakiejkolwiek liczby oczek (zdarzenie elementarne)
A' = E-A
A'= E- {e1, e3, e5} = {e2, e4, e6}
Mówimy, że zdarzenie A pociąga za sobą (implikuje) zdarzenie B (lub B jest następstwem zdarzenia A). Wszystkie zdarzenia elementarne wchodzące w skład zdarzenia A wchodzą tez w skład zdarzenia B.
Czyli każde zdarzenie elementarne sprzyjające zdarzeniu A sprzyja zdarzeniu B.
Przykład
Dla dwukrotnego rzutu kostką zdarzenie „suma oczek = 3” pociąga za sobą zdarzenie „na jednej z kostek wypadło =1”
WYKRESY EULERA
Przestrzeń zdarzeń elementarnych symbolizuje kwadrat, a zdarzenia A i B koła w tym kwadracie.
a)zdarzenie A w przestrzeni E
b)część zakreskowana przedstawia sumę zdarzeń A i B
c)część zakreskowana przedstawia iloczyn zdarzeń A∩B
d)różnica zdarzeń A-B
e)różnica zdarzeń B-A
f)zdarzenie przeciwne A lub dopełnienie zdarzenia A
g)zdarzenie A zawiera się w zdarzeniu B (A⊂B)
h)zdarzenie A i B wykluczają się, czyli A∩B = ∅
ZMIANA LOSOWA
Funkcja określona w przestrzeni zdarzeń elementarnych, która przyporządkowuje zdarzeniu elementarnemu liczbę rzeczywistą z określonym prawdopodobieństwem.
Wartość jej zależy od przyczyn losowych i nie możemy jej przewidzieć.
Jeżeli zbiór wartości zmiennej losowej jest zbiorem przeliczalnym (lub skończonym) - zmienna losowa dyskretna.
Jeżeli zmienna losowa przyjmuje wartości z przewagą przedziału liczbowego - zmienna losowa ciągła.
Definicja aksjomatyczna prawdopodobieństwa.
Ω jest przestrzenią zdarzeń elementarnych.
Funkcja P jest rzeczywista opartą na zdarzeniach mierzalnych. Taką funkcje określa się mianem miary parabolistycznej lub prawdopodobieństwem.
Wartość liczbową tej funkcji na jednym zdarzeniu A, czyli liczbę P(A) nazywamy prawdopodobieństwem zajścia zdarzenia A w danym doświadczeniu losowym.
Trójkę (E, S, P) tzn. przestrzeń E zdarzeń elementarnych danego doświadczenia losowego wraz ciałem S zdarzeń oraz określonym prawdopodobieństwem P nazywamy przestrzenią parabolistyczną związana z danym doświadczeniem losowym.
Definicja prawdopodobieństwa
Jeżeli Ω = {ω1, ω2, ... ωn} oraz wszystkie zdarzenia jednoelementowe są tak samo prawdopodobne (P({ω1}) = P({ω2}) = ... = P({ωn}) = 1/n) to prawdopodobieństwo dowolnego zdarzenia k (A= {ωi1, ωi2,... wik}) to prawdopodobieństwo jest równe P(A) = n/k.
Gdy Ω jest nieprzeliczalny, to prawdopodobieństwo dowolnego zdarzenia A wyrażamy przez równość :
P(A) = m(A)/m(Ω)
gdzie:
m(A) - liczba zdarzeń sprzyjających zdarzeniu A
m(Ω) - liczba wszystkich zdarzeń m, miara Lebesquea
Zasadnicze twierdzenie rachunku prawdopodobieństwa
Prawdopodobieństwo warunkowe (względne) - gdy prawdopodobieństwo zajścia zdarzenia A zależy od zajścia zdarzenia B. Zdarzenia A i B nazywamy wówczas zależnymi.
P(A/B)= P(A∩B) / P(B), jeśli P(B)>0
Symbol A/B czytamy: A pod warunkiem B.
Prawdopodobieństwa P(A), P(B) i (A∩B) nazywane są niekiedy prawdopodobieństwami bezwarunkowymi, w odróżnieniu od prawdopodobieństw warunkowych.
Przykład
W badanej próbie 30% osób choruje na niedokrwienny udar mózgu (A), 8% nadciśnienie (B), 6% obie choroby (A∩B).
osoba chora na udar mózgu choruje na nadciśnienie
P(B/A)= P(A∩B )/ P(A)
P(B/A)= 0,06/0,3= 0,2
osoba chora na nadciśnienie jest chora również na udar mózgu
P(A/B)=P(A∩B) / P(B)
P(A/B)= 0,06/0,08= 0,75
Przykład
25 na 10 000 kobiet to daltonistki
5 na 100 mężczyzn to daltoniści
K- zdarzenie wylosowania kobiety
M- zdarzenie wylosowania mężczyzny
D-zdarzenie wylosowania daltonisty
D/K- zdarzenie wylosowania daltonisty pod warunkiem wylosowania kobiety
D/M- zdarzenie wylosowania daltonisty pod warunkiem wylosowania mężczyzny
P(K)=0,5
P(M)=0,5
P(D/K)=0,025
P(D/M)=0,05
P(D)= P(K)*P(D/K)+P(M)*P(D/M)=525/20000
Przykład
Obliczyć prawdopodobieństwo wygranej w toto-lotka. Gra polega na typowaniu 6 liczb spośród 49.
Zdarzeniem losowym jest wynik losowania.
Elementami przestrzeni zdarzeń elementarnych są 6-elementowe podzbiory zbioru {1,2,3,...49}- tzn. E=(k1, k2,...k6).
Liczba elementów przestrzeni E jest więc równa:
49 49! 49! 44*45*46*47*48*49
= = = = 13 983 816
6 6!(49-6)! 6!43! 1*2*3*4*5*6
Zakładamy że wszystkie zdarzenia są jednakowo możliwe.
Klasyczna definicja prawdopodobieństwa
Podał ją P. Laplace w 1812r.
Jeżeli wszystkie zdarzenia elementarne są jednakowo możliwe, to prawdopodobieństwo zdarzenia losowego A jest ilorazem liczby zdarzeń elementarnych sprzyjających temu zdarzeniu i liczby wszystkich zdarzeń elementarnych czyli:
P(A)=k/n
gdzie:
k- liczba zdarzeń elementarnych sprzyjających zdarzeniu A
n- liczba wszystkich zdarzeń elementarnych (przestrzeń zdarzeń elementarnych)
Przy obliczeniu prawdopodobieństwa zdarzeń za pomocą klasycznej definicji prawdopodobieństwa wykorzystuje się często pojęcie kombinacji bez powtórzeń.
Ze zbioru A= {a, b, c, d} można utworzyć cztery 3-elementowe kombinacje bez powtórzeń: abc, abd, acd, bcd.
Więc liczba k-elementowych kombinacji bez powtórzeń dla zbioru n-elementowego określa się wzorem
Ckn = (nk) = n!/ k!(n-k)!
gdzie:
n!- jest iloczynem kolejnych liczb naturalnych na 1 do n, tzn. n!= 1*2*3...(n-1)*n
Warto zapamiętać, że 0!=1
P(A2) = (64)*(432)/ (496) = 0,0009686
P(A3) = (65)*(431)/ (496)= 0,00001845
P(A4) = (56)*(430)/ (490)= 0,0000000715
Jak wynika z powyższych wyliczeń, grając w toto-lotka możemy się 100 razy spodziewać, że w 98 przypadkach nic nie wygramy.
Prawdopodobieństwo całkowite
WZÓR BAYESA
Zakładamy, że zdarzenie A może zajść jeśli zajdzie jedno z wykluczających się zdarzeń B1, B2,... Bn tworzących układ zupełny zdarzeń.
Układ zdarzeń jest zupełny, jeśli zdarzenia te wyłączają się parami, a suma ich prawdopodobieństw wynosi 1, czyli jest zdarzeniem pewnym.
Jeśli są spełnione warunki:
-P(B1), P(B2),... P(Bn)- prawdopodobieństwa tych zdarzeń są znane;
-P(A/B1), P)A/B2),.... P(A/Bn)- prawdopodobieństwa warunkowe są znane.
Prawdopodobieństwo zdarzenia A oblicza się wówczas następująco:
P(A) = P(B1) P(A/B1+... P(Bn) P(A/Bn)
P(A) =Σni=1 P(Bi) P(A/B)
Jest to wzór na prawdopodobieństwo całkowite (zupełne).
Zakładając, że w wyniku przeprowadzonego doświadczenia zaszło zdarzenie A. Mogło zajść tylko wówczas, gdy zajdzie jedno z wyłączających je zdarzeń B1, B2,... Bn, tworzących układ zupełny.
Ponieważ nie wiemy, które z tych zdarzeń zajdzie, więc zdarzenia te nazywa się hipotezami.
Aby obliczyć prawdopodobieństwo hipotez w związku z tym: zdarzenie A już zaszło należy obliczyć prawdopodobieństwo warunkowe:
P(A/B1), P(A/B2),... P(A/Bn)
Na bazie wyliczonych prawdopodobieństw warunkowych każdej z postawionych hipotez można wyprowadzić wzór na prawdopodobieństwo warunkowe dowolnej hipotezy B(i=1,2,...n)
P(Bi/A) = P(Bi) P(A/Bi) / P(B1) P(A/B1) +....+ P(Bn) P(A/Bn)
Zdarzenia B1- nazywane są hipotezami, ich hipotezy:
P(Bi)- prawdopodobieństwami a priori
P(A/Bi)- prawdopodobieństwami a posteriori
Jest to wzór Bayesa (od angielskiego matematyka, który wprowadził go w 1763r.)
Pozwala on obliczyć prawdopodobieństwo hipotez wówczas, gdy wiadomo, że w wyniku doświadczenia zaszło zdarzenie A.
Przykład
Sieć handlowa sprowadza środki ochrony roślin od 3 producentów. Na podstawie obserwacji wiadomo, że środki sprowadzane od producenta:
zawierają 2% preparatów z ukrytymi wadami
10 % preparatów z ukrytymi wadami
4 % preparatów z ukrytymi wadami
Znaleziono kolejny nieoznakowany preparat z wadą ukrytą. Od którego producenta pochodzi?
Prawdopodobieństwa a priori wynoszą:
P(B1)=0,1
P(B2)=0,3
P(B3)=0,6
A-zdarzenie- wylosowany preparat ma ukrytą wadę.
Więc:
P(A/B1)=0,02
P(A/B2)=0,1
P(A/B3)=0,04
Prawdopodobieństwo całkowite zdarzenia A jest równe:
P(A)= Σ3i=1 P(Bi) P(A/Bi)=0,1*0,02+ 0,3*0,1+ 0,6*0,04= 0,056
Stąd prawdopodobieństwa a posteriori będą równe:
P(B1/A)= (0,1*0,02)/0,056 = 0,036
P(B2/A)= (0,3*0,01)/ 0,056= 0,536
P(B3/A)= (0,6*0,04)/0,056= 0,429
Z przeproawdzonych wyliczeń wynika, że najprawdopodobniej od producenta 2 pochodzi niepełnowartościowy preparat.
Dla szeregu wyliczającego
Dla szeregu rozdzielczego punktowego
Dla szeregu rozdzielczego przedziałowego
Dla szeregu wyliczającego
Dla szeregu rozdzielczego punktowego
Dla szeregu rozdzielczego przedziałowego
E
A
E
B
A
E
B
A
E
B
A
E
B
A
E
A
E
B
A
E
A
B