Zdarzenie losowe, prawdopodobieństwo zdarzenia losowego
Jeśli o jakimś zdarzeniu nie możemy powiedzieć, czy w wyniku przeprowadzonego doświadczenia zrealizuje się ono czy nie, to takie zdarzenie będziemy nazywać zdarzeniem losowym.
Zdarzeniem losowym będzie więc wyrzucenie orła przy rzucie monety, wyrzucenie parzystej liczby oczek przy rzucie kostką do gry, urodzenie się dziecka określonej płci, wysokość dochodów pieniężnych uzyskanych przez rodzinę w danym miesiącu, wysokość wydatków na konkretny artykuł w ciągu określonego okresu czasu itd.
Wśród zdarzeń losowych wyróżnić można zdarzenia elementarne (lub proste) i zdarzenia złożone. Przez zdarzenie elementarne rozumieć będziemy takie zdarzenie, które nie da się rozłożyć na zdarzenia prostsze.
Prawdopodobieństwo matematyczne jest pojęciem przyczynowo uwarunkowanym, poddającym się ilościowemu mierzeniu:
Stosunek liczby szans sprzyjających zajściu danego zdarzenia A do liczby wszystkich szans jednakowo możliwych i wyłączających się nazywa się prawdopodobieństwem zajścia zdarzenia A.
Jeżeli liczbę szans sprzyjających danemu zdarzeniu A oznaczymy przez m, a liczbę wszystkich szans jednakowo możliwych i wyłączających się przez n, wtedy prawdopodobieństwo zajścia zdarzenia A, które oznaczymy przez P(A), możemy wyrazić przy pomocy następującego wzoru:
Liczba szans niesprzyjających zdarzeniu A, które oznaczymy przez A', równa się n-m, a więc prawdopodobieństwo wyniku przeciwstawnego jest równe
skąd otrzymujemy P(A) + P(A') = 1.
Jeśli m = 0, to takie zdarzenie nazywamy niemożliwym, wtedy P(A') = 0, natomiast gdy m = n, to zdarzenie nazywamy pewnym, a P(A) = 1.
P(A) może przybierać jedynie wartości z przedziału 0 i 1, czyli 0 P(A) 1.
Statystyczna definicja prawdopodobieństwa
Jeśli przy wielokrotnej realizacji doświadczeń, w których wyniku może wystąpić zdarzenie A, częstość tego zdarzenia przejawia wyraźną prawidłowość, oscylując wokół pewnej nieznanej liczby p, i jeśli wahania częstości przejawiają tendencję malejącą w miarę wzrostu liczby doświadczeń, to liczba p nazywa się prawdopodobieństwem zdarzenia A.
Podamy tu system pewników zaproponowanych przez wybitnego rosyjskiego matematyka N. Kołomogorowa, na których opiera się współczesny rachunek prawdopodobieństwa.
Pewnik I. Każdemu zdarzeniu losowemu A odpowiada określona liczba P(A), zwana prawdopodobieństwem zdarzenia A, spełniająca nierówność:
0 P(A) 1.
Pewnik II. Prawdopodobieństwo zdarzenia pewnego równa się jedności:
P(A) = 1.
Pewnik III. Prawdopodobieństwo sumy skończonej lub przeliczanej ilości zdarzeń losowych parami wyłączających się równa się sumie prawdopodobieństw tych zdarzeń:
P(A1 + A2 +...+ Ak) = P(A1) + P(A2) + ... + P(Ak)
Warto tu zauważyć, że pewnik I jest zarazem definicją prawdopodobieństwa, która niczego nie zakłada o zdarzeniach ani o sposobie przyporządkowania tym zdarzeniom określonych prawdopodobieństw.
Stwierdza się jedynie, że każdemu zdarzeniu losowemu odpowiada pewna liczba P(A), spełniająca nierówność 0 P(A) 1, którą nazywa się prawdopodobieństwem zdarzenia A.
Takie ujęcie zagadnienia posiada cenne zalety, których jednak nie będziemy tu szerzej rozważać. Należy jednak pamiętać, że dla naszych celów bardzo ważne jest zrozumienie istoty klasycznej definicji prawdopodobieństwa i definicji statystycznej, z których będziemy jeszcze korzystali. Warto zauważyć, że wprowadzenie pojęcia prawdopodobieństwa jest próbą pomiaru otaczającej nas niepewności.
Zmienna losowa (dyskretna, ciągła)
Zdarzeniu elementarnemu przyporządkowane jest określone prawdopodobieństwo. Na przykład, w rzucie monetą zdarzeniem elementarnym będzie wyrzucenie orła lub reszki, a w rzucie kostką, zdarzeniem elementarnym będzie wyrzucenie jednego z 6 liczb, a każdemu takiemu zdarzeniu elementarnemu przyporządkowane jest prawdopodobieństwo. Przypuśćmy, że na zbiór zdarzeń elementarnych składa się z m zdarzeń, a odpowiadające im prawdopodobieństwa wynoszą:
E1 |
E2 |
… |
…. |
Em |
P(E1) |
P(E2) |
… |
…. |
P(Em) |
W zastosowaniach wygodniej jest przyporządkować poszczególnym zdarzeniom elementarnym liczby rzeczywiste. Dlatego możemy sformułować następująco pojęcie zmiennej losowej:
Przyporządkowanie każdemu z możliwych zdarzeń elementarnych
określonej liczby rzeczywistej, nazywamy zmienną losową.
Tak więc, przyporządkowanie wartości liczbowych wynikom doświadczenia losowego nazywamy zmienną losową.
Formalna definicja zmiennej losowej brzmi następująco:
Zmienna losowa jest funkcją o wartościach rzeczywistych określona na zbiorze zdarzeń elementarnych
Zmienna losowa skokowa
Zmienne losowe skokowe lub dyskretne przyjmują skończoną lub co najwyżej przeliczalna liczbę wartości.
Zmienna losowa ciągła jest to zmienna przyjmująca wszystkie wartości z pewnego przedziału, tzn. że jeśli x1 , x2 są dwiema wartościami zmiennej losowej ciągłej, to może ona przyjmować także dowolną wartość między zmiennymi x1 i x2.
Rozkład zmiennej losowej skokowej
Przyporządkowanie wszystkim wartościom skokowej zmiennej losowej prawdopodobieństw ich realizacji, które sumują się do jedności, określa rozkład tej zmiennej losowej. Przyporządkowanie to nazywamy funkcją prawdopodobieństwa zmiennej losowej skokowej. Oznaczając przez xi (i= 1, 2, …, k) możliwe wartości zmiennej skokowej X, jej funkcję prawdopodobieństwa zapiszemy formalnie jako:
Funkcję prawdopodobieństwa przy skończonej liczbie wartości zmiennej można określić za pomocą zestawienia lub tablicy:
xi |
x2 |
…… |
…. |
xk |
p1 |
p2 |
…… |
…. |
pk |
Istnieją zmienne, dla których funkcję prawdopodobieństwa można określić za pomocą wzoru analitycznego. Dotyczy to na przykład tzw. rozkładu dwumianowego, który omówimy dalej.
Dystrybuanta
Rozkład zmiennej losowej X można także określić za pomocą funkcji zwanej dystrybuantą, i oznaczamy jako F(x), którą definiuje się następująco:
. (1)
Rozkład zmiennej losowej ciągłej
Rozkład zmiennej losowej ciągłej opisany jest za pomocą dystrybuanty lub alternatywnie funkcji gęstości. Funkcja gęstości rozkładu prawdopodobieństwa f jest funkcją określoną na zbiorze liczb rzeczywistych R wzorem
(2)
gdzie F'(x) oznacza pochodną funkcji F(x).
Najważniejsze własności funkcji gęstości, to:
(3)
Podstawowe parametry rozkładu zmiennej losowej
Wartość oczekiwana E(X) jest liczbą charakteryzującą położenie zbioru jej wartości:
(4)
Wariancja D2(x) zmiennej losowej - charakteryzuje rozrzut wokół wartości oczekiwanej E(x):
(5)
Odchylenie standardowe:
(6)
Kwantyl rzędu p zmiennej losowej X jest to największa taka liczba xp, że
(7)
Współczynnik zmienności
d(X)
V(x)= -------------
e(X)
Rozkład dwumianowy (binominalny)
Rozkład dwumianowy (binominalny), schemat Bernoulliego
Zmienna losowa o rozkładzie dwumianowym określana jest w tzw. schemacie Bernoulliego. Rozpatruje się doświadczenie, którego rezultatem może być zdarzenie A (sukces) lub zdarzenie przeciwne A' (porażka). Prawdopodobieństwo sukcesu w pojedynczym doświadczeniu wynosi p, a porażki 1-p. Doświadczenie powyższe powtarza się niezależnie, tzn. przy zachowaniu stałego prawdopodobieństwa sukcesu, n razy. Zmienną losową definiujemy jako liczbę uzyskanych sukcesów, tzn.
. Jest widoczne, że zmienna losowa X jest typu skokowego i przyjmuje wartości k = 1, 2, …, n. Prawdopodobieństwo tego, że zmienna losowa X przyjmie wartość k (k = 1, 2, …, n.) wyraża się wzorem:
(1)
gdzie
jest liczbą kombinacji k-elementowych ze zbioru n-elementowego.
Rozkład zmiennej losowej określony funkcją prawdopodobieństwa wyrażającą się powyższym wzorem jest rozkładem dwumianowym z parametrami n i p. Wartość oczekiwana i odchylenie standardowe wynoszą odpowiednio: E(X) = np oraz
.
Rozkład normalny (standaryzacja rozkładu, znajdowanie kwantyli RN, dystrybuanty dla danego kwantyla)
Rozkład normalny
Obecnie wiadomo, że jest to jeden z możliwych rozkładów i niewiele zjawisk ekonomicznych i społecznych można opisać przy pomocy tego rozkładu, jednakże znaczenie jego w statystyce, co zresztą zobaczymy dalej, jest bardzo duże.
Rozkład normalny dotyczy ciągłych zmiennych losowych, a jego funkcja gęstości wyraża się przy pomocy następującego wzoru:
gdzie: m - wartość oczekiwana zmiennej (średnia), s - odchylenie standardowe zmiennej, exp(z) = ez, gdzie e jest podstawą logarytmów naturalnych (e = 2,71828...).
W praktyce często wykorzystuje się dystrybuantę rozkładu normalnego, która przyjmuje postać:
widzimy więc, że rozkład normalny zależy od dwóch parametrów: µ tj. wartości oczekiwanej (średniej) zmiennej losowej X oraz σ - odchylenia standardowego. Rozkład normalny o wartości oczekiwanej µ i odchyleniu standardowym σ oznacza się przez
.
Standaryzacja rozkładu normalnego
W praktyce bardzo ważne znaczenie odgrywa standaryzowany rozkład normalny, tj. taki rozkład normalny, w którym wartość oczekiwana m = 0 oraz odchylenie standardowe s = 1. Standaryzacja rozkładu normalnego polega na odjęciu od zmiennej X wartości średniej m i podzieleniu przez odchylenie standardowe, tzn. jeśli zmienna losowa ma rozkład normalny, to zmienna standaryzowana
ma rozkład N(0, 1). Standaryzację rozkładu normalnego przeprowadza się w tym celu, aby można było obliczyć wartości dystrybuanty (lub funkcji gęstości) ze specjalnych tablic statystycznych. Dystrybuantę standaryzowanej zmiennej losowej normalnej oznacza się zwykle przez (u) (rys. 1), a gęstość przez (u).
Niezbędne będzie jeszcze pojęcie kwantyla rzędu p zmiennej N(0,1) oraz zmiennej N(m, s), a także wykazanie zależności między tymi kwantylami.
Kwantylem rzędu p zmiennej losowej U (tj. zmiennej losowej standaryzowanej) nazywamy taką liczbę, że
Między kwantylami zmiennej losowej U zachodzi następujący związek:
Znając kwantyl rzędu p zmiennej losowej U, tj. up można obliczyć kwantyl rzędu p zmiennej losowej X o rozkładzie
z następującej zależności:
.
Ponieważ wartość dystrybuanty (lub funkcji gęstości) standaryzowanego rozkładu normalnego, tj. wartości F(u) (lub (u)), publikowane są w specjalnych tablicach statystycznych, więc wartości dystrybuanty zmiennej losowej
można szybko odczytać z tablic, po przeprowadzeniu standaryzacji zmiennej X. Umożliwia to obliczenie także innych zależności między charakterystykami zmiennej N(m, s) oraz zmiennej N(0,1).
Dystrybuanta
Rozkład zmiennej losowej X można także określić za pomocą funkcji zwanej dystrybuantą, i oznaczamy jako F(x), którą definiuje się następująco:
. (1)
5. Podstawowe parametry:
- średnia arytmetyczna
Średnia arytmetyczna jest sumą wartości cechy (zmiennej) poszczególnych jednostek populacji, podzieloną przez ich ilość. Jeśli w badanej próbie o liczebności n zmienna X przyjmuje wartości x1, x2, ..., xn, to ich średnią arytmetyczną można obliczyć z następującego wzoru:
(1)
średnia ta nosi nazwę średniej arytmetycznej nieważonej.
Gdy natomiast poszczególne wartości cechy występują wielokrotnie u poszczególnych elementów populacji, wtedy wzór (1) możemy zmodyfikować. Jeśli zatem cecha X występuje w z wariantach: x1, x2, ..., xz, a liczba elementów przyjmujących kolejne wartości cechy jest odpowiednio n1, n2, ..., nz, gdzie
.
Wtedy średnią arytmetyczną można obliczyć z następującego wzoru:
(2)
Oznaczmy dalej
, gdzie w1, w2, ..., wz, są wagami grupowymi, to wtedy
Średnią arytmetyczną ważoną można wyrazić za pomocą następującego wzoru:
(3)
parametry pozycyjne (mediana, kwartale, decyle, centyle)
MEDIANA
Mediana (wartość środkowa) jest inną charakterystyką średniego poziomu cechy w populacji.
Gdybyśmy wszystkie elementy populacji uporządkowali wg. rosnącej wartości cechy, to przez medianę rozumiemy wartość cechy jednostki znajdującej się dokładnie w środku.
Inaczej mówiąc mediana dzieli populację na dwie jednakowo liczne części. Do jednej z nich należą jednostki o mniejszych wartościach cech niż mediana, a do drugiej elementy populacji z większymi wartościami cechy.
Gdy występuje parzysta liczba elementów populacji, wtedy mediana równa się średniej arytmetycznej dwóch elementów leżących najbliżej środka w uporządkowanej populacji.
Jeśli w szeregu statystycznym warianty cechy nie są przedstawione pojedynczymi wartościami, lecz przedziałami, wówczas można tylko stwierdzić, w którym przedziale znajduje się mediana, względnie oszacować jej wartość za pomocą odpowiedniego wzoru:
gdzie: xp oznacza dolną granicę przedziału, w którym znajduje się mediana, (p-1) to kolejny numer przedziału poprzedzającego bezpośrednio przedział z medianą, D to długość przedziału, w którym znajduje się mediana, np - liczebność przedziału, w którym znajduje się mediana.
Mediana należy do średnich, które nazywamy pozycyjnymi. Nazwa ta wynika stąd, że jako charakterystykę średniego poziomu cechy przyjmujemy wartość cechy tego elementu populacji, który znajduje się na określonej pozycji w uporządkowanym szeregu jednostek według rosnących wartości cechy.
KWARTYLE
W statystyce często używane są inne średnie pozycyjne, a zwłaszcza kwartyle (czyli wartości ćwiartkowe).
Kwartyle, to takie wartości cechy, które uporządkowaną populację dzielą na cztery równe części (tzw. ćwiartki).
Istnieją trzy kwartyle:
pierwszy z nich dzieli populację na 1/4 populacji (Q1),
drugi - na dwie równe części (mediana) (Q2 = Me)
trzeci - oddziela 3/4 populacji o mniejszych od tego kwartyla wartościach cechy (Q3).
DECYLE
Jeśli chodzi o decyle, to dzielą one uporządkowaną populację na 10 równych części, a stąd ich ilość wynosi 9, tj.
KWANTYLE
Wyznaczanie kwartyli, decyli, a także innego rodzaju średnich pozycyjnych, zwanych ogólnie kwantylami może mieć zastosowanie tylko do tych przykładów, gdy szereg rozdzielczy zawiera wiele wariantów (przedziałów klasowych) cechy, a populacja jest liczna. W tych sytuacjach cechę można traktować jako ciągłą i tylko do tego przypadku ograniczymy w dalszym ciągu ogólne uwagi o sposobie obliczania kwantyli.
Jeśli kwantyl dzieli populację na k równych części (tzw. kwantyl rzędu k) i chcemy znaleźć w-ty z kolei kwantyl tego rzędu, to mieścić się on będzie w tym przedziale, którego skumulowana liczebność jest po raz pierwszy równa, lub większa od pewnej liczby, co można zapisać:
We wzorze ten symbol q oznacza numer klasy, do której należy interesujący nas kwantyl.
Wyznaczenie jakiegokolwiek w-tego kwantyla rzędu k w ramach danego przedziału, odbywa się przy użyciu wzoru przybliżonego. Oznaczmy ten kwantyl symbolem Qw,k , mamy:
xd - dolna granica przedziału zawierająca kwantyl, (q-1) - numer przedziału poprzedzającego przedział z kwantylem, D - długość przedziału zawierającego kwantyl, nd - liczebność tego przedziału.
Kwantyl rzędu p zmiennej losowej X jest to największa taka liczba xp, że
centyle (percentyle: Ci, i = 1, 2, ..., 99) na sto równych części
miary zróżnicowania (rozstępy, wariacje, odchylenie standardowe, współczynnik zmienności)
ROZSTĘP
Najprostszą miarą zmienności jest rozstęp. Jest to różnica między największym i najmniejszym elementem.
R = xmax - xmin
Porównanie rozstępów między dwoma populacjami jest możliwe, gdy bierzemy pod uwagę tą samą cechę. Można także odnieść rozstęp do jakiejś miary średniej, np. do mediany, otrzymując stosunkowy rozstęp:
WARIANCJA I ODCHYLENIE STANDARDOWE
Wariancją dla zbioru danych x1, x2, ..., xn nazywamy wyrażenie
gdzie
jest średnią arytmetyczną.
Wzór powyższy na obliczanie wariancji przedstawia się także w następującej postaci, wygodniejszej w obliczeniach:
W przypadku gdy będziemy korzystać z danych pogrupowanych (szeregu rozdzielczego), odpowiednie wzory na wariancję przyjmą postać:
Jako miara zróżnicowana używa się też dodatniego pierwiastka kwadratowego z wariancji, który określa się mianem odchylenia standardowego:
Odchylenie standardowe ma takie samo miano jak badana cecha, a jego własności wywodzą się bezpośrednio z własności wariancji.
Wariancja D2(x) zmiennej losowej - charakteryzuje rozrzut wokół wartości oczekiwanej E(x):
WSPÓŁCZYNNIK ZMIENNOŚCI
Współczynnik zmienności to iloraz odchylenia standardowego i średniej w danym rozkładzie:
Współczynnik zmienności wraża się często procentowo: V x 100%, aby określić, jaki procent poziomu średniej stanowi odchylenie standardowe w rozkładzie. Im wyższy jest ten procent, tym większe jest zróżnicowanie cechy w rozkładzie
miary asymetrii, koncentracji.
ASYMETRIA I JEJ MIARY
Symetryczność rozkładu - mówimy, że rozkład empiryczny jest symetryczny, jeśli każdej wartości cechy
odpowiada wartość
taka, że:
.
Rozkład empiryczny jest wiec symetryczny, jeśli liczebności (częstości) układają się identycznie dla wartości cechy jednakowo odległych (poniżej i powyżej) od środka symetrii, jakim jest średnia arytmetyczna. W przeciwnym przypadku mówimy, że rozkład empiryczny jest asymetryczny (skośny).
Na asymetrię rozkładu wskazuje tzw. trzeci moment centralny, definiowany jako średnia arytmetyczna trzecich potęg odchyleń wartości cechy od średniej arytmetycznej:
(2.21)
Dla danych pogrupowanych wzór ten przyjmuje postać:
(2.22)
Trzeci moment centralny przyjmuje wartości ujemne dla rozkładu o asymetrii lewostronnej (wydłużone lewe ramię rozkładu), dodatnie dla rozkładu o prawostronnej asymetrii.
Klasyczną miarą stopnia i kierunku asymetrii rozkładu empirycznego jest współczynnik asymetrii A, otrzymany w wyniku podzielenia trzeciego momentu centralnego przez odchylenie standardowe podniesione do trzeciej potęgi:
(2.23)
(W rozkładach jednomodalnych bezwzględna wartość współczynnika A rzadko przekracza 2.)
INNE WSPÓ£CZYNNIKI ASYMETRII
Ze względu na dużą pracochłonność obliczeń współczynnika A, w praktyce przy analizie asymetrii rozkładu korzysta się z prostszych miar.
Najczęściej stosowaną miarą jest współczynnik skośności A1, dla którego podstawą jest różnica między średnią i dominantą podzielona przez odchylenie standardowe:
(2.24)
Stwierdzono, że jedynie w przypadkach bardzo silnej asymetrii bezwzględna wartość współczynnika A1 przekracza wartość 1.
Rzadziej stosowaną miarą asymetrii jest pozycyjny współczynnik asymetrii, zdefiniowany za pomocą kwartyli. Przyjmuje on następującą postać:
(2.24)
gdzie Q jest odchyleniem ćwiartkowym. (Asymetrię powinno się badać jedynie w przypadku rozkładów jednomodalnych).
KONCENTRACJA I JEJ MIERZENIE
Przez koncentrację rozumie się nierównomierne rozdysponowanie łącznej sumy wartości cechy w badanej zbiorowości pomiędzy jednostki tworzące tę zbiorowość.
Zupełny brak koncentracji występuje wtedy, kiedy każda jednostka dysponuje taką samą częścią ogólnej sumy wartości cechy, co oznacza równocześnie brak zróżnicowania, gdyż wszystkie jednostki mają taką samą wartość cechy.
Natomiast skrajnym przypadkiem koncentracji jest sytuacja, kiedy całą sumą wartości cechy dysponuje tylko jedna jednostka zbiorowości.
Oznacza to, że stopień koncentracji można ocenić przez porównanie częstości występowania jednostek w różnych przedziałach wartości cechy z udziałem wartości cechy w poszczególnych przedziałach w łącznej wartości cechy.
W celu wyznaczenia miary służącej do oceny stopnia koncentracji, skorzystamy z graficznej prezentacji za pomocą wieloboku (krzywej) koncentracji Lorenza.
(Wielobok ten wyznacza się jako linię łamaną, powstałą z połączenia punktów, których współrzędnymi są skumulowane częstości względne jednostek oraz skumulowane częstości względne wartości cechy).
Jeśli występuje brak koncentracji, to wszystkie punkty leżą na przekątnej OF. Natomiast jeśli występuje skrajna koncentracja, tzn. całą sumą wartości cechy dysponuje tylko jedna jednostka zbiorowości, to wszystkie punkty układają się na osi odciętych - oprócz ostatniego, który ma współrzędne (1, 1). W pozostałych przypadkach punkty te układają się w trójkącie OEF i wielobok koncentracji położony jest poniżej przekątnej.
Im bliżej linii łamanej OEF przebiega zatem wielobok koncentracji, tzn. im większe jest pole T, tym koncentracja jest silniejsza.
Oznacza to, że miarą siły koncentracji może być udział powierzchni pola T w polu trójkąta OEF.
Ponieważ pole trójk¹ta OEF wynosi ½, jako miarę koncentracji można przyjąć wielkość:
K = 2T = 1-2P (2.25)
Miarę tą nazwano współczynnikiem Giniego.
Współczynnik Giniego przyjmuje wartość 0 w przypadku braku koncentracji oraz 1 w przypadku zupełnej koncentracji, tj. 0 = K=1.