Wartość oczekiwana. Kowariancja.
=
,
gdy X, Y są dyskretne,
=
,
gdy X, Y są ciągłe.
Uwaga. Dla
lub
otrzymujemy wartości oczekiwane brzegowych zmiennych losowych X lub Y, gdyż
w przypadku dyskretnym
=
=
=
.
=
=
=
w przypadku ciągłym
=
=
=
.
Analogicznie otrzymujemy
=
.
Stwierdzenie. Niech c będzie dowolną stałą, a
,
,
zmiennymi losowymi
jednowymiarowymi. Wówczas
,
.
Stwierdzenie. Jeśli zmienne losowe X, Y są niezależne, to
.
Definicja. Niech X i Y będą zmiennymi losowymi o łącznej funkcji prawdopodobieństwa ( gęstości )
. Kowariancją zmiennych X i Y nazywamy liczbę:
.
Stąd:
,
gdy X, Y są dyskretne
,
gdy X, Y są ciągłe.
Notacja: Zamiast
często piszemy Cov (X,Y).
Stwierdzenie. Cov(X,Y) =
.
Twierdzenie. Jeśli zmienne losowe X i Y są niezależne, to
Cov(X,Y) = 0.
Uwaga. Twierdzenie odwrotne nie jest na ogół prawdziwe.
Twierdzenie. Dla dowolnych stałych a, b
Var(
=
Var(X) +
Var(Y) + 2
Cov(X,Y).
Wniosek. Jeśli zmienne losowe X i Y są niezależne, to
Var(
) =
Var(X) +
Var(Y).
Definicja. Współczynnikiem korelacji między zmiennymi losowymi X i Y nazywamy liczbę:
.
Zadanie. Zmienna losowa
ma rozkład ciągły o gęstości
dla
.
Wyznaczyć stałą C.
Obliczyć kowariancję pomiędzy zmiennymi X, Y.
Czy zmienne losowe X, Y są niezależne ?
=
= C
=
= C
= C ( 1/2 - 1/6 ) = 1. Stąd C = 3.
=
=
= 3
= 3
= 3
=
= 3/8
=
=
=
= 3
=
= 1 - 1/4 = 3/4
=
=
=
= 3
= 3
= 3(
=
= 0,9
Cov(X,Y) = 0,9 - (3/8)(3/4) = 99/160.
(c) Cov(X,Y)
0, więc zmienne nie są niezależne, tzn. są zależne.
Własności współczynnika korelacji
(i)
(ii) Jeśli a i b są stałymi, oraz jeśli
Y = a + bX,
to
gdy
(iii) Jeśli
, to między zmiennymi losowymi X, Y istnieje liniowa zależność funkcyjna.
(iv) Jeśli zmienne losowe X i Y są niezależne, to
Interpretacja. Współczynnik korelacji jest miarą zależności liniowej między zmiennymi losowymi.
Dwuwymiarowy rozkład normalny
Zmienna losowa
ma dwuwymiarowy rozkład normalny, jeśli ma gęstość postaci:
exp
,
gdzie
,
, stałe
,
,
spełniają warunki
> 0,
> 0,
.
Notacja:
Twierdzenie. Jeśli
, to
(i) X ~
, Y ~
.
(ii) Cov(X,Y) =
.
(iii) X, Y są niezależne wtedy i tylko wtedy gdy
= 0.
Twierdzenie. Zmienna losowa (X,Y) ma dwuwymiarowy rozkład normalny wtedy i tylko wtedy gdy zmienna losowa aX + bY ma rozkład normalny, a, b są dowolnymi stałymi.
Zadanie. Niech zmienna losowa X oznacza dzienną wartość sprzedaży ( w 100 zł. ) dyskietek a zmienna losowa Y dzienną wartość sprzedaży papieru kserograficznego ( w 100 zł.). Wiadomo, że dwuwymiarowa zmienna losowa
ma rozkład normalny o parametrach:
,
,
,
. (a) Obliczyć wartość średnią oraz wariancję łącznej wartości sprzedaży w ciągu 10 dni, jeśli wartości sprzedaży obu artykułów w kolejnych dniach są niezależnymi zmiennymi losowymi o rozkładach takich jak rozkład zmiennej
. (b) Obliczyć prawdopodobieństwo, że łączna wartość sprzedaży w ciągu 10 dni przekroczy 10000 zł.
(a) Łączna wartość sprzedaży:
.
(100 zł.)
Średnia łączna wartość sprzedaży to 11000 zł.
Var(
) = 10
Var(X +Y) = 10
[Var(X) + Var(Y) + 2Cov(X,Y)] = 10(
=
= 30 (
zł. ).
(b)
. Zatem po standaryzacji
, skąd
=
=
=
= 1 - [1 -
] = 0,966.
CIĄGI ZMIENNYCH LOSOWYCH
Niech
będą zmiennymi losowymi określonymi na tej samej przestrzeni zdarzeń elementarnych
.
=
=
dystrybuanta wektora losowego (
).
= funkcja prawdopodobieństwa łącznego lub funkcja gęstości łącznej wektora losowego (
).
Definicja. Zmienne losowe
są niezależne, jeśli
=
,
gdzie
, i = 1,2,...,n.
Definicja.
=
,
lub
.
Stwierdzenie. Dla dowolnych stałych
:
=
.
Wniosek. Niech
i = 1,2,..,n, oraz
.
Wówczas
=
.
D. W stwierdzeniu trzeba przyjąć
, i = 1,2,..,n.
Stwierdzenie. Jeśli
są niezależnymi zmiennymi losowymi, to
Var
=
Var(
) +
Var(
) + ... +
Var(
).
W szczególności, jeśli Var(
) =
oraz
,
i = 1,2,..,n, to
Var(
) =
.
Przykład. Dokonujemy n jednakowych, niezależnych doświadczeń Bernoulli'ego o prawdopodobieństwie sukcesu p,
. Znaleźć wartość oczekiwaną i wariancję zmiennej losowej
będącej liczbą sukcesów.
Niech
1, gdy sukces w i-tym doświadczeniu,
0, gdy porażka w i-tym doświadczeniu. Wówczas
są niezależnymi zmiennymi losowymi o
funkcjach prawdopodobieństwa:
,
.
Stąd:
, Var(
) =
.
Liczba sukcesów =
=
=
=
.
Var(
) =
Var(
+ Var(
+ ... + Var(
=
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO
Populacja - zbiorowość elementów badanych ze względu na określoną cechę.
Rozkład populacji = rozkład prawdopodobieństwa cechy = rozkład prawdopodobieństwa zmiennej losowej X - cechy losowo wybranego elementu populacji.
Losujemy n elementów niezależnie i w taki sam sposób
( np. w przypadku skończonej populacji - losowanie ze zwracaniem ). Niech zmienna losowa
oznacza cechę i-go potencjalnie wylosowanego elementu,
Wówczas
są niezależnymi zmiennymi losowymi o rozkładzie cechy X .
Definicja. Prostą próbą losową o liczności n nazywamy ciąg niezależnych zmiennych losowych
określonych na przestrzeni zdarzeń elementarnych
i takich, że każda ze zmiennych ma taki sam rozkład.
Mówimy wówczas, że
jest prostą próbą losową z rozkładu ( odpowiednia nazwa rozkładu ).
Konkretny ciąg wartości
( prostej ) próby losowej
nazywamy realizacją ( prostej ) próby losowej lub próbką.
Zadanie statystyki: badanie własności rozkładu cechy X na podstawie obserwacji - próbki.
Np. jak ocenić
na podstawie realizacji prostej próby losowej? W jakim sensie średnia próbkowa
jest dobrą oceną
?
Rozkład średniej prostej próby losowej
Określenie. Statystyką nazywamy zmienną losową
będącą funkcją próby losowej
.
Statystykę
=
nazywamy średnią z próby losowej
.
Średnia próbkowa
= realizacja statystyki
.
Twierdzenie. ( Prawo wielkich liczb ). Niech
będzie prostą próbą losową z rozkładu zmiennej losowej X o średniej
. Wówczas dla dowolnie małej liczby
, przy
.
Stąd średnia z prostej próby losowej jest dobrym oszacowaniem średniej teoretycznej ( średniej rozkładu cechy populacji ):
bliskie 1, dla dostatecznie dużego n.
Stwierdzenie. Niech
będzie prostą próbą losową z rozkładu zmiennej losowej X o średniej
i wariancji
. Wówczas
(a)
, Var(
) =
,
(b) Jeśli
, to
Zadanie. Załóżmy, że wzrost ( w cm ) w populacji dorosłych Polaków jest cechą o rozkładzie normalnym o nieznanej wartości średniej
( cm ) i odchyleniu standardowym
= 6,5 ( cm ). Obliczyć prawdopodobieństwo, że średnia z prostej próby losowej o liczności 100 ( średni wzrost 100 losowo wybranych dorosłych Polaków ) różni się od prawdziwej wartości
o więcej niż 1,5 (cm).
Wiemy, że
.
=
+
=
=
+
=
=
= 2
=
2[
] = 0,0208,
gdzie Z ma standardowy rozkład normalny.
Zauważmy, że dla pojedynczej obserwowanej zmiennej mamy
2
= 0,8180.
( rysunek gęstości średniej )
Twierdzenie. ( CENTRALNE TWIERDZENIE
GRANICZNE = twierdzenie Lindeberga-Levy'ego)
Niech
będzie prostą próbą losową z rozkładu o średniej
i wariancji
. Wówczas dla dużych liczności próby n rozkład prawdopodobieństwa standaryzowanej średniej jest bliski standardowemu rozkładowi normalnemu
, dokładniej, dla dowolnych
zachodzi
przy
. Równoważnie rozkład średniej
jest bliski rozkładowi normalnemu
.
Uwaga. Przy założeniach centralnego twierdzenia granicznego rozkład prawdopodobieństwa standaryzowanej sumy
jest w przybliżeniu rozkładem normalnym, tzn.
, przy
.
Równoważnie rozkład
jest bliski
.
Wystarczy zauważyć:
Uwaga. Przybliżenie na ogół można stosować gdy
.
Wniosek. ( Twierdzenie Moivre'a - Laplace'a)
Jeśli
, to przy
.
D.
, gdzie
jest prostą próbą losową z rozkładu Bernoulli'ego
. Zatem
. Po podstawieniu otrzymujemy tezę.
Uwaga. Przybliżenie można stosować gdy
.
Przykład. Załóżmy, że rozkład codziennego dojazdu do pracy jest w przybliżeniu rozkładem jednostajnym na przedziale [0,5 godz., 1 godz. ] i że czasy dojazdów w różne dni są niezależne. Obliczyć przybliżone prawdopodobieństwo zdarzenia, że średni dzienny dojazd w ciągu 30 dni przekroczy 0,8 godz.
Niech
oznacza czas dojazdu w i-tym dniu ,
.
,
.
,
=
.
Zadanie. Codzienne opóźnienie pociągu ( w minutach ) na pewnej trasie jest zmienną losową ciągłą o gęstości
dla
.
a) Wyznaczyć stałą C.
b) Wyznaczyć dystrybuantę
.
c) Obliczyć prawdopodobieństwa
,
.
d) Obliczyć wartość oczekiwaną i wariancję codziennego opóźnienia pociągu.
e) Obliczyć przybliżone prawdopodobieństwo, że łączne opóźnienie pociągu na tej trasie w ciągu 90 dni przekroczy 600 minut, jeśli opóźnienia w kolejnych dniach są niezależnymi zmiennymi losowymi.
50 = 1. C = 1/50.
b)
=
dla
,
Zatem
dla
.
= 1 - F(5) = 1- 25/100 = 0,75.
= F(7) - F(5) = 0,49 - 0,25 = 0,24.
d)
=
= 20/3,
= 50.
-
= 50 - 400/9 = 50/9.
e) Niech
oznacza łączny czas opóźnienia w ciągu 90 dni.
jest prostą próbą losową z rozkładu o gęstości takiej jak gęstość zmiennej X.
= opóźnienie i-go dnia.
.
Var(
=
.
Z Centralnego Twierdzenia Granicznego rozkład
jest bliski rozkładowi
.
=
= 1 - 0,5 = 0,5.
Poprawka w przybliżeniu normalnym
Jeśli zmienne losowe
w prostej próbie losowej przyjmują jedynie wartości całkowite, to otrzymamy lepsze przybliżenie rozkładem normalnym stosując Centralne Twierdzenie Graniczne ( w szczególności twierdzenie Moivre'a - Laplace'a ) z tzw. poprawką uwzględniającą fakt, że rozkład dyskretny przybliżamy rozkładem ciągłym, dokładniej zauważmy iż dla całkowitych a i b mamy:
=
(1)
=
-
.
Równoważnie mamy:
(2)
=
-
Przykład. Załóżmy, że nowa szczepionka będzie testowana na 100 osobach. Producent ocenia jej skuteczność na 80 %. Znaleźć przybliżone prawdopodobieństwo, że
pożądaną odporność uzyskają mniej niż 74 osoby,
co najmniej 74 osoby i co najwyżej 85 osób uzyska odporność po zastosowaniu szczepionki.
Niech
będzie liczbą osób spośród 100 testowanych, które uzyskają odporność, gdzie
jest prostą próbą losową z rozkładu Bernoulli'ego
. Stąd
,
,
(a) Wstawiając we wzorze (1)
,
n =100 mamy:
=
= 1 - 0,9474 =
= 1 -
= 1 - 0,9474 = 0,0526.
(b)
=
=
=
=
= 0,9147 - 1 + 0,9484 =
= 0,8631.
Rozkład częstości
Niech X będzie zmienną losową o rozkładzie
Bernoulli'ego, tzn.
i
.
W zastosowaniach często
% oznacza procent elementów badanej populacji posiadających określoną własność. Wówczas p nazywamy proporcją lub wskaźnikiem struktury.
Niech
będzie prostą próbą losową z rozkładu X. (
(0) jeśli i-ty wylosowany element ma ( nie ma ) określoną własność ).
=
=
nazywamy częstością wystąpienia (elementów o danej własności ) w prostej próbie losowej.
, Var(
) =
.
Z Centralnego Twierdzenia Granicznego dla średniej z próby losowej mamy:
,
gdy
, oraz na mocy wzoru (2)
=
-
.
Twierdzenie. Dla dowolnych
, gdy
.
Zadanie. W populacji dorosłych Polaków 39 % ma kłopoty ze snem. Oszacować prawdopodobieństwo, że wśród 100 losowo wybranych dorosłych Polaków częstość osób mających kłopoty ze snem nie przekroczy 0,33.
=
=