Stat mat w2

Charakterystyki liczbowe zmiennych losowych

Dystrybuanta zmiennej losowej daje jej pełny probabilistyczny opis,

jednak z powodu zbytniej szczegółowości, jest on mało czytelny. W praktyce

wygodniej jest posługiwać się charakterystykami liczbowymi.

Do najważniejszych charakterystyk należą miary położenia i miary rozrzutu.

Definicja:

Wartością oczekiwaną (średnią, przeciętną) zmiennej losowej X typu

dyskretnego o zbiorze punktów skokowych W = {x1,x2, …} i skokach

pi = P(X=xi), nazywamy liczbę EX określoną wzorem

$EX = \sum_{x_{i} \in W}^{}{x_{i} \bullet p_{i}}$ ,

pod warunkiem, że szereg ten jest bezwzględnie zbieżny.

Wartością oczekiwaną zmiennej losowej X typu ciągłego o gęstości f

nazywamy liczbę EX określoną wzorem EX = ∫−∞+∞x f(x)dx ,

pod warunkiem, że całka ta jest bezwzględnie zbieżna .

Uwaga:

Jeżeli zmienna losowa Y = g(X ) jest dyskretna, to

$EY = \sum_{x_{i} \in W}^{}{g\left( x_{i} \right)p_{i}}$ ;

jeżeli zmienna losowa Y = g(X ) jest ciągła, to EY = ∫−∞+∞g(xf(x)dx .

Własności wartości oczekiwanej :

1o E[a] = a dla każdego a∈ℛ .

2o Dla dowolnych zmiennych losowych X , Y , dla których istnieją EX i EY

oraz dla dowolnych stałych a i b zachodzi

E[aX+bY] = a EX + b EY .

Przykład 1.

Zmienna losowa ma rozkład dany funkcją prawdopodobieństwa

$P\left( X = k \right) = \frac{1}{2^{k}}\ \ \ \ dla\ \ \ \ \ k = 1,\ 2,\ \ldots$ . Znajdziemy jej wartośc oczekiwaną.

Przykład 2.

Zmienna losowa ma rozkład dany funkcją prawdopodobieństwa

$P\left( X = 2^{k} \right) = \frac{1}{2^{k}}\ \ \ \ dla\ \ \ \ \ k = 1,\ 2,\ \ldots$ . Zbadamy czy istnieje jej wartośc

oczekiwana.

Przykład 3.

Zmienna losowa X ma rozkład typu ciągłego o gęstości

$f\left( x \right) = \left\{ \begin{matrix} \frac{1}{2}\sin x,\ \ \ dla\ \ \ \ 0 \leq x \leq \pi \\ 0\ \ ,\ \ \ \ \ poza\ \ \ tym \\ \end{matrix} \right.\ $ .

Znajdziemy jej wartośc oczekiwaną.

Korzystając z operatora wartości oczekiwanej wprowadzimy inne

charakterystyki liczbowe zwane momentami .

Definicja:

Niech X będzie zmienną losową, a∈ℛ dowolną liczbą, k - dowolną liczbą naturalną.

Wyrażenie E(Xa)k nazywamy momentem k-tego rzędu

zmiennej losowej X względem punktu a.

Jeżeli a = 0 , to EXk = mk nosi nazwę momentu zwykłego rzędu k.

Jeżeli a = EX , to E(XEX)k = μk nosi nazwę momentu centralnego

rzędu k .

Zauważmy, że wartośc oczekiwana jest momentem zwykłym rzędu k= 1 EX = m1 .

Momenty zwykłe i centralne są ze sobą związane . Mamy więc :

1o μ1 = E(XEX) = EX − EX = 0,

2o μ2 = E(XEX)2 = E[X2−2XEX+(EX)2]=

=EX2 − 2EX • EX + (EX)2 = EX2 − (EX)2 = m2 − m12 ,

3o μ3 = E(XEX)3 = E[X3−3X2EX+3X•(EX)2−(EX)3]=


=EX3 − 3EX • EX2 + 3(EX)2 • EX − (EX)3=

=m3 − 3m1 • m2 + 2m13 , itd.

Twierdzenie:

Jeśli istnieje moment rzędu r zmiennej losowej X , to istnieją wszystkie

momenty rzędu s < r .

Szczególne znaczenie wśród momentów centralnych ma moment

centralny rzędu drugiego, który jest miarą zmienności (rozproszenia, rozrzutu)

wartości zmiennej losowej względem jej wartości oczekiwanej.

Moment centralny rzędu drugiego nazywamy wariancją i oznaczamy

Var X = D2X = σX2 = E(X−EX)2 = EX2 − (EX)2 = m2 − m12 .

Twierdzenie:

Warunkiem koniecznym i dostatecznym na to, by wariancja D2X zmiennej losowej X była równa zeru, jest to, aby zmienna losowa X miała

rozkład jednopunktowy, tzn. P(X=x0) = 1 .

Definicja:

Pierwiastek kwadratowy z wariancji nazywamy odchyleniem

standardowym $\sigma_{X} = \sqrt{D^{2}X}$ .

Przykład.1.

Wyznaczymy odchylenie standardowe zmiennej losowej dyskretnej o

rozkładzie danym w tablicy :

xk 0 2 4 5 6
pk 0,2 0,1 0,4 0,2 0,1

Przykład .12.

Znajdziemy odchylenie standardowe dla ciągłej zmiennej losowej o

gęstości prawdopodobieństwa $f\left( x \right) = \left\{ \begin{matrix} 6x\left( 1 - x \right),\ \ \ dla\ \ \ \ 0 < x < 1 \\ 0\ \ ,\ \ \ \ \ poza\ \ \ tym \\ \end{matrix} \right.\ $ .

Definicja:

Zmienną losową X , dla której zachodzą następujące warunki

EX = 0 , D2X = 1 nazywamy zmienną losową standaryzowaną .

Uwaga: Zauważmy, że jeśli zmienna losowa X ma wartośc oczekiwaną

EX = m oraz wariancję D2X = σ2 , to zmienna losowa $\hat{X} = \frac{X - m}{\sigma}$ jest

zmienną losową standaryzowaną.

Określimy jeszcze jedną grupę charakterystyk liczbowych zmiennych losowych zwanych parametrami pozycyjnymi.

Definicja:

Liczbę xp nazywamy kwantylem p-tego rzędu ( 0 < p <1 ), gdy spełnia

następujące warunki :

P(Xxp) ≥ p    oraz     P(Xxp) ≥ 1 − p .

Uwaga: Jeśli zmienna losowa X jest typu ciągłego, to

p ≤ P(Xxp) = F(xp)

oraz 1 − p ≤ P(Xxp) = 1 − P(X<xp) = 1 − F(xp)   stad   F(xp) ≤ p.

Mamy więc p ≤ F(xp) ≤ p , a zatem F(xp) = p .

Kwantyl rzędu p = 0,5 nazywamy medianą,

kwanty rzędu p = 0,25 nazywamy kwartylem dolnym,

kwanty rzędu p = 0,75 nazywamy kwartylem górnym.

Definicja:

Wartością modalną ( modą ) zmiennej losowej dyskretnej X nazywamy taką wartośc x0∈ℛ , dla której odpowiadające jej prawdopodobieństwo P(X=x0) jest największe.

Wartością modalną zmiennej losowej ciągłej X nazywamy taką wartośc x0∈ℛ , dla której gęstość prawdopodobieństwa osiąga maksimum właściwe.

Uwaga: Z definicji wynika, że kwantyl rzędu p zawsze istnieje, chociaż nie

zawsze jest określony jednoznacznie.

Zmienna losowa może posiadać więcej niż jedną wartośc modalną,

wówczas mówimy o rozkładzie wielomodalnym, albo też wartośc modalna

może nie istnieć i wówczas mówimy o rozkładzie antymodalnym.

Przykład.1. Rozkład zmiennej losowej X dany jest w tablicy. Wyznaczymy

parametry pozycyjne tej zmiennej.

xk -4 -2 0 2 4 6 8 10 12
pk 0,20 0,04 0,02 0,20 0,02 0,15 0,05 0,20 0,12

Wartości modalne x’0 = 2, x”0 = 10 . Rozkład dwumodalny.

Mediana x0,5 = 6, kwartyl dolny x0,25 = 0 , kwartyl górny x0,75 = 10.

Przykład.2. Wyznaczyć medianę oraz modę zmiennej losowej o rozkładzie

xk -2 -1 0 1 2
pk 0,1 0,2 0,2 0,2 0,3

Moda nie istnieje - rozkład antymodalny. Mediana me = x0,5 Є [ 0, 1 ] .

Przykład.3. Wyznaczymy medianę , kwartyle oraz wartośc modalną

zmiennej losowej ciągłej o rozkładzie z dystrybuantą

$F\left( x \right) = \frac{1}{2} + \frac{1}{\pi}\text{\ arc\ tg\ x}$ .

Zmienne losowe wielowymiarowe

Pojęcie zmiennej losowej można rozszerzyć na n – wymiarów.

Definicja:

Niech dana będzie przestrzeń probabilistyczna (Ω, ℱ,  P) i w tej

przestrzeni n zmiennych losowych X1,  X2, ⋯,  Xn . Uporządkowany układ n

zmiennych losowych X=(X1X2,⋯, Xn) nazywać będziemy n-wymiarową

zmienną losową lub wektorem losowym .

Oznacza to, że każdemu zdarzeniu elementarnemu ωϵΩ

przyporządkowaliśmy punkt n-wymiarowej przestrzeni euklidesowej n .

Na ogół znajomość rozkładów zmiennych losowych Xi (i =1, 2, …, n ) nie

wystarcza do określenia rozkładu wektora losowego X . Rozkład wektora

losowego nazywać będziemy łącznym rozkładem zmiennych losowych

X1,  X2, ⋯,  Xn , a rozkłady poszczególnych składowych wektora losowego

jego rozkładami brzegowymi .

Definicja:

Dystrybuantą wektora losowego X=(X1X2,⋯, Xn) nazywamy

funkcję


$$F:\mathcal{R}^{n} \rightarrow \left\lbrack 0,\ 1 \right\rbrack;\bigwedge_{\left( x_{1},\ x_{2},\ \cdots,x_{n} \right)\epsilon\mathcal{R}^{n}}^{}{F\left( x_{1},\ x_{2},\cdots,x_{n} \right) =}$$

P({X1<x1}∩{X2<x2}∩⋯∩{Xn<xn}) .

Funkcję F(x1x2,⋯,xn) nazywamy łączną dystrybuantą wektora losowego X=(X1X2,⋯, Xn) , natomiast funkcje Fi(xi) = P(Xi<xi) - dystrybuantami brzegowymi .

W dalszych rozważaniach ograniczymy się tylko do wektora dwuwymiarowego (X, Y ).

Zatem dystrybuantą dwuwymiarowej zmiennej losowej (X, Y) jest funkcja dwóch zmiennych rzeczywistych x i y taka, że

F(xy) = P(X<xY<y).

Mówimy także, że jest to łączna dystrybuanta zmiennych losowych X i Y.

Własności łącznej dystrybuanty zmiennych losowych X i Y :

1o dystrybuanta F jest funkcją niemalejącą względem każdego z argumentów

x oraz y,

2o dystrybuanta F jest funkcją co najmniej lewostronnie ciągłą względem

każdego z argumentów x oraz y,

3o $\bigwedge_{x\mathcal{\in R}}^{}{\operatorname{}{F\left( x,y \right) = 0\ \ ,\ \ \ \ \ }}\bigwedge_{y\mathcal{\in R}}^{}{\operatorname{}{F\left( x,y \right) = 0\ \ ,\ \ \ \ \ }}$

F(x,y) = 1 .

4o dla dowolnych punktów (x1,y1) ,  (x2,y2)  takich, ze  x1 ≤ x i y1 ≤ y2  zachodzi nierówność

F(x2,y2) − F(x2,y1) − F(x1,y2) + F(x1,y1) ≥ 0.

Warunek ten wynika z tego, że wyrażenie po lewej stronie nierówności jest prawdopodobieństwem P(x1X<x2 ,  y1Y<y2). (rys.)

Każda funkcja dwóch zmiennych spełniająca powyższe warunki może być traktowana jako dystrybuanta dwuwymiarowej zmiennej losowej (X, Y ).

W praktyce najczęściej korzystamy ze zmiennych dyskretnych (skokowych) oraz ciągłych.

Definicja :

Wektor losowy (X, Y ) nazywamy dyskretnym (skokowym) , gdy wszystkie jego składowe są dyskretnymi zmiennymi losowymi.

Rozkład dwuwymiarowego dyskretnego wektora losowego C określony jest jednoznacznie przez funkcję prawdopodobieństwa :


pi, k = p(xi,yk) = P({ωΩ:(XY)=(xi,yk)})   dla   i, k = 1, 2,  …

Zachodzi przy tym warunek konieczny $\sum_{i}^{}{\sum_{k}^{}{p_{i,k} =}}\sum_{k}^{}{\sum_{i}^{}{p_{i,k} =}}1$ .

Znając łączny rozkład wektora losowego można określić rozkłady brzegowe zmiennych losowych X i Y


$$p_{i \bullet} = p\left( x_{i} \right) = P\left( X = x_{i} \right) = \sum_{k}^{}{p_{\text{ik\ \ \ }},\ \ \ dla\ \ \ i = 1,2,\ \ldots}$$


$$p_{\bullet k} = p\left( y_{k} \right) = P\left( Y = y_{k} \right) = \sum_{i}^{}{p_{i,k}\ \ \ ,\ \ \ dla\ \ \ k = 1,2,\ \ldots}$$

Rozkład dwuwymiarowego dyskretnego wektora losowego (X, Y ) oraz rozkłady brzegowe jego składowych najczęściej przedstawiane są w postaci tablicy

X \ Y
y1

y2

ym

pi

x1

p1, 1

p1, 2

p1, m

p1• = p(x1)

x2

p2, 1

p2, 2,

p2, m

p2• = p(x2)











xn

pn, 1

pn, 2

pn, m

pn = p(xn)











pk = p(yk)

p•1 = p(y1)

p•2 = p(y2)

pm = p(ym)
1

Przykład.1. Dwuwymiarowa zmienna losowa (X, Y ) ma rozkład prawdopodobieństwa podany w tablicy. Znajdziemy rozkłady brzegowe zmiennych losowych X i Y .

X \ Y 0 1 2 3
-1 0,20 0,05 0,05 0,05
0 0,10 0 0,15 0,10
1 0,05 0,15 0,05 0,05

Definicja:

Wektor losowy (X, Y ) nazywamy typu ciągłego , gdy istnieje taka funkcja nieujemna f(xy) , zwana łączną gęstością prawdopodobieństwa, że zachodzi

$\bigwedge_{\left( x,y \right) \in \mathcal{R}^{2}}^{}{F\left( x,y \right) = \int_{- \infty}^{x}{\int_{- \infty}^{y}{f\left( u,v \right)\text{dudv}}}}$ ,

gdzie F(x, y ) jest łączną dystrybuantą wektora losowego (X, Y ).

Własności wektora losowego (X, Y ) typu ciągłego :

1o W każdym punkcie (x, y ), w którym łączna gęstość

prawdopodobieństwa f(xy) zmiennych losowych X i Y jest ciągła,

zachodzi $f\left( x,y \right) = \frac{\partial^{2}F\left( x,y \right)}{\partial x\partial y}$ .

2o Zachodzi P(x1X<x2y1Y<y2) = ∫x1x2y1y2f(x,y)dxdy , gdzie

(x1,y1) ,  (x2,y2sa  dowolnymi  punktami  takimi , ze  x1 ≤ x i y1 ≤ y2  .

3o Zachodzi

−∞+∞−∞+∞f(x,y)dxdy = 1 .

Jeżeli (X, Y ) jest wektorem typu ciągłego, to składowe X i Y są także zmiennymi losowymi typu ciągłego i ich gęstości brzegowe

fx(x) = ∫−∞+∞f(x,y)dy oraz fy(y) = ∫−∞+∞f(x,y)dx ,

gdzie f(x,y) jest łączną gęstością wektora losowego (X, Y ).

Przykład.2. Dobrać tak stałą c, by funkcja


$$f\left( x,y \right) = \left\{ \begin{matrix} \text{cxy}\left( 2 - x - y \right)\ \ \ dla\ \ \ 0 \leq x \leq 1\ \ \ ,\ \ \ 0 \leq y \leq 1 \\ 0\ \ \ \ \ \ \ \ \ \ \ \ \ dla\ \ pozostalych\ \ \ (x,y) \\ \end{matrix} \right.\ $$

była gęstością dwuwymiarowej zmiennej losowej (X, Y ) i wyznaczyć rozkłady brzegowe zmiennych X oraz Y .

Momenty wektora losowego (X, Y)

Definicja: Momentem zwykłym rzędu k + l wektora losowego (X, Y)

nazywamy wyrażenie mkl = E[XkYl] ,

a momentem centralnym rzędu k + l wyrażenie

μkl = E[(XEX)k•(YEY)l] .

Uwaga: Jeśli l = 0 , to otrzymamy momenty rzędu k zmiennej losowej X .

Jeśli k = 0 , to mamy momenty rzędu l zmiennej losowej Y .

W szczególności mamy:

1o po dwa momenty zwykłe i centralne rzędu pierwszego

m10 = EX  ,    m01 = EY  ,    μ10 = E(XEX) = 0  ,    μ01 = E(YEY) = 0 ,

2o po trzy momenty zwykłe i centralne rzędu drugiego


m20 = EX2   ,     m02 = EY2   ,     m11 = E(XY)

μ20 = E(XEX)2 = D2X    ,      μ02 = E(YEY)2 = D2Y ,


μ11 = [(XEX)•(YEY)] = E[XYXEYYEX+(EX)•(EY)]=

=E(XY) − (EX) • (EY) − (EX) • (EY) + (EX) • (EY) = m11 − m10 • m01.

Moment centralny rzędu drugiego mieszany nosi nazwę kowariancji

μ11 = cov(XY) . Jest on nośnikiem informacji o współzależności zmiennych

losowych X i Y.

Przykład.3. Dwuwymiarowa zmienna losowa (X, Y) ma rozkład

prawdopodobieństwa dany w tablicy. Znajdziemy momenty zwykłe i

centralne pierwszego i drugiego rzędu wektora losowego (X, Y).

X \ Y 0 1 2 3
pi
-1 0,20 0,05 0,05 0,05 0,35
0 0,10 0 0,15 0,10 0,35
1 0,05 0,15 0,05 0,05 0,30

pk
0,35 0,20 0,25 0,20 1,00

Przykład.4. Wektor losowy (X, Y) ma łączną gęstość prawdopodobieństwa

$f\left( x,y \right) = \left\{ \begin{matrix} 6xy\left( 2 - x - y \right)\ \ \ dla\ \ \ 0 \leq x \leq 1\ \ \ ,\ \ \ 0 \leq y \leq 1 \\ 0\ \ \ \ \ \ \ \ \ \ \ \ \ dla\ \ pozostalych\ \ \ (x,y) \\ \end{matrix} \right.\ $ .

Obliczymy momenty pierwszego i drugiego rzędu dla tego rozkładu.

Niezależność zmiennych losowych

Warunek konieczny i dostateczny niezależności zmiennych losowych

wyraża równość

F(x1,x2,⋯,xn) = F1(x1) • F2(x2)⋯Fn(xn) ,

gdzie F(x1,x2,⋯,xn) jest łączną dystrybuantą zmiennych losowych

X1,  X2, ⋯,  Xn , a Fi(xi)  dla  i = 1,  2,  …, n dystrybuantami brzegowymi.

Dla zmiennych losowych dyskretnych warunek ten jest równoważny

warunkowi dla funkcji prawdopodobieństwa

p(x1,x2,⋯,xn) = p1(x1) • p2(x2)⋯pn(xn) ,

A dla zmiennych losowych ciągłych warunkowi dla gęstości

prawdopodobieństwa

f(x1,x2,⋯,xn) = f1(x1) • f2(x2)⋯fn(xn) .

Przykład.5. Dwuwymiarowa zmienna losowa (X, Y) ma rozkład

prawdopodobieństwa dany w tablicy. Sprawdzimy czy zmienne losowe X i

Y są niezależne, tzn. czy zachodzi warunek $\bigwedge_{i,k}^{}{\text{~~}p_{\text{ik}} = p_{i \bullet} \bullet p_{\bullet k}}$.

X \ Y 0 1 2 3
pi
-1 0,20 0,05 0,05 0,05 0,35
0 0,10 0 0,15 0,10 0,35
1 0,05 0,15 0,05 0,05 0,30

pk
0,35 0,20 0,25 0,20 1,00

Przykład.6. Wektor losowy (X, Y) ma łączną gęstość prawdopodobieństwa

$f\left( x,y \right) = \left\{ \begin{matrix} 6xy\left( 2 - x - y \right)\ \ \ dla\ \ \ 0 \leq x \leq 1\ \ \ ,\ \ \ 0 \leq y \leq 1 \\ 0\ \ \ \ \ \ \ \ \ \ \ \ \ dla\ \ pozostalych\ \ \ (x,y) \\ \end{matrix} \right.\ $ .

Sprawdzimy czy zmienne losowe X i Y są niezależne .

Współczynnik korelacji i linia regresji

Definicja:

Niech (X, Y) będzie dwuwymiarową zmienną losową typu dyskretnego.

Warunkową wartośc oczekiwaną zmiennej X przy warunku Y = yk

obliczamy ze wzoru

$E\left( X \middle| Y = y \right) = \sum_{i}^{}{x_{i}p\left( x_{i}|y_{k} \right)\ \ \ \ ,\ \ \ \ \ \ \ gdzie\ \ \ \ \ p\left( x_{i} \middle| y_{k} \right) = \frac{p\left( x_{i},y_{k} \right)}{p_{\bullet k}}}$ .

Warunkową wartośc oczekiwaną zmiennej Y przy warunku X = xi

obliczamy ze wzoru

$E\left( Y \middle| X = x \right) = \sum_{k}^{}{y_{k}p\left( y_{k}|x_{i} \right)\ \ \ \ ,\ \ \ \ \ \ \ gdzie\ \ \ \ \ p\left( y_{k} \middle| x_{i} \right) = \frac{p\left( x_{i},y_{k} \right)}{p_{i \bullet}}}$ .

Niech teraz (X, Y) będzie dwuwymiarową zmienną losową typu ciągłego.

Warunkową wartośc oczekiwaną zmiennej X przy warunku Y = y

obliczamy ze wzoru

E(X|Y=y) = ∫−∞+∞x f(x|Y=y)dx ,gdzie

$f\left( x \middle| Y = y \right) = \frac{f\left( x,y \right)}{f_{y}\left( y \right)} = \frac{f\left( x,y \right)}{\int_{- \infty}^{+ \infty}{f\left( x,y \right)\text{dx}}}$ .

i analogicznie warunkową wartośc oczekiwaną zmiennej Y przy warunku X = x obliczamy

ze wzoru

E(Y|X=x) = ∫−∞+∞y f(y|X=x)dy ,

gdzie $f\left( y \middle| X = x \right) = \frac{f\left( x,y \right)}{f_{x}\left( x \right)} = \frac{f\left( x,y \right)}{\int_{- \infty}^{+ \infty}{f\left( x,y \right)\text{dy}}}$ .

Przykład.7.

Dla zmiennej losowej (X, Y) typu dyskretnego, o rozkładzie danym w tablicy,

znajdziemy prawdopodobieństwa warunkowe p(xi|yk) oraz warunkową

wartośc oczekiwaną E[X|Y = 1] .

X \ Y 0 1 2 3
pi
-1 0,20 0,05 0,05 0,05 0,35
0 0,10 0 0,15 0,10 0,35
1 0,05 0,15 0,05 0,05 0,30

pk
0,35 0,20 0,25 0,20 1,00

Przykład.8.


$$f\left( x,y \right) = \left\{ \begin{matrix} 6xy\left( 2 - x - y \right)\ \ \ dla\ \ \ 0 \leq x \leq 1\ \ \ ,\ \ \ 0 \leq y \leq 1 \\ 0\ \ \ \ \ \ \ \ \ \ \ \ \ dla\ \ pozostalych\ \ \ (x,y) \\ \end{matrix} \right.\ $$

znajdziemy warunkowe wartości oczekiwane E[X| Y = y] i E[Y| X = x] .

Współczynnik korelacji wyraża „siłę” związku między zmiennymi losowymi X i Y .

Definicja:

Niech X i Y będą zmiennymi losowymi posiadającymi odchylenia standardowe σX i σY . Wyrażenie


$$\rho_{\text{XY}} = \frac{\mu_{11}}{\sigma_{X}\sigma_{Y}} = \frac{\text{cov}\left( X,\ Y \right)}{\sigma_{X}\sigma_{Y}} = \frac{E\left\lbrack \left( X - EX \right)\left( Y - EY \right) \right\rbrack}{\sqrt{E\left( X - EX \right)^{2}} \bullet \sqrt{E\left( Y - EY \right)^{2}}}$$

nazywamy współczynnikiem korelacji zmiennych losowych X i Y .

Własności współczynnika korelacji:

1) Jeśli zmienne losowe X i Y są niezależne, to ρXY = 0.

Twierdzenie odwrotne nie jest prawdziwe! Jeśli ρXY = 0 , to zmienne losowe X i Y nazywamy nieskorelowanymi .

2) Współczynnik korelacji dowolnych dwóch zmiennych losowych X i Y , o ile istnieje, spełnia nierówność |ρXY| ≤ 1 .

3) ρXY = ρYX .

4) ρXX = 1 .

Interpretacja geometryczna współczynnika korelacji.

Twierdzenie:

Współczynnik korelacji zmiennych losowych X i Y spełnia warunek |ρXY| = 1 wtedy i tylko wtedy, gdy istnieją takie stałe a,  b∈ℛ , że

P(Y=aX+b) = 1 .

Linia regresji wyraża „kształt” związku między zmiennymi X i Y . Można określić linię regresji zmiennej Y względem X , jak i linię regresji zmiennej X względem Y . Najczęściej jednak zachodzi związek przyczynowo-skutkowy między zmiennymi, dlatego logicznie uzasadniony jest tylko jeden z tych związków funkcyjnych.

Definicja:

Linią regresji pierwszego rodzaju zmiennej losowej Y względem X nazywamy linię o równaniu y = h(x) = EY|X=x] i analogicznie

linią regresji pierwszego rodzaju zmiennej losowej X względem Y nazywamy linię o równaniu x = g(y) = EX|Y=y] .

Uwaga: Jeśli zmienne losowe X i Y są niezależne i mają wartości oczekiwane odpowiednio równe EX i EY , to

EX|Y=y] = EX   ,     EY|X=x] = EY ,

tzn. , że linie regresji są prostymi równoległymi odpowiednio do osi Ox i Oy.

Przykład.9. Dla zmiennych losowych ( X, Y ) typu ciągłego o gęstości


$$f\left( x,y \right) = \left\{ \begin{matrix} 6xy\left( 2 - x - y \right)\ \ \ dla\ \ \ 0 \leq x \leq 1\ \ \ ,\ \ \ 0 \leq y \leq 1 \\ 0\ \ \ \ \ \ \ \ \ \ \ \ \ dla\ \ pozostalych\ \ \ (x,y) \\ \end{matrix} \right.\ $$

znajdziemy współczynnik korelacji oraz linie regresji pierwszego rodzaju.

Wiemy, że $\mu_{11} = cov\left( X,\ Y \right) = - \frac{1}{144}\ \ \ ,\ \ \ \ \sigma_{X}^{2} = \frac{43}{720}\ \ \ ,\ \ \ \ \sigma_{Y}^{2} = \frac{43}{720}$ , zatem współczynnik korelacji $\rho = \frac{\text{cov}\left( X,Y \right)}{\sigma_{X}\sigma_{Y}} = \frac{- \frac{1}{144}}{\sqrt{\frac{43}{720} \bullet \frac{43}{720}}} = - 0,116$ .

Znając warunkowe wartości oczekiwane, możemy napisać równania regresji pierwszego rodzaju :

zmiennej losowej Y względem X $y = E\left\lbrack Y|X = x \right\rbrack = \frac{5 - 4x}{2\left( 4 - 3x \right)}$ ,

zmiennej losowej X względem Y $x = E\left\lbrack X|Y = y \right\rbrack = \frac{5 - 4y}{2\left( 4 - 3x \right)}$ .

W ogólnym przypadku linie te nie pokrywają się.

Linia regresji pierwszego rodzaju wymaga znajomości warunkowych wartości oczekiwanych, co na ogół nastręcza dużych trudności obliczeniowych.

Toteż w praktyce częściej posługujemy się prostą regresji drugiego rodzaju (prostą regresji przybliżonej).

Definicja: Wartości parametrów a,  b∈ℛ , dla których wyrażenie e = E[YaXb]2 osiąga minimum,

Wyznaczają prostą regresji drugiego rodzaju y = ax + b .

Można wyznaczyć wartości parametrów a,  b korzystając z warunku koniecznego istnienia ekstremum (metoda najmniejszych kwadratów):

$a = \frac{\sigma_{Y}}{\sigma_{X}} \bullet \rho\ \ \ \ \ ,\ \ \ \ \ \ b = EY - \frac{\sigma_{Y}}{\sigma_{X}} \bullet \rho \bullet EX$ .

Prosta regresji drugiego rodzaju zmiennej losowej Y względem X przyjmuje więc postać

$y - EY = \frac{\sigma_{Y}}{\sigma_{X}} \bullet \rho(x - EX)$

i analogicznie prosta regresji drugiego rodzaju zmiennej losowej X względem Y przyjmuje postać

$x - EX = \frac{\sigma_{X}}{\sigma_{Y}} \bullet \rho\left( y - EY \right)\ \ \ \ \ \ \ \Longrightarrow \ \ \ \ \ \ y - EY = \frac{\sigma_{Y}}{\sigma_{X}} \bullet \frac{1}{\rho}(x - EX)$ .

Zauważmy, że współczynniki kierunkowe tych prostych, zwane współczynnikami regresji są odpowiednio równe

$\alpha_{\text{YX}} = \rho \bullet \frac{\sigma_{Y}}{\sigma_{X}}\ \ \ \ \ \ \ ,\ \ \ \ \ \ \ \ \alpha_{\text{XY}} = \frac{1}{\rho} \bullet \frac{\sigma_{Y}}{\sigma_{X}}$ .

Zatem proste te pokrywają się, gdy ρ2 = 1 .

Przykład10. Dla zmiennych losowych ( X, Y ) typu ciągłego o gęstości


$$f\left( x,y \right) = \left\{ \begin{matrix} 6xy\left( 2 - x - y \right)\ \ \ dla\ \ \ 0 \leq x \leq 1\ \ \ ,\ \ \ 0 \leq y \leq 1 \\ 0\ \ \ \ \ \ \ \ \ \ \ \ \ dla\ \ pozostalych\ \ \ (x,y) \\ \end{matrix} \right.\ $$

Wyznaczymy proste regresji drugiego rodzaju zmiennej losowej Y względem X oraz X względem Y.

Dla tego wektora losowego wyznaczyliśmy już wcześniej

$EX = \frac{7}{12}\ \ \ ,\ \ \ \ EY = \frac{7}{12}\ \ \ ,\ \ \ \ \sigma_{X}^{2} = \frac{43}{720}\ \ \ ,\ \ \ \ \sigma_{Y}^{2} = \frac{43}{720}\ \ \ ,\ \ \ \ \rho = - 0,116$ .

Zatem równanie prostej regresji drugiego rodzaju zmiennej Y względem X przyjmuje postać

$y - \frac{7}{12} = \sqrt{\frac{\frac{43}{720}}{\frac{43}{720}}} \bullet \left( - 0,116 \right)\left( x - \frac{7}{12} \right)\ \ \ \ \ \Longrightarrow \ \ \ \ \ y = - 0,116x + 0,651$ ,

zmiennej losowej X względem Y

$y - \frac{7}{12} = \sqrt{\frac{\frac{43}{720}}{\frac{43}{720}}} \bullet \frac{1}{- 0,116}\left( x - \frac{7}{12} \right)\ \ \ \ \ \ \ \Longrightarrow \ \ \ \ \ \ \ \ y = - 8,62x + 5,61$ .


Wyszukiwarka

Podobne podstrony:
(2462) stat mat 02, zootechnika, statystykka
zad ze zbioru stat mat
(2461) stat mat 01, Płyta farmacja Bydgoszcz, statystyka, pozostałe
Stat mat w1
(2469) stat mat
Stat Mat Estym
(2462) stat mat 02, zootechnika, statystykka
stat mat lab4 1
stat mat lab2
stat mat lab4
stat mat lab8
stat mat lab5
stat mat lab4 2
stat mat lab3

więcej podobnych podstron