Elementy statystyki matematycznej wykorzystywane do opracowywania wielkości wyznaczanych
Statystyka matematyczna bada prawidłowości w masowych zjawiskach i procesach przypadkowych (losowych) i opisuje (charakteryzuje) te prawidłowości za pomocą liczb.
Statystyka matematyczna opiera swoje badania na metodach rachunku prawdopodobieństwa. Znaczenie rachunku prawdopodobieństwa dla statystyki matematycznej można porównać ze znaczeniem geometrii dla geodezji. Statystyka matematyczna umożliwia zastosowanie praw rachunku prawdopodobieństwa w praktyce
1. Podstawowe pojęcia statystyki matematycznej
Zagadnienia statystyczne polegają najczęściej na tym, że na podstawie cech odpowiednio wybranej części elementów, należących do pewnej zbiorowości, wysuwane są wnioski dotyczące rozważanych cech dla pozostałych, nieznanych elementów tej zbiorowości.
Populacją generalną nazywamy zbiorowość, której elementy obserwujemy.
Populacją próbną lub próbką nazywamy zespół pewnej części elementów populacji generalnej.
Cechy podlegające badaniom statystycznym dzielą się na cechy mierzalne i cechy niemierzalne.
Cechą mierzalną nazywamy taką cechę, która daje się wyrazić za pomocą liczby , uzyskanej w wyniku pomiaru lub policzenia. Wartości zarejestrowane w trakcie badania statystycznego nazywają się obserwacjami statystycznymi.
Uporządkowany zbiór obserwacji statystycznych według wartości rosnących nazywa się statystycznym szeregiem uporządkowanym.
W badaniach statystycznych najczęściej wykorzystuje się szereg rozdzielczy utworzony z przedziałów liczbowych, zwanych przedziałami klasowymi lub klasami, do których zalicza się poszczególne obserwacje. Liczby określające zabiegi poszczególnych przedziałów klasowych noszą nazwę granic przedziałów klasowych.
Środkiem przedziału klasowego nazywamy połowę sumy granic przedziałów danej klasy.
Liczbę obserwacji zaliczanych do danej klasy nazywamy liczebnością klasy lub częstością. Stosunek liczebności danej klasy do liczebności całego szeregu rozdzielczego jest częstotliwością względną klasy. Szereg rozdzielczy nazywa się inaczej rozkładem empirycznym.
Rozkład empiryczny jest odpowiednikiem rozkładu teoretycznego w populacji generalnej.
Badanie statystyczne można podzielić na dwa rodzaje:
badania wyczerpujące - oparte na całej populacji generalnej,
badania częściowe - oparte na populacji próbnej.
Ze względu na to, że wnioski wyciągnięte na podstawie badania częściowego są uogólniane na populację generalną, próbka musi dobrze reprezentować całą populację, czyli musi być próbką reprezentatywną.
Próbka reprezentatywna musi spełniać następujące warunki:
każdy element populacji powinien mieć jednakową szansę trafienia do próbki,
próbka powinna być dostatecznie liczna.
Parametry obliczane na podstawie próbki noszą nazwę parametrów empirycznych i są używane do oszacowania (estymacji) parametrów populacji generalnej.
Do najczęściej używanych w wycenie nieruchomości parametrów empirycznych zaliczamy:
empiryczną wartość oczekiwaną x‾,
empiryczną wariancję s2 i odchylenie standardowe s,
empiryczne momenty y, które wykorzystuje się do obliczania:
empirycznego współczynnika skośności g1,
empirycznego współczynnika spłaszczenia g2,
empirycznego współczynnika korelacji r.
2. Estymacja parametrów zmiennych losowych
Postępowanie przy oszacowywaniu nieznanego parametru Q na podstawie populacji próbnej polega na tym, że wyznaczamy z próbki wartość q pewnej funkcji:
Q = U (x1, x2, .... , xn),
której rozkład zależy od tego parametru i wartość q przyjmujemy za oszacowanie nieznanego parametru. Jest to estymacja punktowa.
Można również poszukiwać pewnych przedziałów zawierających nieznany parametr, a wówczas mówimy o estymacji przedziałowej.
Estymator punktowy wyznaczony za pomocą próbki o małej liczebności, może znacznie różnić się od ocenianego parametru. Z tego też względu, przy małej liczbie obserwacji należy oprócz estymatorów punktowych, wyznaczyć estymatory przedziałowe.
Załóżmy że, Q jest estymatorem parametru Q. Estymator stanowi tym lepsze przybliżenie parametru Q im mniejsza jest bezwzględna wartość różnicy │Q-Q│.
Estymację można zapisać w postaci nierówności:
│ Ô -Q│< ε ( x)
gdzie liczbę ε charakteryzuje dokładność estymatora.
Dysponując próbką nie jesteśmy w stanie wyznaczyć wartości ε, przy której z całą pewnością będzie spełniona nierówność (....x).
Możemy jedynie mówić o prawdopodobieństwie γ, z jakim zachodzi nierówność. Możemy to zapisać:
P (│Ô-Q│´< ε ) = P (Ô -ε < Q < Ô + ε) = γ
Przedział (Ô -ε , Ô + ε) nazywamy przedziałem ufności, a wartość prawdopodobieństwa γ - poziomem ufności.
Wartości prawdopodobieństwa γ przyjmowane są zwykle a priori. Najczęściej stosowanymi poziomami ufności są następujące wartości:
γ = 0,90, 0,95, 0,99, 0,9999.
W teorii estymacji wyróżnia się kilka grup estymatorów np. estymatory zgodne, nieobciążone, asymptotycznie nieobciążone, najefektywniejsze, asymptotycznie najefektywniejsze.
Istnieją opracowane metody ich wyznaczania np. metoda momentów, największej wiarygodności, najmniejszych kwadratów.
Szeroko stosowaną przy opracowywaniu (wyrównywaniu) wyników pomiarów geodezyjnych jest metoda najmniejszych kwadratów. Opiera się ona na następujących założeniach:
wyniki pomiaru Li = xi można uważać za sumę wartości prawdziwej Lp = a oraz błędu εi
xi = a + εi
należy dobrać takie wielkości ε i = - vi, aby suma kwadratów błędów była
najmniejsza
i=n i=n
∑ vi2 = ∑ (xi - a )2 = min
i=1 i=1
2.1. Oszacowanie wartości oczekiwanej
Estymatorem wartości oczekiwanej E(x) zmiennej losowej x jest empiryczna wartość oczekiwana
_ 1 i=n
x = — ∑ xi
n i=1
_
Empiryczna wartość oczekiwana x zwana średnią arytmetyczną jest estymatorem punktowym. W celu lepszego przybliżenia estymatora do jego wyznaczenia wykorzystamy estymację przedziałową. Do wyznaczenia granic przedziału, w którym będzie znajdowała się estymowana wartość odchylenia standardowego σ.
W praktyce występują dwa przypadki oszacowania wartości oczekiwanej E(x), tzn. jest znane i nieznane odchylenie standardowe σ.
2.1.1. Oszacowanie wartości oczekiwanej E(x) przy znanym odchyleniu standardowym
Znamy empiryczne wartości x1, x2, .... , xn, będące wynikiem pomiarów. Wyniki pomiarów podlegają rozkładowi normalnemu. Należy oszacować wartość oczekiwaną E(x) zmiennej losowej x przy pomocy przedziałów ufności, jeżeli jest wcześnie założone lub znane odchylenie standardowe σ. Należy określić dolną i górną granicę przedziału („Gd” i „Gg” ), w którym z przyjętym poziomem ufności γ znajdzie się oszacowana wartość oczekiwaną E(x), co możemy zapisać
P (Gd ≤ E(x) ≤ Gg) = γ
Lub zilustrować
Rys.
Jeżeli zmienne xi mają jednakowy rozkład normalny N (E (x), σ ), to średnia
_
arytmetyczna x, będąca estymatorem wartości oczekiwanej ma rozkład normalny
σ
N ( E(x), — ).
√n
_
Standaryzując średnią arytmetyczną x, otrzymamy
_
x - E (x) _
W = ————— = (x - E(x) / σ / √n ),
σ
—
√n
mającej rozkład normalny N (0,1), dla którego są opracowane tablice gęstości i dystrybuanty.
Można znaleźć taką wartość Ag = Wg, dla której
_
│x - E (x) │ _ σ
P (│W│≤ Ag ) = P ( ———— ≤ Ag ) = P (│x - E (x)│ ≤ Ag — ) = γ (x)
σ / √n √n
_ σ
Nierówność │x - E (x)│ ≤ Ag — można rozpisać
√n
_ σ σ
x - Ag — ≤ E(x) ≤ x + Ag — (y)
√n √n
Wstawiając (y) do (x) otrzymujemy
_ σ _ σ
P ( x - Ag — ≤ E(x) ≤ x + Ag — ) = γ = 1 - α
√n √n
Takim sposobem określiliśmy granice przedziału
_ σ
Gd = x - Ag —
√n
_ σ
Gg = x + Ag —
√n
gdzie Ag odczytujemy z tablicy dystrybuanty rozkładu N(0, 1).
Przykład a.
Określić przedział ufności oszacowania wartości oczekiwanej E (x) na podstawie
_ _
średniej arytmetycznej x, przy założonym poziomie ufności γ = 0, 95, jeżeli x1 = 35,9" i
_
x2 = 35,7" oraz n = 7.
Rozwiązanie
Z tablicy dystrybuanty N (0,1) odczytujemy Ag = 1,96
Ag σ / √n ≈ 0,5"
Przedziały ufności
35,9" - 0,5" ≤ E(x1) ≤ 35,9" + 0,5"
35,7" - 0,5" ≤ E(x2) ≤ 35,7" - 0,5"
Przykład b.
Określić przedział ufności oszacowania wartości oczekiwanej E (x) na podstawie średniej
_
arytmetycznej x, przy założonym poziomie ufności γ = 0, 99, jeżeli x1 = 27,2" i
_
x2 = 27,2", n = 12 oraz σ = 1,1".
Rozwiązanie
Aβ = 2,58
Ag σ / √n´ ≈ 0,8"
Przedziały ufności
26,4" ≤ E(x) ≤ 28,0" .
2.1.2. Oszacowanie wartości oczekiwanej E(x) przy nieznanym odchyleniu standardowym σ
Znane są wartości x1, x2, .... , xn, będące wynikiem pomiarów. Wyniki pomiarów podlegają rozkładowi normalnemu. Należy oszacować wartość oczekiwaną E(x) zmiennej losowej x, przy pomocy przedziałów ufności, jeżeli nie znamy teoretycznej wartości odchylenia standardowego. W tej sytuacji nie możemy wykorzystać wzoru służącego do określenia przedziału.
W tym przypadku w pierwszej kolejności należy wyznaczyć wartość oczekiwaną
_
x oraz empiryczne odchylenie standardowe ˆσ(s).
1 i=n _
ˆσ = √ — ∑ (xi - x ) ²
n i=1
_
standaryzacja średniej arytmetycznej x na podstawie empirycznego odchylenia standardowego ˆσ posiada rozkład t Studenta, którego zmienną określa się wzorem
_ _
x - E (x) x - E (x)
t = ———— = √ n- 1 ( ————— ).
ˆσ / √ n- 1 ˆσ
Można znaleźć taką wartość Ag = tg,n-1, że
_
x - E(x)
P (- Ag ≤ √n -1 ———— ≤ Ag ) = γ
ˆσ
Przedział ufności wartości oczekiwanej zapisuje się w postaci
_ ˆσ _ ˆσ
P ( x - Ag — ≤ E(x) ≤ x + Ag — ) = γ
√n-1 √n-1
lub
_ _
P ( x - Ag mx ≤ E(x) ≤ x + Ag mx ) = γ (2)
gdzie
_
x - średnia arytmetyczna,
mx -błąd średni pojedynczej zmiennej losowej,
mx
mx = —— - błąd średni średniej arytmetycznej
√n
[vv]
mx = √——
n-1
_
vi = xi - x.
Przykład
Określić przedział ufności oszacowania wartości oczekiwanej E (x) na podstawie
_ _
średniej arytmetycznej x, przy założonym poziomie ufności γ = 0, 95, jeżeli x1 = 35,9" i
_
x2 = 35,7" oraz n = 7.
Rozwiązanie
Z tablicy dystrybuanty rozkładu t Studenta odczytujemy, a na podstawie γ lub α = 1- γ i ilości stopni swobody k = n-1 Ag = 2,447 ≈ 2,45
Ag σ / √n-1 = 0,8"
Przedziały ufności
P ( 35,1" ≤ E(x1) ≤ 36,7") = 0,95
2.1.3. Oszacowanie ilości pomiarów potrzebnych do oszacowania wartości oczekiwanej E(x) z zakładaną dokładnością
Jeżeli mamy założoną dokładność z jaką mamy określić szacowaną wartość oczekiwaną, to możemy zapisać to założenie w postaci nierówności
_
P ( │E(x) - x│ ≤ εx ) = γ (a)
Z układu równań (2) i (a) mamy
_
x - Ag mx ≤ E(x)
_
- Ag mx ≤ E(x) - x
oraz │E(x) - x│ ≤ εx
Ag mx ≤ εx
mx
Ag —— ≤ εx
√n
Ag ² mx²
n ≥ ———
εx²
Zakładając stosunek dokładności oszacowania wartości oczekiwanej do wartości średniego błędu pojedynczego pomiaru
εx
qx = ——
mx
określamy ilość pomiarów potrzebnych do oszacowania wartości oczekiwanej
Ag ²
n ≥ ———
qx ²
1 1
W praktyce najczęściej za wartość qx przyjmuje się wartość z przedziału (— : — ).
5
Przykład
Wyznaczyć niezbędną ilość pomiarów potrzebnych do oszacowania wartości oczekiwanej z poziomem ufności 0,99, jeżeli wiadomo, że
εx 1
qx = —— = —
mx 3
Rozwiązanie
Wyznaczamy przybliżoną wartość Ag z tablicy dystrybuanty rozkładu N (0, 1)
Wg ≈2,58
Obliczamy przybliżoną ilość pomiarów
Ag ²
n ≥ —— = 60
qx ²
Wyznaczamy ostateczną wartość Ag z tablicy dystrybuanty rozkładu t Studenta
tg = 2,66
Obliczamy ostateczną ilość pomiarów
tg ²
n ≥ —— = 64
qx ²
2.2. Oszacowanie odchylenia standardowego
Nieobciążonym estymatorem wariancji jest kwadrat błędu średniego
N 1 i=n
mx² = —— s² = —— ∑ (xi - a )2 ²
n-1 n-1 i=1
s = σˆ
_
W punkcie 5.2.1. stwierdziliśmy, że średnia arytmetyczna x posiada rozkład normalny
σ
N (E(x), — ).
√n
_
Aby stwierdzić niezależność rozkładów średniej arytmetycznej x i kwadratu błędu
_
średniego mx², należy dowieść, że rozkład średniej arytmetycznej x nie zależy od kwadratu
błędu średniego mx², a poza tym należy znaleźć rozkład kwadratu błędu średniego mx².
W celu rozwiązania tego problemu przeprowadzimy następujące postępowanie:
Obliczamy scentrowane wartości parametrów
Y = X - E(x)
stąd
_
yi = xi - x.
Scentrowane wartości pomiarów podlegają rozkładowi N (0, σ), a standaryzowane wartości pomiarów określamy wzorem
x- E(x)
W = ———
σ (x)
stąd
_
xi - x
wi = ———
σ (x)
podlegają rozkładowi normalnemu N (0, 1).
Suma kwadratów standaryzowanych wartości pomiarów tworzy nową zmienną, będącą zmienną rozkładu χ² o n-1 stopniach swobody.
χk² = w1² + w2² + ..... + wn²
k= n-1
Wstawiając do wzoru (t) wartości wyrażone wzorem 2) otrzymujemy
_ _ _
x1 - x x2 - x xi - x
χk² = ( ———)² + ( ———)² + .......... ( ———)² =
σ (x) σ (x) σ (x)
1 _ 1 i=n (n-1) ² mx²
= ——— ∑ ( xi - x)² = ——— ∑ ( xi - x)² *——— = ——— * (n-1) =
σ (x) ² σ (x) ² i=1 (n-1) σ (x) ²
mx²
= ——— * k
σ (x) ²
Wielkość mx² (n-1)/ σ (x) ² posiada rozkład χ² o (n-1) =k stopniach swobody.
χk² = k* mx²/ σ²(x).
2.2.1. Określenie przedziału ufności odchylenia standardowego
Dla takiej zmiennej χk² utworzymy przedział ufności
P (χd² ≤ χk² ≤ χg²) = γ
Przy określaniu wartości χd² i χg² wykorzystujemy następujące założenia:
α = 1 - γ
1 - γ
αd = ———
2
1 - γ
αg = ———
2
Wartości χd² i χg² odczytuje się z tablic rozkładu χ² na podstawie αd i αg oraz ilości stopni swobody k = n - 1.
Przedział ufności dla odchylenia standardowego wyznaczamy z zależności
mx²
P (χd² ≤ ———* k ≤ χg²) = γ
σ² (x)
Stosując przekształcenie, otrzymujemy
k k
P(mx √—— ≤ σ ≤ mx √ —— ) = γ
χg² χd²
Przykład
Określenie przedział odchylenia standardowego, z założonym przedziałem ufności γ = 0,96, pomiaru kąta poziomego teodolitem, jeżeli liczba obserwacji n = 7 i k* mx² = 3,45.
Rozwiązanie
Określamy wartość
α = 1 - γ = 0,04
1 - γ
αd = ——— = 0,02
2
1 - γ
αg = ——— = 0,98
2
Odczytujemy z tablic rozkładu χ² wartości χd² i χg² na podstawie αd i αg oraz ilości stopni swobody k = n - 1 = 6 oraz prawdopodobieństwa
Pd = 0,02 i Pg = 0,98
χd² = 1,13
χg² = 15,03
Podstawiając dane liczbowe do wzoru x obliczamy przedział ufności odchylenia standardowego
0,48˝≤ σ ≤ 1,75˝
2.2.2. Ustalenie koniecznej pomiarów potrzebnych do oszacowania odchylenia standardowego
Jeżeli mamy założoną dokładność z jaką mamy określić szacowane odchylenie standardowe (błąd średni pomiaru - oszacowania), to możemy utworzyć nierówność
│ σ (x) - mx │ ≤ εm (5.0)
Nierówność określająca pewien przedział może być przedstawiona za pomocą przedziału ufności
P ( │ σ (x) - mx │ ≤ εm ) = γ (5.a)
Traktując σ (x) jako wartość oczekiwaną przy nieznanym odchyleniu σ σ(x) można wykorzystać przedział ufności zdefiniowany wzorem
(2)
P ( mx - Ag mm ≤ σ (x) ≤ mx + Ag mm) = γ
Gdzie
mx - błąd średni pojedynczego pomiaru - oszacowania,
mm- błąd średni błędu średniego
mx
mm = —— (b)
√2n
Po uwzględnieniu zależności (b) przedział ufności zapiszemy wzorem:
mx mx
P ( mx - Ag —— ≤ σ (x) ≤ mx + Ag —— ) = γ (5.c)
√2n √2n
Rozpatrując lewą stronę wzoru (5.c) należy zapisać
mx
- Ag —— ≤ σ (x) - mx (5.d)
√2n
Porównując wzór (5.d) z wzorem (5.0) można napisać nierówność
mx²
Ag² —— ≤ εm² (5.e)
2n
stąd
mx²
n ≥ —— * Ag² (5.f)
2 εm²
εm
W praktyce najczęściej określa się stosunek qm = ——
1 1 mx
przyjmując qm = ( — -:- — ).
3 10
Ilość koniecznych pomiarów określa się wzorem
Ag²
n ≥ —— (5.h)
2 qm
gdzie wartość współczynnika Ag się jako wartość zmiennej losowej rozkładu N (0, 1) odpowiadającej prawdopodobieństwu γ.
Przykład
Wyznaczyć konieczną liczbę n obserwacji w celu określenia dokładności (błędu
εm
średniego) odchylenia standardowego, jeżeli qm = —— = 0,1 przy prawdopodobieństwie
mx
γi = 0,90, 0,95, 0,99.
Rozwiązanie
Z tablic rozkładu N (0, 1) wyznaczamy wartość Agi
Ag1 = 1,64
Ag2 = 1,96
Ag3 = 2,58
Według wzoru (5.h) otrzymujemy
1,64²
n1 = nδ ≥ —— = 135
2*0,1²
1,96²
n2 = nδ ≥ —— = 192
2*0,1²
2,58²
n3 = nδ ≥ —— = 333
2*0,1²
2.3. Oszacowanie współczynników skośności i spłaszczenia
W punkcie 3 wprowadziliśmy pojęcie teoretycznego współczynnika skośności γ1 i spłaszczenia γ2. Estymatorami tych parametrów są:
empiryczny współczynnik skośności
μ3
g1 = S = ——
m³
oraz empiryczny współczynnik spłaszczenia
μ4
g2 = e = —— - 3
m4
Empiryczny moment centralny rzędu obliczamy ze zbioru xi według wzoru
1 i=n
μ4 = — ∑ ( xi - x ‾ ) k
n i=1
Empiryczne współczynniki mają takie same własności jak współczynniki teoretyczne. Nie ma prostych sposobów konstruowania przedziałów ufności dla parametrów g1 i g2, natomiast przybliżone oszacowanie równości g1 = γ1 i g2 = γ2 może być dokonane punktowo za pomocą średnich błędów parametrów empirycznych. Średnie błędy skośności i spłaszczenia są określane wzorami
6 (n-1) 6 6
ms² = —————— ≈—— ≈ ——
(n+1) (n+3) n+3 n
24n (n-2)(n-3) 24(n-3)
me² = ——————— ≈ —————
(n+1) ² (n+3)(n+5) (n+3)(n+5)
Posługując się wyżej przytoczonymi wzorami na ms i me trzeba pamiętać, że oparte są one o założenie normalności rozkładu wielkości S i e, a założenie to jest tym bliższe rzeczywistości, im większa jest liczba n elementów zbioru empirycznego.
Ocena empirycznych współczynników skośności i spłaszczenia, to znaczy, czy istnieje podstawa do przyjęcia lub odrzucenia hipotezy γ1 = 0 i γ2 = 0, opiera się na bezpośrednim porównaniu wartości S i e z ich średnimi błędami. Jeżeli moduł parametru S lub e przekracza A - krotnie jego średni błąd, wtedy wartość tego parametru uznajemy za istotną. Współczynnik A związany jest z poziomem ufności γ lub z poziomem istotności α = 1- γ, przy założeniu normalności rozkładu.
│S │> A ms
│e │> A me
Takie postępowanie uważa się za uzasadnione przy n > 50. Widujew [ ] podaje konkretne wartości współczynników obliczone na podstawie nierówności Czebyszewa.
│S │> 3ms
│e │> 5 me
Praktyczne wykorzystanie empirycznych współczynników skośności i spłaszczenia rozpatrzone zostanie w dalszej części tego rozdziału (p.5).
2.4. Oszacowanie współczynnika korelacji
Estymatorem współczynnika korelacji ςxy jest empiryczny współczynnik korelacji rxy o postaci
1 i=n
— ∑ ( xi - x ‾ ) ( yi - y ‾ )
μ‾11 n i=1
ςxy = rxy = ———— = ———————————
sx * sy mx * my
gdzie
1
mx = √——∑ ( xi - x ‾ )²
n-1
1
my = √——∑ ( yi - y ‾ )²
n-1
Przy dużej liczebności par obserwacyjnych () można wykorzystać przybliżoną postać wzoru
∑ ( xi - x ‾ ) ( yi - y ‾ )
rxy = ———————————————
{∑ ( xi - x ‾ )² }½ {∑ ( yi - y ‾ )}½
Pojawia się pytanie, jaką wartość rxy możemy uważać za istotną, to znaczy potwierdzającą lub zaprzeczającą zależność korelacyjną.
Nie ma uniwersalnej, teoretycznie ścisłej odpowiedzi na to pytanie.
Jedną z mało precyzyjnej jest odpowiedź oparta na wartości modułu współczynnika bez uwzględnienia liczebności zbioru empirycznego, z którego ten współczynnik został wyznaczony.
Przyjmuje się następujące rozwiązanie:
0 ≤│ rxy │< 0,3 nie zachodzi korelacja
0,3 ≤│ rxy │< 0,7 słaba korelacja
0,7 ≤│ rxy │< 1 silna korelacja
Przy dużej liczebności próbki (n ≥ 500) rozkład zmiennej r jest zbieżny do rozkładu normalnego (ale zbieżność ta jest bardzo powolna) i dla takiego rozkładu podstawowe parametry mają następującą postać:
(1- ς2)2 1- ς2
E(r) ≈ ς ; V(r) = ————; б (r) ≈ ————
n √ n
Przy założeniu, że liczebność próbki była duża przedział ufności dla oszacowania współczynnika korelacji ς xy można wyznaczyć z zależności:
1- rxy 2 1- rxy 2
P ( rxy - Aγ * ———— ) ≤ ( rxy + Aγ * ———— ) = γ
√ n √ n
W istocie chodzi nam jedynie o wyznaczenie krytycznej wartości rxy informującej o istnieniu zależności.
Widujew [ ] uważa, że przy n ≥ 50 w zagadnieniach geodezyjnych należy zastosować jako wartość krytyczną trzykrotność średniego błędu mr, czyli korelacją uważa się za udowodnioną, gdy zachodzi relacja
1- r2
│ rxy │> 3 mr , czyli │ rxy │> 3 ——
√ n
Ponieważ rozkład empiryczny rxy zależy od wartości współczynnika korelacji ς oraz od liczebności próbki, a przy n ≥ 5 rozkład empiryczny dąży raczej wolno do rozkładu normalnego, oszacowanie wzorem ( ) jest mało dokładne. Zależność ilustrują rysunki.
R. A. Fisher [ ] wprowadził funkcję
1+r
z = 0,5 ln —— , czyli r= th z* ,
1-r
której rozkład można zastąpić rozkładem normalnym o parametrach
1+r r 1 1
E (z) = 0,5 ln —— + —— ; V(z) = —— , б (z) = ——
1-r 2(n-1) n-3 √n-3
_________________________
*Bywa też stosowane przekształcenie Fishera z użyciem logarytmów dziesiętnych
1+r
z = 0,5 log ——
1-r
Dla parametru z przedział ufności ma postać
P ( z - Aγ* σ (z) ≤ Z ≤ z + Aγ σ (z) ) = γ
Wartości z są wartościami stablicowanymi.
2.5 Oszacowanie parametrów regresji liniowej
Równanie prostej regresji zmiennej y względem x oraz x względem y zapisuje się następująco:
y = E(y) + ayx (x- E(x))
x = E(x) + axy (y- E(y))
Współczynniki nachylenia prostej wyznacza się ze wzorów:
my ∑ ( xi - x ‾ ) ( yi - y ‾ )
ayx = rxy * ——— = ———————————
mx ∑ ( xi - x ‾ )2
mx ∑ ( xi - x ‾ ) ( yi - y ‾ )
axy = rxy * ——— = ———————————
my ∑ ( yi - y ‾ )2
Przy założeniach:
niezależności wyznaczenia każdej z par (xi, yi);
istnienia identycznej korelacji pomiędzy zmiennymi x i y w całym procesie wyznaczania danego zbioru empirycznego;
dużej liczebności zbioru empirycznego,
można przyjąć, że współczynniki ayx, axy mają rozkład normalny o średnich błędach wyrażonych wzorami:
my 1-rxy2
mayx = ——— * ———
mx √n
mx 1-rxy2
maxy = ——— * ———
my √n
Przedział ufności dla parametru Ayx wyraża się wzorem:
P (ayx - Aγ* mayx ≤ Ayx ≤ ayx + Aγ mayx ) = γ
Do konstrukcji przedziałów ufności dla regresji liniowej dwóch zmiennych wykorzystuje się następujące wielkości:
xi, yi - wartości zaobserwowane;
x‾, y‾ - wartości oczekiwane (średnie);
xˆi, ŷi - wartości oszacowane.
Równanie regresji y względem x zapiszemy
ŷ = y‾ + ayx ( x - x ‾ )
Zależność pomiędzy wartościami zaobserwowanymi, oczekiwanymi i oszacowanymi określa się następującymi wyrażeniami:
yi - y‾ = vi - odchylenie i-tej obserwacji wartości średniej;
yi - ŷi = ei - odchylenie i-tej obserwacji wartości przewidywanej (zmienna resztowa);
ŷi - y‾ = ci -odchylenie i-tej przewidywanej wartości od wartości średniej.
Estymatorami wariancji (kwadrat błędu średniego) są sumy kwadratów vi, ei, ci podzielone przez odpowiednią liczbę stopni swobody.
[vv]
V(my‾ 2) = —— - wariancja średniej,
n-1
[ee] (1-r2) [vv]
Vyx(mŷ 2) = —— = ———— - wariancja oszacowanej wartości y (wartość resztowa)
n-2 n - 2
VR = [cc] - wariancja w regresji.
Raz obliczoną wariancję resztową Vyx(my2) można wykorzystać do obliczenia empirycznych wariancji
mayx2 i my‾ 2.
my2
mayx2 = ————
∑ ( xi - x ‾ )2
my
my‾ = ——
√n
Przyjmując poziom ufności γ, możemy skonstruować przedział ufności wartości przeciętnej zmiennej y
P (y‾ - tγ* my‾ ≤ E(y) ≤ y‾ + tγ* my‾) = γ.
Przedział ufności dla dowolnej estymowanej wartości, przy ustalonej wartości x tworzy się następująco:
oblicza się wariancję empiryczną wzorem
1 ( x0 - x ‾ )2
mŷx0 2 = my2 [ 1 + — + ————— ]
A ∑ ( xi - x ‾ )2
dla przyjętego poziomu ufności γ tworzy się przedział
P (ŷ - tγ* mŷ ≤ ŷ ≤ ŷ + tγ* mŷ) = γ.
Przedziały ufności można konstruować graficznie:
Przez punkt o współrzędnych (x‾, y‾) kreślimy prostą regresji o wyznaczonym równaniu: y = E(y) + ayx (x-E(x)).
Przez tenże punkt prowadzimy następnie dwie graniczne proste, przyjmując kolejno najmniejszą i największą wartość współczynnika ayx.
Przez punkt o współrzędnych (x‾, y‾) prowadzimy pionowo (wzdłuż osi y) odcinek o długości równej szerokości przedziału ufności przeciętnej wartości y‾.
Przez końce przedziałów prowadzimy krzywe asymptotyczne do prostych o minimalnym i maksymalnym granicznym współczynniku nachylenia.
Obszar zawarty pomiędzy tymi asymptotami jest obszarem ufności regresji. Przedział ufności w dowolnym punkcie regresji jest to odcinek prostopadły do prostej, którego końcami są punkty leżące na asymptotach.
1
5