Elementy statystyki matematycznej wykorzystywane do opracowywania wielkości wyznaczanych, Geodezja i Kartografia, Statystyka

Elementy statystyki matematycznej wykorzystywane do opracowywania wielkości wyznaczanych

Statystyka matematyczna bada prawidłowości w masowych zjawiskach i procesach przypadkowych (losowych) i opisuje (charakteryzuje) te prawidłowości za pomocą liczb.

Statystyka matematyczna opiera swoje badania na metodach rachunku prawdopodobieństwa. Znaczenie rachunku prawdopodobieństwa dla statystyki matematycznej można porównać ze znaczeniem geometrii dla geodezji. Statystyka matematyczna umożliwia zastosowanie praw rachunku prawdopodobieństwa w praktyce

1. Podstawowe pojęcia statystyki matematycznej

Zagadnienia statystyczne polegają najczęściej na tym, że na podstawie cech odpowiednio wybranej części elementów, należących do pewnej zbiorowości, wysuwane są wnioski dotyczące rozważanych cech dla pozostałych, nieznanych elementów tej zbiorowości.

Populacją generalną nazywamy zbiorowość, której elementy obserwujemy.

Populacją próbną lub próbką nazywamy zespół pewnej części elementów populacji generalnej.

Cechy podlegające badaniom statystycznym dzielą się na cechy mierzalne i cechy niemierzalne.

Cechą mierzalną nazywamy taką cechę, która daje się wyrazić za pomocą liczby , uzyskanej w wyniku pomiaru lub policzenia. Wartości zarejestrowane w trakcie badania statystycznego nazywają się obserwacjami statystycznymi.

Uporządkowany zbiór obserwacji statystycznych według wartości rosnących nazywa się statystycznym szeregiem uporządkowanym.

W badaniach statystycznych najczęściej wykorzystuje się szereg rozdzielczy utworzony z przedziałów liczbowych, zwanych przedziałami klasowymi lub klasami, do których zalicza się poszczególne obserwacje. Liczby określające zabiegi poszczególnych przedziałów klasowych noszą nazwę granic przedziałów klasowych.

Środkiem przedziału klasowego nazywamy połowę sumy granic przedziałów danej klasy.

Liczbę obserwacji zaliczanych do danej klasy nazywamy liczebnością klasy lub częstością. Stosunek liczebności danej klasy do liczebności całego szeregu rozdzielczego jest częstotliwością względną klasy. Szereg rozdzielczy nazywa się inaczej rozkładem empirycznym.

Rozkład empiryczny jest odpowiednikiem rozkładu teoretycznego w populacji generalnej.

Badanie statystyczne można podzielić na dwa rodzaje:

badania wyczerpujące - oparte na całej populacji generalnej,
badania częściowe - oparte na populacji próbnej.

Ze względu na to, że wnioski wyciągnięte na podstawie badania częściowego są uogólniane na populację generalną, próbka musi dobrze reprezentować całą populację, czyli musi być próbką reprezentatywną.

Próbka reprezentatywna musi spełniać następujące warunki:

każdy element populacji powinien mieć jednakową szansę trafienia do próbki,
próbka powinna być dostatecznie liczna.

Parametry obliczane na podstawie próbki noszą nazwę parametrów empirycznych i są używane do oszacowania (estymacji) parametrów populacji generalnej.

Do najczęściej używanych w wycenie nieruchomości parametrów empirycznych zaliczamy:

empiryczną wartość oczekiwaną x‾,
empiryczną wariancję s² i odchylenie standardowe s,
empiryczne momenty y, które wykorzystuje się do obliczania:

empirycznego współczynnika skośności g¹,
empirycznego współczynnika spłaszczenia g²,
empirycznego współczynnika korelacji r.

2. Estymacja parametrów zmiennych losowych

Postępowanie przy oszacowywaniu nieznanego parametru Q na podstawie populacji próbnej polega na tym, że wyznaczamy z próbki wartość q pewnej funkcji:

Q = U (x₁, x₂, .... , x_n),

której rozkład zależy od tego parametru i wartość q przyjmujemy za oszacowanie nieznanego parametru. Jest to estymacja punktowa.

Można również poszukiwać pewnych przedziałów zawierających nieznany parametr, a wówczas mówimy o estymacji przedziałowej.

Estymator punktowy wyznaczony za pomocą próbki o małej liczebności, może znacznie różnić się od ocenianego parametru. Z tego też względu, przy małej liczbie obserwacji należy oprócz estymatorów punktowych, wyznaczyć estymatory przedziałowe.

Załóżmy że, Q jest estymatorem parametru Q. Estymator stanowi tym lepsze przybliżenie parametru Q im mniejsza jest bezwzględna wartość różnicy │Q-Q│.

Estymację można zapisać w postaci nierówności:

│ Ô -Q│< ε ( x)

gdzie liczbę ε charakteryzuje dokładność estymatora.

Dysponując próbką nie jesteśmy w stanie wyznaczyć wartości ε, przy której z całą pewnością będzie spełniona nierówność (....x).

Możemy jedynie mówić o prawdopodobieństwie γ, z jakim zachodzi nierówność. Możemy to zapisać:

P (│Ô-Q│´< ε ) = P (Ô -ε < Q < Ô + ε) = γ

Przedział (Ô -ε , Ô + ε) nazywamy przedziałem ufności, a wartość prawdopodobieństwa γ - poziomem ufności.

Wartości prawdopodobieństwa γ przyjmowane są zwykle a priori. Najczęściej stosowanymi poziomami ufności są następujące wartości:

γ = 0,90, 0,95, 0,99, 0,9999.

W teorii estymacji wyróżnia się kilka grup estymatorów np. estymatory zgodne, nieobciążone, asymptotycznie nieobciążone, najefektywniejsze, asymptotycznie najefektywniejsze.

Istnieją opracowane metody ich wyznaczania np. metoda momentów, największej wiarygodności, najmniejszych kwadratów.

Szeroko stosowaną przy opracowywaniu (wyrównywaniu) wyników pomiarów geodezyjnych jest metoda najmniejszych kwadratów. Opiera się ona na następujących założeniach:

wyniki pomiaru L_i = x_i można uważać za sumę wartości prawdziwej L_p = a oraz błędu ε_i

x_i = a + ε_i

należy dobrać takie wielkości ε i = - vi, aby suma kwadratów błędów była

najmniejsza

i=n i=n

∑ v_i² = ∑ (x_i - a )² = min

i=1 i=1

2.1. Oszacowanie wartości oczekiwanej

Estymatorem wartości oczekiwanej E(x) zmiennej losowej x jest empiryczna wartość oczekiwana

_ 1 i=n

x = — ∑ x_i

n i=1

Empiryczna wartość oczekiwana x zwana średnią arytmetyczną jest estymatorem punktowym. W celu lepszego przybliżenia estymatora do jego wyznaczenia wykorzystamy estymację przedziałową. Do wyznaczenia granic przedziału, w którym będzie znajdowała się estymowana wartość odchylenia standardowego σ.

W praktyce występują dwa przypadki oszacowania wartości oczekiwanej E(x), tzn. jest znane i nieznane odchylenie standardowe σ.

2.1.1. Oszacowanie wartości oczekiwanej E(x) przy znanym odchyleniu standardowym

Znamy empiryczne wartości x₁, x₂, .... , x_n, będące wynikiem pomiarów. Wyniki pomiarów podlegają rozkładowi normalnemu. Należy oszacować wartość oczekiwaną E(x) zmiennej losowej x przy pomocy przedziałów ufności, jeżeli jest wcześnie założone lub znane odchylenie standardowe σ. Należy określić dolną i górną granicę przedziału („G_d” i „G_g” ), w którym z przyjętym poziomem ufności γ znajdzie się oszacowana wartość oczekiwaną E(x), co możemy zapisać

P (G_d ≤ E(x) ≤ G_g) = γ

Lub zilustrować

Rys.

Jeżeli zmienne xi mają jednakowy rozkład normalny N (E (x), σ ), to średnia

arytmetyczna x, będąca estymatorem wartości oczekiwanej ma rozkład normalny

N ( E(x), — ).

√n

Standaryzując średnią arytmetyczną x, otrzymamy

x - E (x) _

W = ————— = (x - E(x) / σ / √n ),

—

√n

mającej rozkład normalny N (0,1), dla którego są opracowane tablice gęstości i dystrybuanty.

Można znaleźć taką wartość A_g = W_g, dla której

│x - E (x) │ _ σ

P (│W│≤ A_g ) = P ( ———— ≤ A_g ) = P (│x - E (x)│ ≤ A_g — ) = γ (x)

σ / √n √n

_ σ

Nierówność │x - E (x)│ ≤ A_g — można rozpisać

√n

_ σ σ

x - A_g — ≤ E(x) ≤ x + A_g— (y)

√n √n

Wstawiając (y) do (x) otrzymujemy

_ σ _ σ

P ( x - A_g — ≤ E(x) ≤ x + A_g—) = γ = 1 - α

√n √n

Takim sposobem określiliśmy granice przedziału

_ σ

G_d = x - A_g —

√n

_ σ

G_g = x + A_g—

√n

gdzie A_godczytujemy z tablicy dystrybuanty rozkładu N(0, 1).

Przykład a.

Określić przedział ufności oszacowania wartości oczekiwanej E (x) na podstawie

_ _

średniej arytmetycznej x, przy założonym poziomie ufności γ = 0, 95, jeżeli x₁ = 35,9" i

x₂= 35,7" oraz n = 7.

Rozwiązanie

Z tablicy dystrybuanty N (0,1) odczytujemy A_g = 1,96

A_gσ / √n ≈ 0,5"

Przedziały ufności

35,9" - 0,5" ≤ E(x₁) ≤ 35,9" + 0,5"

35,7" - 0,5" ≤ E(x₂) ≤ 35,7" - 0,5"

Przykład b.

Określić przedział ufności oszacowania wartości oczekiwanej E (x) na podstawie średniej

arytmetycznej x, przy założonym poziomie ufności γ = 0, 99, jeżeli x₁ = 27,2" i

x₂= 27,2", n = 12 oraz σ = 1,1".

Rozwiązanie

A_β = 2,58

A_gσ / √n´ ≈ 0,8"

Przedziały ufności

26,4" ≤ E(x) ≤ 28,0" .

2.1.2. Oszacowanie wartości oczekiwanej E(x) przy nieznanym odchyleniu standardowym σ

Znane są wartości x₁, x₂, .... , x_n, będące wynikiem pomiarów. Wyniki pomiarów podlegają rozkładowi normalnemu. Należy oszacować wartość oczekiwaną E(x) zmiennej losowej x, przy pomocy przedziałów ufności, jeżeli nie znamy teoretycznej wartości odchylenia standardowego. W tej sytuacji nie możemy wykorzystać wzoru służącego do określenia przedziału.

W tym przypadku w pierwszej kolejności należy wyznaczyć wartość oczekiwaną

x oraz empiryczne odchylenie standardowe ˆσ(s).

1 i=n _

ˆσ = √ — ∑ (x_i- x ) ²

n i=1

standaryzacja średniej arytmetycznej x na podstawie empirycznego odchylenia standardowego ˆσ posiada rozkład t Studenta, którego zmienną określa się wzorem

_ _

x - E (x) x - E (x)

t = ———— = √ n- 1 ( ————— ).

ˆσ / √ n- 1 ˆσ

Można znaleźć taką wartość Ag = t_g,n-1, że

x - E(x)

P (- A_g ≤ √n -1 ———— ≤ A_g) = γ

ˆσ

Przedział ufności wartości oczekiwanej zapisuje się w postaci

_ ˆσ _ ˆσ

P ( x - A_g — ≤ E(x) ≤ x + A_g—) = γ

√n-1 √n-1

lub

_ _

P ( x - A_g m_x ≤ E(x) ≤ x + A_gm_x) = γ (2)

gdzie

x - średnia arytmetyczna,

m_x-błąd średni pojedynczej zmiennej losowej,

m_x

m_x = —— - błąd średni średniej arytmetycznej

√n

[vv]

m_x= √——

n-1

v_i = x_i - x.

Przykład

Określić przedział ufności oszacowania wartości oczekiwanej E (x) na podstawie

_ _

średniej arytmetycznej x, przy założonym poziomie ufności γ = 0, 95, jeżeli x₁ = 35,9" i

x₂= 35,7" oraz n = 7.

Rozwiązanie

Z tablicy dystrybuanty rozkładu t Studenta odczytujemy, a na podstawie γ lub α = 1- γ i ilości stopni swobody k = n-1 A_g = 2,447 ≈ 2,45

A_gσ / √n-1 = 0,8"

Przedziały ufności

P ( 35,1" ≤ E(x₁) ≤ 36,7") = 0,95

2.1.3. Oszacowanie ilości pomiarów potrzebnych do oszacowania wartości oczekiwanej E(x) z zakładaną dokładnością

Jeżeli mamy założoną dokładność z jaką mamy określić szacowaną wartość oczekiwaną, to możemy zapisać to założenie w postaci nierówności

P ( │E(x) - x│ ≤ ε_x ) = γ (a)

Z układu równań (2) i (a) mamy

x - A_g m_x ≤ E(x)

- A_g m_x ≤ E(x) - x

oraz │E(x) - x│ ≤ ε_x

A_g m_x ≤ ε_x

m_x

A_g —— ≤ ε_x

√n

A_g ² m_x²

n ≥ ———

ε_x²

Zakładając stosunek dokładności oszacowania wartości oczekiwanej do wartości średniego błędu pojedynczego pomiaru

ε_x

q_x= ——

m_x

określamy ilość pomiarów potrzebnych do oszacowania wartości oczekiwanej

A_g ²

n ≥ ———

q_x ²

1 1

W praktyce najczęściej za wartość q_xprzyjmuje się wartość z przedziału (— : — ).

Przykład

Wyznaczyć niezbędną ilość pomiarów potrzebnych do oszacowania wartości oczekiwanej z poziomem ufności 0,99, jeżeli wiadomo, że

ε_x1

q_x= —— = —

m_x3

Rozwiązanie

Wyznaczamy przybliżoną wartość A_gz tablicy dystrybuanty rozkładu N (0, 1)

Wg ≈2,58
Obliczamy przybliżoną ilość pomiarów

A_g ²

n ≥ —— = 60

q_x ²

Wyznaczamy ostateczną wartość A_gz tablicy dystrybuanty rozkładu t Studenta

t_g = 2,66

Obliczamy ostateczną ilość pomiarów

t_g ²

n ≥ —— = 64

q_x ²

2.2. Oszacowanie odchylenia standardowego

Nieobciążonym estymatorem wariancji jest kwadrat błędu średniego

N 1 i=n

m_x² = —— s² = —— ∑ (x_i - a )² ²

n-1 n-1 i=1

s = σˆ

W punkcie 5.2.1. stwierdziliśmy, że średnia arytmetyczna x posiada rozkład normalny

N (E(x), — ).

√n

Aby stwierdzić niezależność rozkładów średniej arytmetycznej x i kwadratu błędu

średniego m_x², należy dowieść, że rozkład średniej arytmetycznej x nie zależy od kwadratu

błędu średniego m_x², a poza tym należy znaleźć rozkład kwadratu błędu średniego m_x².

W celu rozwiązania tego problemu przeprowadzimy następujące postępowanie:

Obliczamy scentrowane wartości parametrów

Y = X - E(x)

stąd

y_i = x_i - x.

Scentrowane wartości pomiarów podlegają rozkładowi N (0, σ), a standaryzowane wartości pomiarów określamy wzorem

x- E(x)

W = ———

σ (x)

stąd

x_i - x

w_i = ———

σ (x)

podlegają rozkładowi normalnemu N (0, 1).

Suma kwadratów standaryzowanych wartości pomiarów tworzy nową zmienną, będącą zmienną rozkładu χ² o n-1 stopniach swobody.

χ_k² = w₁² + w₂² + ..... + w_n²

k= n-1

Wstawiając do wzoru (t) wartości wyrażone wzorem 2) otrzymujemy

_ _ _

x₁ - x x₂ - x x_i - x

χ_k² = ( ———)² + ( ———)² + .......... ( ———)² =

σ (x) σ (x) σ (x)

1 _ 1 i=n (n-1) ² m_x²

= ——— ∑ ( x_i - x)² = ——— ∑ ( x_i - x)² *——— = ——— * (n-1) =

σ (x) ² σ (x) ² i=1 (n-1) σ (x) ²

m_x²

= ——— * k

σ (x) ²

Wielkość m_x² (n-1)/ σ (x) ² posiada rozkład χ² o (n-1) =k stopniach swobody.

χ_k² = k* m_x²/ σ²(x).

2.2.1. Określenie przedziału ufności odchylenia standardowego

Dla takiej zmiennej χ_k² utworzymy przedział ufności

P (χ_d² ≤ χ_k² ≤ χ_g²) = γ

Przy określaniu wartości χ_d² i χ_g² wykorzystujemy następujące założenia:

α = 1 - γ

1 - γ

α_d = ———

1 - γ

α_g = ———

Wartości χ_d² i χ_g² odczytuje się z tablic rozkładu χ² na podstawie α_d i α_g oraz ilości stopni swobody k = n - 1.

Przedział ufności dla odchylenia standardowego wyznaczamy z zależności

m_x²

P (χ_d² ≤ ———* k ≤ χ_g²) = γ

σ² (x)

Stosując przekształcenie, otrzymujemy

k k

P(m_x √—— ≤ σ ≤ m_x√ —— ) = γ

χ_g² χ_d²

Przykład

Określenie przedział odchylenia standardowego, z założonym przedziałem ufności γ = 0,96, pomiaru kąta poziomego teodolitem, jeżeli liczba obserwacji n = 7 i k* m_x² = 3,45.

Rozwiązanie

Określamy wartość

α = 1 - γ = 0,04

1 - γ

α_d = ——— = 0,02

1 - γ

α_g = ——— = 0,98

Odczytujemy z tablic rozkładu χ² wartości χ_d² i χ_g² na podstawie α_d i α_g oraz ilości stopni swobody k = n - 1 = 6 oraz prawdopodobieństwa

P_d = 0,02 i P_g = 0,98

χ_d² = 1,13

χ_g² = 15,03

Podstawiając dane liczbowe do wzoru x obliczamy przedział ufności odchylenia standardowego

0,48˝≤ σ ≤ 1,75˝

2.2.2. Ustalenie koniecznej pomiarów potrzebnych do oszacowania odchylenia standardowego

Jeżeli mamy założoną dokładność z jaką mamy określić szacowane odchylenie standardowe (błąd średni pomiaru - oszacowania), to możemy utworzyć nierówność

│ σ (x) - m_x │ ≤ ε_m (5.0)

Nierówność określająca pewien przedział może być przedstawiona za pomocą przedziału ufności

P ( │ σ (x) - m_x │ ≤ ε_m) = γ (5.a)

Traktując σ (x) jako wartość oczekiwaną przy nieznanym odchyleniu σ _σ(x) można wykorzystać przedział ufności zdefiniowany wzorem

(2)

P ( m_x - A_gm_m ≤ σ (x) ≤m_x + A_g m_m) = γ

Gdzie

m_x - błąd średni pojedynczego pomiaru - oszacowania,

m_m- błąd średni błędu średniego

m_x

m_m = —— (b)

√2n

Po uwzględnieniu zależności (b) przedział ufności zapiszemy wzorem:

m_x m_x

P ( m_x - A_g —— ≤ σ (x) ≤ m_x + A_g —— ) = γ (5.c)

√2n √2n

Rozpatrując lewą stronę wzoru (5.c) należy zapisać

m_x

- A_g —— ≤ σ (x) - m_x (5.d)

√2n

Porównując wzór (5.d) z wzorem (5.0) można napisać nierówność

m_x²

A_g² —— ≤ ε_m² (5.e)

stąd

m_x²

n ≥ —— * A_g² (5.f)

2 ε_m²

ε_m

W praktyce najczęściej określa się stosunek q_m = ——

1 1 m_x

przyjmując q_m = ( — -:- — ).

3 10

Ilość koniecznych pomiarów określa się wzorem

A_g²

n ≥ —— (5.h)

2 q_m

gdzie wartość współczynnika A_g się jako wartość zmiennej losowej rozkładu N (0, 1) odpowiadającej prawdopodobieństwu γ.

Przykład

Wyznaczyć konieczną liczbę n obserwacji w celu określenia dokładności (błędu

ε_m

średniego) odchylenia standardowego, jeżeli q_m = —— = 0,1 przy prawdopodobieństwie

m_x

γ_i= 0,90, 0,95, 0,99.

Rozwiązanie

Z tablic rozkładu N (0, 1) wyznaczamy wartość A_gi

A_g1 = 1,64

A_g2 = 1,96

A_g3 = 2,58

Według wzoru (5.h) otrzymujemy

1,64²

n₁= n_δ ≥ —— = 135

2*0,1²

1,96²

n₂= n_δ ≥ —— = 192

2*0,1²

2,58²

n₃= n_δ ≥ —— = 333

2*0,1²

2.3. Oszacowanie współczynników skośności i spłaszczenia

W punkcie 3 wprowadziliśmy pojęcie teoretycznego współczynnika skośności γ₁ i spłaszczenia γ₂. Estymatorami tych parametrów są:

empiryczny współczynnik skośności

μ₃

g₁ = S = ——

m³

oraz empiryczny współczynnik spłaszczenia

μ₄

g₂ = e = —— - 3

m⁴

Empiryczny moment centralny rzędu obliczamy ze zbioru x_i według wzoru

1 i=n

μ₄ = — ∑ ( x_i - x ‾ ) ^k

n i=1

Empiryczne współczynniki mają takie same własności jak współczynniki teoretyczne. Nie ma prostych sposobów konstruowania przedziałów ufności dla parametrów g₁i g₂, natomiast przybliżone oszacowanie równości g₁= γ₁ i g₂= γ₂ może być dokonane punktowo za pomocą średnich błędów parametrów empirycznych. Średnie błędy skośności i spłaszczenia są określane wzorami

6 (n-1) 6 6

m_s² = —————— ≈—— ≈ ——

(n+1) (n+3) n+3 n

24n (n-2)(n-3) 24(n-3)

m_e² = ——————— ≈ —————

(n+1) ² (n+3)(n+5) (n+3)(n+5)

Posługując się wyżej przytoczonymi wzorami na m_s i m_e trzeba pamiętać, że oparte są one o założenie normalności rozkładu wielkości S i e, a założenie to jest tym bliższe rzeczywistości, im większa jest liczba n elementów zbioru empirycznego.

Ocena empirycznych współczynników skośności i spłaszczenia, to znaczy, czy istnieje podstawa do przyjęcia lub odrzucenia hipotezy γ₁ = 0 i γ₂= 0, opiera się na bezpośrednim porównaniu wartości S i e z ich średnimi błędami. Jeżeli moduł parametru S lub e przekracza A - krotnie jego średni błąd, wtedy wartość tego parametru uznajemy za istotną. Współczynnik A związany jest z poziomem ufności γ lub z poziomem istotności α = 1- γ, przy założeniu normalności rozkładu.

│S │> A m_s

│e │> A m_e

Takie postępowanie uważa się za uzasadnione przy n > 50. Widujew [ ] podaje konkretne wartości współczynników obliczone na podstawie nierówności Czebyszewa.

│S │> 3m_s

│e │> 5 m_e

Praktyczne wykorzystanie empirycznych współczynników skośności i spłaszczenia rozpatrzone zostanie w dalszej części tego rozdziału (p.5).

2.4. Oszacowanie współczynnika korelacji

Estymatorem współczynnika korelacji ς_xy jest empiryczny współczynnik korelacji r_xy o postaci

1 i=n

— ∑ ( x_i - x ‾ ) ( y_i - y ‾ )

μ‾₁₁ n i=1

ς_xy = r_xy = ———— = ———————————

s_x * s_y m_x* m_y

gdzie

m_x = √——∑ ( x_i - x ‾ )²

n-1

m_y= √——∑ ( y_i - y ‾ )²

n-1

Przy dużej liczebności par obserwacyjnych () można wykorzystać przybliżoną postać wzoru

∑ ( x_i - x ‾ ) ( y_i - y ‾ )

r_xy = ———————————————

{∑ ( x_i - x ‾ )² }½ {∑ ( y_i - y ‾ )}½

Pojawia się pytanie, jaką wartość r_xy możemy uważać za istotną, to znaczy potwierdzającą lub zaprzeczającą zależność korelacyjną.

Nie ma uniwersalnej, teoretycznie ścisłej odpowiedzi na to pytanie.

Jedną z mało precyzyjnej jest odpowiedź oparta na wartości modułu współczynnika bez uwzględnienia liczebności zbioru empirycznego, z którego ten współczynnik został wyznaczony.

Przyjmuje się następujące rozwiązanie:

0 ≤│ r_xy │< 0,3 nie zachodzi korelacja

0,3 ≤│ r_xy │< 0,7 słaba korelacja

0,7 ≤│ r_xy │< 1 silna korelacja

Przy dużej liczebności próbki (n ≥ 500) rozkład zmiennej r jest zbieżny do rozkładu normalnego (ale zbieżność ta jest bardzo powolna) i dla takiego rozkładu podstawowe parametry mają następującą postać:

(1- ς²)² 1- ς²

E(r) ≈ ς ; V(r) = ————; б (r) ≈ ————

n √ n

Przy założeniu, że liczebność próbki była duża przedział ufności dla oszacowania współczynnika korelacji ς_xy można wyznaczyć z zależności:

1- r_xy ² 1- r_xy ²

P ( r_xy - A_γ * ———— ) ≤ ( r_xy + A_γ * ———— ) = γ

√ n √ n

W istocie chodzi nam jedynie o wyznaczenie krytycznej wartości r_{xy informującej}o istnieniu zależności.

Widujew [ ] uważa, że przy n ≥ 50 w zagadnieniach geodezyjnych należy zastosować jako wartość krytyczną trzykrotność średniego błędu m_r, czyli korelacją uważa się za udowodnioną, gdy zachodzi relacja

1- r²

│ r_xy │> 3 m_r, czyli │ r_xy │> 3 ——

√ n

Ponieważ rozkład empiryczny r_xy zależy od wartości współczynnika korelacji ς oraz od liczebności próbki, a przy n ≥ 5 rozkład empiryczny dąży raczej wolno do rozkładu normalnego, oszacowanie wzorem ( ) jest mało dokładne. Zależność ilustrują rysunki.

R. A. Fisher [ ] wprowadził funkcję

1+r

z = 0,5 ln —— , czyli r= th z* ,

1-r

której rozkład można zastąpić rozkładem normalnym o parametrach

1+r r 1 1

E (z) = 0,5 ln —— + —— ; V(z) = —— , б (z) = ——

1-r 2(n-1) n-3 √n-3

_________________________

*Bywa też stosowane przekształcenie Fishera z użyciem logarytmów dziesiętnych

1+r

z = 0,5 log ——

1-r

Dla parametru z przedział ufności ma postać

P ( z - A_γ* σ (z) ≤ Z ≤ z + A_γ σ (z) ) = γ

Wartości z są wartościami stablicowanymi.

2.5 Oszacowanie parametrów regresji liniowej

Równanie prostej regresji zmiennej y względem x oraz x względem y zapisuje się następująco:

y = E(y) + a_yx (x- E(x))

x = E(x) + a_xy (y- E(y))

Współczynniki nachylenia prostej wyznacza się ze wzorów:

m_y ∑ ( x_i - x ‾ ) ( y_i - y ‾ )

a_yx= r_xy * ——— = ———————————

m_x ∑ ( x_i - x ‾ )²

m_x ∑ ( x_i - x ‾ ) ( y_i - y ‾ )

a_xy= r_xy * ——— = ———————————

m_y ∑ ( y_i - y ‾ )²

Przy założeniach:

niezależności wyznaczenia każdej z par (x_i, y_i);
istnienia identycznej korelacji pomiędzy zmiennymi x i y w całym procesie wyznaczania danego zbioru empirycznego;
dużej liczebności zbioru empirycznego,

można przyjąć, że współczynniki a_yx, a_xymają rozkład normalny o średnich błędach wyrażonych wzorami:

m_y 1-r_xy²

m_ayx = ——— * ———

m_x √n

m_x 1-r_xy²

m_axy = ——— * ———

m_y √n

Przedział ufności dla parametru A_yx wyraża się wzorem:

P (a_yx - A_γ* m_ayx ≤ A_yx ≤ a_yx + A_γ m_ayx ) = γ

Do konstrukcji przedziałów ufności dla regresji liniowej dwóch zmiennych wykorzystuje się następujące wielkości:

x_i, y_i - wartości zaobserwowane;

x‾, y‾ - wartości oczekiwane (średnie);

xˆ_i, ŷ_i- wartości oszacowane.

Równanie regresji y względem x zapiszemy

ŷ = y‾ + a_yx( x - x ‾ )

Zależność pomiędzy wartościami zaobserwowanymi, oczekiwanymi i oszacowanymi określa się następującymi wyrażeniami:

y_i- y‾ = v_i- odchylenie i-tej obserwacji wartości średniej;

y_i- ŷ_i = e_i- odchylenie i-tej obserwacji wartości przewidywanej (zmienna resztowa);

ŷ_i- y‾ = c_i-odchylenie i-tej przewidywanej wartości od wartości średniej.

Estymatorami wariancji (kwadrat błędu średniego) są sumy kwadratów v_i, e_i, c_i podzielone przez odpowiednią liczbę stopni swobody.

[vv]

V(m_y‾ ²) = —— - wariancja średniej,

n-1

[ee] (1-r²) [vv]

V_yx(m_ŷ ²) = —— = ———— - wariancja oszacowanej wartości y (wartość resztowa)

n-2 n - 2

V_R= [cc] - wariancja w regresji.

Raz obliczoną wariancję resztową V_yx(m_y²) można wykorzystać do obliczenia empirycznych wariancji

m_ayx² i m_y‾ ².

m_y²

m_ayx²= ————

∑ ( x_i - x ‾ )²

m_y

m_y‾ = ——

√n

Przyjmując poziom ufności γ, możemy skonstruować przedział ufności wartości przeciętnej zmiennej y

P (y‾ - t_γ* m_y‾ ≤ E(y) ≤ y‾ + t_γ* m_y‾) = γ.

Przedział ufności dla dowolnej estymowanej wartości, przy ustalonej wartości x tworzy się następująco:

oblicza się wariancję empiryczną wzorem

1 ( x₀ - x ‾ )²

m_ŷx0 ²= m_y² [ 1 + — + ————— ]

A ∑ ( x_i - x ‾ )²

dla przyjętego poziomu ufności γ tworzy się przedział

P (ŷ - t_γ* m_ŷ ≤ ŷ ≤ ŷ + t_γ* m_ŷ) = γ.

Przedziały ufności można konstruować graficznie:

Przez punkt o współrzędnych (x‾, y‾) kreślimy prostą regresji o wyznaczonym równaniu: y = E(y) + a_yx (x-E(x)).
Przez tenże punkt prowadzimy następnie dwie graniczne proste, przyjmując kolejno najmniejszą i największą wartość współczynnika a_yx.
Przez punkt o współrzędnych (x‾, y‾) prowadzimy pionowo (wzdłuż osi y) odcinek o długości równej szerokości przedziału ufności przeciętnej wartości y‾.
Przez końce przedziałów prowadzimy krzywe asymptotyczne do prostych o minimalnym i maksymalnym granicznym współczynniku nachylenia.

Obszar zawarty pomiędzy tymi asymptotami jest obszarem ufności regresji. Przedział ufności w dowolnym punkcie regresji jest to odcinek prostopadły do prostej, którego końcami są punkty leżące na asymptotach.

Wyszukiwarka

Podobne podstrony:
Lab nr1 Kalibracja obrazu rastrowego do określonego układu współrzędnych, Geodezja i Kartografia, In
ELEMENTY STATYSTYKI OPISOWEJ - SCENARIUSZ, Matematyka dla Szkoły Podstawowej, Gimnazjum
Biogaz Produkcja Wykorzystanie Zadania do opracowania Spis treści, Ze studiów
10 Wykorzystanie teorii błędów do opracowania pomiarów geodezyjnych
statystyka matematyczna, Materiały do nauki
Konspekt do zajęć?ukacji matematycznej dotyczący monograficznego opracowania liczby w klasie pierwsz
Wykorzystanie CAD CAM do opracowania Procesow Technologicznych
10 Wykorzystanie teorii błędów do opracowania pomiarów geodezyjnych
Matematyka Wokół Nas Sprawdzian Elementy statystyki i rachunku podobieństwa Klasa 3
Zagadnienia do opracowania na kolokwium zaliczeniowe2
Gorgol I Elementy statystyki opisowej
Tematy do opracowania[1], UEK, Polityka Finansowa
propedeutyka pediatrii - suplement do opracowania (semestr letni), Pediatria
Pytania na egzamin do opracowania
egzamin do opracowania
EGZAMIN PRAWO CYWILNE do opracowania
Najwazniejsze rośliny do opracowania

więcej podobnych podstron