3596


ROLA I ISTOTA STATYSTYKI

Termin statystyka pochodzi od łacińskiego słowa “status” co oznacza państwo.

Każde zjawisko kształtuje się pod wpływem dwojakiego rodzaju przyczyn:

0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic

Parametry zbiorowości próbnej (analiza statystyczna)

Podstawowe pojęcia statystyczne

Miary położenia

Średnia arytmetyczna

Zakładamy, że dokonujemy pomiaru ustalonej cechy u każdej jednostki wchodzącej w skład próby, której liczebność jest ustalona (określona) i wynosi n.

x1, x2, ..., xn

M = 0x01 graphic
(1)

a więc jest to suma wartości cechy wszystkich jednostek próby, podzielona przez liczebność (n) tej próby.

Średnią arytmetyczną M możemy wyrazić także w postaci wzoru:

M = 0x01 graphic
(1.a)

Zakładamy, że dokonujemy pomiaru ustalonej cechy u każdej jednostki wchodzącej w skład próby, której liczebność jest ustalona (określona) i wynosi n.

Przyjmujemy w takim przypadku, że gdy:

oraz

0x01 graphic

co oznacza, że u każdej jednostki dokonano pomiaru cechy oraz wynik pomiaru zaklasyfikowano do jednej z wyżej wymienionych klas.

0x01 graphic
0x01 graphic
(2)

lub według wzoru równoważnego:

0x01 graphic
(2.a)

Zakładamy, że dokonujemy pomiaru ustalonej cechy u każdej jednostki wchodzącej w skład próby, której liczebność jest ustalona (określona) i jest równa n.

Indeksem i zanumerowaliśmy przedziały oraz przyjmujemy, że indeks i przebiega następujący zbiór numerów i=1, 2, ..., k, co oznacza, że danych jest k przedziałów, które noszą nazwę przedziałów klasowych.

0x01 graphic
= 0x01 graphic

Z uwzględnieniem powyższych założeń, średnia arytmetyczna dla takiego przypadku wyraża się wzorem:

0x01 graphic
(3)

lub wzorem równoważnym:

0x01 graphic
(3.a)

Jeśli zbiorowość statystyczna jest jednorodna wówczas średnia arytmetyczna wyraża ogólną prawidłowość tej zbiorowości.

ŚREDNIA GEOMETRYCZNA

  1. Średnia geometryczna prosta.

Zakładamy, że badana cecha prowadzona będzie na próbce składającej się z n jednostek. Zakładamy, że jednostki statystyczne w próbie zostały ponumerowane zmienną i, przy czym zmienna i przebiega zbiór i=1,2, .., n.

Zakładamy, że pomiar cechy u różnych jednostek zbiorowości próbnej dał następujące wyniki:

itd., oraz

Jak z powyższego wynika na skutek pomiaru cechy u każdej jednostki statystycznej otrzymaliśmy dla każdej jednostki inną wartość liczbową.

G = 0x01 graphic
(4)

log G = 0x01 graphic

co czytamy: logarytm średniej geometrycznej jest średnią arytmetyczną logarytmów poszczególnych wartości jednostek zbiorowości próbnej (próby).

  1. Średnia geometryczna ważona.

Zakładamy, że badana cecha prowadzona będzie na próbce składającej się z n jednostek. Zakładamy, że jednostki statystyczne w próbie zostały ponumerowane zmienną i, przy czym zmienna i przebiega od i=1,2, .., n.

Zakładamy, że pomiar wyróżnionej cechy u jednostek wchodzących w skład próby jest taki, że wiele jednostek próby ma tę samą liczbową wartość wyróżnionej cechy. Oznacza to, że różnych liczbowo wartości mierzonej cechy jest w tym przypadku mniej niż wynosi liczebność próby.

Założymy, że tych wartości cechy dla danej próby jest k sztuk, (k<n).

Przyjmujemy w tym przypadku że, gdy:

oraz

Ogółem

0x01 graphic

co oznacza, że u każdej jednostki dokonano pomiaru cechy oraz wynik pomiaru zaklasyfikowano do jednej z wyżej wymienionych klas.

G = 0x01 graphic
(5)

lub wg wzoru zapisanego w postaci logarytmicznej:

log G 0x01 graphic

ŚREDNIA HARMONICZNA

Stosowana jest wtedy, gdy wartości cechy jednostek statystycznych podane są w formie odwrotności, tj. gdy wartości jednej zmiennej podane są w przeliczeniu na stałą jednostkę innej zmiennej (np. 80km/godz.) lub wyrażone są w innej złożonej postaci.

  1. Średnia harmoniczna prosta.

Zakładamy, że badana cecha prowadzona będzie na próbce składającej się z n jednostek. Zakładamy, że jednostki statystyczne w próbie zostały ponumerowane zmienną i, przy czym zmienna i przebiega zbiór i=1,2, .., n.

Zakładamy, że pomiar cechy u różnych jednostek zbiorowości próbnej dał następujące wyniki:

itd., oraz

Jak z powyższego wynika rezultat pomiaru cechy u każdej jednostki statystycznej jest różny.

H = 0x01 graphic
(6)

  1. Średnia harmoniczna ważona.

Zakładamy, że badana cecha prowadzona będzie na próbce składającej się z n jednostek. Zakładamy, że jednostki statystyczne w próbie zostały ponumerowane zmienną i, przy czym zmienna i przebiega od i=1,2, .., n.

Zakładamy, że pomiar wyróżnionej cechy u jednostek wchodzących w skład próby jest taki, że wiele jednostek próby ma tę samą liczbową wartość wyróżnionej cechy. Oznacza to, że różnych liczbowo wartości mierzonej cechy jest w tym przypadku mniej niż wynosi liczebność próby.

Założymy, że tych wartości cechy dla danej próby jest k sztuk, (k<n).

Przyjmujemy w tym przypadku że, gdy:

oraz

Ogółem

0x01 graphic

co oznacza, że u każdej jednostki dokonano pomiaru cechy oraz wynik pomiaru zaklasyfikowano do jednej z wyżej wymienionych klas.

H = 0x01 graphic
(7)

lub wg wzoru postaci:

H = 0x01 graphic
(7.a)

ŚREDNIA KWADRATOWA

Średniej kwadratowej używamy bardzo rzadko. Można obliczać tę średnią w przypadkach, gdy pomiar cechy badanych jednostek zbiorowości statystycznej daje wyniki zarówno dodatnie jak i ujemne.

  1. Średnia kwadratowa prosta.

Zakładamy, że badana cecha prowadzona będzie na próbce składającej się z n jednostek. Zakładamy, że jednostki statystyczne w próbie zostały ponumerowane zmienną i, przy czym zmienna i przebiega zbiór i=1,2, .., n.

Zakładamy, że pomiar cechy u różnych jednostek zbiorowości próbnej dał następujące wyniki:

itd., oraz

Jak z powyższego wynika rezultat pomiaru cechy u każdej jednostki statystycznej jest różny.

0x01 graphic
(8)

lub przy użyciu wzoru równoważnego, postaci:

0x01 graphic
(8.a)

  1. Średnia kwadratowa ważona.

Zakładamy, że badana cecha prowadzona będzie na próbce składającej się z n jednostek. Zakładamy, że jednostki statystyczne w próbie zostały ponumerowane zmienną i, przy czym zmienna i przebiega zbiór i=1,2, .., n.

Zakładamy, że pomiar wyróżnionej cechy u jednostek wchodzących w skład próby jest taki, że wiele jednostek próby ma tę samą liczbową wartość wyróżnionej cechy. Oznacza to, że różnych liczbowo wartości mierzonej cechy jest w tym przypadku mniej niż wynosi liczebność próby.

Założymy, że tych wartości cechy dla danej próby jest k sztuk, (k<n).

Przyjmujemy w tym przypadku że, gdy:

oraz

Ogółem

0x01 graphic

co oznacza, że u każdej jednostki dokonano pomiaru cechy oraz wynik pomiaru zaklasyfikowano do jednej z wyżej wymienionych klas.

0x01 graphic
(9)

lub przy użyciu wzoru równoważnego, postaci:

0x01 graphic
(9.a)

OGÓLNE UWAGI O ŚREDNICH

Wiadomo, że średnie spełniają warunek

H < G < M < K

oraz wiadomo, że wybór średniej zależy przede wszystkim od charakteru zjawiska, które chcemy poznać.

PRZECIĘTNE POZYCYJNE

W odróżnieniu od średnich, przeciętne pozycyjne wyznaczamy na podstawie danych otrzymanych z pomiarów wartości wyróżnionej cechy, które zostały uporządkowane rosnąco lub malejąco.

Mediana (wartość środkowa)

x1, x2, x3, ..., xn

I. Przyjmujemy, że liczba wszystkich jednostek w zbiorowości jest równa n i przyjmujemy, że n jest to liczba nieparzysta. W takim przypadku mediana, którą oznaczymy przez Me, daje się wyrazić w postaci następującego wzoru:

Me = 0x01 graphic
(11)

II. W przypadku, gdy liczba jednostek w zbiorowości jest parzysta, tzn. w przypadku, gdy n jest liczbą parzystą, mediana wyraża się wzorem:

Me = 0x01 graphic
(12)

III. Dla przypadku, gdy dane statystyczne uporządkowane są w szereg klasowy rozdzielczy, tzn. dla przypadku, gdy dane statystyczne rozlokowane są w klasach szeregu rozdzielczego co powoduje, że liczebności fs każdej klasy szeregu rozdzielczego jest znana oraz znana jest liczba klas szeregu klasowego rozdzielczego a także szerokość klasy

- mediana, wyraża się wzorem:

Me = l0 + 0x01 graphic
(13)

gdzie:

Wartości ćwiartkowe (kwartyle)

Wartości ćwiartkowe są również przeciętnymi pozycyjnymi.

Wartość ćwiartkową pierwszą wyznaczamy według wzoru:

Q1= l0 + 0x01 graphic
(14)

Wartość ćwiartkową trzecią wyznaczamy według wzoru:

Q3= l0 + 0x01 graphic
(15)

WARIANCJA (ŚREDNIOKWADRATOWE ODCHYLENIE)

I. Zakładamy, że dokonujemy pomiaru ustalonej cechy u każdej jednostki wchodzącej w skład próby, której liczebność jest ustalona (określona) i wynosi n. Zakładamy, że jednostki próby zostały ponumerowane indeksem i przy czym z faktu ustalonej liczebności próby wynika, że indeks i zmienia się od 1, 2, ...., n.

Wyniki pomiarów ustalonej cechy u jednostek próby są następujące:

x1, x2, ..., xn

Widzimy więc, że wartość tej samej cechy mierzona u poszczególnych jednostek, jest różna (wśród liczb x1, x2, ..., xn nie ma liczb jednakowych).

Wariancja wyraża się wzorem:

0x01 graphic
(16)

dla przypadku, gdy liczebność zbiorowości spełnia warunek n>30, tj. zbiorowość statystyczna jest duża.

0x01 graphic
(17)

M = 0x01 graphic

II. Zakładamy, że dokonujemy pomiaru ustalonej cechy u każdej jednostki wchodzącej w skład próby, której liczebność jest ustalona (określona) i wynosi n. Zakładamy, że pomiar wyróżnionej cechy u jednostek wchodzących w skład próby jest taki, że wiele jednostek próby ma tę samą liczbową wartość wyróżnionej cechy. Oznacza to, że różnych liczbowo wartości mierzonej cechy jest w tym przypadku mniej niż wynosi liczebność próby.

Założymy, że tych wartości cechy dla danej próby jest k sztuk.

Przyjmujemy w takim przypadku, że gdy:

oraz

Ogółem

0x01 graphic

co oznacza, że u każdej jednostki dokonano pomiaru cechy oraz wynik pomiaru zaklasyfikowano do jednej z wyżej wymienionych klas.

0x01 graphic
(18)

gdzie wszystkie wielkości występujące we wzorze zostały wcześniej zdefiniowane.

ODCHYLENIE STANDARDOWE

s = 0x01 graphic
(19)

dla przypadku, gdy liczebność próby jest większa od 30 elementów, oraz wzorem

s = 0x01 graphic
(20)

gdy liczebność próby jest mniejsza niż 30 elementów.

s =0x01 graphic
(21)

Odchylenie standardowe ma sens statystyczny wtedy, gdy znamy wartość średniej arytmetycznej, od której było liczone.

Odchylenie standardowe stanowi podstawowe pojęcie w teorii hipotez statystycznych, przy wyznaczaniu współczynnika korelacji.

KORELACJA DWÓCH ZMIENNYCH

Zakładamy więc, że badamy zbiorowość statystyczną, w której każda jednostka posiada dwie wyróżnione cechy, które będą przedmiotem badania.

Funkcja regresji

Zakładamy, że dokonaliśmy pomiaru wartości wyróżnionych cech X oraz Y u każdej jednostki zbiorowości statystycznej.

Zgodnie z poprzednimi oznaczeniami, niech

x1, x2, x3, ..., xn

są wartościami cechy X, natomiast

y1, y2, y3, ..., yn

są wartościami cechy Y u badanych jednostek zbiorowości statystycznej.

Przyjmujemy, że na osiach układu współrzędnych (x,y) punkty te będą naniesione, patrz rysunek poniżej:

0x08 graphic
y

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic
0x08 graphic

x1 x2 x3 xn x

F = 0x01 graphic

A więc należy tak dobrać współczynniki a oraz b prostej y=a+ bx, aby powyższe wyrażenie osiągało wartość minimalną.

na + b 0x01 graphic
= 0x01 graphic
(22)

a 0x01 graphic
+b 0x01 graphic
= 0x01 graphic
(23)

Oznaczymy przez W wyznacznik główny postaci:

W =0x01 graphic
(24)

Natomiast wyznacznik dla wyznaczenia niewiadomej a, oznaczymy przez Wa, i ma on postać:

Wa =0x01 graphic
(25)

W takim razie niewiadoma a, wyznaczona może być z równości:

a = 0x01 graphic
(26)

przy czym zamiast licznika oraz mianownika wstawia się wartości wyznaczników Wa oraz W.

W analogiczny sposób wyznaczymy niewiadomą b. W tym celu określimy wyznacznik Wb w sposób następujący:

Wb = 0x01 graphic
(27)

W takim razie niewiadoma b, wyznaczona może być z równości:

b = 0x01 graphic
(28)

Oczywiście wartość wyznacznika W jest równa

W = 0x01 graphic
= n 0x01 graphic
- 0x01 graphic
0x01 graphic
(29)

Natomiast wyznacznika Wa jest równa

Wa =0x01 graphic
= 0x01 graphic
0x01 graphic
- 0x01 graphic
0x01 graphic
(30)

Oraz wartość wyznacznika Wb jest równa

Wb = 0x01 graphic
= n 0x01 graphic
- 0x01 graphic
0x01 graphic
(31)

co kończy procedurę wyznaczania wartości liczbowych współczynników, niewiadomych a oraz b umożliwiając tym samym zapis prostej y = a +bx spełniającej nałożone na nią wymagania.

Poszukujemy w tym przypadku równania regresji postaci:

x = a' + b'y (32)

dla którego niewiadomymi są współczynniki a' oraz b'.

Analogiczny dla rozpatrywanej sytuacji układ równań przybiera postać:

n.a' + b' 0x01 graphic
= 0x01 graphic
(33)

a'0x01 graphic
+ b' 0x01 graphic
= 0x01 graphic
(34)

Dla wyznaczenia niewiadomych a' oraz b' stosujemy powyżej przedstawione podejście.

Oznaczymy przez W wyznacznik główny postaci:

W =0x01 graphic
(35)

Natomiast wyznacznik dla wyznaczenia niewiadomej a', oznaczymy przez Wa', i ma on postać:

Wa' =0x01 graphic
(36)

W takim razie niewiadoma a', wyznaczona może być z równości:

a' = 0x01 graphic
(37)

przy czym zamiast licznika oraz mianownika wstawia się wartości wyznaczników Wa' oraz W.

W analogiczny sposób wyznaczymy niewiadomą b'. W tym celu określimy wyznacznik Wb' w sposób następujący:

Wb' = 0x01 graphic
(38)

W takim razie niewiadoma b', wyznaczona może być z równości:

b' = 0x01 graphic
(39)

Oczywiście wartość wyznacznika W jest równa

W =0x01 graphic
=n 0x01 graphic
- 0x01 graphic
0x01 graphic
(40)

Natomiast wyznacznika Wa' jest równa

Wa' =0x01 graphic
=0x01 graphic
0x01 graphic
- 0x01 graphic
0x01 graphic
(41)

Oraz wartość wyznacznika Wb' jest równa

Wb' = 0x01 graphic
= n 0x01 graphic
- 0x01 graphic
0x01 graphic
(42)

co kończy procedurę wyznaczania wartości liczbowych współczynników, niewiadomych a' oraz b' umożliwiając tym samym zapis prostej x = a' +b'y spełniającej nałożone na nią wymagania.

Współczynnik korelacji liniowej

Współczynnik korelacji liniowej służy do mierzenia stopnia ścisłości związku korelacyjnego między cechą X oraz cechą Y.

x1, x2, x3, ..., xn

są wartościami cechy X, natomiast

y1, y2, y3, ..., yn

są wartościami cechy Y u badanych jednostek zbiorowości statystycznej.

r = 0x01 graphic
(43)

gdzie:

WYZNACZANIE NIEZBĘDNEJ LICZEBNOŚCI PRÓBY

Zadaniem jest oszacowanie wartości średniej populacji.

n = 0x01 graphic

gdzie:

σ^2 - wariancja wyznaczona dla małej, wstępnej próby o liczebności n0;

tα - wartość odczytana z tablic rozkładu t-Studenta dla przyjętego współczynnika ufności 1-α oraz dla tzw. n0-1 stopni swobody w taki sposób , że P(-tα < t < tα) = 1-α.

Wariancję σ^2 dla małej, wstępnej liczebności próby obliczamy wg wzoru

0x01 graphic

gdy liczebność próbki wstępnej nie przekracza 30 elementów, natomiast wg wzoru

0x01 graphic

gdy liczebność próbki przekracza liczbę 30 elementów.

M = 0x01 graphic

A = M - tα 0x01 graphic

Natomiast prawy koniec B, obliczamy wg wzoru

B = M + tα 0x01 graphic

Wielkość d wyznaczamy wg wzoru

d = 0x01 graphic

Podstawiając do wzoru na liczebność optymalnej próbki „ułamek” wielkości d wyznaczamy liczebność próbki spełniającą założone wymagania.

1

34

Zbiorowość próbna

Zbiorowość generalna

Linia regresji

y = a + bx

yn

y2

y1



Wyszukiwarka