podstawowe zagadnienia statystyki 1, statystyka

Statystyka - oznacza zbiór danych dotyczących określonego zagadnienia, ogół prac związanych ze zbieraniem danych liczbowych .

Statystyka to nauka o zjawiskach ilościowych .

Zbiorowość statystyczna (populacja) to zbiór osób , przedmiotów lub zjawisk podobnych do siebie ale nie identycznych poddanych badaniu statystycznemu.

Jednostka statystyczna to każdy element zbiorowości statystycznej.

Badanie statystyczne w których bezpośredniej obserwacji podlegają wszystkie jednostki statystyczne to jednostki statystyczne pełne. Badanie statystyczne częściowe to badanie w którym bezpośredniej obserwacji podlega tylko pewien podzbiór statystyczny który nazywamy próbą. Zadaniem statystyki matematycznej jest przy wykorzystaniu metod rachunku prawdopodobieństwa wnioskowanie o całej zbiorowości statystycznej na podstawie wyników z prób. Aby na podstawie wyników z próby odnieść wnioski do całej zbiorowości próba powinna być

dostatecznie liczna
reprezentatywna tzn ze względu na badaną cechę struktura próby powinna byś zbliżona do struktury całej zbiorowości

Jednostki statystyczne mogą być wybrane do próby dwoma sposobami

przez losowanie jest to wybór przypadkowy dający każdej jednostce takież same szanse znalezienia się w próbie,
przez celową selekcję gdy jednostki do próby kwalifikuje się w sposób celowy.

Badanie statystyczne dotyczy zawsze pewnych właściwości jednostek statystycznych, które nazywamy cechami statystycznymi (cechy statystyczne zmienne podlegające badaniu) ponieważ sama typowanie jednostek do zbiorowości statystycznej wiąże się z określeniem cech które spowodują zaliczenie jednostki do danej zbiorowości. Cechy statystyczne zmienne dzielimy na :

Cechy statystyczne mierzalne (ilościowe)
Cechy statystyczne niemierzalne

AD1 Cechy statystyczne mierzalne są to takie cechy których różne warianty określane są za pomocą liczb pochodzących z pomiaru lub policzenia i wyrażone w określonych jednostkach np. wysokość dochodów, czas wykonania określonej pracy, itp. Cechy mierzalne można podzielić na dwie zasadnicze grupy:

cechy mierzalne swobodne mające skończone lub przeliczalny zbiór wartości i wartości te niezależną od dokładności pomiaru, np. liczba osób w rodzinie, liczba książek przeczytanych w ciągu roku, itp. Cechy skokowe wyrażane są w wartościach całkowitych.
Cechy mierzalne ciągłe które przyjmują wartości z pewnych przedziałów mogą być podane z różną dokładnością zależną od sposobu wykonania pomiaru np. czas wykonania pewnego detalu gdy badamy wydajność pracy, długość włókna przędzy jeśli badamy jej jakość.

Ad2 Cechy statystyczne niemierzalne to cechy których warianty opisujemy słowami które w naturalny sposób nie wyrażają się liczbami np. płeć, zawód, rodzaj ulubionej rozrywki, z pośród cech niemierzalnych wyodrębniamy cechy :

dwudzielne które mają tylko dwa warianty
cechy wielodzielne które mają tych wariantów więcej np. zawód

Z pośród cech wielodzielnych wyodrębniamy cechy, fazy mierzalne które to warianty można uporządkować według stopnia nasilenia cechy np. stan zdrowia (bardzo dobry, bardzo zły)

Cechy mierzalne

Jeżeli rozpatrujemy cechę mierzalną pewnej zbiorowości statystycznej to możemy potraktować ją jak zmienną losową i wyznaczyć jej rozkład.

Rozkład cechy w całej populacji statystycznej znamy tylko wtedy gdy przeprowadzamy badanie statystyczne pełne, gdy przeprowadzamy badanie statystyczne częściowe to znamy tylko rozkład próby tj. rozkład empiryczny. Rozkład cechy całej zbiorowości statystycznej jest znany nam przy badaniu częściowym to rozkład teoretyczny.

Przykład

Aby zbadać ile czasu tygodniowo przeznacza się w 4 osobowych rodzinach w dużych miastach Polski na prace domowe, wybrano w sposób losowy 1256 takich rodzin i dla tych rodzin wyznaczono średni czas przeznaczony na prace domowe
=10,5 h , odchylenie standardowe s=3,2 h.

Dla tego badania populacje statystyczną generalną to są wszystkie 4 osobowe rodziny dużych miast Polski, jednostką jest każda 4 osobowa rodzina. Cecha którą badamy to czas przeznaczony na prace domowa. Rodzaj cechy jest to cecha mierzalna ciągła.

Rozkład teoretyczny to rozkład zmiennej losowej która przyjmuje wartości równe wykonywania prac domowych we wszystkich tych rodzinach.

Rozkład empiryczny to rozkład tego czasu w zbadanej próbie. Zadaniem statystyki matematycznej jest wnioskowanie o tym co się dzieje we wszystkich rodzinach dużych miast Polski jeśli chodzi o czas poświęcony na prace domowe na podstawi tej liczącej 1256 elementów próby. Zadaniem statystyki matematycznej jest wnioskowanie o rozkładzie teoretycznym na podstawie znajomości rozkładu empirycznego, w ramach wnioskowania empirycznego wyróżnia się dwa zasadnicze działy.

estymacja czyli szacowanie parametrów lub postaci rozkładu teoretycznego na podstawie danych z rozkładu empirycznego
weryfikacja (testowanie) hipotez statystycznych to sprawdzanie określonych przypuszczeń dotyczących typu rozkładu teoretycznego parametrów tego rozkładu, współzależności cech, itp.

Parametry (charakterystyki liczbowe) są to takie liczby np. wartość średnia odchylenie standardowe które w sposób syntetyczny opisują nam zbiorowość statystyczną ze względu na badaną cechę.

Estymacja parametryczna

W teorii estymacji dotyczącej nieznanych parametrów rozkładu teoretycznego wyróżnia się estymację punktową i przedziałową.

Estymacja punktowa polega na znalezieniu takiej liczby która przy z góry założonej dokładności i wynikach uzyskanych z próby może być uznana za najlepszą ocenę nieznanego parametru rozkładu teoretycznego. Estymator Tn nieznanego parametru T w populacji statystycznej nazywamy taką zmienną losową której wartość obliczona na podstawie próby służy do oszacowania nieznanej wartości parametru T. Konkretną wartość liczbową

tn=t(x₁ x₂ x_3....... x_n) estymatora Tn obliczono dla wyników (x₁ x₂ x_3..... x₁) z próby nazywamy oceną parametru t.

Bardzo ważną rzeczą jest wybór estymatora dla danego parametru. W statystyce określone są własności jakie powinien posiadać ten estymator. Dla najważniejszych parametrów rozkładu teoretycznego przyjmuje się następujące estymatory. Dla wartości przeciętnej średnią arytmetyczną z próby

Dla wariacji

gdy n>30

lub
gdy m
30

Odchylenie standardowe

Znacznie częściej niż estymacja punktowa stosowana jest estymacja przedziałowa. Przy tej estymacji zamiast liczbowej oceny wartości parametru podaje się pewien przedział który zawiera nieznaną wartość parametru z dużym z góry określonym prawdopodobieństwem, takie przedziały nazywamy przedziałem ufności.

Przedziałem ufności nazywamy tai przedział który z zadanym z góry prawdopodobieństwem 1-α nazywanym poziomem ufności (współczynnik ufności) zawiera nieznaną wartość szacowanego parametru. Przedziały ufności wyznacza się dla wszystkich parametrów. Najczęściej używane to : przedział ufności dla wartości przeciętnej i przedział ufności dla wskaźnika struktury.

Przedział ufności dla wartości przeciętnej.

Zakładamy że badana cecha x ma w populacji generalnej układ normalny o wartości przeciętnej m i odchyleniu standardowym σ, przedział ufności dla wartości przeciętnej m wyznaczamy z wzorów

dla próby o liczebności n>30

- średnia arytmetyczna z próby

s- odchylenie standardowe z próby

u_α- znajdujemy w tablicy rozkładu

normalnego tak że φ(u_α)=1-

gdy próba jest mniej liczna tzn gdy n≤30 stosujemy wzór

- średnia arytmetyczna z próby

s- odchylenie standardowe z próby

- odczytujemy z tablicy rozkładu

studenta

Przykład

Oszacować metodą przedziałową tygodniowe wydatki na słodycze mieszkańców pewnego miasta na poziomie ufności 1-α=0,95 wiedząc że dla 100 losowo wybranych rodzin otrzymano średnie wydatki 12 zł przy odchyleniu standardowym s=4,72 zł.

z prawdopodobieństwem 0,95

Maksymalny błąd oszacowania przedziałowego jest równy połowie długości przedziału ufności.

Przy dużych próbach można z tego wzoru wyznaczyć n i obliczyć jak duża powinna być próba żeby wyznaczyć oszacowanie ze z góry zadaną wartością. S wyznaczamy ze wstępnej niewielkiej próby. Jest to maksymalny błąd oszacowania.

Uwagi:

przy zadanym poziomie ufności im większa jest liczebność próby tym krótszy przedział ufności
przy ustalonej liczebności próby wraz ze wzrostem poziomu ufności rośnie rozpiętość przedziału ufności (im więcej ufności tym mniej dokładności)

Przedział ufności dla wskaźnika struktury.

W badaniach statystycznych występuje często konieczność oszacowania prawdopodobieństwa występowania określonego wariantu cechy, czyli oszacowania jaki procent jednostek statystycznych ten wariant cechy posiada, czyli zachodzi konieczność oszacowania przedziałowego wskaźnika struktury.

Hipotezy Statystyczne i weryfikacyjne

Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące rozkładu cechy w populacji generalnej, czyli rozkładu teoretycznego sformułowane bez przeprowadzenia badania pełnego wyłącznie na podstawie danych z próby.

Hipotezy statystyczne mogą dotyczyć parametrów nieznanego rozkładu cech w populacji generalnej, są to w tedy hipotezy parametryczne np. wartość średnia badanej cechy całej zbiorowości jest równa 5. hipotezy mogą też mówić jakiego typu jest nieznany rozkład teoretyczny, mogą dotyczyć współzależności cech badanej zbiorowości są to w tedy hipotezy nieparametryczne. Hipotezę którą sprawdzamy nazywamy hipotezą zerową i oznaczmy H₀. Hipotezę alternatywną oznaczamy H₁ nazywamy każdą inną hipotezę którą skłonni jesteśmy przyjąć po odrzuceniu hipotezy zerowej H₀, decyzję o odrzuceniu lub przyjęciu H₀ podejmujemy na podstawie wyników próby losowej .

Testem statystycznym nazywamy regułę postępowania rozstrzygającą przy jakich wynikach próby sprawdzaną hipotezęH₀ należy odrzucić a przy jakich wynikach przyjąć. W czasie sprawdzania prawdziwości hipotezy H₀ możliwe jest popełnienie jednego z dwóch rodzajów błędów. Błąd pierwszego rodzaju polega na odrzuceniu hipotezy H₀ mimo że jest ona prawdziwa, prawdopodobieństwo popełnienia błędu pierwszego rodzaju oznaczamy symbolem  i nazywamy poziomem istotności. Jako poziom istotności przyjmowane są bardzo małe liczby dodatnie np. 0,01; 0,02; 0,05; 0,1.

Błąd drugiego rodzaju polega na przyjęciu sprawdzanej hipotezy mimo że jest ona fałszywa. Prawdopodobieństwo popełnienia błędu drugiego rodzaju oznaczamy  Testy przy ustalonym prawdopodobieństwie  zminimalizowane jest prawdopodobieństwo popełnienia błędu drugiego rodzaju nazywane są testami najmocniejszymi. Problem popełnienia błędu drugiego rodzaju znika jeśli przy podejmowaniu decyzji bierzemy pod uwagę tylko dwie możliwości odrzucenie testowanej hipotezy H₀ lub stwierdzenie że niema podstaw do odrzucenia testowanej hipotezy.

Testy parametryczne takiego typu nazywamy testami istotności wykorzystuje się je głównie do weryfikacji hipotez parametrycznych. Przy weryfikacji hipotez statystycznych stosujemy następujący schemat postępowania.

Określamy hipotezę H₀ i odpowiadającą jej hipotezę H₁, postać hipotezy H₁ jest negacja hipotezy H₀ lub jest określona przez cel badania.
Wybieramy odpowiednio do sformułowanej hipotezy H₀ statystykę testową i obliczmy jej wartość na podstawie wyników z próby.
Przyjmujemy pewien poziom istotności  i wyznaczamy obszar odrzucenia hipotezy H₀ który nazywamy obszarem krytycznym.
Sprawdzamy czy obliczona wartość statystyki testowej należy do obszaru krytycznego, jeśli tak odrzucamy hipotezę H₀ na rzecz hipotezy H₁ jeśli nie stwierdzamy że niema podstaw do odrzucenia hipotezy testowanej.

Odrzucenie hipotezy H₀ oznacza że różnice między wynikami badania empirycznego a sformułowaną hipotezą są statystycznie istotne, jeśli nie ma podstaw do odrzucenia hipotezy H₀ uznajemy że te różnice są statystycznie nie istotne.

Test istotności dla wartości oczekiwanej.

Zakładamy że badana cecha X ma w populacji generalnej rozkład normalny o nieznanych na m parametrach m i σ, z populacji tej pobrano n elementową próbę i na podstawie tej próby obliczono średnią arytmetyczną i odchylenie standardowe.

H₀: m=m₀

Hipoteza H₀ jest zawsze hipotezą o równości.

Dla tej hipotezy H₀ możliwe są następujące hipotezy alternatywne H₁

H₁: mm₀, albo H₁: m>m₀, albo H₁: m<m₀

W zależności od postaci hipotezy alternatywnej H₁ obszar odrzucenia hipotezy będzie dwustronny, prawo stronny lub lewo stronny. Przy weryfikacji hipotez dotyczących wartości przeciętnej rozpatruje się następujące przypadki.

Próba liczna (n>30)

- zmienna losowa obliczana jako średnia arytmetyczna z próby
Ta statystyka ma rozkład normalny o parametrach N(0,1). Mając konkretna próbę obliczmy wartość statystyki jako
Przyjmujemy pewien poziom istotności i odrzucamy pewien obszar odrzucenia hipotezy
dwustronny obszar krytyczny
: OK.=(- , U_1-)
( U_1-, ∝)

U_1- U_1-

prawostronny obszar krytyczny

α: Ok.=( U_1-_α: ∝) φ( U_1-)=1-

φ( U_1-_α)=1-α
U_1-_α

lewostronny obszar krytyczny

α:OK=(-∝ : U_1-_α)

U_1-_α
Sprawdzamy czy obliczona w punkcie 2 wartość empiryczna statystyki należy do obszaru krytycznego, jeśli tak to odrzucamy hipotezę H₀, jeśli nie stwierdzamy że niema podstaw do odrzucenia H₀

Przykład

W firmie produkującej elementy hydrauliczne badano średnią dzienną wydajność. Na podstawie wydajności w ciągu 169 dni, obliczono że średnio produkuje się 2025 szt. I odchylenie standardowe wyniosło s=20 szt. Na poziomie istotności α=0,01 zweryfikuj hipotezę że :

Średnia dzienna wydajność wynosi 2030 szt.
H₁=m≠m₀ m≠2030
Średnia dzienna wydajność jest niższa niż 2030 szt.
H₁m<2030

AD1

α=0,01 to
to 1-

0,995 wynik sprawdzamy w tablicach rozkładu normalnego i wynosi on 2,58

H₁: m≠m₀

m≠2030

OK=(-∝ ; - 2,58)∪(2,58 ; ∝)

0x08 graphic

-3,25 -2,58 2,58

Obliczona przez nas wartość statystyki testowej należy do obszaru krytycznego, więc testowaną hipotezę H₀odrzucamy

AD2

α=0,01 to 1-α=0,99

0,99 wynik sprawdzamy w tablicach rozkładu normalnego i wynosi on 2,33

OK =(-∝ ; - 2,33)

0x08 graphic

-3,25 -2,33

Testowaną hipotezę H₀ odrzucamy ale tym razem na korzyść ... czyli średnia wydajność w tej firmie jest niższa niż 2030 szt.

Próba mała (n
30)

Ta statystyka ma przy założeniu prawdziwości hipotetycznego rozkład studenta o n-1 stopniach swobody.

H₀: m≠m₀

Obustronne obszar krytyczny

H₁ : m≠m₀

Prawostronny obszar krytyczny

H₁: m<m₀

Lewostronny obszar krytyczny

H₁ : m>m₀

Przykład 1

Tygodniowe wydatki na nabiał w 3 osobowych rodzinach mieszkających dużych miastach Polski mają rozkład normalny, przypuszcza się że średnio wydatki te są niższe od 42 zł, sprawdź czy przypuszczenie to jest słuszne jeśli 26 przebadanych rodzin uzyskano średnią arytmetyczną wydatków 44 zł i odchylenie standardowe s= 5 zł, przyjąć poziom istotności na α=0,05

H₀ : m=42 zł H₁ : m>42zł n=26
=44 s=5 α=0,05

te=2

OK= (t_α_,n-1 ; ∝)

OK= (t_2*0.05;25: ∝)

0x08 graphic

OK= (t_0.1:25 : ∝)

0x08 graphic
OK= (1,708 : ∝) 2 1,782

H₀należy odrzucić na korzyść H₁ i stwierdzić że wydatki są wyższe niż 42 zł.

Przykład 2

α=0,01

OK= (t₂_α_,n-1 ; ∝)

OK= (t_2*0.01;25: ∝)

0x08 graphic

OK= (t_0.02:25 : ∝)

0x08 graphic
OK= (2,485 : ∝) 2 2,485

Na poziomie istotności 0,01 niema podstaw do odrzucenia hipotezy że tygodniowe wydatki na nabiał są równe 42 zł.

Przykład 3

Tygodniowe wydatki na nabiał w 3 osobowych rodzinach mieszkających dużych miastach Polski mają rozkład normalny, przypuszcza się że średnio wydatki te są równe 42 zł, sprawdź czy przypuszczenie to jest słuszne jeśli 26 przebadanych rodzin uzyskano średnią arytmetyczną wydatków 44 zł i odchylenie standardowe s= 5 zł, przyjąć poziom istotności na

α=0,05

H₁:m≠m₀

H₁:m≠42 α=0,05

OK= (- ∝ ; - t_α_,n-1)∪(t_α_,n-1 ; ∝)

0x08 graphic

OK=(- ∝ : - t_0,05;25)∪(t_0,05;25: ∝)

0x08 graphic
OK=(- ∝ :- 2,060) ∪(2,060 : ∝) -2,06 -2 2 2,06

Niema podstaw do odrzucenia hipotezy że przeciętne wydatki na nabiał w tych rodzinach wynoszą 42 zł na poziomie istotności 0,05

Uwaga

Jeżeli próba jest mała ale dodatkowo posiadamy informację jakie jest odchylenie standardowe rozkładu teoretycznego stosujemy I model testowania hipotezy o wartości przeciętnej czyli taki sam jak dla dużej.

Hipotezy statystyczne

Hipotezy o równości średnich w dwóch populacjach.

W zależności od liczby prób mamy kilka testów.

Zakładamy że badana cecha ma w obu populacjach rozkład normalny

I populacja N(m₁σ₁) n₁ liczebność próby n₁>30
,s₁

II populacja N(m₂σ₂) n₂ liczebność próby n₂>30
,s₂

Hipoteza H₀ : m₁=m₂

H₁ : m₁≠m₂lub H₁ : m₁>m₂lub H₁ : m₁<m₂

Zakładam że liczebność prób są większe niż n₂>30

Na podstawie tych prób obliczono średnią dla I populacji, średnią dla II populacji, odchylenie standartowe dla I populacji i odchylenie standardowe dla II populacji. Ponieważ próby są liczne możemy przyjąć że odchylenia standardowe z próby dobrze przybliżają odchylenia standardowe z populacji.

0x01 graphic

Obliczamy wartość tej statystyki i wiemy że ma ona rozkład normalny przy tym założeniu czyli dla dużych grup. Obszar krytyczny(odrzucenia hipotezy) wyznaczamy znajdując wartość krytyczną U_α z tablic rozkładu normalnego N(0,1) analogicznie jak w teście dla jednej zmiennej.

Przykład.

Badano średni czas wykonywania pewnego elementu na maszynach starego i nowego typu, otrzymano następujące dane. Maszyny nowe średni czas wykonania tego elementu wynosił
=3,6 przy odchyleniu standardowym s₁=2 i liczebności n₁=80, maszyny starego typu
=4,1 przy odchyleniu standardowym s₂=1,8 i liczebności n₂=120. Na poziomie stabilności α=0,05 zweryfikować hipotezę że średni czas wykonania elementu na maszynie nowego typu niż na maszynie starego typu.

H₀ : m₁=m₂

H₁ : m₁<m₂

0x01 graphic

OK.=(-∝ ; -U_1-_α)

OK.=(-∝ ; -1,64)

0x08 graphic

-1,85 -1,64

Hipotezę o równości wartości przeciętnych należy odrzucić, czyli wydajność nowych maszyn jest lepsza.

Dla cechy nie mierzalnych stosujemy hipotezę o wskaźniku struktury.

Przykład

Przypuszcza się że ponad 60 % mieszkanek pewnego miasta nie korzysta z usług zakładu kosmetycznego. Sprawdź czy to przypuszczenie jest prawdziwe jeśli śród 500 zpytanych pań nie chodzi do kosmetyczki.

n=500 k=412 P- wskaźnik struktury kobiet nie korzystających z usług kosmetyczki

P>0,6

Hipotezę o wskaźniku struktóry testujemy zawsze na podstawie dużej próby n≥100

Hipoteza H₀ : p=p₀

H₁ : p≠p₀lub H₁ : p>p₀lub H₁ : p<p₀

0x01 graphic
gdzie q₀=1-p₀

0x01 graphic

Ta statystyka ma rozkład zbliżony do normalnego a więc przy wyznaczaniu obszarów krytycznych będziemy korzystać z tablic rozkładu normalnego.

H₀: p=0,6

H₁ : p>0,6

0x01 graphic

0x08 graphic

α=0,02 U_1-_α=2,05

OK.=(2,05 ; ∝) 2,05 10,22

Hipotezę H₀ odrzucamy na poziomie istotności 0,2

Hipoteza o dwóch wskaźnikach struktury.

Porównujemy tutaj % jednostek statystycznych w dwóch populacjach mających określony wariant lub określoną wartość cechy.

Zakładamy że badana cecha ma w obu populacja rozkład dwupunktowy o prawdopodobieństwie wystąpienia wyróżnionego wariantu p₁ i p₂

I próba p₁ n₁≥100 k₁- liczba elementów danego wariantu cechy.

II próba p₂ n₂≥100 k₂- liczba elementów danego wariantu cechy.

Hipoteza 0 będzie miała postać

Hipoteza H₀ : p₁=p₂

H₁ : p₁≠p₂lub H₁ : p₁>p₂lub H₁ : p₁<p₂

Z obydwu tych populacji pobrano duże próby o liczebnościach co najmniej 100 elementów sprawdzianem hipotezy jest statystyka

0x01 graphic

Ta statystyka jak poprzednio ma rozkład normalny i jej wartość empiryczną obliczymy za pomocą N(0,1)

0x01 graphic

Przykład

Wysunięto hipotezę że palacze stanowią jednakowy odsetek wśród kobiet i mężczyzn, dla sprawdzenia tej hipotezy przebadano 500 mężczyzn wśród których było 200 palaczy i 600 kobiet w śród których było 250 palących papierosy na poziomie istotności α=0,05 zweryfikować daną hipotezę.

H₀ p₁=p₂

H₁ p₁≠p₂