WYKŁADY- DEFINICJE, Konspekt wykładów ze statystyki


Definicje

Statystyka jest nauką traktującą o ilościowych modelach badania zjawisk (procesów) masowych (Sobczak95).

Statystyka matematyczna zajmuje się metodami wnioskowania o całej zbiorowości na podstawie zbadania pewnej jej części zwanej próbką lub próbą (Greń68).

Wnioskowanie statystyczne będące przedmiotem statystyki matematycznej może występować w dwu wariantach zastosowań:

  1. jako estymacja, czyli szacowanie parametrów rozkładu badanej cechy w populacji generalnej,

  2. jako weryfikacja (testowanie) hipotez statystycznych dotyczących rozkładu badanej cechy w populacji (zbiorowości generalnej).

Zarówno w estymacji jak i przy weryfikacji hipotez statystycznych zakłada się, iż populacja generalna z której pobieramy próbę losową, jest nieskończona. Przypadek skończonej liczby elementów rozpatruje się w części statystyki zwanej metodą reprezentacyjną.

Zbiorowością statystyczną (zwaną również populacją) nazywa się zbiór dowolnych elementów(nieidentycznych z punktu widzenia badanej cechy) objętych badaniem statystycznym.

Jednostki wchodzące w skład zbiorowości statystycznych charakteryzują się pewnymi właściwościami - zwanych cechami, które mogą być stałe i zmienne.

Cechy stałe określają jednostki (przez nie zbiorowość) pod względem rzeczowym(co?), czasowym(kiedy), oraz przestrzennym (gdzie). Cechy stałe są wspólne wszystkim jednostkom zbiorowości. Nie podlegają one badaniu a jedynie decydują o zaliczeniu jednostek do określonej zbiorowości.

Cechy zmienne to właściwości, którymi różnią się poszczególne jednostki statystyczne. Dzielimy je na jakościowe (niemierzalne) i ilościowe (mierzalne).

Cech jakościowych nie można zmierzyć, lecz tylko określić(np. pochodzenie społeczne, płeć, rasa, kolor włosów, uroda). Cechy ilościowe dadzą się wyrazić przy pomocy liczb o różnych mianach, np. wzrost (w cm), wiek (w latach), zyski (w zł), produkcja (w szt., tonach, mb itp.). Cechy ilościowe dzielimy na ciągłe i skokowe.

Cechy ciągłe stanowią wyniki pomiarów wartości cech w przedziale jej kształtowania się w populacji np. wzrost, waga ciała, dochód miesięczny na członka gospodarstwa domowego, czy jednostkowe spożycie dóbr w przedziale czasu.

Cechy skokowe charakteryzują się występowaniem całkowitoliczbowych reprezentacji np.: liczba dzieci w rodzinie, liczba studentów w grupie, ilość osób na mieszkanie, liczba prosiąt w miocie.

Podstawowe pojęcia ze statystyki matematycznej

Próba, próbka - część, tj. podzbiór populacji podlegający bezpośrednio badaniu ze względu na ustaloną cechę, w celu wyciągnięcia wniosków o kształtowaniu się wartości tej cechy w populacji.

Liczebność próby - liczba jednostek, elementów populacji generalnej wybranych do próby. Liczebność próby oznacza się zwykle przez n. Gdy n0x01 graphic
30, mówimy o małej próbie.

Próba losowa - próba, której dobór z całej populacji dokonany jest w drodze losowania, tzn. w taki sposób, że jedynie przypadek decyduje o tym który element został wylosowany a który nie.

Próba reprezentacyjna - próba, której struktura pod względem badanej cechy nie różni się istotnie od struktury populacji generalnej. Próba reprezentacyjna jest jak gdyby „miniaturą” populacji generalnej, daje więc podstawę do wysuwania prawidłowych o niej wniosków. Uzyskiwaniu prób reprezentacyjnych sprzyja dobór właściwego schematu losowania próby.

Schemat losowania próby - praktyczny sposób losowania elementów populacji generalnej do próby, uwzględniający możliwości techniczne, koszt i efektywność uzyskiwanych wyników. Metoda reprezentacyjna zajmuje się szczegółowo różnymi schematami losowania próby.

Losowanie niezależne - schemat losowania próby ze zwracaniem każdego wylosowanego elementu w trakcie losowania, tak że jeden element może być wylosowany więcej niż jeden raz.

Losowanie zależne - schemat losowania próby bez zwracania każdego wylosowanego elementu populacji generalnej, tak że jeden element populacji może zostać wylosowany do próby tylko jeden raz.

Losowanie nieograniczone - losowanie elementów do próby od razu z całej populacji, co nie występuje w losowaniu warstwowym.

Losowanie warstwowe - losowanie próby oddzielnie z każdej części tzw. Warstwy populacji generalnej, na które została ona podzielona przed losowaniem.

Losowanie indywidualne - losowanie oddzielne poszczególnych elementów populacji generalnej do próby w odróżnieniu np. od losowania zespołowego, w którym losuje się do próby pewne naturalne zespoły populacji generalnej np. gospodarstwa domowe.

Wyniki próby - zaobserwowane wartości badanej cechy u tych elementów populacji generalnej które zostały wybrane do próby. Wyniki próby losowej o liczebności n stanowią wartości n- wymiarowej zmiennej losowej. Wyniki dużej próby grupuje się zwykle w klasy, tworząc szereg rozdzielczy.

Przestrzeń próby - zbiór wszystkich możliwych wyników próby o liczebności n.

Rozkład populacji - rozkład wartości badanej cechy w całej zbiorowości.

Parametry populacji - parametry rozkładu badanej cechy w populacji. Charakteryzują one ten rozkład. Do najczęściej używanych parametrów należą tzw. momenty. Parametry dzielimy zwykle na następujące grupy:

  1. miary skupienia (np. średnia arytmetyczna, mediana),

  2. miary rozrzutu (np. wariancja i odchylenie standardowe współczynnik zmienności),

  3. miary asymetrii,

  4. miary korelacji (przy badaniu populacji ze względu na wiele cech współczynniki regresji i korelacji).

Statystyka z próby - zmienna losowa będąca dowolną funkcją wyników próby losowej, np. średnia arytmetyczna wyników próby x, statystyka pozycyjna rzędu 0,5, czyli mediana

Rozkład statystyki - teoretyczny rozkład prawdopodobieństwa zmiennej losowej będącej statystyką. Rozkład ten zależy zwykle od rozkładu populacji i schematu losowania n- elementowej próby.

Asymptotyczny rozkład statystyki - graniczny rozkład prawdopodobieństwa zmiennej losowej będącej statystyką, wyznaczony przy założeniu, że liczebność losowej próby n0x01 graphic
0x01 graphic
.

Rozkład dwupunktowy (rozkład zerojedynkowy) - teoretyczny rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa określanej wzorem0x01 graphic

P(X=k) = 0x01 graphic
0x01 graphic
p0x01 graphic
q0x01 graphic
dla k = 0 lub k = 1 (00x01 graphic
p0x01 graphic
, q = 1 - p

Rozkładu tego używa się w statystyce przy badaniu cech jakościowych.

Rozkład dwumianowy - rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa określonej wzorem

P(X=k)=0x01 graphic
dla k=0, 1, 2,..., n (00x01 graphic
p0x01 graphic
1, q = 1 - p)

Rozkład Poissona - rozkład prawdopodobieństwa zmiennej losowej skokowej X o funkcji prawdopodobieństwa określonej wzorem

P(X=k) = 0x01 graphic
dla k = 0, 1, 2,... (0x01 graphic
).

Rozkład normalny - najważniejszy w statystyce rozkład zmiennej losowej ciągłej X o funkcji gęstości prawdopodobieństwa określonej wzorem

f(x) = 0x01 graphic
dla -0x01 graphic
(0x01 graphic

Często rozkład normalny oznacza się symbolem N(m,0x01 graphic
), gdzie m jest wartością oczekiwaną (średnią ), a 0x01 graphic
odchyleniem standardowym w tym rozkładzie, tj. m=E(X), 0x01 graphic
= D0x01 graphic
(X).

Rozkład normalny standaryzowany - rozkład normalny N(0,1), tzn. funkcji gęstości określonej wzorem

0x01 graphic
.

Wykresem tej funkcji gęstości jest tzw. krzywa Gaussa. Zmienna losowa U mająca rozkład N(0,1) nosi nazwę standaryzowanej lub unormowanej zmiennej normalnej.

Standaryzacja rozkładu normalnego - zamiana rozkładu normalnego N(m,0x01 graphic
) na rozkład normalny standaryzowany N(0,1). Odbywa się ona poprzez odjęcie średniej m i podzielenie przez odchylenie standardowe 0x01 graphic
, tzn. jeżeli X ma rozkład N(m,0x01 graphic
),

to U=(X-m)/ 0x01 graphic
ma rozkład N(0,1).

Rozkład normalny n - wymiarowy - rozkład prawdopodobieństwa n - wymiarowego wektora losowego x o funkcji gęstości określonej wzorem

f(x)=(2 0x01 graphic
)0x01 graphic
0x01 graphic
exp{-0x01 graphic
,

Gdzie 0x01 graphic
jest wektorem wartości oczekiwanych, a 0x01 graphic
0x01 graphic
jest macierzą wariancji i kowariancji. Wyznacznik I0x01 graphic
I nosi nazwę wariancji uogólnionej. Często rozkład ten jest oznaczany symbolem N(0x01 graphic
,0x01 graphic
).

Z pośród innych rozkładów statystycznych najważniejsze znaczenie posiadają:

Estymator - dowolna statystyka Z służąca do oszacowania nieznanej wartości parametru 0x01 graphic
populacji generalnej.

Rozkład estymatora - rozkład prawdopodobieństwa statystyki będącej estymatorem parametru 0x01 graphic
.

Parametry rozkładu estymatora - najważniejsze to wartość oczekiwana E(Z) oraz wariancja D0x01 graphic
(Z) w rozkładzie statystyki Z będącej estymatorem jakiegoś parametru 0x01 graphic
w populacji

Błąd przeciętny szacunku - pierwiastek z wariancji, tzn. odchylenie standardowe D(Z) w rozkładzie estymatora Z za pomocą którego szacuje się parametr 0x01 graphic
w populacji generalnej.

Estymacja punktowa - metoda szacunku nieznanego parametru 0x01 graphic
populacji, polegająca na tym, że jako wartość parametru 0x01 graphic
przyjmuje się wartość estymatora Z tego parametru, otrzymaną z danej n - elementowej próby losowej.

Estymator nieobciążony - estymator Z spełniający równość E(Z)=0, oznaczającą, że estymator Z szacuje parametr 0x01 graphic
bez błędu systematycznego.

Estymator efektywny - estymator Z o możliwie małej wariancji D0x01 graphic
(Z). Stosowanie estymatora efektywnego oznacza popełnienie małego błędu przeciętnego szacunku D(Z).

Metoda największej wiarygodności - metoda znajdowania estymatora parametru 0x01 graphic
, polegająca na tym, że za estymator przyjmuje się taką wartość parametru 0x01 graphic
, dla której wiarygodność (prawdopodobieństwo lub gęstość prawdopodobieństwa) danej próby losowej jest największa. Estymatory uzyskane metodą największej wiarygodności mają wiele pożądanych cech.

Estymacja przedziałowa - estymacja parametru 0x01 graphic
polegająca na budowaniu tzw. przedziału ufności dla tego parametru.

Przedział ufności - losowy przedział wyznaczony za pomocą rozkładu estymatora, a mający tę własność, że z dużym, z góry danym prawdopodobieństwem, pokrywa wartość szacowanego parametru 0x01 graphic
. Zapisujemy go zwykle w postaci P(a0x01 graphic
)= 1 - 0x01 graphic
, gdzie a i b noszą nazwę dolnej i górnej granicy(końca) przedziału ufności, a prawdopodobieństwo 1-0x01 graphic
jest dane z góry.

Współczynnik ufności - prawdopodobieństwo 1- α występujące po prawej stronie wzoru na przedział ufności, a oznaczające prawdopodobieństwo, z jakim parametr θ jest pokryty tym przedziałem. Współczynnik ufności w praktyce wybiera się jako dowolnie duże prawdopodobieństwo. Najczęściej przyjmowanymi wartościami za 1- α są liczby: 0,90; 0,95; 0,99. Im bliższy 1 jest współczynnik ufności, tym szerszy (więc o mniejszej użyteczności) otrzymuje się przedział ufności. Dlatego też bez specjalnej potrzeby nie należy przyjmować zbyt wysokich wartości współczynnika ufności.

Hipoteza statystyczna - jakiekolwiek przypuszczenie dotyczące rozkładu populacji generalnej.

Hipoteza parametryczna - hipoteza statystyczna precyzująca wartość parametru w rozkładzie populacji generalnej znanego typu.

Hipoteza nieparametryczna - hipoteza statystyczna precyzująca typ rozkładu populacji generalnej.

Hipoteza zerowa - podstawowa hipoteza statystyczna sprawdzana danym testem. Oznacza się ją zwykle symbolem H0.

Hipoteza alternatywna - hipoteza statystyczna konkurencyjna w stosunku do hipotezy zerowej w tym sensie, że jeżeli odrzuca się hipotezę zerową, to przyjmuje się hipotezę alternatywną. Oznacza się ją H1.

Błąd pierwszego rodzaju - możliwy do popełnienia przy weryfikacji hipotezy statystycznej błąd polegający na odrzuceniu hipotezy prawdziwej.

Błąd drugiego rodzaju - możliwy do popełnienia przy sprawdzaniu hipotezy statystycznej błąd polegający na przyjęciu hipotezy fałszywej.

Poziom istotności - prawdopodobieństwo popełnienia błędu pierwszego rodzaju w postępowaniu testującym hipotezę. Poziom istotności oznacza się zwykle symbolem α i obiera się z góry, zwykle jako małe prawdopodobieństwo. Do najczęściej przyjmowanych poziomów istotności należą prawdopodobieństwa 0,1; 0,05; 0,001. Odrzucenie sprawdzanej hipotezy na poziomie istotności np. α = 0,05 oznacza, że ryzyko popełnienia błędu pierwszego rodzaju przy tej decyzji wynosi tylko 5% (inaczej mówiąc, co najwyżej 5 razy na 100 takich decyzji popełniać będziemy błąd).

Test statystyczny - reguła postępowania, która na podstawie wyników próby ma doprowadzić do decyzji przyjęcia lub odrzucenia postawionej hipotezy statystycznej. Przy pomocy testu weryfikujemy zatem hipotezę statystyczną.

Moc testu - prawdopodobieństwo podjęcia decyzji prawidłowej przy weryfikacji hipotezy statystycznej danym testem, a polegającej na odrzuceniu hipotezy fałszywej.

0x08 graphic
Test istotności - najczęściej używany w praktyce statystycznej typ testu, pozwalający na odrzucenie hipotezy z małym ryzykiem popełnienia błędu (mierzonym poziomem istotności α). Ze względu na to, że w teście istotności uwzględnia się jedynie błąd pierwszego rodzaju, a nie rozpatruje się szansy popełnienia błędu drugiego rodzaju, to w wyniku tego testu możliwa jest decyzja odrzucenia hipotezy zerowej lub nie ma podstaw do jej odrzucenia (co nie oznacza jej przyjęcia).

0x01 graphic



Wyszukiwarka

Podobne podstrony:
Zadania na zaliczenie wykładu ze statystyki
PROGRAM WYKŁADÓW ZE STATYSTYKI, statystyka
Boratyńska A Wykłady ze statystyki matematycznej
opracowanie pytań na wykład ze statystyki, STUDIA, SEMESTR IV, Statystyka matematyczna i planowanie
Wykłady ze statystyki opisowej dla psychologów
Wymagania odnośnie projektu na zaliczenie wykładu ze Statystyki matematycznej
Materiały z wykładów ze statystyki z zadaniem
Kucharski A Wykłady ze statystyki matematycznej
Test ze statystyki 2007 (z wykładu), 1)
dzienni 2006 wyklad 2, Sesja, Rok 2 sem 1, WYKŁAD - Metodologia ze statystyką - kurs podstawowy
Statystyka wyklad-3, SWPS, ROK 2, Metodologia ze statystyką - Brzeziński
Stattytyka wyklad-2, SWPS, ROK 2, Metodologia ze statystyką - Brzeziński
zadania ze statystyki ostatni wyklad, Zadania statystyka, STATYSTYKA /KOL 1/UMCS /2005/ZESTAW A
Zadania ze statystyki do wykladu 1 (GP)
zielinski 7 wykładów wprowadzających ze statystyki
TPK wykłady ze zdjęć

więcej podobnych podstron