STATYSTYKA
WYKŁAD
2000/2001
ROK: I
SEMESTR: II
WYŁADOWCA:
dr hab. ANDRZEJ BALICKI
SPIS TREŚCI
STATYSTYKA
STATYSTYKA - odrębna dyscyplina naukowa, nauka metodologiczna zajmująca się metodami badań
STATYSTYKA:
opisowa
matematyczna - metody wnioskowania o zbiorowości na podstawie zbadania jej części wylosowanej. Ta wylosowana część to reprezentacja
STATYSTYKA:
teoria statystyki - dział matematyki
zastosowanie statystyki
BADANIA STATYSTYCZNE
BADANIA STATYSTYCZNE - zespół czynności zmierzających do wykrycia za pomocą metod statystycznych prawidłowości w zbiorowości objętej badaniem, prawidłowości w kształtowaniu się zjawisk i procesów masowych
BADANIA STATYSTYCZNE:
eksperymentalne - ingerencja badającego w przebieg zjawiska, sterowanie pewnymi wielkościami
obserwacyjne - badający jest biernym obserwatorem i nie ingeruje w przebieg, prosta rejestracja tego, co zachodzi
ETAPY BADAŃ STATYSTYCZNYCH:
programowanie badania
obserwacja statystyczna (gromadzenie i kontrola danych)
opracowanie danych
analiza statystyczna
ZBIORY DANYCH STATYSTYCZNYCH (materiał statystyczny):
pierwotny - zgromadzony dla celów badania
wtórny - materiał użytkowy zebrany w innym celu i przez kogoś innego
CHARAKTERYSTYKI LICZBOWE W ANALIZIE STRUKTURY
WŁAŚCIWOŚCI |
MIARY KLASYCZNE |
MIARY POZYCYJNE |
Tendencja centralna |
Średnia arytmetyczna |
Dominanta Mediana Kwartyle Decyle |
Dyspersja |
Wariancja Odchylenie standardowe Współczynnik zmienności |
Rozstęp Rozstęp międzykwartylowy Rozstęp międzydecylowy Odchylenie ćwiartkowe Współczynnik zmienności |
Asymetria |
Moment trzeci centralny Moment trzeci względny Współczynnik asymetrii oparty o miary średnie |
Współczynnik asymetrii oparty o kwartyle Współczynnik asymetrii oparty o decyle |
Spłaszczenie (kurtoza) |
Moment czwarty centralny Moment czwarty względny |
Wskaźnik spłaszczenia |
Nierównomierny podział globalnej wartości cechy (koncentracja) |
Współczynnik koncentracji Pearsona |
- - - |
MIARY KLASYCZNE - liczymy na podstawie wszystkich wartości w szeregu; odpowiednie dla szeregów symetrycznych i zbliżonych do symetrycznych
MIARY POZYCYJNE - związane z pewną pozycją w szeregu
Szeregi W Y K R E S Y:
symetryczne
skośne - prawostronne
skośne - lewostronne
błędne - prawdopodobnie połączenie 2 podgrup (np. wzrost mężczyzn i dziewcząt w 22 wieku)
CHARAKTERYSTYKI OPISUJĄCE WŁASNOŚCI ROZKŁADU CECHY ILOŚCIOWEJ
WSKAŹNIK STRUKTURY
MIARY POŁOŻENIA
Średnia arytmetyczna
(A)
(B)
Dominanta
Jest to wartość cechy najliczniej reprezentowana w zbiorowości; służy do wyznaczenia dokładniejszej wartości dominanty w danym przedziale; nie liczymy jej z szeregu szczegółowego przy małych liczebnościach; nie możemy jej policzyć, gdy przedział najliczniejszy i dwa sąsiednie przedziały mają różną rozpiętość
Mediana
Wartość środkowa szeregu uporządkowanego od wartości najmniejszych do największych; kwartyl drugi
Pozycja mediany
Kwartyl pierwszy
Kwartyl trzeci
Decyl
MIARY DYSPERSJI (POŁOŻENIA)
Rozstęp
R = xmax - xmin
Rozstęp międzykwartylowy
Rozstęp 50% środkowych wartości po odznaczeniu 25% największych i 25% najmniejszych
R(Q) = Q3 - Q1
Rozstęp międzydecylowy
Odznaczamy 10% najwyższych wartości I 10% najniższych
R(D) = D9 - D1
Wariancja
Nie ma interpretacji, ale jest miarą
(A)
(B)
Odchylenie standardowe
Miara zróżnicowania wyników (wartości cechy), określa o ile średnio różnią się wartości cechy od średniej arytmetycznej
Odchylenie ćwiartkowe
Współczynniki zmienności
Dobre do porównań, gdy mamy różne zmienne np. odchylenie pracowników według wieku i płac
MOMENTY
Momentem rzędu r - średnia arytmetyczna z podniesionych do potęgi r odchyleń wartości cechy od pewnej stałej
Momenty zwykłe c=0
średnia arytmetyczna
Momenty centralne c=x
wariancja
miara skośności
miara koncentracji wokół średniej
Moment względny trzeci
miara skośności; zawiera się między -2 i 2;
jeśli =0 rozkład symetryczny
>0 skośność prawostronna
<0 skośność lewostronna
Moment względny czwarty
mierzy koncentrację wokół średniej;
α4 < 3 koncentracja większa od normalnej |
|
α4 > 3 koncentracja mniejsza od normalnej |
|
jeśli α4 = 3 nazywamy krzywą Gausa
MIARY SKOŚNOŚCI
Na wykresie DOMINANTA znajduje się pod najwyższym punktem wykresu.
ŚREDNIA ARYTMETYCZNA jest pod punktem ciężkości wykresu. W stosunku do dominanty średnia będzie w kierunku dłuższego ogona.
MEDIANA jest w miejscu przecięcia osi x przez prostopadłą dzielącą powierzchnię pod krzywą na dwie równe części. Znajduje się między średnią i dominantą.
WSKAŹNIK SKOŚNOŚCI A∈<-1, 1>, znak mówi o skośności, jeśli 0 to rozkład symetryczny
KONCENTRACJA - jako nierównomierny podział wartości globalnej cechy
Koncentrację stosuje się, gdy mamy wartości cechy (xi), liczby jednostek (ni), wartości cechy * liczebność (xi * ni)
Współczynnik koncentracji Pearsona K∈ <0,1>, jeśli jest 0 to podział jest równomierny
ELEMENTY STATYSTYKI MATEMATYCZNEJ
ZDARZENIE LOSOWE
Jest to takie zdarzenie, które może wystąpić w próbie; każdy pomiar podzbioru zbioru zdarzeń elementarnych.
DOŚWIADCZENIE LOSOWE
Jest to każde dowolne doświadczenie, w wyniku którego mogą wystąpić pewne zdarzenia np. rzut monetą, każdy pomiar.
ZBIÓR ZDARZEŃ ELEMENTARNYCH
Jest to zbiór zdarzeń podstawowych związanych z danym doświadczeniem np. liczba oczek w rzucie kostką
ZDARZENIE ZŁOŻONE
Jest to zdarzenie, które da się rozłożyć na zdarzenia elementarne np. w rzucie monetą parzyste
PRAWDOPODOBIEŃSTWO
Jest to funkcja, której argumentami są zdarzenia losowe zaś wartościami liczby z przedziału 0 - 1.
R Y S U N E K
Własności prawdopodobieństwa
A - zdarzenie losowe 0 <= P(A) <= 1
zdarzenie pewne P(E) = 1
dla każdego ciągu zdarzeń rozłącznych (nie mogą zajść równocześnie)
gdzie u - alternatywa zdarzeń
Funkcja rozkładu prawdopodobieństwa
Dla zmiennej skokowej; zmienna losowa - X, wartość zmiennej losowej - x; wykonano rzut trzema monetami
{OOO OOR ORO ROO RRO ROR ORR RRR}
3 2 2 2 1 1 1 0
Xi |
0 |
1 |
2 |
3 |
pi |
1/8 |
3/8 |
3/8 |
1/8 |
Funkcja gęstości prawdopodobieństwa
Dla zmiennej ciągłej. Własności:
|
|
|
|
ZMIENNA LOSOWA
Jest to wielkość (funkcja), która poszczególnym zdarzeniom elementarnym przyporządkowuje określone liczby rzeczywiste
Skokowe
Ciągłe
DYSTRYBUANTA
F(x) = P(X<x) x∈R
Własności:
przebieg funkcji dystrybuanty, jeżeli rozkład jest symetryczny:
|
|
WNIOSKOWANIE STATYSTYCZNE
Jest to proces uogólniania zaobserwowanych wyników w próbie losowej na całą zbiorowość statystyczną.
Budową reguł wnioskowania zajmuje się statystyka matematyczna. Reguły te umożliwiają wyprowadzenie wniosków o populacji na podstawie próby oraz ocenę ich dokładności i wiarygodności.
Podstawowym założeniem dla wszystkich reguł wnioskowania jest to, że próba losowa jest pobrana w sposób niezależny z populacji nieskończonej.
Losowanie zależne - bezzwrotne
Losowanie niezależne - zwrotne
PODZIAŁ WNIOSKOWANIA STATYSTYCZNEGO
estymacja statystyczna - szacowanie, ocenianie - jest procesem wnioskowania o numerycznych wartościach nieznanych wielkości charakteryzujących populację generalną na podstawie danych próbkowych. Najczęściej estymacja dotyczy parametrów populacji Θ
weryfikacja hipotez statystycznych
PARAMETRY POPULACJI Θ
PARAMETR |
ESTYMATOR |
Średnia wartość cechy μ |
|
Wariancja σ2 |
s2 |
Proporcja p - jednostek wyróżnionych np. proporcja kobiet w danej populacji |
|
ESTYMATORY Tn
Estymator Tn (gdzie n oznacza n-elementową próbę, n-obserwacji) służy do oszacowania parametrów.
Jest to statystyka będąca funkcją wartości w próbie
Tn = f(X1, X2, …., Xn)
Która może posłużyć do oszacowania nieznanego parametru Θ w populacji.
Statystyka w próbie jest zmienna losową bo możliwe wyniki w próbie też są zmiennymi losowymi.
Możliwe wyniki losowania:
X1 X2 ... Xn
↓ ↓ ↓ ↓
x1 x2 ... xn
tn = (x1, x2, ..., xn) - jeśli do T podstawimy dane liczbowe to otrzymamy realizację estymatora (wartość estymatora)
Najlepszym estymatorem średniej populacji to średnia
- liczymy gdy próba mała n ≤ 30
Zliczamy obiekty, które są przez nas wyróżnione:
k - liczba elementów wyróżnionych w próbie estymator proporcji p jest
n - elementów w próbie
(wykłady z 28-05-2001)
liczebność próby dla średniej
|
d - założony, dopuszczalny max. błąd bezwzględny, ustalany przez nas d=kD(tn)
|
|
|
weryfikacja hipotez statystycznych
Jest to każde przypuszczenie dotyczące własności badanej populacji. Są to parametry rozkładu, relacje między parametrami, przypuszczenia co do rozkładu badanej cechy populacji. Hipotezy stawiamy dlatego, że nie znamy populacji. Rozstrzygać o prawdziwości lub fałszywości należy na podstawie próby pobranej z danej populacji.
Podział hipotez na kategorie
Parametryczne - jeżeli dotyczą parametru lub parametrów jednej lub wielu populacji.
Nieparametryczne - nie dotyczy parametrów np. rozkład cechy jest normalny, dwie badane cechy są nie zależne, zbiór obiektów stanowi próbę losową itp.
Zbiór hipotez dopuszczalnych - jest to zbiór sensownych hipotez dotyczących interesującej nas własności populacji generalnej, składa się z hipotez prostych.
Hipoteza prosta - można ją wyrazić tylko w jeden sposób, jako hipotezę nierozkładalną.
Weryfikacja - ze zbioru hipotez dopuszczalnych wybieramy jedną i ją sprawdzamy.
Hipoteza zerowa - jest to jedna prosta hipoteza, wyróżniona w zbiorze hipotez dopuszczalnych, którą chcemy sprawdzić (zweryfikować). Oznaczamy ją np.: H0 : μ = 26
Hipoteza alternatywna - jest to hipoteza przeciwna do hipotezy zerowej, powstaje przez usunięcie ze zbioru hipotez dopuszczalnych hipotezy zerowej. Oznaczamy ją H1 : μ ≠ 26
Test hipotezy statystycznej (test statystyczny) - należy zbudować specjalną regułę postępowania, która określi nam przy jakich ewentualnych wynikach z próby hipotezę testowaną należy przyjąć, a przy jakich odrzucić.
Testowanie hipotezy H0
Decyzja |
hipoteza prawdziwa |
|
|
H0 |
H1 |
przyjąć H0 |
decyzja słuszna P(Tn∉Rα(H0)=1-α |
błąd II rodzaju P(Tn∉Rα(H1)=β |
odrzucić H0 |
błąd I rodzaju P(Tn∈Rα(H0)=α |
decyzja słuszna P(Tn∈Rα(H1)=1-β |
Tn - oznacza punkt próbkowy
Błąd I rodzaju - odrzucenie hipotezy zerowej gdy jest ona prawdziwa (jego konsekwencje są poważniejsze)
Błąd II rodzaju - przyjęcie hipotezy zerowej gdy jest ona fałszywa.
Poziom istotności - prawdopodobieństwo błędu I rodzaju α
α ≤ 0,10 np. 0,05 - badanie mniej ważne; 0,01 - badanie ważniejsze
istota testowania hipotezy H0 polega na tym, że przestrzeń punktów próbkowych (zbiór możliwych wartości z próby) jest dzielona na dwie części: jedna część Rα oraz pozostała Ω-Rα .
Odrzucać będziemy hipotezę H0 jeżeli zaobserwowany punkt próbkowy należy do zbioru Rα.
W przeciwnym wypadku przyjmować będziemy hipotezę H0 , jeśli punkt próbkowy należeć będzie do Ω-Rα
obszar krytyczny tez (obszar odrzucenia) - nazywamy zbiór Rα przestrzeni punktów próbkowych Ω, który związany jest z odrzucaniem hipotezy zerowej.
|
|
|
zbiór krytyczny Rα = ( -∞, -zα ) ∪ ( zα, +∞ )
|
Przyjęliśmy jako μ = 26 lat teoretycznie
Wyszło x = 28 lat
Zobl = 16,6 ∈ Rα ⇒ odrzucamy hipotezę zerową (H0), wiek 28 lat przeczy hipotezie zerowej.
Procedura testowania hipotez statystycznych
Jeśli H1 ; μ ≠ 26 to Rα jest dwustronne |
jeśli μ<26 to Rα jest lewostronne |
a jeśli μ>26 to Rα jest prawostronne |
|
|
|
sformułować hipotezy H0 i H1 |
↓ |
wybrać statystykę testową |
↓ |
określić poziom istotności α |
↓ |
zdefiniować obszar krytyczny Rα |
↓
nie odrzucamy H0 |
← |
podjąć decyzję statystyczną |
→ |
odrzucamy H0 |
↓ |
|
↓ |
||
konkluzja: H0 może być prawdziwa |
|
konkluzja: H1 jest prawdziwa |
1
3
STATYSTYKA WYKŁAD opracowanie: Alicja i Wojciech Makowiec - grupa 101