STATYSTYKA
WYKŁAD
2000/2001
ROK: I
SEMESTR: II
WYŁADOWCA:
dr hab. ANDRZEJ BALICKI
SPIS TREŚCI
STATYSTYKA
STATYSTYKA - odrębna dyscyplina naukowa, nauka metodologiczna zajmująca się metodami badań
STATYSTYKA:
opisowa
matematyczna - metody wnioskowania o zbiorowości na podstawie zbadania jej części wylosowanej. Ta wylosowana część to reprezentacja
STATYSTYKA:
teoria statystyki - dział matematyki
zastosowanie statystyki
BADANIA STATYSTYCZNE
BADANIA STATYSTYCZNE - zespół czynności zmierzających do wykrycia za pomocą metod statystycznych prawidłowości w zbiorowości objętej badaniem, prawidłowości w kształtowaniu się zjawisk i procesów masowych
BADANIA STATYSTYCZNE:
eksperymentalne - ingerencja badającego w przebieg zjawiska, sterowanie pewnymi wielkościami
obserwacyjne - badający jest biernym obserwatorem i nie ingeruje w przebieg, prosta rejestracja tego, co zachodzi
ETAPY BADAŃ STATYSTYCZNYCH:
programowanie badania
obserwacja statystyczna (gromadzenie i kontrola danych)
opracowanie danych
analiza statystyczna
ZBIORY DANYCH STATYSTYCZNYCH (materiał statystyczny):
pierwotny - zgromadzony dla celów badania
wtórny - materiał użytkowy zebrany w innym celu i przez kogoś innego
CHARAKTERYSTYKI LICZBOWE W ANALIZIE STRUKTURY
WŁAŚCIWOŚCI |
MIARY KLASYCZNE |
MIARY POZYCYJNE |
Tendencja centralna |
Średnia arytmetyczna |
Dominanta Mediana Kwartyle Decyle |
Dyspersja |
Wariancja Odchylenie standardowe Współczynnik zmienności |
Rozstęp Rozstęp międzykwartylowy Rozstęp międzydecylowy Odchylenie ćwiartkowe Współczynnik zmienności |
Asymetria |
Moment trzeci centralny Moment trzeci względny Współczynnik asymetrii oparty o miary średnie |
Współczynnik asymetrii oparty o kwartyle Współczynnik asymetrii oparty o decyle |
Spłaszczenie (kurtoza) |
Moment czwarty centralny Moment czwarty względny |
Wskaźnik spłaszczenia |
Nierównomierny podział globalnej wartości cechy (koncentracja) |
Współczynnik koncentracji Pearsona |
- - - |
MIARY KLASYCZNE - liczymy na podstawie wszystkich wartości w szeregu; odpowiednie dla szeregów symetrycznych i zbliżonych do symetrycznych
MIARY POZYCYJNE - związane z pewną pozycją w szeregu
Szeregi W Y K R E S Y:
symetryczne
skośne - prawostronne
skośne - lewostronne
błędne - prawdopodobnie połączenie 2 podgrup (np. wzrost mężczyzn i dziewcząt w 22 wieku)
CHARAKTERYSTYKI OPISUJĄCE WŁASNOŚCI ROZKŁADU CECHY ILOŚCIOWEJ
WSKAŹNIK STRUKTURY
MIARY POŁOŻENIA
Średnia arytmetyczna
(A)
(B)
Dominanta
Jest to wartość cechy najliczniej reprezentowana w zbiorowości; służy do wyznaczenia dokładniejszej wartości dominanty w danym przedziale; nie liczymy jej z szeregu szczegółowego przy małych liczebnościach; nie możemy jej policzyć, gdy przedział najliczniejszy i dwa sąsiednie przedziały mają różną rozpiętość
Mediana
Wartość środkowa szeregu uporządkowanego od wartości najmniejszych do największych; kwartyl drugi
Pozycja mediany
Kwartyl pierwszy
Kwartyl trzeci
Decyl
MIARY DYSPERSJI (POŁOŻENIA)
Rozstęp
R = xmax - xmin
Rozstęp międzykwartylowy
Rozstęp 50% środkowych wartości po odznaczeniu 25% największych i 25% najmniejszych
R(Q) = Q3 - Q1
Rozstęp międzydecylowy
Odznaczamy 10% najwyższych wartości I 10% najniższych
R(D) = D9 - D1
Wariancja
Nie ma interpretacji, ale jest miarą
(A)
(B)
Odchylenie standardowe
Miara zróżnicowania wyników (wartości cechy), określa o ile średnio różnią się wartości cechy od średniej arytmetycznej
Odchylenie ćwiartkowe
Współczynniki zmienności
Dobre do porównań, gdy mamy różne zmienne np. odchylenie pracowników według wieku i płac
MOMENTY
Momentem rzędu r - średnia arytmetyczna z podniesionych do potęgi r odchyleń wartości cechy od pewnej stałej
Momenty zwykłe c=0
średnia arytmetyczna
Momenty centralne c=x
wariancja
miara skośności
miara koncentracji wokół średniej
Moment względny trzeci
miara skośności; zawiera się między -2 i 2;
jeśli =0 rozkład symetryczny
>0 skośność prawostronna
<0 skośność lewostronna
Moment względny czwarty
mierzy koncentrację wokół średniej;
α4 < 3 koncentracja większa od normalnej |
|
α4 > 3 koncentracja mniejsza od normalnej |
|
jeśli α4 = 3 nazywamy krzywą Gausa
MIARY SKOŚNOŚCI
Na wykresie DOMINANTA znajduje się pod najwyższym punktem wykresu.
ŚREDNIA ARYTMETYCZNA jest pod punktem ciężkości wykresu. W stosunku do dominanty średnia będzie w kierunku dłuższego ogona.
MEDIANA jest w miejscu przecięcia osi x przez prostopadłą dzielącą powierzchnię pod krzywą na dwie równe części. Znajduje się między średnią i dominantą.
WSKAŹNIK SKOŚNOŚCI A∈<-1, 1>, znak mówi o skośności, jeśli 0 to rozkład symetryczny
KONCENTRACJA - jako nierównomierny podział wartości globalnej cechy
Koncentrację stosuje się, gdy mamy wartości cechy (xi), liczby jednostek (ni), wartości cechy * liczebność (xi * ni)
Współczynnik koncentracji Pearsona K∈ <0,1>, jeśli jest 0 to podział jest równomierny
ELEMENTY STATYSTYKI MATEMATYCZNEJ
ZDARZENIE LOSOWE
Jest to takie zdarzenie, które może wystąpić w próbie; każdy pomiar podzbioru zbioru zdarzeń elementarnych.
DOŚWIADCZENIE LOSOWE
Jest to każde dowolne doświadczenie, w wyniku którego mogą wystąpić pewne zdarzenia np. rzut monetą, każdy pomiar.
ZBIÓR ZDARZEŃ ELEMENTARNYCH
Jest to zbiór zdarzeń podstawowych związanych z danym doświadczeniem np. liczba oczek w rzucie kostką
ZDARZENIE ZŁOŻONE
Jest to zdarzenie, które da się rozłożyć na zdarzenia elementarne np. w rzucie monetą parzyste
PRAWDOPODOBIEŃSTWO
Jest to funkcja, której argumentami są zdarzenia losowe zaś wartościami liczby z przedziału 0 - 1.
R Y S U N E K
Własności prawdopodobieństwa
A - zdarzenie losowe 0 <= P(A) <= 1
zdarzenie pewne P(E) = 1
dla każdego ciągu zdarzeń rozłącznych (nie mogą zajść równocześnie)
gdzie u - alternatywa zdarzeń
Funkcja rozkładu prawdopodobieństwa
Dla zmiennej skokowej; zmienna losowa - X, wartość zmiennej losowej - x; wykonano rzut trzema monetami
{OOO OOR ORO ROO RRO ROR ORR RRR}
3 2 2 2 1 1 1 0
Xi |
0 |
1 |
2 |
3 |
pi |
1/8 |
3/8 |
3/8 |
1/8 |
Funkcja gęstości prawdopodobieństwa
Dla zmiennej ciągłej. Własności:
|
|
|
|
ZMIENNA LOSOWA
Jest to wielkość (funkcja), która poszczególnym zdarzeniom elementarnym przyporządkowuje określone liczby rzeczywiste
Skokowe
Ciągłe
DYSTRYBUANTA
F(x) = P(X<x) x∈R
Własności:
przebieg funkcji dystrybuanty, jeżeli rozkład jest symetryczny:
|
|
WNIOSKOWANIE STATYSTYCZNE
Jest to proces uogólniania zaobserwowanych wyników w próbie losowej na całą zbiorowość statystyczną.
Budową reguł wnioskowania zajmuje się statystyka matematyczna. Reguły te umożliwiają wyprowadzenie wniosków o populacji na podstawie próby oraz ocenę ich dokładności i wiarygodności.
Podstawowym założeniem dla wszystkich reguł wnioskowania jest to, że próba losowa jest pobrana w sposób niezależny z populacji nieskończonej.
Losowanie zależne - bezzwrotne
Losowanie niezależne - zwrotne
PODZIAŁ WNIOSKOWANIA STATYSTYCZNEGO
estymacja statystyczna - szacowanie, ocenianie - jest procesem wnioskowania o numerycznych wartościach nieznanych wielkości charakteryzujących populację generalną na podstawie danych próbkowych. Najczęściej estymacja dotyczy parametrów populacji Θ
weryfikacja hipotez statystycznych
PARAMETRY POPULACJI Θ
PARAMETR |
ESTYMATOR |
Średnia wartość cechy μ |
|
Wariancja σ2 |
s2 |
Proporcja p - jednostek wyróżnionych np. proporcja kobiet w danej populacji |
|
ESTYMATORY Tn
Estymator Tn (gdzie n oznacza n-elementową próbę, n-obserwacji) służy do oszacowania parametrów.
Jest to statystyka będąca funkcją wartości w próbie
Tn = f(X1, X2, …., Xn)
Która może posłużyć do oszacowania nieznanego parametru Θ w populacji.
Statystyka w próbie jest zmienna losową bo możliwe wyniki w próbie też są zmiennymi losowymi.
Możliwe wyniki losowania:
X1 X2 ... Xn
↓ ↓ ↓ ↓
x1 x2 ... xn
tn = (x1, x2, ..., xn) - jeśli do T podstawimy dane liczbowe to otrzymamy realizację estymatora (wartość estymatora)
1
1
STATYSTYKA WYKŁAD opracowanie: Alicja i Wojciech Makowiec - grupa 101