Wykład Statystyka 02.10.2012 r.
Statystyka to zbiór metod służących pozyskiwaniu, prezentacji i analizie danych.
Pozyskiwanie danych następuje w procesie badania statystycznego, w ramach którego prowadzi się obserwację statystyczną (wykonanie pomiarów lub zliczania).
Podstawowym zadaniem statystyki jest analiza i interpretacja danych.
Bardzo często wiedzę o badanym zjawisku pozyskujemy na podstawie danych częściowych. Aby się o tym zjawisku wypowiadać należy użyć metod statystyki matematycznej, która posiłkuje się rachunkiem prawdopodobieństwa.
Badaną zbiorowość statystyczną (złożoną z obiektów materialnych lub zjawisk) nazywa się populacją (zbiorowością) generalną. Gdy zbiór elementów populacji generalnej jest skończony, populację nazywamy skończoną, w przeciwnym wypadku – nieskończoną.
Populacja nieskończona występuje raczej w opisie teoretycznym, dotyczy raczej zjawisk niż obiektów materialnych. Czasami jako nieskończoną wygodniej rozpatrywać populację, która jest bardzo liczna.
Elementy populacji generalnej mogą mieć różne właściwości, które podlegają obserwacji statystycznej, nazywamy je cechami statystycznymi.
Wyróżniamy cechy mające charakter ilościowy (mierzalne) i mające charakter jakościowy (niemierzalne).
Elementy populacji generalnej różnią się na ogół między sobą wartościami cechy statystycznej (cech statystycznych). Można mówić o rozkładzie cechy w populacji i badać zróżnicowanie cechy w populacji – są to istotne elementy badania statystycznego.
Badanie pełne i częściowe:
Badanie pełne obejmuje wszystkie elementy zbiorowości generalnej, badanie częściowe tylko pewną część elementów zbiorowości generalnej.
Gdy niemożliwe jest przeprowadzenie badania na całej populacji statystycznej (populacji generalnej) wybieramy pewien jej podzbiór – próbę.
Aby wnioski wyprowadzone z badania tej części populacji dały się sensownie ekstrapolować na populację generalną próba powinna być losowa.
Warunki losowości próby:
Każdy element populacji generalnej ma dodatnie, znane prawdopodobieństwo znalezienia się w próbie.
Można ustalić prawdopodobieństwo znalezienia się w próbie dla każdego zespołu elementów populacji.
Podstawowym schematem losowania elementów do próby jest losowanie proste, gdy wszystkie elementy populacji mają jednakowe, nie zmieniające się w trakcie losowania, prawdopodobieństwo znalezienia się w próbie.
Z reguły jako próbę losową będziemy uważać próbę prostą, tj. otrzymaną w wyniku losowania prostego.
Rozkład empiryczny cechy:
Podstawą analiz statystycznych badanej cechy jest określenie empirycznego rozkładu cechy. Polega ono na przyporządkowaniu uszeregowanym rosnąco wartościom cechy częstwości ich występowania.
Dane indywidualne, czyli indywidulane wartości cechy (tj. przyjmowane na poszczególnych elementach populacji) będziemy oznaczać
xj, j = 1, …, n,
gdzie n jest licznością badanej populacji.
Przykład 1. Sprawdzono 20 stron składu komputerowego znajdując na nich następujące liczby błędów:
0, 3, 1, 1,2, 2, 0, 0, 3, 5, 0, 1, 2, 2, 1, 1, 0, 1, 1, 1.
Badaną zbiorowością jest tu 20 stron składu komputerowego, badaną cechą liczba błędów na stronie.
W przykładzie badana cecha przyjmuje wartości całkowite 0, 1, 2, 3, 4 ,5.
Cechy tego typu (o wartościach ze zbioru przeliczalnego) nazywamy skokowymi.
Tabela 1: Uporządkujmy i pogrupujmy dane z przykładu w sposób rosnący. Otrzymany wynik przedstawimy w postaci tabeli (szeregu rozdzielczego).
Liczba błędów xi | Liczba stron ni | Częstość (względna) stron wi = ni/n |
---|---|---|
0 1 2 3 4 5 |
5 8 4 2 0 1 |
0,25 0,40 0,20 0,10 0 0,05 |
∑ | 20 | 1,00 |
Cecha skokowa może być zatem opisana następująco.
Gdy próba ma liczność n, cecha może przyjąć k <= n różnych wartości xi, i = 1, 2, …, k. Będziemy przyjmować, że wartości cechy są uporządkowane
xmin = x1 < x2 < … <xk = xmax
gdzie xmin oraz xmax oznaczają odpowiednio najmniejszą i największą wartość cechy zaobserwowanej w badanej zbiorowości.
Liczbę elementów zbiorowości dla których cecha przyjmuje wartość xi oznaczać będziemy ni.
Oczywiście
$\sum_{i = 1}^{k}{\text{ni} =}n$,
Niekiedy (jak w przykładzie) przy określaniu rozkładu empirycznego zamiast liczności stosuje się częstości (względne)
wi = ni/n i = 1, …, k
Mamy $\sum_{i = 1}^{k}{wi =}1$,
Histogram rozkładu błędów na stronie:
Miary położenia rozkładu:
Określenie rozkąłdu empirycznego i ewentualnie jego prezentacja graficzna jest wstępnym etapem opisu statystycznego badanej zbiorowości. Zasadniczym etapem jest wyznaczanie i interpretacja pewnych liczbowych charakterystyk opisujących w sposób syntetyczny właściwości rozkładu badanej cechy.
Charakterystyki te nazywa się statystykami, gdy analizowane są dane próby losowej, lub jako parametry, gdy analizowane są dane pełnej populacji.
Rozważa się3 aspekty: poziom cechy, jej zróżnicowanie i asymetrii rozkładu.
Odpowiednio miary opisu rozkładu dzielimy na: miary położenia, miary zróżnicowania i miary asymetrii.
Miary położenia dzielą się na przeciętne i na kwantyle. Miary przeciętne charakteryzują średni lub typowy poziom wartości cechy.