Wykład 9: Statystyka matematyczna - wstęp
Statystyka - nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska masowe.
Duża część dziedzin wiedzy zajmuje się obserwacją otaczającego nas świata lub też posługuje się eksperymentem dla potwierdzenia swoich teorii. Takie badanie przebiega zazwyczaj według schematu: zebranie dużej ilości danych, ich analiza i interpretacja. Badaczowi potrzebny jest wtedy zestaw narzędzi - sprawdzonych metod, które umożliwią mu operowanie na dużych zbiorach danych. Tworzeniem i rozwijaniem takich użytecznych narzędzi zajmuje się właśnie statystyka.
Początki statystyki
Swoje początki statystyka wywodzi z tradycji dokonywania spisów powszechnych, czyli zbierania informacji na temat ludności. Ślady pierwszego spisu można znaleźć w Księdze Liczb, kiedy to Mojżesz wyprowadzał lud Izraela z Egiptu. Spisy powszechne były stosunkowo systematycznie przeprowadzane na terenie starożytnego Rzymu. Z pewnością posiadanie informacji na temat stanu ludności ułatwiało rozpoznawanie trendów i odpowiednie planowanie. Do ok. połowy XIX wieku termin statystyka oznaczał podany w tabelarycznej formie zbiór danych na temat stanu państwa. Można przypuszczać, że w pewnym momencie posiadanie podstawowych danych stało się niewystarczające, szczególnie przy coraz szybciej rozwijającej się gospodarce światowej. Konieczne stało się nie tylko ulepszanie metod pozyskiwania danych, ale również ich opisu i analizy. Zbiegło się to w czasie z szybkim rozwojem metod matematycznych, szczególnie teorii prawdopodobieństwa.
Dlaczego w statystyce mamy do czynienia z losowością?
Już pierwszy rzut oka na podstawowe metody statystyczne pozwala nam zorientować się, że nieodłącznym ich atrybutem jest losowość. Przede wszystkim wynika to z losowej natury badanych wielkości. Na przykład wzrost człowieka jest uwarunkowany ogromną ilością czynników, takich jak genetyka, dieta, środowisko, przy czym niektóre z nich również mają losową naturę. Zgodnie z zasadami mechaniki kwantowej na pewnym poziomie obserwacji wszystkie zjawiska mają charakter losowy.
Ważniejszy jest jednak fakt, że czasami nie mamy możliwości lub środków do tego, aby przebadać całą populację. Badanie wzrostu wszystkich ludzi tylko po to, aby wyznaczyć średni wzrost ludzi w Polsce z ekonomicznego punktu widzenia nie ma sensu, lepiej byłoby przebadać losowo wybraną grupę osób, zakładając, że reszta populacji nie wyróżnia się szczególnie wysokim lub niskim wzrostem. W tym wypadku, oszczędzając na samym badaniu, świadomie skazujemy się na niepewność.
Jak widać, losowość zjawisk jest niejako wpisana w definicję metod statystycznych. Dlatego właśnie statystykę łączy bardzo ścisły związek z teorią prawdopodobieństwa, działem matematyki dzięki któremu jesteśmy w stanie poradzić sobie z niepewnością.
Metody statystyczne
Celem analizy statystycznej jest pozyskanie jak największej wiedzy z tego, co jesteśmy w stanie zaobserwować. Dlatego powinniśmy:
Zaplanować badanie
Podsumować zbiór danych z obserwacji, podkreślając tendencje, ale rezygnując ze szczegółów
Uzgodnić, jaką wiedzę o badanym zjawisku dostarczają nam dane
Poszczególne punkty odpowiadają działom statystyki:
1. Metoda reprezentacyjna jest częściowym badaniem statystycznym opartym na próbie pobranej ze zbiorowości generalnej w sposób losowy. Z teoretycznego i praktycznego punktu widzenia metoda ta jest najbardziej prawidłową formą badania częściowego.
Zastosowanie rachunku prawdopodobieństwa przy przenoszeniu wyników z losowej próby na całą zbiorowość umożliwia określenie wielkości popełnianego błędu.
Zamiast gromadzić szczegółowe informacje o wszystkich jednostkach populacji generalnej, losujemy z niej pewną liczbę jednostek zwaną próbą i na podstawie otrzymanych wyników wnioskujemy o całości. Aby jednak próba była dobrą reprezentacją całości, należy zapewnić jednakowe szanse dostania się (trafienia) do próby wszystkim jednostkom zbiorowości generalnej. Jeśli prawdopodobieństwo wylosowania każdej jednostki jest jednakowe, wówczas wylosowana próba jest dobrą reprezentacją całej zbiorowości, tzn. charakteryzuje się tymi samymi właściwościami i prawidłowościami ogólnymi co zbiorowość generalna.
2. Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych uzyskanych podczas badania statystycznego. Celem stosowania metod statystyki opisowej jest podsumowanie zbioru danych i wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru.
Statystykę opisową stosuje się zazwyczaj jako pierwszy i podstawowy krok w analizie zebranych danych.
Do technik statystyki opisowej można zaliczyć:
1. Opis tabelaryczny.
Dane przedstawiane są w postaci tabel. Dla małych zbiorów danych tabele mogą prezentować wszystkie dane, w przeciwnym przypadku tworzy się różnego rodzaju podsumowania, jak np. szereg rozdzielczy.
Szereg rozdzielczy jest statystycznym sposobem prezentacji rozkładu empirycznego. Uzyskuje się go dzieląc dane statystyczne na pewne kategorie i podając liczebność lub częstość zbiorów danych przypadających na każdą z tych kategorii.
Kolejne kroki podczas wykonywania szeregu rozdzielczego:
porządkujemy (jeśli to możliwe rosnąco) wartości cechy
obliczamy częstości występowania dla każdej wartości cechy
prezentujemy wynik w formie tabeli
Jeśli cecha ma charakter ciągły, wtedy przedział wartości cechy dzieli się na przedziały klasowe. Liczba i rozpiętości przedziałów powinny być tak dobrane, aby dawały przejrzysty obraz rozkładu. Na ogół przyjmuje się, że liczba przedziałów powinna być większa od 5 i mniejsza od 20.
Jeśli cecha ma charakter skokowy, ale liczba możliwych wartości jest bardzo duża, wtedy można postąpić podobnie jak w przypadku cechy o charakterze ciągłym.
Przykład: W badaniu ilości literówek na stronach pewnej gazety zaobserwowano następujące wyniki:
0, 0, 1, 1, 0, 1, 2, 4, 1, 0, 2, 1, 0, 1, 2, 1, 2, 2, 1, 5
Wartości cechy |
Liczebność |
Częstość |
0 |
5 |
0.25 |
1 |
8 |
0.40 |
2 |
5 |
0.25 |
4 |
1 |
0.05 |
5 |
1 |
0.05 |
2. Graficzna prezentacja wyników.
Dane prezentowane są w formie graficznej. Podstawowymi narzędziami są tutaj: histogram, wielobok liczebności i krzywa liczebności, które wykreślane są bezpośrednio na podstawie danych z szeregu rozdzielczego; wykres pudełkowy, przedstawiający zależności pomiędzy niektórymi statystykami pozycyjnymi.
a) Histogram to jeden z graficznych sposobów przedstawiania rozkładu cechy. Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są z jednej strony wyznaczone przez przedziały klasowe (patrz: Szereg rozdzielczy) wartości cechy, natomiast ich wysokość jest określona przez liczebności (lub częstości) elementów wpadających do określonego przedziału klasowego.
Przykładowy histogram
b) Wielobok liczebności to jedna z graficznych form prezentacji rozkładu cechy statystycznej. Wykreślenie wieloboku liczebności polega na zaznaczeniu na układzie współrzędnych punktów (xi, ni), gdzie xi to kolejne wartości cechy, zaś ni to liczebności dla danej wartości cechy. Kolejnym krokiem jest połączenie punktów odpowiadających sąsiednim wartościom cechy. Liczebności mogą zostać zastąpione przez częstości.
c) Krzywa liczebności jest jedną z form graficznej prezentacji rozkładu cechy statystycznej. Krzywą liczebności tworzymy w taki sam sposób, jak wielobok liczebności, z tym wyjątkiem, że zamiast łamaną, punkty na wykresie łączymy łagodnie przebiegającą krzywą (krzywą gładką).
d) Wykres pudełkowy jest jedną z form graficznej prezentacji rozkładu cechy statystycznej, spotykany najczęściej w pakietach komputerowych wspomagających proces analizy i interpretacji danych statystycznych.
Wykres pudełkowy tworzymy odkładając na poziomej osi wartości niektórych parametrów rozkładu. Nad osią umieszczony jest prostokąt (pudełko), którego lewy bok jest wyznaczony przez pierwszy kwartyl (kwantyl rzędu 1/4), zaś prawy bok przez trzeci kwartyl (kwantyl rzędu 3/4). Szerokość pudełka odpowiada wartości rozstępu ćwiartkowego. Wewnątrz prostokąta znajduje się pionowa linia, określająca wartość mediany (drugi kwartyl - kwantyl rzędu ½). Rysunek pudełka uzupełniamy po prawej i lewej stronie odcinkami. Lewy koniec lewego odcinka wyznacza najmniejszą wartość w zbiorze, natomiast prawy koniec prawego odcinka to wartość największa.
3. Wyznaczanie miar rozkładu.
Do opisu służą miary rozkładu - różnego rodzaju wielkości (charakterystyki liczbowe) obliczane na podstawie uzyskanych danych. Interpretacja wartości tych miar dostarcza informacji na temat charakteru rozkładu cechy.
Miary można podzielić na trzy podstawowe kategorie:
Średnią harmoniczną n liczb dodatnich
nazywamy liczbę:
Na przykład średnią harmoniczną liczb 2, 2, 5 i 7 jest:
Średnia kwadratowa
liczb
jest to pierwiastek ze średniej arytmetycznej kwadratów tych liczb
Na przykład, średnią kwadratową liczb 2, 2, 5 i 7 jest
.
Współczynnik asymetrii to iloraz trzeciego momentu centralnego przez trzecią potęgę odchylenia standardowego:
gdzie M3 to wartość trzeciego momentu centralnego, zaś s to wartość odchylenia standardowego.
Kurtoza (z gr. κυρτός, kyrtos, kurtos - wydęty) - jedna z miar spłaszczenia rozkładu wartości cechy. Definiuje się ją następującym wzorem:
Techniki z wymienionych kategorii dostarczają wzajemnie uzupełniających się danych, dlatego najczęściej wykorzystuje się jednocześnie techniki z każdej z tych grup.
3. Wnioskowanie statystyczne to dział statystyki zajmujący się problemami uogólniania wyników badania próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia (patrz badanie statystyczne).
Wyróżnia się dwie grupy metod uogólniania wyników, definiujące jednocześnie dwa działy wnioskowania statystycznego:
Błędy statystyczne
Z metodami statystycznymi nieodłącznie związane są błędy. Ich występowanie uzależnione jest od wielu czynników.
Statystyka stosowana
Statystyka jest stosowana w wielu dziedzinach wiedzy, w niektórych z nich tak intensywnie, że doczekała się własnej terminologii i wyspecjalizowanych metod. Z czasem wytworzyły się dziedziny z pogranicza statystyki i innych nauk. Należą do nich: