Statystyka to nauka, której przedmiotem zainteresowania są metody pozyskiwania i prezentacji, a przede wszystkim analizy danych opisujących zjawiska masowe.
Duża część dziedzin wiedzy zajmuje się obserwacją otaczającego nas świata lub też posługuje się eksperymentem dla potwierdzenia swoich teorii. Takie badanie przebiega zazwyczaj według schematu: zebranie dużej ilości danych, ich analiza i interpretacja. Badaczowi potrzebny jest wtedy zestaw narzędzi - sprawdzonych metod, które umożliwią mu operowanie na dużych zbiorach danych. Tworzeniem i rozwijaniem takich użytecznych narzędzi zajmuje się właśnie statystyka.
Swoje początki statystyka wywodzi z tradycji dokonywania spisów powszechnych, czyli zbierania informacji na temat ludności. Ślady pierwszego spisu można znaleźć w Księdze Liczb, kiedy to Mojżesz wyprowadzał lud Izraela z Egiptu. Spisy powszechne były stosunkowo systematycznie przeprowadzane na terenie starożytnego Rzymu. Z pewnością posiadanie informacji na temat stanu ludności ułatwiało rozpoznawanie trendów i odpowiednie planowanie. Do ok. połowy XIX wieku termin statystyka oznaczał podany w tabelarycznej formie zbiór danych na temat stanu państwa. Można przypuszczać, że w pewnym momencie posiadanie podstawowych danych stało się niewystarczające, szczególnie przy coraz szybciej rozwijającej się gospodarce światowej. Konieczne stało się nie tylko ulepszanie metod pozyskiwania danych, ale również ich opisu i analizy. Zbiegło się to w czasie z szybkim rozwojem metod matematycznych, szczególnie teorii prawdopodobieństwa.
Już pierwszy rzut oka na podstawowe metody statystyczne pozwala nam zorientować się, że nieodłącznym ich atrybutem jest losowość. Przede wszystkim wynika to z losowej natury badanych wielkości. Na przykład wzrost człowieka jest uwarunkowany ogromną ilością czynników, takich jak genetyka, dieta, środowisko, przy czym niektóre z nich również mają losową naturę. Zgodnie z zasadami mechaniki kwantowej na pewnym poziomie obserwacji wszystkie zjawiska mają charakter losowy.
Ważniejszy jest jednak fakt, że czasami nie mamy możliwości lub środków do tego, aby przebadać całą populację. Badanie wzrostu wszystkich ludzi tylko po to, aby wyznaczyć średni wzrost ludzi w Polsce z ekonomicznego punktu widzenia nie ma sensu (patrz Badanie statystyczne), lepiej byłoby przebadać losowo wybraną grupę osób, zakładając, że reszta populacji nie wyróżnia się szczególnie wysokim lub niskim wzrostem. W tym wypadku, oszczędzając na samym badaniu, świadomie skazujemy się na niepewność.
Jak widać, losowość zjawisk jest niejako wpisana w definicję metod statystycznych. Dlatego właśnie statystykę łączy bardzo ścisły związek z teorią prawdopodobieństwa, działem matematyki dzięki któremu jesteśmy w stanie poradzić sobie z niepewnością.
Celem analizy statystycznej jest pozyskanie jak największej wiedzy z tego, co jesteśmy w stanie zaobserwować. Dlatego powinniśmy:
Zaplanować badanie
Podsumować zbiór danych z obserwacji, podkreślając tendencje, ale rezygnując ze szczegółów
Uzgodnić, jaką wiedzę o badanym zjawisku dostarczają nam dane
Poszczególne punkty odpowiadają działom statystyki:
1.
Metoda reprezentacyjna jest częściowym badaniem statystycznym opartym na próbie pobranej ze zbiorowości generalnej w sposób losowy. Z teoretycznego i praktycznego punktu widzenia metoda ta jest najbardziej prawidłową formą badania częściowego.
Zastosowanie rachunku prawdopodobieństwa przy przenoszeniu wyników z losowej próby na całą zbiorowość umożliwia określenie wielkości popełnianego błędu. Możliwości tej nie daje ani metoda ankietowa, ani monograficzna.
Zamiast gromadzić szczegółowe informacje o wszystkich jednostkach populacji generalnej, losujemy z niej pewną liczbę jednostek zwaną próbą i na podstawie otrzymanych wyników wnioskujemy o całości. Aby jednak próba była dobrą reprezentacją całości, należy zapewnić jednakowe szanse dostania się (trafienia) do próby wszystkim jednostkom zbiorowości generalnej. Jeśli prawdopodobieństwo wylosowania każdej jednostki jest jednakowe, wówczas wylosowana próba jest dobrą reprezentacją całej zbiorowości, tzn. charakteryzuje się tymi samymi właściwościami i prawidłowościami ogólnymi co zbiorowość generalna.
2.
Statystyka opisowa to dział statystyki zajmujący się metodami opisu danych statystycznych uzyskanych podczas badania statystycznego. Celem stosowania metod statystyki opisowej jest podsumowanie zbioru danych i wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru.
Statystykę opisową stosuje się zazwyczaj jako pierwszy i podstawowy krok w analizie zebranych danych.
Do technik statystyki opisowej można zaliczyć:
1. Opis tabelaryczny.
Dane przedstawiane są w postaci tabel. Dla małych zbiorów danych tabele mogą prezentować wszystkie dane, w przeciwnym przypadku tworzy się różnego rodzaju podsumowania, jak np. szereg rozdzielczy.
2. Graficzna prezentacja wyników.
Dane prezentowane są w formie graficznej. Podstawowymi narzędziami są tutaj: histogram, wielobok liczebności i krzywa liczebności, które wykreślane są bezpośrednio na podstawie danych z szeregu rozdzielczego; wykres pudełkowy, przedstawiający zależności pomiędzy niektórymi statystykami pozycyjnymi; krzywa Lorentza charakteryzująca koncentrację wartości cechy.
3. Wyznaczanie miar rozkładu.
Do opisu służą miary rozkładu - różnego rodzaju wielkości obliczane na podstawie uzyskanych danych. Interpretacja wartości tych miar dostarcza informacji na temat charakteru rozkładu cechy.
Miary można podzielić na trzy podstawowe kategorie:
np. średnia arytmetyczna, średnia geometryczna, średnia harmoniczna, średnia kwadratowa, mediana, moda
np. odchylenie standardowe, wariancja, rozstęp, rozstęp ćwiartkowy, średnie odchylenie bezwzględne, odchylenie ćwiartkowe, współczynnik zmienności
3.
Wnioskowanie statystyczne to dział statystyki zajmujący się problemami uogólniania wyników badania próby losowej na całą populację oraz szacowania błędów wynikających z takiego uogólnienia (patrz badanie statystyczne).
Wyróżnia się dwie grupy metod uogólniania wyników, definiujące jednocześnie dwa działy wnioskowania statystycznego:
Estymacja - szacowanie wartości nieznanych parametrów rozkładu
Weryfikacja hipotez statystycznych - sprawdzanie poprawności przypuszczeń na temat rozkładu
Lesław Gajek, Wnioskowanie statystyczne dla studentów. Modele i metody., Warszawa 1998, ISBN 8320424895
Poza tym podziałem wyróżnia się miary klasyczne i miary pozycyjne.
Techniki z wymienionych kategorii dostarczają wzajemnie uzupełniających się danych, dlatego najczęściej wykorzystuje się jednocześnie techniki z każdej z tych grup.
Istnieje również wiele metod służących analizie danych statystycznych:
Analiza wariancji (ANOVA - od ang. analysis of variance) to metoda statystyczna, służąca do badania obserwacji, które zależą od jednego lub wielu działających równocześnie czynników. Metoda ta wyjaśnia z jakim prawdopodobieństwem wyodrębnione czynniki mogą być powodem różnic między obserwowanymi średnimi grupowymi. Analiza wariancji została stworzona w latach dwudziestych przez Ronalda Fishera.
Modele analizy wariancji można podzielić na:
modele jednoczynnikowe - wpływ każdego czynnika jest rozpatrywany oddzielnie, tą klasą zagadnień zajmuje się jednoczynnikowa analiza wariancji,
modele wieloczynnikowe - wpływ różnych czynników jest rozpatrywany łącznie, tą klasą zagadnień zajmuje się wieloczynnikowa analiza wariancji.
Według kryterium podział modeli przebiega następująco:
model efektów stałych - obserwacje są z góry podzielone na kategorie,
model efektów losowych - kategorie mają charakter losowy,
model mieszany - część kategorii jest ustalona, a część losowa.
Fahrmeir u.A. (Hrsg): Multivariate statistische Verfahren. Walter de Gruyter, 1996. ISBN 3-11-013806-9.
Fahrmeir u.A.: Statistik - Der Weg zur Datenanalyse. Springer, 1999.
Hartung/Elpelt: Multivariate Statistik: Lehr- und Handbuch der angewandten Statistik. Oldenbourg, 1999. ISBN 3-486-25287-9.
Backhaus u.A.: Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Springer, 2006. ISBN 3-540-27870-2
Regresja to w statystyce metoda, pozwalająca na zbadanie związku pomiędzy różnymi wielkościami występującymi w danych i wykorzystanie tej wiedzy do przewidywania nieznanych wartości jednych wielkości na podstawie znanych wartości innych.
Z matematycznego punktu widzenia, regresją nazywamy dowolną metodę statystyczną pozwalającą estymować warunkową wartość oczekiwaną zmiennej losowej, zwanej zmienną objaśnianą[1], dla zadanych wartości innej zmiennej lub wektora zmiennych losowych (tzw. zmiennych objaśniających[1]).
Użycie regresji w praktyce sprowadza się do dwóch faz:
konstruowanie modelu - budowa tzw. modelu regresyjnego, czyli funkcji, opisującej jak zależy wartość oczekiwana zmiennej objaśniającej od zmiennych objaśnianych. Funkcja ta może być zadana nie tylko czystym wzorem matematycznym, ale także całym algorytmem, np. w postaci drzewa regresyjnego, sieci neuronowej, itp.. Model konstruuje się tak, aby jak najlepiej pasował do danych z próby, zawierającej zarówno zmienne objaśniające, jak i objaśniane (tzw. zbiór uczący). Mówiąc o wyliczaniu regresji ma się na myśli tę fazę.
stosowanie modelu (scoring) - użycie wyliczonego modelu do danych w których znamy tylko zmienne objaśniające, w celu wyznaczenia wartości oczekiwanej zmiennej objaśnianej.
Dział statystyki zajmujący się modelami i metodami regresji zwany jest analizą regresji. Regresja w której występuje więcej niż jedna zmienna objaśniająca zwana jest regresją wieloraką (ang. multiple regression
Analiza czynnikowa to metoda statystyczna, służąca odnajdywaniu struktur w zbiorze zmiennych losowych. Znalazła ona szerokie zastosowanie w marketingu, zarządzaniu produktem i teorii decyzji.
Celem analizy czynnikowej jest zredukowanie dużej liczby zmiennych losowych do mniejszego zbioru, co uzyskujemy przez założenie, że pewne grupy zmiennych losowych reprezentują zmienność tych samych czynników, czyli zmienne losowe w danej grupie są od siebie w pewnym stopniu zależne.
W analizie czynnikowej istnieją dwa podejścia:
eksploracyjna analiza czynnikowa (EFA - ang. Exploratory Factor Analysis) - czynniki są początkowo nieznane i zostają wyodrębnione dzięki analizie wartości zmiennych losowych, to podejście jest bardziej rozpowszechnione
konfirmacyjna analiza czynnikowa (CFA - ang. Confirmatory Factor Analysis) - zakładamy istnienie pewnego określonego zbioru czynników i dzięki analizie wartości zmiennych losowych badamy zasadność naszego przypuszczenia i estymujemy parametry naszego modelu (zob. Modelowanie równań strukturalnych)
Istnieje wiele metod analizy czynnikowej, jednak najbardziej popularne są dwie:
analiza głównych składowych (PCA od ang. Principal Component Analysis)
analiza czynników głównych (PFA od ang. Principal Factor Analysis)
Niezależnie od metody, analizę czynnikową rozpoczynamy od budowy macierzy korelacji i sprawdzenia, czy możliwe jest zastosowanie analizy czynnikowej
Analiza dyskryminacyjna (ang. discriminant analysis) - zespół metod wielowymiarowej analizy danych. Zalicza się do grupy prognoz ilościowych. Zawiera metody, które czynią z tej techniki niezwykle efektywne narzędzie do zagadnień klasyfikacyjnych i technik zagłębiania danych (data mining). Jej zadaniem jest rozstrzyganie, które zmienne w najlepszy sposób dzielą dany zbiór przypadków na występujące w naturalny sposób grupy. Pozwala rozstrzygnąć, czy grupy różnią się ze względu na średnią pewnej zmiennej, oraz wykorzystanie tej zmiennej do przewidywania przynależności do danej grupy.
W metodzie tej możemy wyróżnić dwa główne etapy:
etap uczenia / budowy modelu - w którym znajdujemy reguły klasyfikacyjne w oparciu o tak zwany zbiór uczący (próbę statystyczną)
etap klasyfikacji / wykorzystania modelu - w którym dokonujemy klasyfikacji zasadniczego zbioru obiektów, których przynależność jest nam nieznana w oparciu o znalezione charakterystyki klas.
Sposób przeprowadzania analizy w pakietach statystycznych najczęściej przebiega krokowo (postępująca lub wsteczna analiza krokowa). Pakiety oprócz licznych statystyk wykreślają też tak zwane funkcje klasyfikacyjne, które stanowią doskonałą ilustrację otrzymanych wyników. Postać tych funkcji może być dowolna, choć najczęściej wykorzystywane są funkcje liniowe (LDA). W tym podejściu opisowym obiekt przydzielany jest do tej klasy, dla której funkcja dyskryminacyjna osiąga największą wartość.
Zaletą klasycznej analizy dyskryminacyjnej jest prostota jak i wysoka skuteczność na homogenicznych danych, wadą natomiast nieprzenośność i brak skuteczności na niehomogenicznych danych.
Używane są również w podobnych celach m.in. drzewa klasyfikacyjne, klasyfikatory bayesowskie, metoda najbliższych sąsiadów, maszyny wektorów podpierających (SVM).
Korelacja kanoniczna - metoda statystyczna, pozwalająca badać związek między dwoma zbiorami zmiennych. Stanowi swego rodzaju uogólnienie współczynnika korelacji Pearsona. Jest szczególnym przypadkiem Ogólnych Modeli Liniowych (GLM
Metoda tworzy dla każdego z wejściowych zbiorów zmiennych tzw. zmienne kanoniczne będące sumami ważonymi zmiennych wejściowych z danego zbioru. Para zmiennych kanonicznych z obydwu zbiorów to tzw. pierwiastek kanoniczny.
Metoda tak dobiera wagi w tych sumach (tzw. wagi kanoniczne), aby przede wszystkim zmaksymalizować korelację pomiędzy pierwszą zmienną kanoniczną z jednego i drugiego zbioru, w następnej kolejności zmaksymalizować korelację między drugą parą zmiennych kanonicznych, itd..
Maksymalna liczba pierwiastków jest równa minimum z liczby wejściowych zmiennych w jednym i w drugim zbiorze. Zmienne kanoniczne dotyczące tego samego zbioru zmiennych wejściowych są nieskorelowane
Z metodami statystycznymi nieodłącznie związane są błędy. Ich występowanie uzależnione jest między innymi od:
Wahania przypadkowe to nieregularne (sporadyczne, jednorazowe) wahania w czasie mające charakter losowy. Związane są nieodłącznie z błędami statystycznymi oraz prognostycznymi. Występują jako składowa szeregu czasowego (trend + sezonowość + wahania przypadkowe).
Przyczyny wahań przypadkowych: nieurodzaj, katastrofy naturalne, klęski żywiołowe, wojny i inne.
Statystyka jest stosowana w wielu dziedzinach wiedzy, w niektórych z nich tak intensywnie, że doczekała się własnej terminologii i wyspecjalizowanych metod. Z czasem wytworzyły się dziedziny z pogranicza statystyki i innych nauk. Należą do nich:
Mieczysław Sobczyk, Statystyka. Podstawy teoretyczne, przykłady, zadania, Wyd. UMCS, ISBN 83-227-1153-0