Przez badanie statystyczne rozumie się ogół prac mających na celu poznanie struktury określonej zbiorowości statystycznej.
Zbiory dowolnych elementów (osób, przedmiotów, faktów) podobnych pod względem określonych cech, (ale nie identycznych) i poddanych badaniom statystycznym nazywa się zbiorowościami statystycznymi lub populacjami statystycznymi. Zbiorowości statystyczne mogą być skończenie lub nieskończenie liczne, statyczne, (gdy elementy obserwowane są w danym momencie czasu) lub dynamiczne (w określonym przedziale czasowym), jednowymiarowe, (gdy elementy poddaje się badaniu ze względu na jedną cechę) lub wielowymiarowe (w przypadku rozpatrywania wielu cech), jednorodne lub niejednorodne.
Bezpośredniej obserwacji lub pomiarowi podlegają elementy składowe zbiorowości (obiekty badania) określane mianem jednostek statystycznych.
Zbiorowość generalna (populacja generalna) - pojęcie związane ze skończonym lub nieskończonym zbiorem jednostek, które zamierzamy poddać obserwacji empirycznej w tzw. badaniu pełnym (wyczerpującym).
Zbiorowość próbna, próba (próbka) - część (podzbiór) zbiorowości generalnej, która podlega bezpośrednio badaniu empirycznemu ze względu na ustaloną cechę w celu wyciągnięcia wniosków o kształtowaniu się wartości tej cechy w całej populacji generalnej.
Próba losowa - próba, której jednostki dobrane zostały w całej populacji w sposób losowy, tzn. w taki sposób, że tylko przypadek decyduje o tym, który element populacji generalnej znalazł się w próbie, a który nie.
Próba reprezentacyjna - próba, której wewnętrzna budowa pod względem badanej cechy, (czyli struktura) nie różni się istotnie od wewnętrznej budowy (struktury) zbiorowości generalnej pod względem tej samej cechy badanej. Uzyskaniu prób reprezentacyjnych sprzyja zastosowanie właściwego tzw. schematu losowania.
Aby uzyskane wyniki badania próby można było odnieść do zbiorowości generalnej, próba musi być reprezentatywna. Reprezentatywność próby zależy od:
-sposobu wyboru próby (losowy, celowy),
-liczebności próby.
Jeżeli próba została wybrana w sposób losowy i jest dostatecznie liczna, to mówimy, że próba jest reprezentatywna. Oznacza to, że z dużym prawdopodobieństwem można sądzić, iż struktura próby będzie zbliżona do struktury zbiorowości.
Liczebność zbiorowości - liczba jednostek w zbiorowości.
Cecha badana (cecha statystyczna) - właściwości jednostek zbiorowości, która może służyć jako kryterium pozwalające odróżnić poszczególne jednostki zbiorowości (generalnej lub próbnej). Jednostki zbiorowości grupujemy w zależności od tego, jakie posiadają odmiany, czyli warianty, zwane również wartościami badanej cechy. W każdej zbiorowości możemy wyróżnić bardzo wiele różnych cech statystycznych, z tym jednak, że w konkretnym badaniu empirycznym wybieramy spośród nich te, które są najważniejsze z punktu widzenia celu badania i one podlegają obserwacji statystycznej.
Jednostki statystyczne (obiekty) charakteryzują się pewnymi właściwościami, które określa się mianem c cech statystycznych. W celu uzyskania porównywalności materiału statystycznego należy wszystkie jednostki określić pod względem:
Rzeczowym, (co lub, kogo poddajemy badaniu statystycznemu),
Przestrzennym (gdzie badamy),
Czasowym, (jaki okres obejmuje badanie lub, w jakim momencie się ono odbywa).
Wymienione atrybuty cech określa się jako tzw. cechy stałe (rzeczowe, przestrzenne i czasowe). Cechy stałe są wspólne wszystkim jednostkom danej zbiorowości i nie podlegają badaniu, a jedynie decydują o zaliczeniu jednostki do określonej zbiorowości.
Cechy zmienne to właściwości, które różnią poszczególne jednostki statystyczne.
Cecha niemierzalna (jakościowa, kwalitatywne) - taka cecha statystyczna, której odmiany nie dają się wyrazić liczbowo, lecz jedynie za pomocą określeń słownych np. płeć, rozmieszczenie terytorialne, przynależność sektorowa
Cecha mierzalna (ilościowa, zmienna, kwantytatywna) - taka cecha, której odmiany (warianty) wyrażają się liczbowo,
-są to właściwości, które można zmierzyć i wyrazić za pomocą odpowiednich jednostek fizycznych (np. w kilogramach, centymetrach, sztukach itp.) Do cech mierzalnych zalicza się także cechy quasi - ilościowe zwane porządkowymi. Cechy te kwantyfikują zwykle natężenie badanej właściwości przedstawionej w sposób opisowy, porządkując w ten sposób zbiorowość (np. ocena wiadomości studenta: 5, 4 itp.).
Cechy mierzalne dzieli się na:
Skokowe (dyskretne), a więc takie, które przyjmują skończony lub przeliczalny zbiór wartości na danej skali liczbowej, przy czym najczęściej jest to zbiór liczb całkowitych dodatnich (np. liczba osób w rodzinie, liczba usterek w wyprodukowanym towarze).
Ciągłe, które mogą przyjąć każdą wartość z określonego przedziału liczbowego [a, b], przy czym ilość miejsc po przecinku uzależniona jest od dokładności dokonywanych pomiarów (np. waga detalu).
Materiał statystyczny - zbiór indywidualnych konkretnych zapisów liczbowych o wartościach cech badanych jednostek zbiorowości.
Proces zbierania informacji statystycznych nazywamy obserwacją statystyczną. Obserwacje statystyczne można uzyskać na podstawie badania statystycznego:
Badanie całkowite, pełne, wyczerpujące badanie, w którym obserwacji podlegają wszystkie jednostki zbiorowości generalnej (populacji generalnej), a wyniki obserwacji stanowią charakterystykę tej zbiorowości.
Badanie częściowe, niewyczerpujące badanie, w którym obserwacji poddajemy część jednostek zbiorowości generalnej, czyli próbę. Obserwacja częściowa powinna być realizowana w taki sposób, aby na podstawie jej wyników można było wnioskować o całej populacji generalnej.
Wyróżnia się następujące rodzaje badań częściowych:
Badanie reprezentacyjne,
B. monograficzne,
B. ankietowe.
W praktyce badania częściowe są stosowane znacznie częściej niż badania całkowite.
Zarówno b. całkowite, jak i częściowe mogą być obarczone błędami popełnianymi w trakcie organizacji badania, pomiaru cech i przetwarzania wyników. W badaniu częściowym błędy mogą wystąpić dodatkowo na skutek tego, że struktura próby może się różnić od struktury zbiorowości.
Błędy w materiale statystycznym dzielimy na;
Błędy przypadkowe
Błędy systematyczne (tendencyjne)
Hipotezą statystyczną nazywamy każdy sąd o zbiorowości generalnej, wydany bez przeprowadzenia badania całkowitego. Prawdziwość hipotezy orzeka się na podstawie próby losowej.
Hipotezy mogą być parametryczne, gdy dotyczą wartości odpowiednich parametrów statystycznych populacji generalnej, takich jak wartość przeciętna, wariancja czy wskaźnik struktury, lub nieparametryczna, gdy dotyczą np. postaci rozkładu cechy statystycznej, współzależności cech lub losowości prób.
Hipotezą zerową Ho nazywamy hipotezę sprawdzaną (testowaną, weryfikowaną).
Hipotezą alternatywną H1 nazywamy hipotezę, którą jesteśmy skłonni przyjąć, gdy odrzucamy Ho.
Test statystyczny jest to reguła postępowania, która przyporządkowuje wynikom próby losowej decyzję przyjęcia lub odrzucenia hipotezy Ho.
Błąd I rodzaju polega na odrzuceniu hipotezy Ho, mimo że jest ona prawdziwa.
Poziomem istotności α nazywamy prawdopodobieństwo popełnienia błędu I rodzaju. Wartości α są bliskie zera i na ogół są równe 0,01; 0,02; 0,05; 0,1.
Błąd II rodzaju polega na przyjęciu hipotezy Ho, gdy jest ona fałszywa. Prawdopodobieństwo popełnienia tego błędu oznacza się poprzez β. Dobry test statystyczny powinien mieć tę własność, że β również powinno być bliskie zera.
Test istotności dla zadanego z góry poziomu istotności α zapewnia możliwie najmniejszą wartość prawd. β.
Zbiorem krytycznym Z nazywamy zbiór tych wartości sprawdzianu hipotezy, które przemawiają za odrzuceniem hipotezy Ho.
Estymacja przedziałowa jest to szacowanie wartości parametru Q za pomocą tzw. przedziału ufności.
Przedziałem ufności nazywamy taki przedział, który z zadanym z góry prawd. (1-α), Zwany poziomem ufności (lub współczynnikiem ufności), pokrywa nieznaną wartość szacowanego parametru Q.
Miary dynamiki o podstawie stałej (jednopodstawowe) służą do określenia zmian, jakie nastąpiły w poziomie zjawiska w kolejnych okresach (momentach) w porównaniu z okresem przyjętym jako podstawowy (bazowy). Jako podstawę przyjmuje się poziom zjawiska w wyróżnionym okresie t*=k, przy czym najczęściej jest to pierwszy okres t*=1.
Miary dynamiki o podstawie ruchomej (łańcuchowe) służą do oceny zmian, jaki nastąpiły w poziomie zjawiska z okresu na okres. Jako podstawę odniesienia przyjmuje się poziom zjawiska w okresie poprzednim t*=t-1.
Przyrostem względnym lub wskaźnikiem tempa przyrostu nazywamy stosunek przyrostu absolutnego zjawiska do jego poziomu w okresie bazowym.
Tempo zmian informuje, o ile procent poziom zjawiska w danym okresie jest wyższy (niższy) od poziomu w okresie przyjętym za podstawę porównań.
Szereg statystyczny nazywamy ciąg wielkości statystycznych uporządkowanych wg. określonych kryteriów.
Szeregiem szczegółowym nazywamy uporządkowany ciąg wartości badanej cechy statystycznej (przedmiotem badania jest niewielka liczba jednostek).
Szereg rozdzielczy stanowi zbiorowość statystyczną podzieloną na części (klasy) według określonej cechy jakościowej lub ilościowej z podaniem liczebności każdej z wyodrębnionych klas.
Rozkładem empirycznym nazywamy zestawienie wyników w postaci szeregu rozdzielczego z cechą mierzalną.
Statystyka to wszelkie prace związane z gromadzenie i opracowywaniem masowych danych liczbowych
Zbiorowość (populacja, masa) rozumiemy jako ogoł jednostek objętych badaniem statystycznym
Jednostka Statystyczna to najmniejszy element zborowości statystycznej
Cechy stałe dzielą Se na rzeczowe czasowe przestrzenne odpowiadaja na trzy pytania co kiedy gdzie badamy, są one z gory określone przy każdym badaniu
Cecha statystyczna
Właściwość zbiorowości
Cechy zmienne dziela się na jakościowe i ilościowe, określają przedmiot badania
Cechy jakościowe(niemierzalne) daja się opisac jedynie slownie np.: kolor oczu marka wozu
Cechy ilościowe(mierzalne) daja się opisac za pomoca liczb np.: liczba dzieci, samochodow,
Cechy skokowe(dyskretne) wtrazone SA za pomoca pewnych liczb zmieniających się skokowo
Cechy ciagłe mogą przyjmowac wartości rzeczywiste z określonego przedzialu a wiec przyjmuja wartości ze zbioru nieprzeliczalnego np.: liczba darmowych minut(60,120,240)wzrost dorosłego mężczyzny (187,179,173,182)
Zmienna nominalna to taka w przypadku której możemy twierdzic ze jeden element jest pod względem interesującej nas właściwości taki sam lub inny niż drugi element
Zmienna porzadkowa pozwala na uszeregowanie elemento możliwe SA tu wiec twierdzenia o równości lub roznosci elementow,lub wiekszy niż bądź mniejszy niż
Zmienna przedzialowa pozwala na twierdzenie o równości lub roznosci elementow o twierdzeniu typu wiekszy niż lub mniejszy niż, a ponadto o twierdzeniu o równości przedziałów
Zmienna stosunkowa pozwala obok wszystkich powyzszycch stwierdzen na określenie twierdzen równości stosunkow
Badania statystyczne - źródłem danych liczbowych sa badania statystyczne
Badania pełne(całkowite,wyczerpujące) obejmuja wszystkie jednostki zbiorowości statystycznej, spośród nich wyróżniamy spisy oraz rejestracje biezacą
Badania niepełne(czesciowe,niewyczerpujace)obejmuja niektóre jednostki zbiorowości statystycznej, dzielimy na ankietowe monograficzne i reprezentacyjne
Szacunki dokonuje się ich wówczas gdy nie chcemy lub nie możemy uzyskac bezpośrednio danych na temat interesującej nas zbiorowości stat,
Opis statystyczny może dotyczyc zarówno calej populacji jak również i jej czesci tzn. proby dokonując opisu struktury zbiorowości badamy jak sa rozprzestrzenione poszczególne odmiany cechy wśród jednostek tejze zbiorow.Jest to analiza jednowymiarowa i statyczna
Współzależność zjawisk dotyczy powiązań miedzy roznymi cechami charakteryzującymi zbiorowość statystyczna. Jest ot wiec opis dwu lub wielowymiarowy
Wnioskowanie statystyczne mamy do czynienia jedynie z proba (a scislej z jednym jej rodzajem proboa losowa). Wnioskowanie polega na uogólnianiu wynikow uzyskanych w robie na cala zbiorowość stat.
Częstość wi=ni/N informuje jaka czesc całkowitej liczebności stanowi liczebności itego wariantu cechy
Średnia arytmetyczna - najbardziej intuicyjna miara położenia a jednoczesnie miara przeciętnego poziomu cechy lub inaczej tendencji centralnej jest srednia arytmetyczna w przypadku gdy mamy do czyniona z danymi w postaci szeregu szczegółowego obliczamy ja dodając wszystkie wartości cechy i otrzymana sume dzielimy przez liczbe zbadanych jednostek x z kreska na gorze
Dominanta- najczęściej stosowana miara pozycyjna rozkładu z zrazem tendencji centralnej jest dominanta(moda,wartość najczestsza) po prostu poszukujemy w rozkładzie wartości cechy występującej najczęściej D
Kwantyle pozycyjne miary położenia, dziela zbiorowość na rowne czesci w praktyce statystycznej najczęściej: kwartale- na 4 czesci,decyle-na 10,centyle(percentyle)-na 100
Mediana- inaczej kwartyl drugi lub wartośc srodkowa M rozdziela zbiorowość na dwie rowne czesci trzeba uporządkować zbiorowość od najm do najw, potem ustalamy liczbe obserwacji N jeśli jest parzysta to wykorzystujemy dwie srodkowe obliczając dla nich srednia artym.
Rozstęp ćwiartkowy (lub inaczej rozstęp kwartylny) to różnica pomiędzy trzecim i pierwszym kwartylem. Ponieważ pomiędzy tymi kwartylami znajduje się z definicji 50% wszystkich obserwacji, dlatego im większa szerokość rozstępu ćwiartkowego, tym większe zróżnicowanie cechy.
Rozstęp to różnica między największą i najmniejszą wartością cechy statystycznej w zbiorze (lub różnica między najwyższą i najniższą zaobserwowaną wartością zmiennej).
Rozstęp jest najprostszą z miar rozrzutu, mało precyzyjną, gdyż opiera się tylko na dwu zaobserwowanych wartościach zmiennej, a pozostałe wartości nie mają wpływu na jej wielkość.
Przykład zastosowania: w pedagogice w analizie ilościowej wyników egzaminowania rozstęp bywa obliczany dla uzyskania wstępnej orientacji co do rezultatów egzaminowania albo wtedy, gdy chodzi wyłącznie o krańcowe wyniki.
Współczynnik zmienności to klasyczna miara zróżnicowania rozkładu cechy. W odróżnieniu od odchylenia standardowego, które określa bezwzględne zróżnicowanie cechy, współczynnik zmienności jest miarą względną, czyli zależną od wielkości średniej arytmetycznej.
Średnie odchylenie bezwzględne (inaczej: odchylenie przeciętne) to średnia arytmetyczna z odchyleń bezwzględnych dla wszystkich elementów zbioru danych statystycznych.
Wariancja to w statystyce klasyczna miara zmienności. Intuicyjnie utożsamiana ze zróżnicowaniem zbiorowości; jest średnią arytmetyczną kwadratów odchyleń (różnic) poszczególnych wartości cechy od wartości oczekiwanej.
Wariancja jest momentem centralnym drugiego rzędu zmiennej losowej.
Odchylenie standardowe - klasyczna miara zmienności, obok średniej arytmetycznej najczęściej stosowane pojęcie statystyczne.
Intuicyjnie rzecz ujmując, odchylenie standardowe mówi, jak szeroko wartości jakiejś wielkości (takiej jak np. wiek, inflacja, kurs akcji itp.) są rozrzucone wokół jej średniej Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej.
Kowariancja - - to liczba określająca zależność liniową między zmiennymi losowymi X i Y.
Jeżeli między zmiennymi losowymi X i Y nie istnieje żadna zauważalna korelacja liniowa i istnieją ich wartości oczekiwane, to kowariancja przyjmuje wartość 0 (nie musi to być prawda dla kowariancji w próbie losowej z tych zmiennych).
Dystrybuanta - w rachunku prawdopodobieństwa, statystyce i dziedzinach pokrewnych, funkcja rzeczywista jednoznacznie wyznaczająca rozkład prawdopodobieństwa (tj. miarę probabilistyczną określoną na σ-ciele borelowskich podzbiorów prostej), a więc zawierająca wszystkie informacje o tym rozkładzie. Dystrybuanty są efektywnym narzędziem badania prawdopodobieństwa ponieważ, są obiektem prostszym niż rozkłady prawdopodobieństwa. Dystrybuanta rozkładu próby zwana jest dystrybuantą empiryczną
1