Do najczęściej wykorzystywanych miar do opisu zbiorowości statystycznej należą:
Wskaźniki struktury
Wskaźniki natężenia
Miary opisujące tendencję centralną, czyli miary średnie
Miary dyspersji, czyli rozproszenia, zróżnicowania, rozrzutu
Miary asymetrii
Miary koncentracji
Wskaźnik struktury - mówi jaki jest udział wyróżnionej zbiorowości w całej zbiorowości
ni -liczba jednostek charakteryzujących się i-tym wariantem,
wartością cechy.
N-liczba jednostek zbiorowości
Inaczej wskaźnik struktury nazywa się odsetkiem, frakcją, procentem.
Do porównania rozkładu tej samej cechy w dwóch różnych zbiorowościach statystycznych stosuje się wskaźnik podobieństwa struktur.
Im wskaźnik Wp bliższy jest jedności tym bardziej podobne do siebie są rozkłady cech w tych zbiorowościach.
Klasyczne miary średnie: średnia arytmetyczna, harmoniczna, geometryczna i kwadratowa.
Średnia arytmetyczna jest to suma wartości cechy mierzalnej dla wszystkich jednostek statystycznych podzielna przez liczbę.
W przypadku szeregów rozdzielczych z przedziałami klasowymi umownym reprezentantem każdego przedziału jest środek tego przedziału. W związku z tym średnia arytmetyczna może być nieco zniekształcona.
Własności średniej arytmetycznej:
Średnia arytmetyczna jest wypadkową wszystkich wartości badanej cechy w związku z tym
Suma kwadratów odchyleń poszczególnych wartości badanej cechy od średniej arytmetycznej jest najmniejsza. Oznacza to, że średnia arytmetyczna jest najlepszą miarą średnią pod wieloma względami.
Średnia arytmetyczna ma również wady:
Jest bardzo wrażliwa na wartości nietypowe cechy, gdy takie wartości występują w szeregu to średniej arytmetycznej nie należy liczyć.
Przez obserwację nietypową rozumiemy obserwację skrajną, ale występującą w niewielkiej ilości mniej niż 10%.
Średniej arytmetycznej nie liczymy również gdy skrajne przedziały klasowe są otwarte, chyba że można je w sensowny sposób domknąć.
Średnią geometryczną liczymy wtedy gdy w szeregu występują znaczne różnice między obserwacjami.
Często stosuje się postać logarytmiczną.
Własności średniej geometrycznej:
Średnia geometryczna wychodzi równa zero gdy jedna z obserwacji jest równa zero.
Średnia geometryczna może być wartością urojoną gdy choć jedna z obserwacji jest wartością ujemną.
Stosujemy ją gdy wartości wyrażają zmiany stosunkowe.
Średnia harmoniczna - stosujemy ją dla wielkości stosunkowych.
Przykład :
Samochód z miasta A do B jechał z prędkością 50km/h natomiast z miasta B do C 70km/h jeżeli odległość między tymi miastami jest równa średnią prędkość na tej trasie należy liczyć jako średnią harmoniczną i otrzymamy taką samą wartość jak wtedy gdybyśmy przejechaną odległość na całej trasie podzielili przez czas przejazdu na całej trasie.
Średnia kwadratowa
Używana jest rzadko np. stosujemy ją we wzorze na odchylenia standardowe.
Średnie klasyczne charakteryzują się tym, że obliczane są ze wszystkich wartości cechy.
Średnie miary pozycyjne:
Mediana (wartość topologiczna) - to wartość jednostki statystycznej położonej w zbiorowości w ten sposób, że liczba jednostek mających wartość niemniejszą od mediany równa jest liczbie jednostek mających wartość niewiększą od mediany.
Własności mediany:
Nie zależy ona od wartości krańcowych.
Można ją wyznaczyć gdy wszystkie liczebności nie są dokładnie znane, wystarczy znać liczebność zbiorowości i jednostkę środkową.
Medianę można policzyć wtedy gdy nie można obliczyć średniej arytmetycznej. Medianę można policzyć na skali porządkowej (wtedy nie można obliczyć średniej arytmetycznej, harmonicznej, ani geometrycznej)
W szeregu rozdzielczym z przedziałami klasowymi:
Jest to wzór interpolacyjny wyprowadzony przy założeniu, że przedziale mediany cecha zachowuje się w sposób liniowy.
Najprostsza skala nazywa się skalą nominalną, np. ktoś jest protestantem, a ktoś katolikiem (nie wiemy kto jest lepszy).
Następna jest skala porządkowa, czyli jakaś hierarchia, np. wykształcenie wyższe jest lepsze niż średnie, a średnie lepsze niż zawodowe.
Skala interwałowa - możemy na niej liczyć odległości między wartościami, ale nie posiada ona zera bezwzględnego.
Skala ilorazowa - posiada odległości i ma zero bezwzględne.
Następnymi miarami pozycyjnymi są kwartyle:
Kwartyl pierwszy jest równy wartości cechy takiej, że ¼ zbiorowości ma wartości nie przekraczające tej cechy, a ¾ zbiorowości ma wartości niemniejsze od tej cechy.
Kwartyl trzeci analogicznie, tzn. jest to taka wartość cechy, że ¾ zbiorowości ma wartości nie przekraczające tej cechy.
Mediana jest drugim kwartylem.
Q=½(Q3-Q1)
Dominanta zwana wartością najczęstszą (zwana modą, wartością modalną, typową).
Dominanta jest to ta wartość cechy, która występuje w zbiorowości statystycznej najczęściej.
W szeregu szczegółowym obliczamy ją z definicji, natomiast w szeregu rozdzielczym z przedziałami klasowymi z następującego wzoru:
|
|
Wzór ten stosujemy gdy jest jeden przedział dominujący; rozpiętości przedziału dominanty poprzedniego oraz następnego są równe.
Własności dominanty:
Rozkład cechy musi posiadać jedną wyraźnie zaznaczoną wartość dominującą w przeciwnym razie mówimy o szeregach wielo modalnych. Szereg nie może być skrajnie asymetryczny z otwartym przedziałem dominującym (nie można wtedy w ogóle obliczać dominanty).
Miary dyspersji i asymetrii:
Dyspersja - to inaczej rozproszenie, zróżnicowanie, rozrzut, zmienność.
Przykład ilustrujący potrzebę stosowania miar dyspersji:
Rozważmy 2 grupy 10-cio osobowe o następujących wartościach wieku:
16,18,19,19,20,20,21,21,23,23
4,6,8,10,19,20,29,30,40,42
w obydwu grupach średnia wieku jest w przybliżeniu równa 20 lat, lecz obydwie grupy różnią się rozkładem wieku bardzo istotnie.
Miary zróżnicowania służą do tego by ocenić w jakim stopniu poszczególne wartości cechy koncentrują się wokół wartości średniej (jakie jest zróżnicowanie cechy w danej zbiorowości).
Miary dyspersji informują jak duże jest odchylenie pomiędzy poszczególnymi wartościami cechy, a wartością przeciętną.
Klasyczne miary dyspersji to:
odchylenie przeciętne,
wariancja,
odchylenie standardowe.
Współczynnik zmienności - jest ilorazem bezwzględnej miary dyspersji i odpowiednich wartości średnich. Jest on wyrażany w procentach, ponieważ w analizie rozkładu zmienności cech korzystamy z różnych miar zróżnicowania i różnych przeciętnych.
Współczynnik ufności - dzięki estymacji przedziałowej wyznacza się przedział liczbowy, który z pewnym prawdopodobieństwem zawiera nieznaną wartość parametru. To prawdopodobieństwo nazywane jest współczynnikiem ufności, a oszacowany przedział - przedziałem ufności (Neymana).
Współczynnik ufności oznacza się:
.
Estymacja, czyli szacowanie parametrów, polega na podaniu ocen parametrów populacji generalnej na podstawie statystyki uzyskanej z próby losowej.
Wyróżniamy dwa rodzaje estymacji:
Estymacja punktowa polega na podaniu wielkości szacowanego parametru, która jest równa wartości estymatora. Ponieważ z reguły wielkości estymatora różnią się od wartości parametru populacji generalnej, podaje się jednocześnie średni błąd szacunku, czyli odchylenie standardowe estymatora.
Estymacja przedziałowa polega na skonstruowaniu pewnego przedziału liczbowego, zwanego przedziałem ufności (Neymana), który z określonym prawdopodobieństwem pokryje estymarowy parametr.
Zbiorowość generalna - jedna cecha zmienna ; Co jest elementem zbiorowości generalnej? - jednostka statystyczna
Parametr zbiorowości generalnej
- miara opisowa, np. średnia arytmetyczna
odchylenie standardowe
czy wskaźnik struktury
zbiorowości generalnej, której wartość jest na ogół nie znana.
Zmienną losową X jest wielkością, która przy zajściu każdego zdarzenia losowego ω przyjmuje konkretną wartość
, co można zapisać w sposób następujący:
Zmienna losowa może być :
Skokowa ( dyskretna )
Ciągła
Zmienna losowa jest skokowa ( dyskretna ), gdy może przyjmować wartości ze zbioru najwyżej przeliczalnego.
Zmienna losowa ciągła może przyjmować wartości z dowolnego przedziału liczbowego. Możliwe wartości takiej zmiennej tworzą zbiór nieprzeliczalnie nieskończony.
Decyle i centyle (percentyle) wyznacza się podobnie jak kwartyle. Decyle dzielą zbiorowość na 10 części - 5 decyl to mediana. Centyle zaś na 100 części - 50 centyl jest medianą.
Wariancja - jest to średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej całej zbiorowości.
Kierunek i siłę asymetrii określa współczynnik asymetrii (skośności). Jest ot miara niemianowana i nieunormowana, co umożliwia porównywanie skośności różnych rozkładów.
Rozkład t - Studenta
Jest to ważny rozkład , który jest stosowany głównie do małych próbek . Rozkład t - Studenta ( pseudonim angielskiego statystyka W. Gosseta ) jest rozkładem symetrycznym względem prostej x=0, a jego kształt jest bardzo zbliżony do rozkładu normalnego standaryzowanego ( jest nieco bardziej spłaszczony ).
Jeżeli Z :N(0;1) i
są niezależnymi zmiennymi losowymi , to zmienna
ma rozkład t- Studenta o k stopniach swobody .
Wartość oczekiwana w rozkładzie t- Studenta ma postać następującą:
dla
Wariancja w rozkładzie t- Studenta ma postać następującą:
dla
Odchylenie standardowe w rozkładzie t- Studenta ma postać następującą :
dla
Dla k >30 zmienna o rozkładzie t- Studenta ma rozkład zbliżony do rozkładu normalnego standaryzowanego [ N : ( 0 , 1 ) ]
Dla różnych wartości k i różnych prawdopodobieństw α stablicowane są wartości
takie , dla których spełniona jest zależność
dla
stopni swobody.
Rozkład F - Snedecora
Jeżeli zmienne
i
są zmiennymi niezależnymi i mają rozkłady
o
i
stopniach swobody , to zmienna losowa
ma rozkład F - Snedecora :
gdzie
i
są stopniami swobody .
Wartość oczekiwana w rozkładzie F wyraża się następującą formułą :
dla
Wariancja w rozkładzie F wyraża się następującym wzorem :
dla
W zależności od
i
stablicowano wartości zmiennej losowej
, w taki sposób , że dla danych wartości prawdopodobieństw α zależność
Rozkład chi - kwadrat
) został opracowany przez statystyków A. Abbego ( 1863 ), H. Helmerta ( 1875 ) , K. Pearsona ( 1900
Zakładając , że X1, X2 , ..., Xk są niezależnymi zmiennymi losowymi o rozkładzie normalnym o parametrach
i
, zmienna losowa
określona w sposób następujący :
ma rozkład
z k „ liczbą stopni swobody „
Zmienna losowa o rozkładzie chi- kwadrat przyjmuje wartości dodatnie , a jej rozkład zależy od liczby stopni swobody k . Dla małych wartości k jest to rozkład silnie asymetryczny , w miarę wzrostu k asymetria jest coraz mniejsza. Liczbę stopni swobody k wyznaczamy najczęściej w sposób następujący :
lub
gdzie :
n - liczebność próby
p - liczba szacowanych parametrów z próby
Liczba stopni swobody jest równa liczbie wszystkich parametrów ( która nie musi być równa liczbie wyników obserwacji ) pomniejszonej o liczbę wszystkich ograniczeń narzuconych na te parametry . Ograniczeniem jest każda wielkość , która zostaje obliczona na podstawie tych samych pomiarów
Wartość oczekiwana w rozkładzie
wyraża się następującą formułą :
Wariancja w rozkładzie
jest wyrażona formułą :
Odchylenie standardowe w rozkładzie
to :
Dla uproszczenia zapisów można się posługiwać formułą :
, co oznacza ,że
ma rozkład o k stopniach swobody . Rozkład
jest rozkładem asymetrycznym, przy czym wraz ze wzrostem k rozkład ten staje się coraz bardziej zbliżony do symetrycznego, a dla k>30 zachodzi zależność :
Oznacza to , że wraz ze wzrostem k ( powyżej 30 ) rozkład
przechodzi w rozkład asymptotycznie normalny o tych samych parametrach
i
.
Hipoteza statystyczna - Założenie dotyczące wartości parametru lub rodzaju rozkładu zmiennej w zbiorowości generalnej.
Hipoteza zerowa ( H0 ) - Hipoteza formułowana często w testach istotności w taki sposób , aby na podstawie wyników próby mogła być odrzucona ( wbrew zdrowemu rozsądkowi ), tak aby można było ją łatwo odrzucić. Na przykład stawiamy
( hipoteza prosta ) . Częściej jednak chodzi o zapis
lub
( hipotezy złożone ).
Hipoteza alternatywna ( H1 ) - Hipoteza odnośnie której przypuszczamy , że jest prawdziwa ( zgodnie ze zdrowym rozsądkiem ). Jeżeli H0 zostanie odrzucona , wówczas przyjmujemy H1, w przeciwnym przypadku nie mamy podstaw do stwierdzenia , że hipoteza alternatywna jest prawdziwa, np. dla nieznanej średniej zbiorowości generalnej.
Poziom istotności - maksymalne prawdopodobieństwo popełnienia błędu I rodzaju , na które godzi się badacz przeprowadzający test statystyczny .Zazwyczaj jest ono małe i przyjmuje wartości 0,01 ; 0,02 ; 0,05 ; lub 0,10 .
Korelacja jest to współzależność , czyli wzajemne oddziaływanie lub współwystępowanie dwóch zjawisk lub cech tej samej zbiorowości .
Celem analizy współzależności jest stwierdzenie , czy między badanymi zmiennymi zachodzą jakieś zależności , jaka jest ich siła , kształt i kierunek.
Współzależność między zmiennymi może być :
funkcyjna
stochastyczna ( probabilistyczna)
Zależność funkcyjna - określonej wartości jednej zmiennej ( X - niezależnej - objaśniającej ) , odpowiada jedna i tylko jedna wartość drugiej zmiennej ( Y - zależna -objaśniana ). Zależność funkcyjna ( dokładna ) występuje w naukach przyrodniczych , natomiast w naukach społecznych mamy do czynienia z zależnością stochastyczną .
Zależność stochastyczna ( probabilistyczna ) - wraz ze zmianą jednej zmiennej , zmienia się rozkład prawdopodobieństwa drugiej zmiennej . Szczególnym przypadkiem tej zależności jest zależność korelacyjna ( statystyczna ) Polega na tym , że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej .
Współczynnik korelacji liniowej
Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby (r).
Przyjmuje on wartości z przedziału domkniętego <-1;1>
Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). Wartość 0 oznacza brak korelacji liniowej.
Postać wzoru do obliczenia współczynnika korelacji:
Gdzie xi oraz yi oznaczają odpowiednio wartości zmiennych x i y, a
i y oznaczają średnie wartości tych zmiennych.
1