PODSTAWOWE POJĘCIA STATYSTYCZNE
Zbiorowość statystyczna (populacja) – zbiór dowolnych elementów objętych badaniem statystycznym, posiadających co najmniej jedną cechę wspólną.
Jednostka statystyczna – element składowy badanej zbiorowości.
Cechy statystyczne
Zmienne skokowe – to cechy, których wartości mogą wyrażać się jedynie określonymi liczbami zmieniającymi się skokami, bez wartości pośrednich. Np. liczba startujących w danej konkurencji osób, ilość dobrze wykonanych serwisów itp.
Zmienne ciągłe – to cechy, które mogą przyjmować każdą wartość z określonego
skończonego przedziału liczbowego. Np. wiek, wzrost, wynik skoku w dal itp.
POMIAR
Pomiar polega na przyporządkowaniu cechom statystycznym ustalonych symboli, którymi mogą być liczby, litery alfabetu, formy geometryczne, kolory, opis słowny itp.
Wyróżniamy pomiary:
bezpośrednie (w naukach eksperymentalnych),
pośrednie (w naukach społecznych).
ETAPY BADANIA STATYSTYCZNEGO
• przygotowanie (programowanie) badania,
• obserwacja statystyczna,
• opracowanie i prezentacja materiału statystycznego,
• opis lub wnioskowanie statystyczne.
Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartościom zmiennej odpowiadających im liczebności. Odzwierciedla on strukturę badanej zbiorowości. Szereg rozdzielczy dla cechy ilościowej to właśnie tabelaryczna forma przedstawienia rozkładu empirycznego badanej cechy zbiorowości statystycznej.
Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej cechy.
Średnia arytmetyczna – suma wartości zmiennej wszystkich jednostek badanej zbiorowości podzielona przez liczbę tych jednostek.
Modalna to wartość, która w rozkładzie empirycznym występuje najczęściej. W szeregach szczegółowych i rozdzielczych jest to wartość cechy, której odpowiada największa liczebność.
Kwantyle dzielą zbiorowość określone części pod względem liczby jednostek. Części te pozostają w stosunku do siebie w określonych proporcjach.
Kwartyl pierwszy Q1 jest to wartość jednostki, dzieląca zbiorowość w ten sposób, że ¼ (25%) jednostek ma od niej wartości mniejsze, a ¾ (75%) większe.
Kwartyl drugi (mediana, wartość środkowa, Me) to wartość jednostki położonej w ten sposób, że dzieli zbiorowość na dwie równe części.
Kwartyl trzeci Q3 to wartość jednostki dzieląca zbiorowość w ten sposób, że ¾ (75%) jednostek ma od niej wartości mniejsze, a ¼ (25%) większe
.
MIARY ZMIENNOŚCI
Rozstęp jest miarą charakteryzującą empiryczny obszar zmienności badanej cechy.
Odchylenie ćwiartkowe( rozstęp kwartylowy) – jest połową obszaru zmienności 50% środkowych jednostek zbiorowości.
Współczynnik zmienności – jest względną miarą rozproszenia, służącą do porównywania zróżnicowania dwóch różnych cech lub jednej cechy w dwóch różnych grupach.
Odchylenie standardowe – pierwiastek kwadratowy z wariancji.
Im zbiorowość jest bardziej zróżnicowana, tym większe jest odchylenie standardowe.
odchylenie standardowe Spełnia zasadę 3 sigm
Wariancja – średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej całej zbiorowości. Wskaźnik asymetrii (skośności) Określa kierunek
Korelacja
Korelacja (współzależność cech) określa wzajemne powiązania pomiędzy wybranymi zmiennymi.
Rodzaje korelacji
Ze względu na sposób analizy oraz charakter analizowanych zmiennych wyróżniamy:
korelację prostą – badającą związek zachodzący pomiędzy dwoma cechami lub zjawiskami
korelację cząstkową – informującą o związku dwóch cech z wyłączeniem trzeciej zmiennej
korelację wieloraką – informującą o związku jednej cechy z kilkoma ujętymi łącznie
Interpretacja wyników korelacji
współczynnik korelacji (r lub R), zawierający się w przedziale [-1; 1].
korelacja dodatnia (wartość współczynnika korelacji od 0 do 1) – informuje, że wzrostowi wartości jednej cechy towarzyszy wzrost średnich wartości drugiej cechy,
korelacja ujemna (wartość współczynnika korelacji od -1 do 0) - informuje, że wzrostowi wartości jednej cechy towarzyszy spadek średnich wartości drugiej cechy.
Siła związków korelacyjnych
poniżej 0,2 - korelacja słaba (praktycznie brak związku)
0,2 – 0,4 - korelacja niska (zależność wyraźna)
0,4 – 0,6 - korelacja umiarkowana(zależność istotna)
0,6 – 0,8 - korelacja wysoka (zależność znaczna)
0,8 – 0,9 - korelacja bardzo wysoka(zależność bardzo duża)
0,9 – 1,0 - zależność praktycznie pełna
NAJWAŻNIEJSZA JEST ISTOTNOŚĆ KORELACJI
Korelacyjne wykresy rozrzutu
zależność liniowa dodatnia (r>0)
zależność liniowa ujemna (r<0)
brak zależności (r=0)
Współczynnik korelacji Pearsona
Współczynnik ten wykorzystywany jest do
badania związków prostoliniowych badanych
zmiennych, w których zwiększenie wartości jednej
z cech powoduje proporcjonalne zmiany średnich
wartości drugiej cechy (wzrost lub spadek).
Współczynnik R Spearmana
Współczynnik korelacji rang Spearmana wykorzystywany jest do opisu siły korelacji dwóch cech, w przypadku gdy:
cechy mają charakter jakościowy, pozwalający na uporządkowanie ze względu na siłę tej cechy,
cechy mają charakter ilościowy, ale ich liczebność jest niewielka.
Miary asymetrii
Pozwala określić czy jednostki zbiorowości mają tendencje do skupiania się przy niskich wartościach cechy (asymetria prawostronna) czy przy wysokich wartościach cechy (asymetria lewostronna ) czy raczej skupia się przy wartości centralnej (rozkład symetryczny ).
x=Me=Mo - rozkład symetryczny
x>Me>Mo - rozkład o asymetrii prawostronnej
x<Me<Mo - rozkład o asymetrii lewostronnej
Interpretacja współczynnika asymetrii:
As = 0 rozkład symetryczny
As >0 asymetria prawostronna
As <0 asymetria lewostronna
Współczynnik skupienia (kurtoza) – jest miarą skupienia poszczególnych obserwacji wokół średniej.
Interpretacja współczynnika skupienia:
k <3 rozkład spłaszczony – koncentracja wokół średniej niższa
k =3 rozkład normalny
k >3 rozkład wysmukły – silniejsza koncentracja
Współczynnik determinacji
Informuje o tym, jaka część zmienności zmiennej objaśnianej została wyjaśniona przez model
Jego wartości najczęściej są wyrażane w procentach. Dopasowanie modelu jest tym lepsze, im wartość R2 jest bliższa jedności
Wskaźnik determinacji liniowej
Na podstawie wyliczonego współczynnika korelacji obliczyć można tzw. wskaźnik
determinacji liniowej, informujący o procencie wyjaśnionej liniowo zmienności
zmiennej zależnej przez zmienną niezależną.