MIARY TENDENCJI CENTRALNEJ
Tendencja centralna określa wartość zmiennej wokół której skupiają się wszystkie pozostałe wartości - jest to zatem wartość charakterystyczna dla danego zbioru wartości pochodzącego z pomiaru.
np. w takich rozkładach zmiennej ciągłej porównując te dwie tendencje centralne możemy domniemywać że w drugim rozkładzie mamy wyższe wartości niż w pierwszym:
Przykłady miary tendencji centralnej:
MODA/DOMINANTA/MODALNA (zamiennie)
Jest to ta wartość zmiennej, która występuje najczęściej. Można ją stosować tylko dla danych nominalnych lub (czasami) dla przedziałowych
MEDIANA/WARTOŚĆ ŚRODKOWA - Me, Q2
To taka wartość w zbiorze pomiaru, dla której dokładnie połowa wyników jest od niej mniejszych lub jej równych - mediana dzieli zbiór danych na połowy w taki sposób, że tyle samo obserwacji jest powyżej i tyle samo obserwacji jest poniżej mediany.
Kwartyl dolny - Q1
Wartość dla której dokładnie 25% wyników jest od niej mniejszych lub jej równych.
Kwartyl górny - Q2
Wartość dla której dokładnie 75% wyników jest od niej mniejszych lub jej równych.
Medianę czasami nazywa się kwartylem środkowym (Q2).
Cechy (właściwości) mediany
- Suma wartości bezwzględnych odchyleń pomiarów od mediany tych pomiarów jest najmniejsza tzn.:
Tzn. dla dowolnej wartości a
Sposoby zapisywania wartości pomiaru
Zbiór N-pomiarów zmiennej x zapisujemy jako x1, x2, x3,…, xn (czyli pojawiające się kolejno w pomiarze wartości - indeksy wskazują na numer badanej osoby), a ich sumę:
x1+ x2+ x3….+ xn lub: (sumuje wszystkie wartości zmiennej x od osoby nr 1
do osoby nr N)
- Zalety mediany: Medianę można stosować dla danych porządkowych, jest dobrym miernikiem dla rozkładów asymetrycznych, bo pomiary ekstremalne nie wpływają na wartość mediany tak bardzo, jak na wynik średni.
- Wady mediany: W odróżnieniu od średniej arytmetycznej nie jest oparta na wszystkich obserwacjach, bazuje tylko na obserwacjach środkowych. Bardziej skomplikowana do obliczenia niż średnia.
ŚREDNIA ARYTMETYCZNA
suma wszystkich wartości zmiennej uzyskanych w pomiarze, podzielona przez liczbę obserwacji.
x1+ x2+ x3….+ xN
=
(x1+ x2+ x3….+ xN) =
Gdzie:
N liczba wszystkich obserwacji
średnia
x1+ x2+ x3….+ xN zaobserwowane wartości zmiennej
Obliczanie
z rozkładów liczebności dla zmiennej całkowitoliczbowej:
Wartości: Liczebność:
X1 n1
X2 n2
. .
. .
Xn nk
Gdzie:
jest liczbą obserwacji
k jest liczbą wszystkich różnych wartości zmiennej
j jest symbolem, którym oznaczamy kolejne różne wartości zmiennej
pokazują ile razy dana wartość zmiennej w pomiarze się pojawiła
np. pomiar ocen szkolnych:
2,3,3,2,4,5,3,3,2,5,5,3,4,4
I zapis:
2+3+3+2+4+5+3+3+2+5+5+3+4+4) =
II zapis:
Wartości Liczebności
2 3
3 5
4 3
5 3
Obliczanie
dla danych pogrupowanych w przedziały klasowe:
Do obliczenia średniej arytmetycznej w tym wypadku konieczne jest wyznaczenie średnich przedziałów klasowych (
- średnia przedziału klasowego)
.
.
Gdzie:
oznacza odpowiednie liczebności (pokazuje ile wartości zmiennej zmieściło się w danym przedziale klasowym
liczba wszystkich wartości (obserwacji) w pomiarze
k ustalona przez badacza liczba przedziałów klasowych
Uwaga: W przypadku obliczania
z danych pogrupowanych w przedziały klasowe nie uzyskamy nigdy dokładnej wartości średniej jak dla danych „surowych”. Im większa liczba przedziałów, tym
obliczona z wartości środków z tych przedziałów będzie bliższa
obliczonej z wyników „surowych”. W praktyce przyjęło się, że minimalna liczba przedziałów klasowych powinna wynosić 12.
Cechy
:
Suma odchyleń pomiarów od średniej z tych pomiarów jest równa 0.
Suma kwadratów odchyleń wszystkich pomiarów od średniej z tych pomiarów jest najmniejsza.
gdzie a
Niech zbiór pomiarów x1, x2,… ,xn ma średnią równą
, wówczas dla dowolnej liczby a
możemy pokazać, że:
gdzie b =
-a
Jeżeli każdy wynik pomiaru średniej równej
:
- zwiększymy o pewną liczbę a, to średnia nowych wyników też zwiększy się o tą liczbę i będzie równa
Niech zbiór pomiarów x1, x2,… ,xn ma średnią równą
, dodajemy do każdego wyniku dowolną liczbę a
:
x1+a; x2+a+… + xN+a
+a
- zmniejszymy o pewną liczbę a, to średnia nowych wyników też zmniejszy się o tą liczbę i będzie równa
- pomnożymy przez pewną liczbę a, to średnia nowych wyników wyniesie
- podzielimy przez pewną liczbę a, to średnia nowych wyników wyniesie
jw.
Przy czterech poziomach pomiaru zmiennej:
|
MODA |
MEDIANA |
ŚREDNIA |
NOMINALNY |
+ |
- |
- |
PORZĄDKOWY |
+ |
+ |
- |
PRZEDZIAŁOWY |
+/- |
+ |
+ |
ILORAZOWY |
- |
+ |
+ |
Przykład 1
jako źle dobrana miara tendencji centralnej:
2, 3, 3, 4, 7, 9, 10, 11, 86
= 15
Średnia powinna być wartością centralną, a tylko jedna obserwacja jest powyżej średniej - lepsza byłaby mediana.
Me=7
Przykład 2
Rozkład dochodu w populacji Polski:
W tym przypadku wartości ekstremalne podnoszą średnią wyżej, połowa zarobków jest jednak dużo powyżej średniej - właściwszą zmienną byłaby mediana.
Przy wartościach odstających, ekstremalnych, a także przy rozkładach silnie asymetrycznych, lepszą miarą tendencji centralnej jest mediana a nie średnia. W pozostałych przypadkach przy rozkładach umiarkowanie asymetrycznych należy zawsze wybierać jako miarę tendencji centralnej średnią.
MIARY ZMIENNOŚCI (MIARY ROZRZUTU/DYSPERSJI)
Miary tendencji centralnej nie dają pełnego obrazu o badanych wynikach, nie informują na przykład o stopniu zmienności wyników.
Dwa rozkłady mogą mieć taką samą średnią lub medianę, ale zmienność może być zupełnie inna:
Przykład 1
Przykład 2
Dokonamy pomiaru IQ w grupie mężczyzn i kobiet:
Kobiety Mężczyźni
90, 95, 100, 105, 110 85, 90, 100, 110, 115
= 100
= 100 Średnia jest taka sama.
Me = 100 Me = 100 Mediana jest taka sama.
R1 = 20 R2 = 30 Grupa kobiet jest bardziej homogeniczna.
Do opisu badanych wyników konieczne jest również obliczenie miary zmienności…
ROZRZUT WYNIKÓW (ROZSTĘP WYNIKÓW, RANGE - ang.)
Jest to różnica między wartością maksymalną i minimalną zbioru pomiarów.
R = xmax-xmin
Jest to miara najprostsza, ale ma wiele wad:
- mało precyzyjna,
- z im większymi wartościami liczbowymi badanej zmiennej mamy do czynienia, tym większe istnieje prawdopodobieństwo występowania wartości ekstremalnych, a co za tym idzie wartość zakresu może być bardzo duża i nie oddawać rzeczywistej zmienności tego zbioru.
Zalety:
- łatwa do obliczenia
- daje szybką orientację w zmienności zbioru
ODCHYLENIE ĆWIARTKOWE
Jest miarą zmienności wyników wokół mediany i określamy je jako połowę różnicy pomiędzy górnym a dolnym kwartylem.
Zalety:
- kwartyle są bardziej odporne na wartości ekstremalne, więc odchylenie ćwiartkowe jest lepszą miarą niż rozstęp
Wady:
- nie wykorzystuje wszystkich informacji o badanej zmiennej informuje nas jedynie o zmienności w środkowej części przypadków nie uwzględniając zmienności na krańcach przedziału