Statystyka - wykład, Statystyka

MIARY TENDENCJI CENTRALNEJ

Tendencja centralna określa wartość zmiennej wokół której skupiają się wszystkie pozostałe wartości - jest to zatem wartość charakterystyczna dla danego zbioru wartości pochodzącego z pomiaru.

np. w takich rozkładach zmiennej ciągłej porównując te dwie tendencje centralne możemy domniemywać że w drugim rozkładzie mamy wyższe wartości niż w pierwszym:

Przykłady miary tendencji centralnej:

MODA/DOMINANTA/MODALNA (zamiennie)

Jest to ta wartość zmiennej, która występuje najczęściej. Można ją stosować tylko dla danych nominalnych lub (czasami) dla przedziałowych

MEDIANA/WARTOŚĆ ŚRODKOWA - Me, Q2

To taka wartość w zbiorze pomiaru, dla której dokładnie połowa wyników jest od niej mniejszych lub jej równych - mediana dzieli zbiór danych na połowy w taki sposób, że tyle samo obserwacji jest powyżej i tyle samo obserwacji jest poniżej mediany.

Kwartyl dolny - Q1

Wartość dla której dokładnie 25% wyników jest od niej mniejszych lub jej równych.

Kwartyl górny - Q2

Wartość dla której dokładnie 75% wyników jest od niej mniejszych lub jej równych.

Medianę czasami nazywa się kwartylem środkowym (Q2).

Cechy (właściwości) mediany

- Suma wartości bezwzględnych odchyleń pomiarów od mediany tych pomiarów jest najmniejsza tzn.:

Tzn. dla dowolnej wartości a

Sposoby zapisywania wartości pomiaru

Zbiór N-pomiarów zmiennej x zapisujemy jako x₁, x₂, x₃,…, x_n(czyli pojawiające się kolejno w pomiarze wartości - indeksy wskazują na numer badanej osoby), a ich sumę:

x₁₊ x₂₊ x_3….+ x_nlub: (sumuje wszystkie wartości zmiennej x od osoby nr 1

do osoby nr N)

- Zalety mediany: Medianę można stosować dla danych porządkowych, jest dobrym miernikiem dla rozkładów asymetrycznych, bo pomiary ekstremalne nie wpływają na wartość mediany tak bardzo, jak na wynik średni.

- Wady mediany: W odróżnieniu od średniej arytmetycznej nie jest oparta na wszystkich obserwacjach, bazuje tylko na obserwacjach środkowych. Bardziej skomplikowana do obliczenia niż średnia.

ŚREDNIA ARYTMETYCZNA

suma wszystkich wartości zmiennej uzyskanych w pomiarze, podzielona przez liczbę obserwacji.

x₁₊ x₂₊ x_3….+ x_N

₌₍x₁₊ x₂₊ x_3….+ x_{N) =}

Gdzie:

N liczba wszystkich obserwacji

średnia

x₁₊ x₂₊ x_3….+ x_N zaobserwowane wartości zmiennej

Obliczanie z rozkładów liczebności dla zmiennej całkowitoliczbowej:

Wartości: Liczebność:

X₁n₁

X₂n₂

. .

X_nn_k

Gdzie:

jest liczbą obserwacji

k jest liczbą wszystkich różnych wartości zmiennej

j jest symbolem, którym oznaczamy kolejne różne wartości zmiennej

pokazują ile razy dana wartość zmiennej w pomiarze się pojawiła

np. pomiar ocen szkolnych:

2,3,3,2,4,5,3,3,2,5,5,3,4,4

I zapis:

2+3+3+2+4+5+3+3+2+5+5+3+4+4) =

II zapis:

Wartości Liczebności

2 3

3 5

4 3

5 3

Obliczanie dla danych pogrupowanych w przedziały klasowe:

Do obliczenia średniej arytmetycznej w tym wypadku konieczne jest wyznaczenie średnich przedziałów klasowych (
- średnia przedziału klasowego)

Gdzie:

oznacza odpowiednie liczebności (pokazuje ile wartości zmiennej zmieściło się w danym przedziale klasowym

liczba wszystkich wartości (obserwacji) w pomiarze

k ustalona przez badacza liczba przedziałów klasowych

Uwaga: W przypadku obliczania
z danych pogrupowanych w przedziały klasowe nie uzyskamy nigdy dokładnej wartości średniej jak dla danych „surowych”. Im większa liczba przedziałów, tym
obliczona z wartości środków z tych przedziałów będzie bliższa
obliczonej z wyników „surowych”. W praktyce przyjęło się, że minimalna liczba przedziałów klasowych powinna wynosić 12.

Cechy
:

Suma odchyleń pomiarów od średniej z tych pomiarów jest równa 0.
Suma kwadratów odchyleń wszystkich pomiarów od średniej z tych pomiarów jest najmniejsza.

gdzie a

Niech zbiór pomiarów x₁, x₂,… ,x_n ma średnią równą
, wówczas dla dowolnej liczby a
możemy pokazać, że:

gdzie b =
-a
Jeżeli każdy wynik pomiaru średniej równej
:

- zwiększymy o pewną liczbę a, to średnia nowych wyników też zwiększy się o tą liczbę i będzie równa

Niech zbiór pomiarów x₁, x₂,… ,x_n ma średnią równą
, dodajemy do każdego wyniku dowolną liczbę a
:

x₁+a; x₂+a+… + x_N+a
+a

- zmniejszymy o pewną liczbę a, to średnia nowych wyników też zmniejszy się o tą liczbę i będzie równa

- pomnożymy przez pewną liczbę a, to średnia nowych wyników wyniesie

- podzielimy przez pewną liczbę a, to średnia nowych wyników wyniesie

jw.

Przy czterech poziomach pomiaru zmiennej:

	MODA	MEDIANA	ŚREDNIA
NOMINALNY	+	-	-
PORZĄDKOWY	+	+	-
PRZEDZIAŁOWY	+/-	+	+
ILORAZOWY	-	+	+

Przykład 1

jako źle dobrana miara tendencji centralnej:

2, 3, 3, 4, 7, 9, 10, 11, 86

= 15

Średnia powinna być wartością centralną, a tylko jedna obserwacja jest powyżej średniej - lepsza byłaby mediana.

Me=7

Przykład 2

Rozkład dochodu w populacji Polski:

0x08 graphic

0x01 graphic

W tym przypadku wartości ekstremalne podnoszą średnią wyżej, połowa zarobków jest jednak dużo powyżej średniej - właściwszą zmienną byłaby mediana.

Przy wartościach odstających, ekstremalnych, a także przy rozkładach silnie asymetrycznych, lepszą miarą tendencji centralnej jest mediana a nie średnia. W pozostałych przypadkach przy rozkładach umiarkowanie asymetrycznych należy zawsze wybierać jako miarę tendencji centralnej średnią.

MIARY ZMIENNOŚCI (MIARY ROZRZUTU/DYSPERSJI)

Miary tendencji centralnej nie dają pełnego obrazu o badanych wynikach, nie informują na przykład o stopniu zmienności wyników.

Dwa rozkłady mogą mieć taką samą średnią lub medianę, ale zmienność może być zupełnie inna:

Przykład 1

0x01 graphic

Przykład 2

Dokonamy pomiaru IQ w grupie mężczyzn i kobiet:

Kobiety Mężczyźni

90, 95, 100, 105, 110 85, 90, 100, 110, 115

= 100
= 100 Średnia jest taka sama.

Me = 100 Me = 100 Mediana jest taka sama.

R₁ = 20 R₂ = 30 Grupa kobiet jest bardziej homogeniczna.

Do opisu badanych wyników konieczne jest również obliczenie miary zmienności…

ROZRZUT WYNIKÓW (ROZSTĘP WYNIKÓW, RANGE - ang.)

Jest to różnica między wartością maksymalną i minimalną zbioru pomiarów.

R = x_max-x_min

Jest to miara najprostsza, ale ma wiele wad:

- mało precyzyjna,

- z im większymi wartościami liczbowymi badanej zmiennej mamy do czynienia, tym większe istnieje prawdopodobieństwo występowania wartości ekstremalnych, a co za tym idzie wartość zakresu może być bardzo duża i nie oddawać rzeczywistej zmienności tego zbioru.

Zalety:

- łatwa do obliczenia

- daje szybką orientację w zmienności zbioru

ODCHYLENIE ĆWIARTKOWE

Jest miarą zmienności wyników wokół mediany i określamy je jako połowę różnicy pomiędzy górnym a dolnym kwartylem.

Zalety:

- kwartyle są bardziej odporne na wartości ekstremalne, więc odchylenie ćwiartkowe jest lepszą miarą niż rozstęp

Wady:

- nie wykorzystuje wszystkich informacji o badanej zmiennej informuje nas jedynie o zmienności w środkowej części przypadków nie uwzględniając zmienności na krańcach przedziału

Wyszukiwarka

Podobne podstrony:
Wykład 1- Przedmiot, socjologia, statystyka
statystyka wykład
WYKŁAD 4 statystyka
statystyka społeczna notatki ze wszystkich wykładów Błaszczak Przybycińska
WZORY DO WYKŁADU 9, Statystyka
Wykład 1-1.03.2011, Notatki UTP - Zarządzanie, Semestr II, Statystyka
statystyka wyklady, Szkoła WSTiH
Statystyka wykład 1
Statystyka opisowa wykład interpretacje
statystyka wyklad III
Statystyka - egzamin - ściąga - Kuszewski, Statystyka - wykłady - T.Kuszewski
WYKŁAD(5), PDF i , STATYSTYKA
statystyka- wyklady, Ekonomia, 1ROK, statystyka
WYKŁAD(6), PDF i , STATYSTYKA
statystyka -wykłady II sem, statystyka

więcej podobnych podstron