mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
Metody ilościowe
w socjologii
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
Garść użytecznych pojęć z zakresu statystyki
SKALE POMIARU ZMIENNYCH
Zmienne nominalne
1. Pozwalają tylko na klasyfikację jakościową badanych obiektów /
jednostek.
2. W ścisłym tego słowa znaczeniu nie można tu mówić o pomiarze za
pomocą jakiejś skali, lecz tylko o zaliczeniu do pewnej kategorii. W
takim przypadku możemy jedynie policzyć, ile jednostek należy do tej
kategorii, a ile do innej.
3. Nie możemy uporządkować tych kategorii od najmniejszej do
największej (lub na odwrót), ani tez przypisać im wartości liczbowych;
możemy podać jedynie ich liczebność. Na przykład nie możemy
powiedzieć że ktoś ma więcej lub mniej płci, można powiedzieć jedynie
że w próbie mamy np. 550 kobiet i 450 mężczyzn.
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
4. W przypadku zmiennych nominalnych nie ma zatem znaczenia
porządek grupowania, tzn. nie ma znaczenia czy mężczyźnie
przypiszemy wartość 1, a kobiecie wartość 2. Kategorie zmiennej
jakościowej są wzajemnie wykluczające się, tzn. każda jednostka
może należeć do jednej kategorii.
5. Przykłady zmiennych nominalnych to:
• płeć,
• wyznanie religijne,
• region zamieszkania,
• narodowość,
• przynależność do partii politycznej.
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
Zmienne porządkowe
1. pozwalają na uporządkowanie kategorii ze względu na to, czy mają
więcej, czy mniej cechy reprezentatywnej przez zmienną, choć nie
pozwalają określić o ile mniej lub o ile więcej.
2. typowymi zmiennymi porządkowymi są oceny preferencji w stosunku
do różnych obiektów (polityków, marek produktów). Uzyskane w wyniku
ich rangowania czy też sortowania kart z ich nazwami.
3. Skalami porządkowymi są też często używane w badaniach
sondażowych kafeterii w pytaniach o postawy, np., skala zdecydowanie
ufa, raczej ufa, raczej nie ufa, zdecydowanie nie ufa.
4. W skali porządkowej możemy określić czy respondent A bardziej ufa
Sejmowi niż respondent B, ale nie możemy powiedzieć , o ile wyższe
oraz ile razy wyższe jest owo zaufanie.
5. Kody cyfrowe oznaczają jedynie porządek kategorii i nie mają
znaczenia jako miary ilości danej cechy
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
Zmienne przedziałowe (interwałowe)
1. pozwalają nie tylko uporządkować jednostki pod względem mierzonej
cechy, lecz także określić wielkość różnicy pomiędzy nimi ze względu
na tę cechę. Np. wyniki testu inteligencji pozwalają nie tylko
powiedzieć, że student, który uzyskał 100 punktów jest bardziej
inteligentny od tego studenta, który w tym samym teście uzyskał
punktów 90.
2. Pozwalają również określić, ile wynosi różnica pomiędzy oboma
pomiarami.
3. Innym przykładem skali przedziałowej jest skala stopni Celcjusza, gdzie
zero stopni nie oznacza braku temperatury, więc zero nie jest
„absolutne”).
4. W przypadku cech przedziałowych nie jesteśmy nadal w stanie
powiedzieć, ile razy A jest większe bądź mniejsze od B, np. nie możemy
powiedzieć ile razy średnia temperatura w lipcu (dodatnia) jest większa
od średniej temperatury w styczniu (ujemnej).
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
Zmienne ilorazowe (stosunkowe)
1. Są podobne do zmiennych przedziałowych pod tym względem, że ich
wartości mają sens liczbowy.
2. Cechą szczególną zmiennych ilorazowych jest to, że posiadają zero
absolutne lub inaczej zero znaczące, tzn. taki punkt zerowy na skali,
który ma klarowne znaczenie braku pewnej cechy i właściwości. Na
przykład jeżeli ktoś ma ) PLN w portfelu to wiadomo, że nie ma
pieniędzy.
3. Drugą cechą zmiennych ilorazowych jest to, że stosunek między
dwiema wartościami takiej zmiennej ma sens, np. jeśli rodzina ma
dochód miesięczny 1200 PLN, to możemy sensownie powiedzieć , że
jest to 2 razy większy niż w przypadku rodziny zarabiającej 600 PLN
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
Skala
Czy element
A jest różny
od elementu
B
Czy
element A
jest lepszy
od
elementu
B?
O ile element A
jest lepszy od
elementu B?
Ile razy
element A
jest lepszy
od elementu
B?
Nominalna
+
-
-
-
Porządkow
a
+
+
-
-
Przedziało
wa
+
+
+
-
Ilorazowa
+
+
+
+
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
Skala
Dominan
ta
Median
a
Średni
a
Odchylen
ie
Nominalna
+
-
-
-
Porządkow
a
+
+
-
-
Przedziało
wa
+
+
+
+
Ilorazowa
+
+
+
+
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
PODSTAWOWE POJĘCIA
1. Populacja
– zbiór wszystkich możliwych jednostek, obiektów lub
pomiarów, które są przedmiotem zainteresowania.
2. Próba
– zazwyczaj niewielka część populacji będącej przedmiotem
zainteresowania, która poddana jest badaniu po to, by móc wnioskować
o zjawiskach w populacji
3. Badania o charakterze wyczerpującym
– gdy objęta jest nimi cała
populacja
4. Badania o charakterze cząstkowym
– gdy przeprowadzone są na
próbie czyli dobranych (zwykle losowo) reprezentantach populacji /
zbiorowości będącej przedmiotem badania.
5. Statystyka opisowa
– metody służące do organizacji, opisu i
syntetycznej prezentacji danych liczbowych dotyczących pewnej
zbiorowości.
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
PODSTAWOWE POJĘCIA – cd.
6. Wnioskowanie statystyczne
– metody służące do wnioskowania na
temat cech populacji na podstawie pomiaru tych cech w wylosowanej
próbie. Aby na podstawie próby można było wnioskować na temat
populacji muszą być spełnione dwa warunki: próba musi być dobrana
według specjalnej procedury zwanej doborem losowym; dobór ten musi
zapewniać każdej jednostce populacji jednakowe lub różne, ale znane
prawdopodobieństwo znalezienia się w próbie. Gdy to
prawdopodobieństwo nie jest jednakowe, muszą być zastosowane
specjalne techniki ważenia.
7. Cecha stała
– taka sama dla wszystkich badanych obiektów
8. Cecha zmienna
– mogąca się różnić w przypadku różnych obiektów.
9. Zmienna niezależna
– są to te zmienne, o których na podstawie teorii
sądzimy, że ich zmiany pociągną za sobą zmiany w innych zmiennych,
które traktujemy w związku z tym jako zmienne zależna
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
PODSTAWOWE POJĘCIA – cd.
10.Badania korelacyjne
– są to takie badania, w których nie wpływamy
na żadne zmienne, lecz tylko mierzymy je i szukamy związków
(korelacji) w obrębie jakiejś grupy zmiennych, jak np. związek pomiędzy
oceną sytuacji gospodarczej kraju a poziomem dochodów respondenta.
W przypadku badań korelacyjnych możemy interpretować
zaobserwowane związki jako związki przyczynowo-skutkowe w oparciu o
jakąś teorię
11.Badania eksperymentalne
– badacz manipuluje niektórymi
zmiennymi i mierzy skutek tej manipulacji dla innych zmiennych, np.
zmieniamy sposób ekspozycji produktu w sklepie i badamy reakcję
konsumentów.
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
W analizie danych sam rozkład częstości odpowiedzi niewiele
nam mówi. Dla statystyka nie tyle ważna jest informacja kto
ile zarabia ale:
Jaką kwotę zarabia największa liczba pracowników i jaka część
pracowników zarabia tę kwotę?
1. Poniżej jakiej kwoty zarabia połowa pracowników?
2. Poniżej jakiej kwoty zarabia jedna czwarta pracowników, a poniżej
jakiej trzy czwarte?
3. Jaka jest średnia płaca pracowników, jeśli pominiemy w obliczeniu 5%
najlepiej zarabiających i 5% najgorzej zarabiających?
4. Jaka jest różnica pomiędzy najwyższą a najniższą płacą w
przedsiębiorstwie?
5. Jaka jest różnica pomiędzy płacą, poniżej której zarabia 75%
pracowników i płacą poniżej której zarabia 25% pracowników
6. Jakie są zarobki poszczególnych grup pracowników?
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
MIARA TENDENCJI CENTRALNEJ
Często pytamy co jest typowe, np. jakiej płci jest
typowy uczeń szkoły pielęgniarskiej czy oficerskiej.
Na pytania co jest typowe, staramy się odpowiedzieć
stosując miary tendencji centralnej, tzn.
wskaźniki opisujące tak, czy inaczej,
zdefiniowaną pozycję centralną danej zmiennej.
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
DOMINANTA
1. Jedyną miarą tendencji centralnej w przypadku zmiennej nominalnej
jest dominanta (wartość modalna), czyli kategoria występująca z
największą częstością. Nie można obliczać średniej arytmetycznej z
kodów cyfrowych zmiennej nominalnej, gdyż nie mają one sensu
liczbowego.
2. Dominanta jest miarą tendencji centralnej w tym sensie, że wskazuje,
jaka kategoria jest typowa dla zmiennej.
3. Zalety dominanty:
• łatwość jej wskazania i interpretacji
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
4. Wady dominanty
• dominanta nie zawsze będzie dawać najlepszy opis
danych, ponieważ kategoria występująca najczęściej może
nie występować dużo częściej od innych kategorii,
wówczas wartość informacyjna dominanty jest znikoma
• rozkład może nie mieć jednej dominanty. W przypadku
gdy rozkład ma dwie wartości modalne nazywamy go
rozkładem bimodalnym, w przypadku gdy ma ich więcej –
wielomodalnym.
• dominanta jest podatna na losową zmienność prób. W
przypadku gdy w populacji mamy rozkład bimodalny, o
dominantach x1 i x2, to w jednej próbie będziemy mieć
jedną dominantę x1, a w innej też jedną modalną x2
• dominanta jest podatna na sposób kategoryzacji zmiennej
i łączenie kategorii: wartość modalną można uzyskać
przez odpowiednie połączenie kategorii i doprowadzić do
tego, że inna kategoria stanie się dominantą
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
MEDIANA
1. Stanowi centrum rozkładu zmiennej porządkowej. Jeśli kategorie
zmiennej są uporządkowane od najmniejszej do największej, medianą
nazywamy kategorię dzielącą rozkład na pół.
2. W przypadku analizy sondaży społecznych pytając o medianę zmiennej
pytamy o to, jakie zdanie miała środkowa osoba, jeśli wszystkie
uporządkowaliśmy pod względem natężenia wyrażanej opinii czy
postawy.
3. Mediana jest ważna a analizie zmiennych porządkowych ze względu na
brak możliwości zastosowania innych miar tendencji centralnej
(średnich) w przypadku zmiennych jakościowych
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
4. Cechy charakterystyczne mediany:
• wyznaczenie mediany zależy od uporządkowania kategorii
• mediana jest wyznaczana przez środkową obserwację w
uporządkowanym rozkładzie. W przypadku szeregu nieparzystego
wyznaczenie mediany jest proste. W Przypadku zaś szeregu parzystego
za medianę należy uważać tą wartość, która jest w połowie drogi
między dwiema środkowymi obserwacjami
• walory poznawcze mediany rosną wraz ze wzrostem liczby obserwacji
oraz liczby kategorii (wartości zmiennej). Mediana dla zmiennych
porządkowych nie ma sensu liczbowego, jest jedynie charakterystyką
pozycyjną rozkładu i wskazuje na to, do której kategorii,
uporządkowanych pod względem nasilenia cechy, należy środkowa
obserwacja
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
• w przypadku gdy mamy do czynienia ze zmienną mierzalną
mediana nabiera sensu liczbowego. Mówi nam ona wtedy, jaka jest
wartość takiej obserwacji, od której co najmniej połowa obserwacji
ma wartości nie większe i równocześnie co najmniej połowa
obserwacji ma wartości nie mniejsze.
•Mediana jest odporna na wpływ obserwacji o skrajnych wartościach,
czego nie można powiedzieć o średniej arytmetycznej
Medianę można liczyć nawet wówczas, gdy krańce rozkładu są
otwarte
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
i
i
i
n
n
x
x
i
i
n
x
x
ŚREDNIA ARYTMETYCZNA
1. Dominanta i mediana mogą być liczone także dla zmiennych
przedziałowych i liczbowych. Nie wykorzystujemy w nich jednak pełnej
informacji liczbowej zawartej w danych. Statystyką, która czyni użytek
z tych informacji jest średnia arytmetyczna. Warunkiem użycia średniej
jest co najmniej poziom przedziałowy danej zmiennej.
2. Aby obliczyć średnią arytmetyczną sumujemy wartości danej zmiennej
dla wszystkich obserwacji i dzielimy tę sumę przez liczbę obserwacji
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
3. Właściwości (zalety) średniej:
• każda zmienna mierzona na skali przedziałowej lub ilorazowej ma swoją
średnią
• średnia jest obliczona na podstawie wszystkich wartości zmiennej
• zmienna ma tylko jedną średnią
• średnia świetnie nadaje się do porównywania dwóch lub większej liczby
populacji
• średnia jest jedynie miarą tendencji centralnej, w przypadku której
suma odchyleń wszystkich wartości od zmiennej od tej miary jest
zawsze równa zero
• średnia jest bardziej stabilna od innych miar tendencji centralnej w
przypadku losowania prób z populacji
mgr Maciej Dębski - Uniwersytet Gdański
mgr Maciej Dębski - Uniwersytet Gdański
4. Wady średniej
• może przyjmować wartości ułamkowe nawet wówczas gdy zmienna
może sensownie przyjmować tylko wartości całkowite
• średnia nie może zostać obliczona, jeśli skrajne kategorie zmiennej są
otwarte,
• średnia nie jest odporna na wartości ekstremalne, które w sposób
drastyczny zawyżają lub zaniżają średnią