STATYSTYKA - wykłady
L.Gruszczyński „Elementy statystyki dla socjologów”
Dr. Pactwa - pon. i wtorek 09:30 - 11:00 (pok. 217)
(08.X)
Statystyka - jest to nauka zajmująca się metodami ilościowymi badania prawidłowości zjawisk masowych
Badanie statystyczne - ogół prac mających na celu poznanie struktury badanej zbiorowości statystyczne.
Zbiorowość statystyczna - zbiór dowolnych elementów, osób, przedmiotów lub faktów, podobnych pod względem określonych cech, ale nie identycznych i poddanych badaniu statystycznemu
zbiorowość generalna (populacja) - wszystkie elementy, będące przedmiotem badania, co do których chcemy formułować wnioski
zbiorowość próbna (próba) - podzbiór populacji generalnej obejmujący część jej elementów wybranych w określony sposób. (wybór celowy i kwotowy lub losowo)
Rodzaje badania statystycznego:
całkowite (wyczerpujące) - gdy obserwacji poddane są wszystkie jednostki populacji generalnej (np. powszechny spis ludności)
częściowe (próba)
Rodzaje cech statystycznych - właściwości jednostek statystycznych:
mierzalne - (ilościowe, kwantyfikowalne) można je wyrazić przy pomocy odpowiednich jednostek fizycznych(cm, kg itp.)
cechy quasi-ilościowe, wyrażające natężenie cechy
niemierzalne - (jakościowe) są zwykle określanie słownie(płeć, wykształcenie, wiek)
skokowe - (dyskretne) przyjmują skończony lub przeliczany zbiór wartości na danej skali liczbowej (ilość dzieci)
ciągłe - przyjmują każdą wartość z określonego przedziału liczbowego (waga)
Cele badania statystycznego -
poznanie rozkładu zbiorowości pod względem wybranych cech
ustalenie jakiego rodzaju związki występują między cechami (współzależność cech)
porównywanie i porządkowanie obiektów wielorodnych
poznanie dynamiki zbiorowości
Etapy badania statystycznego:
przygotowanie badań
sformułowanie celu badawczego (postawienie pytań i hipotez)
określenie rzeczowego, przestrzennego i czasowego zasięgu badań
rodzaje wykorzystywanego materiału badawczego i metod jego gromadzenia
określenie sposobu opracowania i prezentacji zebranego materiału
określenie metod analizy tego materiału
określenie reguł wnioskowania
gromadzenie materiału badawczego - materiał pierwotny (pozyskany przez nas) lub wtórny (już istniejący)
opracowanie i prezentacja zebranego materiału
podział uporządkowanego materiału według kryteriów na podstawie interesujących nas cech
zliczenie pogrupowanych danych
interpretacja zebranego materiału i pogrupowanie wartości (tabele lub wykresy)
opis statystyczny (analiza badanej zbiorowości) - oblicznie miar czyli charakterystyk opisowych badanej zbiorowości (statystyka opisowa)
wnioskowanie statystyczne - zastosowanie testów na podstawie których dokonuje się uogólnień do całe zbiorowości
15.X
Grupowanie statystyczne:
grupowanie typologiczne - ma na celu wyróżnienie jednorodnych grup jakościowych
grupowanie wariancyjne - ma na celu uporządkowanie badanej zbiorowości i poznanie jej struktury. Polega na łączeniu w klasy jednostek statystycznych o odpowiednich wartościach cech statystycznych
Szeregi statystyczne - występują przy użyciu grupowania wariancyjnego. Jest to ciąg wielkości statystycznych uporządkowanych według określonego kryterium. Rodzaje szeregów statystycznych:
szereg szczegółowy - uporządkowanych ciąg wartości badanej cechy statystycznej, w wypadku małej ilości danych. Można go uporządkować malejąco lub rosnąco.
szereg rozdzielczy - zbiorowość statystyczne podzielona na części (klasy) według określonej cechy mierzalnej jakościowej lub ilościowej, z podaniem liczebności dla każdej z wyodrębnionych klas (rozkład empiryczny)
szereg rozdzielczy I typu - każdy wariant cechy stanowi osobną klasę
szereg rozdzielczy II typu - występują przedziały „od/do”, które zawsze mają dolną granicę (xd) i górną. Różnica między dolną a górną granicą to rozpiętość przedziału (l).
Przedstawienie graficzne wyników
histogram (wykres słupkowy)- zbiór prostokątów, których podstawy są wyznaczone na osi odciętych, stanowiąc rozpiętości poszczególnych przedziałów klasowych. Natomiast wysokości są określone na osi rzędnych, przez liczebności odpowiadające poszczególnym przedziałom klasowym
wielobok liczebności - linia łamana powstała z połączenia punktów, których współrzędnymi są środki przedziałów klasowych (xi`), czyli średnia arytmetyczna (dolna granica +górna granica / 2)
szereg skumulowany - szereg powstały z szeregu rozdzielczego przez kolejne dodawanie (kumulowanie) przedziałów klasowych oraz odpowiadających im wartości (ncum)
Opis struktury badanej grupy - opisujemy przy pomocy parametrów. Jednym z nich są miary tendencji centralnej:
średnie klasyczne:
średnia arytmetyczne
średnia harmoniczna
średnia geometryczna
średnie pozycyjne (zajmują w szeregu szczególną pozycję)
dominanta - wartość tej zmiennej, która w szeregu statystycznym występuje najczęściej
xd = dolna granica przedziału najliczniejszego
l = rozpiętość przedziału najliczniejszego
n0 = liczebność najliczniejszego przedziału
nn-1 = liczebność przedziału poprzedzającego najliczniejszy
nn+1 = liczebność przedziału po najliczniejszym
kwartyle
Q1 - wartość szeregu dzieląca zbiorowość na dwie części tak, że 1\4 ≤ Q1 ≥ 3\4
Q3 - wartość szeregu dzieląca zbiorowość na dwie części tak, że 3\4 ≤ Q1 ≥ 1\4
mediana - wartość środkowa, która dzieli szereg na dwie równe liczebnie części - część wartości równych i mniejszych niż mediana i część wartości równych i większych niż mediana
xd = dolna granica przedziału mediany
n\2 = wyraz środkowy
ncum-1 = liczebność skumulowana w przedziale poprzedzającym przedział mediany
nM = liczebność zwykła przedziału mediany
22.X
Miary rozproszenia (zróżnicowania): Pozwalają na uogólnienie różnic w wartościach cechy, zaobserwowanych u jednostek w badanej zbiorowości. Klasyczne (odchylenie klasyczne, wariancja, odchylenie standardowe, współczynnik zmienności) i pozycyjne (rozstęp, odchylenie ćwiartkowe, współczynnik zmienności dla miar pozycyjnych)
klasyczne:
odchylenie przeciętne (odchylenie średnie) - średnia arytmetyczna bezwzględnych wartości odchyleń wartości cechy od średniej arytmetycznej szeregu. Kolejność postępowania:
wyliczamy średnią arytmetyczną szeregu
od poszczególnych wartości zmiennej odejmujemy obliczoną średnią
obliczone odchylenia sumujemy ignorując znaki
dzielimy przez liczebność szeregu
wariancja - średnia arytmetyczna kwadratów odchyleń poszczególnych wartości zmiennej od ich średniej arytmetycznej
odchylenie standardowe - pierwiastek kwadratowy wariancji, zmodyfikowany o poprawkę Sheparda, czyli o ile różnią się przeciętnie wartości cech od średniej arytmetycznej
l = rozpiętość przedziału klasowego
współczynnik zmienności - wyraża się go w %, im więcej procent tym większe jest zróżnicowanie
pozycyjne:
rozstęp:
odchylenie ćwiartkowe - tu badamy tylko połowę ilości przypadków, ale dobre, gdy przedziały są niedomknięte
współczynnik zmienności dla miar pozycyjnych - czyli stosunkowe odchylenie ćwiartkowe
M = mediana
Q = odchylenie ćwiartkowe
29.X
Miary asymetrii
asymetria rozkładu- określana przez porównywanie xA, m i D:
jeżeli xA=M=D - szereg symetryczny.
jeżeli xA>M>D - rozkład o asymetrii prawostronnej
jeżeli xA<M<D - rozkład o asymetrii lewostronnej
rozkłady symetryczne - to takie, w których obserwacje rozłożone są równomiernie po obu stronach osi symetrii.
rozkłady asymetryczne -
I - większość obserwacji znajduje się w przedziałach położonych bliżej początku szeregu, większość cech ma wartości i niskich nominałach.
II - przedział klasowy zawierający największą liczbę obserwacji przesunięty jest w prawo - w ostatnich przedziałach
Rozkłady bimodalne - dwa wyraźne punkty skupienia
rozkłady siodłowe - posiada dwa punkty skupienia obserwacji znajdujące się w krańcowych przedziałach (pierwszym i ostatnim)
rozkład równomiarowy - we wszystkich przedziałach występuje ta sama liczba obserwacji.
asymetria dodatnia - punkt skupienia znajduje się prze niskich wartościach cechy
asymetria ujemna - punkt skupienia znajduje się przy wyższych wartościach cechy.
miernik skośności - jest podstawowym miernikiem asymetrii rozkładu
Ms = 0 - symetria
Ms >0 - asymetria prawostronna
Ms <0 - asymetria lewostronna
współczynnik skośności - siła i kierunek skośności
Ws∈ (-1, 1)
S = odchylenie standardowe
Ws = 0 - symetria
pozycyjna miara asymetrii
As∈ (-1,1)
As∈ (-1,0> - asymetria lewostronna
As∈ <0,1) - asymetria prawostronna
moment centralny trzeci w jednostkach standardowych - najdokładniejsza miara, bo uwzględnia wszystkie wartości
α3∈ (-2,2) - im bliższy 0 tym asymetria jest słabsza
Miary koncentracji - jak bardzo poszczególne obserwacje skupiają się wokół średniej arytmetycznej:
kurtoza
K∈(-3,3) - jeżeli K= 3 rozkład normalny
5.XI.
Rozkład normalny
pole powierzchni pod krzywą wynosi 1, takie też jest prawdopodobieństwo, że zmienna znajdzie się w przedziale zawierającym się pod krzywą, czyli (-∞,+∞). Sigma (δ) to odchylenie standardowe w rozkładzie normalnym i od (-δ,+δ) znajduje się 68,26% przypadków (po 34,13% po każdej stronie osi symetrii)
Oś symetrii rozkładu normalnego to średnia arytmetyczna (= mediana = dominanta). Dany jest rozkład normalny X: N(xA, δ)
21.XI.
Estymacja parametrów - rodzaj wnioskowania polegający na szacowaniu parametrów populacji generalnej na podstawie statystyk z próby.
estymacja punktowa - znalezienie konkretnej liczby dla każdego szacowanego parametru.
D(Tn) - błąd standardowy szacunku
T - konkretna wartość statystyki tego parametru w próbie
estymacja przedziałowa - wyznaczenie przedziału, w którym z pewnym prawdopodobieństwem znajduje się parametr estymowany. Występuje tu przedział ufności i współczynnik ufności, a długość przedziału ufności wynosi:
Q - szacowany parametr
P = 1-α - współczynnik ufności
t +/-zαD(Tn) - granice przedziału ufności
zα - zmienna standaryzowana (wartość krytyczna)
Testy ℵ2
dla tabeli, dane ilościowe i jakościowe
1.
2.
ne - liczebności empiryczne, rzeczywiście zaobserwowane w pomiarach
nt - liczebności teoretyczne, oczekiwane w poszczególnych komórkach
k - kolumny
w - wiersze
ℵ2obl > ℵ2α - nie ma przesłanek do przyjęcia H0, przyjmujemy H1
dla szeregu, dane ilościowe (rozkład normalny)
ss = k - r - 1; gdzie r to liczba parametrów, a k to liczba kolumn
Dla ostatniego wiersza nie obliczamy z;
Dystrybuanta f(zi) (z tablic) odejmowanie lub dodawania do z (w zależności od znaku)
Pi w pierwszym wierszu = D (dystrybuanta)
kolejne wiersze = Dn - Dn-1
ostatni wiersz = 1- Dpoprzedniego
suma prawdopodobieństw musi być równa 0
Siła korelacji
Współczynnik korelacji c Pearsona. <-1;1> , siła związku:
Współczynnik korelacji r:
mniejsza z różnic (k - 1) lub (w - 1)
Współczynnik korelacji V2
mniejsza z różnic (k - 1) lub (w - 1)
Związek między cechami ilościowymi - współczynnik korelacji r Pearsona
r = 0 - nie ma związku
r = 1 - związek całkowity dodatni (jak jeden w rośnie to drugi też)
r = -1 - związek całkowity ujemny
0< r >1 - korelacja dodatnia niedoskonała
-1< r >0 - korelacja ujemna niedoskonała
0< r >0,2 - bardzo słaba
0,2< r >0,3 - słaba
0,3< r >0,5 - średnia
0,5< r >0,7 - silna
0,7< r >1 - bardzo silna
LICZENIE ZADANIA Z DANYMI ILOŚCIOWYMI W TABLICY KORElACJI
Wyznaczamy środki przedziałów klasowych xi i yi.
Wyznaczamy punkty wyjściowe (arbitralne) x0 i y0, czyli środki przedziałów przedziału środkowego (w przypadku liczby parzystej np.4 wziąć drugi lub czwarty).
Obliczamy wartości odchyleń ui i vi, poszczególnych środków przedziałów klasowych od ich punktów arbitralnych wg:
Obliczamy iloczyny odchyleń i właściwych im liczebności w przedziałach (niui i nivi)
Obliczamy iloczyny kwadratów odchyleń i liczebności w przedziałach
Obliczamy iloczyny odchyleń cechy x i cechy y: uivi (dla każdej komórki) a liczebności te zapisujemy w lewych górnych rogach komórki tablicy
Wpisany w lewym górnym roku iloczyn (uivi) mnożymy przez liczebność a wynik mnożenia wpisujemy w prawym dolnym rogu komórki
Wpisany w prawych dolnych rogach komórek iloczyny - niuivi - sumujemy w poziomie i pionie a wyniki sumowań zapisujemy w ostatnim wierszu i ostatniej kolumnie i to też sumujemy
Sprawdzamy poprawność obliczeń poprzez porównanie sumy w ostatnim wierszu i ostatniej kolumnie. Powinny się równać.