KLASYFIKACJA CECH STATYSTYCZNYCH
Cechy statystyczne:
1) terytorialne (przestrzenne) – kryterium stanowi terytorium, miejsce, 2) czasowe (dynamiczne) – kryterium stanowi czas
3) strukturalne (rzeczowe): a) mierzalne (ilościowe) – wyrażone liczbą: * skokowe (tylko całkowite) – np. liczba egzaminów, liczba kolizji drogowych, * ciągłe (dowolne wartości) – np. odległość, powierzchnia państw, b) niemierzalne: *porządkowe (możemy uporządkować rosnąco lub malejąco), *nominalne (nie możemy uporządkować), *dwudzielne (te, które dzielą się na 2 warianty, np. płeć), *wielodzielne (więcej niż 2 warianty, np. wykształcenie)
Jednostka statystyczna – osoba, rzecz lub zjawisko, której cechy podlegają badaniu statystycznemu
Analiza struktury zbiorowości – parametrami służącymi do analizy struktury zbiorowości są: 1) wskaźnik struktury, 2) wskaźnik natężenia, 3) wskaźnik podobieństwa struktur, 4) miary średnie, 5) miary zróżnicowania, 6) miary asymetrii, 7) miary koncentracji.
Wskaźnik struktury (odsetek, %, frakcja, liczebność względna) – liczebność względna, która określa udział części zbiorowości w całej zbiorowości: Wi = * 100. Własności wskaźnika struktur: 1. 0 ≤ Wi ≤ 1 (100%), 2. ∑ W1 = 1 (100%).
Wskaźnik natężenia - najczęściej wykorzystywany w analizach porównawczych. Jest to wielkość stosunkowa, która określa kształtowanie się jednej wielkości na tle innej logicznie z nią związanej Wn= , np. miesięczny dochód na osobę, stopa bezrobocia
Wskaźnik podobieństwa struktur - określa stopień podobieństwa porównywanych zbiorowości z punktu widzenia badanej cechy (Wij) 0 ≤Wp≤1 (100%). Im większy Wp tym porównywane zbiorowości są do siebie bardziej podobne.
Miary średnie (miary przeciętne) charakteryzują średni lub typowy poziom wartości cechy. Dzielą się na dwie grupy: średnie klasyczne: średnia arytmetyczna, średnia geometryczna; średnie pozycyjne: dominanta, (modalna, moda, wartość najczęstsza), mediana, kwantyle
Średnie klasyczne są obliczane na podstawie wartości cechy wszystkich jednostek, czyli całej zbiorowości. Średnie pozycyjne obliczane są na podstawie niektórych (zajmujących szczególną pozycję) wartości szeregu.
Średnia arytmetyczna – obliczamy tylko dla cech mierzalnych (liczbowych, ilościowych). Szereg punktowy- średnia arytmetyczna ważona. Średniej arytmetycznej nie obliczmy gdy: w szeregu występują wartości nie typowe, szereg posiada otwarte przedziały klasowe. Dominanta - to wartość cechy występująca w zbiorowości najczęściej (najwięcej razy). Warunki obliczania dominanty: *szereg musi posiadać jedno maksimum liczebności, czyli musi być szeregiem jednomodalnym, *-rozpiętość przedziału dominanty i dwóch przedziałów sąsiednich musi być jednakowa. Mediana - wartość cechy środkowej jednostki uporządkowanych rosnąco szeregu statystycznego.
Miary zróżnicowania: *bezwzględne: odchylenie standardowe (miara klasyczna), odchylenie ćwiartkowe (miara pozycyjna), obszar zmienności (rozstęp; miara pozycyjna) – miary mianowane, wyrażone w takich jednostkach jak badana cecha. Wykorzystanie tych miar do porównania zróżnicowania dwóch lub kilku zbiorowości pod względem tej samej cechy jest możliwe tylko wtedy, gdy średni poziom cechy w porównywalnych zbiorowościach jest jednakowy.
*względne: współczynnik zmienności odchylenia standardowego, współczynnik zmienności odchylenia ćwiartkowego. Określają udział odchylenia o wartości średniej, najczęściej wyrażane są w %. Miary te można wykorzystać do porównania zróżnicowania jednej zbiorowości pod względem kilku cech lub kilku zbiorowości pod względem tej samej cechy.
Odchylenie standardowe - mówi nam o ile przeciętnie wartości cechy poszczególnych jednostek różnią się od średniej arytmetycznej.
Odchylenie ćwiartkowe – mówi o ile przeciętnie wartość cechy 50% środkowych jednostek zbiorowości odchylają się od mediany.
Obszar zmienności - różnica miedzy maksymalną a minimalną wartością cechy.
Miary względne (współczynniki zmienności): względne miary zróżnicowania – wielkości relatywne (stosunkowe), które określają skalę zróżnicowania; współczynnik zmienności odchylenia standardowego – miara względna i klasyczna. Mówi nam, ile % średniej arytmetycznej stanowi odchylenie standardowe; współczynnik zmienności odchylenia ćwiartkowego – jest to miara względna i pozycyjna.
Szereg symetryczny – taki szereg, w którym liczebności rozkładają się w sposób identyczny po obu stronach dominanty. Zachodzi wówczas równość: = Me = D. Jeżeli szereg nie posiada tej własności, to jest to szereg asymetryczny.
Korelacja i regresja – zajmuje się badaniem siły i kierunku zależności między cechami; y – cecha (zmienna) zależna (objaśniana), x – cecha niezależna (objaśniająca). Wyróżnia się dwa rodzaje zależności: *funkcyjna – gdy zmiana wartości jednej cechy powoduje ściśle określoną zmianę drugiej cechy; *statystyczna - gdy dane wartości jednej cechy odpowiadają różnej wartości drugiej cechy. Szczególnym przypadkiem zależności statystycznej jest tzw. zależność korelacyjna - konkretnym wartościom jednej cechy przyporządkowane są średnie wartości drugiej cechy.
Metoda wykrywania korelacji: 1. Obserwacja danych; 2. Analiza wykresów; 3. Metoda analityczna - obliczenie współczynników korelacji (1. i 2. są zawodne).
Współczynnik korelacji liniowej Pearsona ma większą wartość poznawczą - cechy mierzalne, zależność liniowa. Jeżeli korelacja istnieje, to znak współczynnika informuje o kierunku korelacji, a wartość bezwzględna o sile. Współczynnik korelacji rang Spearmana: x i y mierzalne lub niemierzalne porządkowe, muszą być przedstawione w szeregu korelacyjnym, niewielka ilość obserwacji.
Funkcja regresji - funkcja matematyczna opisująca zależność miedzy badanymi cechami. Współczynnik regresji mówi o ile przeciętnie zmienia się x (wzrośnie o jednostkę). Metoda najmniejszych kwadratów - polega na znalezieniu funkcji przebiegającej najbliżej danych empirycznych. Współczynnik determinacji - miara dopasowania funkcji regresji danych empirycznych, mówi nam, w ilu % y zależy od x, a w jakiej części od innych czynników nieuwzględnionych w badaniu.
Współczynnik Yule’a - obliczamy go dla cech jakościowych przedstawionych w czteropolowej tablicy korelacyjnej. Informuje tylko o sile korelacji, interpretować należy wartość bezwzględną. Znak tego współczynnika jest wynikiem ułożenia liczebności w tablicy kontyngencji. Współczynnik T-Czuprowa, C-Pearsona: obliczamy dla cech jakościowych i tablic kontyngencji wielopolowych.
Szereg czasowy – zestawienie zawierające poziom badanego zjawiska uporządkowany ze względu na czas. Przyrosty naturalne – zwykłe różnice, które określają jak zmienił się poziom zjawiska w czasie badanym w porównaniu z czasem przyjętym za podstawę porównań. Przyrosty absolutne są wyrażone w takich jednostkach jak badane zjawisko. Przyrosty względne – to wielkości stosunkowe, które najczęściej wyrażone są w %. Indeksy indywidualne – wskaźniki dynamiki, które są wielkościami stosunkowymi najczęściej wyrażonymi w %. Średnia geometryczna – mówi nam, o ile przeciętnie z okresu na okres zmienia się (rośnie, maleje) poziom badanego zjawiska w rozważanym przedziale czasowym.