STATYSTYKA OPISOWA I EKONOMICZNA
I. Pojęcia Podstawowe
Statystyka - nauka o metodach ilościowych, badania zjawisk masowych. Zajmuje się badaniem procesów, jakie zachodzą w zbiorowościach statystycznych.
Zjawisko masowe - występują w przyrodzie, społeczeństwie, badane dla większej liczby przypadków, wykazują pewną prawidłowość.
Badanie statystyczne - ogół prac mających na celu:
o Poznanie struktury badanej zbiorowości ze względu na określone cechy
o Ocenę współzależności zjawisk
o Poznanie dynamiki zmian zjawiska w czasie i przyczyn wywołujących zmienność tego zjawiska.
Populacja statystyczna (zbiorowość statystyczna) - zbiór osób, przedmiotów, zjawisk podobnych do siebie, ale nie identycznych, poddanych badaniom statystycznym. Każdy element populacji statystycznej to jednostka statystyczna.
Jednostka statystyczna - element zbiorowości statystycznej, posiada ona cechy wspólne lub przynajmniej jedną cechę wspólną z innymi jednostkami oraz różnice w stosunku do innych jednostek.
Przy określaniu populacji statystycznej określamy:
- kogo, co badamy
- jaki obszar obejmuje badanie
- jakiego okresu dotyczy badanie
np. badamy stan zdrowia dzieci rozpoczynających naukę w 2000 roku na terenie województwa łódzkiego. W tym badaniu zbiorowością statystyczną są dzieci rozpoczynające naukę w 2000 roku. Jednostką jest każde z tych dzieci.
Badanie statystyczne ma dwojaki charakter:
- całkowite (pełne, wyczerpujące) - to takie, w którym bezpośredniej obserwacji podlegają wszystkie jednostki statystyczne. Badania te przeprowadza się dla zbiorowości mało licznych, ponieważ są małe koszty. Przy tym badaniu otrzymujemy opis statystyczny.
- częściowe - bezpośredniej obserwacji podlega pewien podzbiór zbiorowości statystycznej nazywany próbą i wyniki uogólniamy na całą zbiorowość. By to uogólnienie miało sens, próba musi być liczna i reprezentatywna (struktura musi być zbliżona do danej zbiorowości). Przy tym badaniu opis dotyczy próby. W częściowym odniesieniu do całej zbiorowości mamy do czynienia z wnioskowaniem statystycznym.
Cechy statystyczne - własności jednostek statystycznych podlegające badaniom. Jednocześnie cecha statystyczna jest kryterium podziału całej zbiorowości statystycznej, czyli wszystkich jednostek na mniejsze części.
Podział cech statystycznych:
mierzalne - ilościowe - wartości otrzymujemy w wyniku pomiaru lub policzenia, i które w naturalny sposób wyrażają się liczbami i występują w określony w określonych jednostkach. Dzielą się na:
- skokowe (dyskretne) przyjmują wartości nie zależące od pomiaru np. liczba osób w rodzinie, dni w roku na odpoczynek
- ciągłe przyjmują wartości z poziomych przedziałów. Wartości te często zależą od dokładności pomiaru (czas wykonania pewnego detalu np. długość włókna przędzy przy badaniu jej jakości)
niemierzalne - jakościowe - warianty opisujemy słowami np. zawód, wykształcenie. Dzielimy je na:
- dwudzielne - istnieją dwa warianty np. płeć, tak-nie
- wielodzielne - wiele wariantów np. zawód
II. Etapy badania statystycznego:
1. Projektowanie - sprecyzować cel badania, określić zbiorowość statystyczną i oszacować jej liczebność, określić charakter badania (pełne, częściowe), uściślić badane cechy, podać źródła pozyskiwania danych, przygotować formularze ankiet.
Projektowanie obejmuje ustalenie celu badania ,metody badania, określenie zbiorowości statystycznej, określenie cech badania , określenie jednostki statystycznej oraz próby statystycznej. Opracowanie schematów tablic wynikowych i formularzy statystycznych.
Formularz statystyczny składa się z trzech głównych części:
- nagłówka (część tytułowa)
- kwestionariusza właściwego
- części końcowej
Nagłówek - w tej części znajdują się dane dotyczące instytucji prowadzącej badanie (nazwa i adres) oraz wyznaczone jest miejsce na dane identyfikacyjne jednostki sprawozdawczej (nazwa , adres , numer statystyczny regon). Ponadto w nagłóku zamieszczony jest tytuł formularza oraz informacje dodatkowe dotyczące przedmiotu badania , terminu i okresu, którego dotyczą odpowiedzi , terminu wysłania sprawozdania a także wyszczególnienie odbiorców sprawozdań.
Kwestionariusz właściwy - stanowi zasadniczą część formularza. Zamieszczone są w nim pytania dotyczące przedmiotu badania. Mogą być to tabele bądź pytania w formie tekstowej.
Część końcowa - zawiera podpisy osób odpowiedzialnych za prawidłowość danych zawartych w formularzu , oraz datę.
Obserwacja statystyczna. Zbieranie materiałów - czyli obserwacja statystyczna , jego zliczanie i grupowanie jest drugim etapem badania statystycznego. Materiał statystyczny - zbiór danych liczbowych i opisowych. Materiał pierwotny - to sporządzony "teraz" (obecnie) przez ankietera. Materiał wtórny - to korzystanie z już wykonanych badań. Surowy materiał statystyczny - to materiał jeszcze nie skorygowany, może zawierać błędy.
Rodzaje błędów:
a) Błędy systematyczne (tendencyjne) - polegają na podawaniu faktów celowo znikształconych. Spowodowane jest to obawą przed konsekwencjami ujawnienia prawdy. Na przykład właściciele sklepów i przedsiębiorstw mogą kłamać nt. wielkości obrotów - ponieważ na ich podstawie określa się wysokość podatku.
b) Błędy niesystematyczne (przypadkowe) - polegają na pomyłce liczbowej.
2. Opracowanie danych - tabele, wykresy. Materiał należy pogrupować, usystematyzować. Grupowanie ma charakter typologiczny (gdy łączymy w grupy jednostki, które mają taki sam wariant cechy) lub wariacyjny (porządkujemy dane ze względu na wartości cechy dla tych jednostek) Pogrupowane dane zapisujemy w szeregach statystycznych
3. Analiza wyników - podanie informacji
III. Metody badań statystycznych:
Wstępem do wszelkiego rodzaju badań statystycznych jest określenie przedmiotu badania , czyli zdefiniowanie zbiorowości , jednostki i cech statystycznych, które będą podlegały badaniu.
Główne kryterium podziału metod badań statystycznych związane jest z udziałem zbiorowości statystycznej w badaniu. Jest to więc podział ze względu na liczbę jednostek zbiorowości statystycznej objętych badaniem. Z uwagi na to kryterium rozróżnia się dwie zasadnicze metody:
badnie pełne (generalne, kompletne , całkowite)
badanie częściowe (niekompletne, niepełne, niecałkowite).
Metoda badania pełnego - polega na tym, że obserwacji poddana jest każda jednostka zbiorowości statystycznej , której badanie dotyczy.
Metoda badania częściowego - sprowadza się natomiast do obserwacji tylko pewnej części (wybranych jednostek statystycznych) badanej zbiorowości statystycznej.
Badanie pełne:
spis statystyczny
rejestracje statystyczne
sprawozdawczość statystyczna
Badanie częściowe:
metoda reprezentacyjna
metoda monograficzna
metoda ankietowa
Metody szacunku:
-interpolacja - gdy "szukamy środka".
-ekstrapolacja - gdy "szukamy zewnętrznej wartości".
Wybór metody zależy od celu badania, rodzaju zbiorowości , tematu badania, jego szczegółowości i od środków.
IV.Charakterystyki liczbowe struktury zbiorowości
Kompleksowa analiza struktury zbiorowości
W skład kompleksowej analizy struktury zbiorowości wchodzą:
1. Średnia (klasyczna i pozycyjna),
2. Miary rozproszenia (dyspersji),
3. Miary skośności (asymetrii),
4. Miary spłaszczenia (koncentracji).
Ad.1 Średnie klasyczne
a. Średnia arytmetyczna (średnia x -
)
dla szeregów prostych gdy dane nie są uporządkowane wyraża się wzorem
xi - wartość badanej cechy i-tej jednostki statystycznej,
N - liczba badanych jednostek statystycznych.
PRZYKŁAD :
Średni wzrost mężczyzn (10 elementów)
x1 = 168 x2 = 178 x3 = 171 x4 = 185 x5 =180
x6 = 171 x7 = 179 x8 =183 x9 =180 x10 =175
= 177 cm
dla szeregu rozdzielczego - jeżeli w wyniku odpowiedniego grupowania danych nieuporządkowanych w szereg rozdzielczy w postaci:
x |
ni |
x`i |
ni x`i |
700-800 |
11 |
750 |
8250 |
800-900 |
18 |
850 |
15300 |
900-1000 |
26 |
950 |
24700 |
1000-1800 |
36 |
1400 |
50400 |
1800-2400 |
32 |
2100 |
67200 |
2400-3000 |
16 |
2700 |
43200 |
suma |
N=139 |
|
209050 |
ni - liczebność i-tego przedziału klasowego (suma ni równa się N)
x`i - środek i-tego przedziału klasowego
b. średnia geometryczna
stosujemy dla liczb względnych (procenty, promile np. roczne wykonanie planu).
gdzie xi >0 (PI oznacza iloczyn)
c. średnia harmoniczna
jest odwrotnością średniej arytmetycznej - stosujemy gdy dane są podane jako odwrotność np. zużycie paliwa na jednostkę, wydajność na godzinę.
gdzie xi 0
Ad. 1 Średnie pozycyjne
Wynikają z pozycji w szeregu, wyznacza się na podstawie tzw. wzorów interpolacyjnych.
a. Dominanta (wartość typowa , modalna, dominująca) - to taka wartość badanej cechy, której odpowiada największa liczebność
I. Sposób wyznaczania dominanty dla szeregu prostego
1. uporządkować szereg rosnąco (czasami malejąco),
2. podsumować jednostki, które maja tę samą wartość.
3. Dominantą będzie wartość występująca najczęściej.
II. Sposób wyznaczania dominanty dla szeregu rozdzielczego
gdzie: xo - dolna granica przedziału w którym znajduje się dominanta,
co - rozpiętość przedziału dominanty,
nd - liczebność przedziału, w którym znajduje się dominanta,
nd-1 - liczebność przedziału poprzedzającego,
nd+1 - liczebność przedziału następnego po przedziale dominanty.
Dominantę z szeregu rozdzielczego można w przybliżeniu wyznaczyć także w sposób graficzny.
b. Mediana (wartość środkowa)
Kwartyl 1 - Q1 to taka wartość badanej cechy, która dzieli populację na dwie części w sposób następujący - 25% jednostek statystycznych jeszcze tej wartości nie osiągnęło a pozostałe 75% tę wartość przekroczyło.
Kwartyl 2 - Q2 - Me (mediana) to taka wartość badanej cechy, która dzieli populację na połowy, inaczej mówiąc jest to wartość środkowa. W medianie połowa populacji jeszcze nie osiągnęła wartości badanej cechy a druga połowa już tę wartość przekroczyła.
Kwartyl 3 - Q3 to taka wartość badanej cechy, której 75% liczebności jeszcze nie osiągnęło tej wielkości a 25% ją przekroczyło.
Sposób wyznaczania mediany dla szeregu prostego
1. uporządkować dane w sposób rosnący,
2. zauważyć (przeliczyć) czy liczba obserwacji jest parzysta czy nieparzysta
Jeżeli szereg jest nieparzysty wartość mediany stanowi wartość cechy wyrazu środkowego
168, 178, 171, 185, 180, 171, 179, 183, 180, 175, 186
168, 171, 171, 175, 178, 179, 180, 180, 183, 185, 186
Me = 179
Jeżeli szereg jest parzysty są dwa wyrazy środkowe a medianę stanowi średnia arytmetyczna wartości badanej cechy wyznaczona z obu wyrazów środkowych
159, 168, 171, 171, 175, 178, 179, 180, 180, 183, 185, 186
Me = (178+179) 2 = 178,5 179
Mediana dla szeregu rozdzielczego:
gdzie: xk = dolna granica przedziału, w którym znajduje się mediana (początek przedziału),
Co = rozpiętość przedziału, w którym znajduje się mediana (długość przedziału),
nk = liczebność przedziału, w którym znajduje się mediana (wielkość odpowiadająca przedziałowi),
k-1 = suma ni od początku do przedziału z medianą.
N/2 (a gdy liczba obserwacji jest nieparzysta (N+1)/2 - oznacza pozycję mediany w szeregu
Uwaga: Histogram to więc wykres słupkowy spełniający `prawo histogramu' który stanowi, że suma pół powierzchni prostokątów tworzących histogram musi być równa liczbie obserwacji n. Zapewnie tego prawa wymaga, żeby gęstość częstość g(n(j)) każdego przedziału obserwacji wynosiła n(j)\|∆x(j). W przypadku równych rozpiętości przedziałów klas ∆x(j), prawo histogramu jest oczywiste. Wystarczy zakładać że ta rozpiętości przedziału ∆x(j) wynosi jednostkę. Natomiast, w przypadku gdzie ta rozpiętość jest różna dla różnych klas, obliczenie gęstości częstości g(n(j)) staje się szczególnie przydatne.
Ad2.Miary dyspersji (rozproszenia - zróżnicowania zjawiska)
I. Najprostszą miarą dyspersji jest rozstęp oznaczający różnicę pomiędzy wartością minimalną a maksymalną badanej cechy
R = xmax - xmin
Przykład:
Jeżeli w przedsiębiorstwie najwyższa płaca wynosi 4.800 zł. A najniższa 800 zł. To rozstęp wynosi 4.800 - 800 = 4.000 zł.
II. Odchylenie przeciętne
- dla szeregu prostego ma postać:
- dla szeregu rozdzielczego ma postać:
III. Odchylenie standardowe:
- dla szeregu prostego ma postać:
- dla szeregu rozdzielczego ma postać:
IV. Odchylenie ćwiartkowe (stosujemy dla mediany)
Współczynnik zmienności jest miarą „dobroci” średniej (arytmetycznej)
jeżeli: Vx 35% to średnia jest „bardzo dobra” (bardzo dobrze opisuje badaną rzeczywistość),
35% Vx 68% to średnia jest „dobra”,
68% Vx 75% to średnia jest „do przyjęcia”,
Vx > 75% to średnia traci swój sens poznawczy.
Dominanta = 2 (w kolumnie xini największą liczbą jest 36 czyli liczba czasopism wynosi 2)
Mediana -
Przykład:
Badano oszczędności mieszkańców pewnego osiedla i otrzymane wyniki przedstawiono w tabeli:
Lp |
Oszczędności w tys zł |
Liczba osób ni |
X1 |
xini |
w(i) |
w*(i)=w(i)*100 |
skumw*(i) |
1 |
0-2 |
8 |
1 |
8 |
0,16 |
16 |
16 |
2 |
2-4 |
17 |
3 |
51 |
0,34 |
34 |
50 |
3 |
4-6 |
12 |
6 |
60 |
0,24 |
24 |
74 |
4 |
6-8 |
8 |
7 |
56 |
0,16 |
16 |
90 |
5 |
8-10 |
5 |
9 |
45 |
0,1 |
10 |
100 |
|
|
50 |
|
220 |
1 |
100 |
|
Szereg z przedziałami klasowymi:
Najliczniejsza grupa osób mająca oszczędności ok. 4,4 tys zł
Dominanta:
gdzie:
x0 - początek przedziału dominanty
n0 - liczebność przedziału dominanty
nm-1 - liczebność przedziału stojącego nad przedziałem dominanty
nm+1 - liczebność przedziału stojącego za przedziałem dominanty
h0 - rozpiętość przedziału dominanty.
Mediana:
=2+[25-8]/17*2=4
Gdzie
oznacza częstość skumulowaną w przedziale bezpośrednio poprzedzającym przedziału mediany.
Własności średniej arytmetycznej
♪ Średniej arytmetycznej nie wyznacza się dla szeregów z przedziałami klasowymi w których skrajnie przedziały są otwarte i mają stosunkowo dużą liczebność. Jeśli liczebność w skrajnych otwartych przedziałach jest stosunkowo mała, to możemy je skutecznie domknąć i wtedy obliczymy średnią arytmetyczną. Jeśli w szeregach z przedziałami klasowymi przedziały mają różne szerokości, to wzór na obliczanie średniej arytmetycznej podawany jest z pewną korektą
♪ Średnia arytmetyczna jest dobrą miarą przeciętną tylko dla zbiorowości jednorodnych nie daje się natomiast obrazu przeciętnego poziomu cechy, gdy badana zbiorowość nie jest jednorodna np. gdy liczymy średnią płacę łącząc pracowników z różnych grup uposażenia
♪ Średnia arytmetyczna jest większa od najmniejszej, zaś mniejsza od największej wartości w grupie
♪ Suma odchyleń wartości cech od średniej arytmetycznej jest =0.
- dla szeregu szczegółowego
- dla szeregu rozdzielczego
Omówienie miar pozycyjnych
Dominanta - nie istnieje w każdym szeregu, posiada ją najliczniejsza grupa
- dla szeregów bez przedziałów klasowych dominantą jest taka wartość cechy, która w danym szeregu występuje największą liczbę razy o ile nie jest to wartość skrajna (najmniejsza, największa)
- dla szeregów z przedziałami klasowymi dominanta istnieje jeśli wśród przedziałów klasowych występuje przedział o wyraźnie większej od innych przedziałów liczebności i szerokości zbliżonej do szerokości przedziałów z nim sąsiadujących i nie jest to przedział skrajny.
Wyznaczanie dominanty w sposób przybliżony:
GRAFICZNIE:
Średnia arytmetyczna, dominanta i mediana traktowane są jako miary przeciętnego poziomu zjawiska.
- Mediana:
Zalety mediany:
można ją wyznaczyć zawsze
nie jest miara wrażliwą na wartości skrajne
jest lepszą miarą przeciętną w sytuacji, gdy w zbiorze występują jednostki o nietypowych wartościach cechy
Kwartyle
Wyznaczanie:
Dla szeregów bez przedziałów klasowych
Aby wyznaczyć Q1 w szeregach bez przedziałów klasowych, bierzemy pod uwagę wszystkie wartości cechy stojące przez Me.
A jeśli Me jest elementem szeregu, to razem z tą Me i Q1 wyznaczamy tak jakby to była mediana dla tej części szeregu.
Aby wyznaczyć Q3 w szeregu bez przedziałów klasowych, bierzemy pod uwagę wszystkie wartości cechy stojące za Me.
A jeśli Me jest elementem szeregu, to razem z tą Me i Q3 wyznaczamy tak jakby to była mediana dla tej części szeregu.
Wyznaczanie mediany i kwartyli w szeregu z przedziałami klasowymi:
Wyznaczamy medianę, liczebność skumulowaną
Obliczamy numer mediany
i sprawdzamy, w którym przedziale się mieści
Ad3. Miary zmienności
Dzielą się na:
1. Klasyczne:
- Odchylenie przeciętne
- Odchylenie standardowe
- Współczynniki zmienności
2. Pozycyjne:
- Rozstęp szeregu
- Odchylenie kwartylowe (ćwiartkowe)
- Współczynniki zmienności
Miary zmienności charakteryzują stopień zróżnicowania jednostek zbiorowości pod względem badanej cechy. Miary te inaczej nazywamy miarami dyspersji lub zróżnicowania.
Współczynniki zmienności
Pozycyjne -
Warunki te podaje się po przemnożeniu przez 100 i podajemy w procentach. Wartości tych współczynników mieszczą się w przedziale od 0 do 100 %. Im wartość bliższa 100% jest wartość współczynnika zmienności tym bardziej zróżnicowana jest badana zbiorowość pod względem analizowanej cech. Współczynniki zmienności znajdują szczególnie ważne zastosowanie w dwóch sytuacjach:
- Gdy badamy kilka zbiorowości ze względu na tę samą cechę i chcemy porównać stopień zróżnicowania tych zbiorowości ze względu na tę cechę.
- Gdy badamy jedną zbiorowość ze względu, na którą z tych cech zbiorowość jest najbardziej zróżnicowana.
Przykład:
Przy poprzednim podziale Polski na 49 województw badano zróżnicowanie tych województw ze względu na powierzchnię i liczbę ludności.
Otrzymano dane:
1. Powierzchnia (w tyś. km²) -
2. Liczba ludności (w tyś. osób) -
Rozwiązanie:
Odpowiedź:
Stopień zróżnicowania województw ze względu na liczbę ludności był znacznie wyższy niż ze względu na powierzchnię.
Przykład:
Badano liczbę czasopism ilustrowanych zakupionych w ciągu tygodnia przez mieszkańców pewnego bloku dane zawarto w tabeli:
Lp. |
Liczba czasopism
|
Liczba mieszkańców
|
|
|
|
|
|
|
1 |
0 |
7 |
0 |
7 |
1,8 |
12,6 |
3,24 |
22,68 |
2 |
1 |
13 |
13 |
20 |
0,8 |
10,4 |
0,64 |
8,32 |
3 |
2 |
18 |
36 |
38 |
0,2 |
3,6 |
0,04 |
0,72 |
4 |
3 |
7 |
21 |
45 |
1,2 |
8,4 |
1,44 |
0,08 |
5 |
4 |
5 |
20 |
50 |
2,2 |
11 |
4,84 |
24,2 |
|
|
|
|
|
46 |
|
66 |
- liczebność skumulowana (dodajemy wszystkie cyfry z kolumny
)
Szereg punktowy:
Średnio mieszkańcy tego bloku kupowali 1,8 czasopisma.
Dominanta: D = 2
Mediana:
Liczba czasopism kupowanych przez mieszkańców bloku różniła się od średniej przeciętnie o 0,92 czasopisma.
=1,15
Liczba czasopism kupowanych przez mieszkańców bloku odchyla się od średniej o 1,15 czasopisma.
Stopień zróżnicowania mieszkańców bloku ze względu na liczbę kupowanych czasopism jest dość wysoki.
Przeciętna liczba kupowanych czasopism różniła się od mediany o 0,5.
Przykład:
Badano oszczędności mieszkańców pewnego osiedla i otrzymane wyniki przedstawiono w tabeli:
Lp. |
Oszczędności tys. zł. |
Liczba osób
|
|
|
|
|
|
|
|
1 |
0 - 2 |
8 |
1 |
8 |
8 |
3,4 |
27,2 |
11,56 |
92,48 |
2 |
2 - 4 |
17 |
3 |
51 |
25 |
1,4 |
23,8 |
1,96 |
33,32 |
3 |
4 - 6 |
12 |
6 |
60 |
37 |
0,6 |
7,2 |
0,36 |
4,32 |
4 |
6 - 8 |
8 |
7 |
56 |
45 |
2,6 |
20,8 |
6,76 |
54,08 |
5 |
8 - 10 |
5 |
9 |
45 |
50 |
4,6 |
23 |
21,16 |
105,8 |
|
50 |
|
220 |
|
|
102 |
|
290 |
Szereg z przedziałami klasowymi:
Najliczniejsza grupa osób mająca oszczędności ok. 4,4 tys. zł.
Dominanta:
Oszczędności mieszkańców osiedla różniły się przeciętnie średnio o 2,04 tyś. zł.
=2,408 tyś. zł.
Oszczędności mieszkańców osiedla odchylają się od średniej przeciętnie o 2408 zł.
Oszczędności mieszkańców osiedla różniły się od mediany o 1798 tyś. zł.
Stopień zróżnicowania mieszkańców osiedla ze względu na oszczędności jest dość wysoki.
Przykład:
Badano zarobki pracowników w trzech zakładach ABC i otrzymano dane:
|
A |
B |
C |
|
0,9 tyś zł |
0,9 tyś zł |
0,9 tyś zł |
|
0,9 tyś zł |
0,88 tyś zł |
0,92 tyś zł |
|
0,9 tyś zł |
0,75 tyś zł |
1,05 tyś zł |
|
|
|
|
- jest to szereg statystyczny, gdzie zachodzi równość tych miar jest to szereg symetryczny. Szereg symetryczny przedstawia grupę jednostek statystycznych mających takie same wartości cechy jak średnia.
- asymetria prawostronna dodatnia przy tej asymetrii najliczniejsza grupa jednostek mająca wartości cechy poniżej średniej.
- asymetria lewostronna ujemna najliczniejsza grupa jednostek statystycznych mająca wartości cechy większe niż średnia.
UWAGA: (
-D) ≈ 3*(
-Me) w przypadku jednomodalnego szeregu statystycznych w którym wagi na obserwacji xi maleją równomiernie po obie stronach od wartości modalnej.
Ad4. Wskaźniki skośności
Miary skośności (asymetrii)
b - rozkład symetryczny (osią symetrii byłaby rzędna)
a, c - rozkłady asymetryczne; a - ma asymetrię lewostronną, c - asymetrię prawostronną
Najprostszą miarą asymetrii jest różnica pomiędzy średnią arytmetyczną a dominantą.
Rb =x - D = 0
Ra =x - D < 0 rozkład o asymetrii ujemnej
Rc =x - D > 0 rozkład o asymetrii dodatniej
Wzajemne położenie średniej, dominanty i Mediany w rozkładzie
Przy asymetrii ujemnej średnia arytmetyczna jest zaniżona, przy asymetrii dodatniej średnia arytmetyczna jest zawyżona.
Mierniki asymetrii
Nasilenie asymetrii możemy mierzyć dwojako:
Jako tzw. współczynnik asymetrii
i zawiera się -1 Was 1
Za pomocą wyrażenia:
i zawiera się -2 3 2
Ad5. Miary spłaszczenia (koncentracji wokół średniej)
Mierzymy ją wzorem:
Kierunek asymetrii mierzy wskaźnik skośności:
A. Szereg symetryczny -
B. Asymetria prawostronna -
C. Asymetria lewostronna -
Kierunek i siłę asymetrii mierzy współczynnik skośności:
W przypadku skrajnej asymetrii współczynnik ten może znaleźć się za tymi granicami.
Część V. Badanie zbiorowości ze względu na dwie cechy
Przy badaniu zbiorowości ze względu na dwie cechy dane dotyczące tych cech porządkujemy w następujący sposób: gdy liczba obserwacji jest mała budujemy szereg szczegółowy.
Np.: przebadano 6 firm zajmujących się usługami porządkowymi, porównując ich miesięczne wydatki na reklamę.
X - wydatki na reklamę ( w tyś zł)
Y - dochody (w tyś zł)
Lp. |
Wydatki na reklamę |
Dochody |
1 |
1,5 |
10 |
2 |
2 |
20 |
3 |
2,5 |
20 |
4 |
2,5 |
15 |
5 |
4,5 |
25 |
6 |
5 |
30 |
Przykład:
W grupie 50 studentów badano oceny z matematyki X i statystyki Y
(2,2) - 10 osób, (2,3) - 5 osób, (3,2) - 12 osób, (3,3) - 8 osób
(4,3) - , (4,4) - 5 osób, (4,5) - 6 osób, (5,5) - 4 osoby
Budujemy tabelę korelacyjną
Oceny z matematyki |
Oceny ze statystyki |
|
|||
|
2 |
3 |
4 |
5 |
|
2 |
10 |
5 |
|
|
15 |
3 |
12 |
8 |
|
|
20 |
4 |
|
|
5 |
6 |
11 |
5 |
|
|
|
4 |
4 |
|
22 |
13 |
5 |
10 |
|
- rozkład brzegowy cechy X,
- rozkład brzegowy cechy Y
Ogólna postać tabeli korelacyjnej
X |
Y |
|
|||
|
|
|
... |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- liczba jednostek o wartościach (
) badanych cech.
Dzięki tablicy korelacyjnej możemy badać cechy mierzalne i niemierzalne.
Sposoby badania współzależności między cechami
Jeżeli rozpatrujemy w pewnej zbiorowości dwie cechy mierzalne, to związek między tymi cechami może być związkiem funkcyjnym, gdy poszczególnym wartości jednej cechy odpowiadają ściśle określone wartości drugiej cechy np. cena i wartość towaru.
Innego rodzaju związkiem jest zależność stochastyczna (probalistyczna), gdy prawdopodobieństwo przyjęcia przez cechę X pewnej wartości wpływa na prawdopodobieństwo przejęcia przez cechę Y określonej wartości.
Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna.
Zależność korelacyjna między cechami polega na tym, że wzrostowi wartości jednej cechy odpowiada wzrost lub spadek średnich wartości drugiej cechy.
Jeżeli wzrostowi wartości cechy X odpowiada wzrost średniej wartości cechy Y mówimy o korelacji dodatniej.
Jeżeli natomiast wzrostowi wartości cechy X odpowiada spadek średnich wartości cechy Y mówimy o korelacji ujemnej.
Jeżeli badane cechy opisane są szeregiem szczegółowym to:
- Na korelację dodatnią wskazuje fakt, że przy wzroście wartości pierwszej i drugiej cechy mają tendencję wzrostową.
- Jeżeli wzrostowi wartości pierwszej cechy towarzyszy tendencja spadkowa w wartościach drugiej cechy to wskazuje to na korelację ujemną.
Związek korelacyjny między cechami badamy tylko wówczas, gdy między tymi cechami istnieje logicznie uzasadniony związek przyczynowo - skutkowy.
Miary ścisłości związku między cechami
• Współczynnik zbieżności Czuprowa stosujemy go wyłącznie do tablicy korelacyjnej dla dowolnych cech (mierzalnych i niemierzalnych)
• Współczynnik korelacji Rang Spearmana stosujemy go wyłącznie do szeregu szczegółowego dla cech mierzalnych lub niemierzalnych.
• Stosunki korelacyjne stosuje się je wyłącznie do tablicy korelacyjnej dla cech niemierzalnych.
• Współczynnik korelacji liniowej Pearsona stosuje się go w szeregu szczegółowym i tablicy korelacyjnej dla cech niemierzalnych.
Przykład:
Sześć firm zajmuje się usługami porządkowymi porównując ich wydatki na reklamę i dochody.
Lp. |
Wydatki na reklamę
|
Dochody
|
Ranga
|
Ranga
|
|
|
1 |
1,5 |
10 |
1 |
1 |
0 |
0 |
2 |
2,0 |
20 |
2 |
3,5 |
-1,5 |
2,25 |
3 |
2,5 |
20 |
3,5 |
3,5 |
0 |
0 |
4 |
2,5 |
15 |
3,5 |
2 |
1,5 |
2,25 |
5 |
4,5 |
25 |
5 |
5 |
0 |
0 |
6 |
5,0 |
30 |
6 |
6 |
0 |
0 |
|
18,00 |
120 |
|
|
|
4,50 |
Współczynnik korelacji RANG SPEARMANA
- różnica rangi
i rangi
RANGA - numer miejsca, na którym stoi uporządkowana w szeregu rosnąco wartość cechy.
Ujemna wartość współczynnika rang wskazuje na ujemną korelację liniową między cechami.
- mówi nam o sile tej zależności. Im bliższy 1 tym silniejsza zależność między cechami w przykładzie między wydatkami na reklamę a dochodami firmy zachodzi znacząca korelacja liniowa.
Współczynnik korelacji rang jest symetryczny tzn. przy jego obliczaniu nie ma znaczenia, która z cech jest niezależna a która zależna. Ten wybór cechy niezależnej i zależnej dokonywany jest przy interpretacji w oparciu o logiczne przesłanki. Uznajmy, że X zależy od Y. Znacząca dodatnia korelacja liniowa oznacza, że wraz z wydatkami na reklamę rosną średnie dochody firmy.
- pokazuje, w jakim % zmiany jednej cechy wpływają na zmiany średniej wartości drugiej cechy.
Wzrost dochodów firmy zależy 76% od wydatków na reklamę.
Kowariancje
Kierunek związku korelacyjnego między cechami możemy określić wyznaczając kowariancję:
|
|
|
|
|
-1,5 |
-10 |
15 |
2,25 |
100 |
-1 |
0 |
0 |
1,1 |
0 |
-0,5 |
0 |
0 |
0,25 |
0 |
-0,5 |
-5 |
2,5 |
0,25 |
25 |
1,5 |
5 |
7,5 |
2,25 |
25 |
2 |
10 |
20 |
4 |
100 |
|
|
45 |
10 |
250 |
- kowariancja dodatnia wskazuje na dodatnią korelację liniową między wydatkami na reklamę a dochodami firmy. Kierunek i siłę korelacji liniowej między cechami określa współczynnik korelacji liniowej Persona.
Korelacja liniowa Pearsona
Interpretacja współczynnika korelacji Persona jest taka sama jak współczynnika korelacji rang.
.Wskazuje, w jakim % zmienność jednej cechy wpływa na zmienność drugiej cechy.
. Czyli dochody firmy w 81% zależą od wydatków na reklamę.
Dla współczynnika korelacji liniowej Persona ustalono przedziały dla jego wartości bezwzględnej określające siłę zależności:
Brak zależności liniowej, może być zależność krzywa
Zależność liniowa wyraźna, lecz niewielka
Zależność liniowa wyraźna
Zależność liniowa znacząca
Zależność liniowa silna
>>>>>>>>>
Równanie linii regresji
Po stwierdzeniu, że między cechami istnieje korelacja liniowa możemy znaleźć równanie linii regresji.
Równanie linii regresji - linie regresji określa się jako miejsce geometryczne średnich wartości zmiennej zależnej przy ustalonych wartościach zmiennej niezależnej.
Funkcja regresji zmiennej zależnej Y przy danych wartościach zmiennej niezależnej X:
Funkcja regresji zmiennej zależnej X przy danych wartościach zmiennej niezależnej Y:
Współczynnik regresji
informuje o ile jednostek zmieni się zmienna zależna, gdy zmienna niezależna wzrośnie o 1 jednostkę.
Znaczy to, że jeśli na reklamę przeznaczymy o 1 tyś zł. miesięcznie więcej to dochody firmy wzrosną średnio o 4,5 tyś zł.
Zależność
Oba współczynniki mają zawsze taki sam znak.
Ponadto:
Przy czym
ma taki sam znak jak wspólny znak współczynników regresji:
VI. Miary koncentracji
Koncentracją nazywamy nierównomierny rozdział ogólnej sumy wartości cechy pomiędzy poszczególne jednostki zbiorowości; np. koncentracja wielkości produkcji oznacza, że niewielka liczba firm produkcyjnych daje znaczną część ogólnej wielkości produkcji, a udział pozostałych firm, chociaż liczebnie duży, daje znacznie mniejszą część ogólnej wielkości produkcji (np. 20% firm wytwarza 80% produktów), podobnie można mówić też o dochodach.
Koncentrację wyznaczamy wówczas gdy rozkłady empiryczne charakteryzują się skrajną asymetrią i nie można w tym przypadku zastosować innych miar z analizy struktury.
Koncentrację można analizować na trzy sposoby:
1) sposób tabelaryczny - wykorzystując odpowiednio zbudowaną tablicę,
2) sposób graficzny - wykorzystując wykres
3) sposób analityczny - wykorzystując (obliczając) parametr K
Do analizy koncentracji konieczne jest wyznaczenie odsetków podmiotów koncentracji (Yi) i odsetków przedmiotów koncentracji (Ui).
xini - to łączna wartość badanej cechy przypadająca na i-ty przedział tej cechy
Po wyznaczeniu Yi i Ui musimy wyznaczyć Yski [%] i Uski [%] i to wszystko co jest potrzebne w tabeli:
xi |
ni |
xini |
Yi |
Ui |
Yski |
Uski |
|
|
|
100 |
100 |
20 30 50 70 100 |
1 5 20 40 100 |
Jak widać w tabeli - 70% podmiotów daje 40% produkcji, więc 30% pozostałych daje aż 60%
Jeżeli skumulowane odsetki z dwóch ostatnich kolumn są sobie równe, to mamy brak koncentracji, a jeśli są rozbieżności pomiędzy tymi wielkościami to na pewno będzie występować zjawisko koncentracji (i im większa różnica tym większa jest koncentracja).
Mając już tabelę można narysować wykres - tzw. krzywej koncentracji lub krzywej Lorenza:
Sprawdzamy jak daleko od linii równomiernego rozdziału (rozkładu) znajduje się krzywa koncentracji. Im jest dalej, tym koncentracja jest większa. Należy zaznaczyć, że i tabela i wykres mają charakter subiektywny (!).
Znając wykres możemy pokusić się o analizę parametru K. Parametr ten jest to stosunek pola między krzywą Lorenza i linią równomiernego rozkładu (na rysunku - W) do pola pod linią równomiernego rozkładu (na rysunku jest to W+Z). Jako że pole to wynosi 5000 (jest to połowa kreskowanego kwadratu o bokach 100x100), pole W można zapisać jako 5000-Z. Robimy ten manewr gdyż nie znamy wzoru funkcyjnego krzywej Lorenza, a pole Z możemy obliczyć korzystając z tzw. metody trapezów (ale to na ćwiczonkach).
K przyjmuje wartości <0;1>, im bliżej 1, tym koncentracja jest silniejsza, a im bliżej 0 tym jest słabsza; gdy K wynosi 0 to mamy brak koncentracji, gdy 1 to mamy tzw. koncentrację całkowitą; jednak w praktyce parametr K nie przyjmuje raczej wartości 0 i 1. Generalnie, jeżeli będzie skrajna asymetria to koncentracja zawsze wystąpi.
Metody analizowania zmian zjawiska w czasie
Szereg czasowy
Szeregiem czasowym nazywamy ciąg wyników obserwacji uporządkowanych w czasie (t,
)
t - kolejne jednostki czasu
- wielkość badanego zjawiska w czasie t.
Czas w szeregach czasowych może być pojmowany dwojako:
• Jako krótsze lub dłuższe okresy np.: lata, miesiące, dni; otrzymujemy wówczas szereg czasowy okresów.
• Jako ściśle ustalone momenty w pewnym przedziale czasowym np.: określony dzień roku, miesiąca, ustalona godzina dnia; otrzymujemy wówczas szereg czasowy momentu.
Przykład:
Badano liczbę słuchaczy pewnej szkoły językowej i otrzymano następujące dane:
t |
lata |
Liczba osób, które ukończyły kurs w danym roku
|
1 |
1996 |
465 |
2 |
1997 |
490 |
3 |
1998 |
480 |
4 |
1999 |
525 |
5 |
2000 |
560 |
Razem |
2520 |
Kolejność t może być od 0.
W roku 1996 ukończyło kurs 465 osób. Jest to przykład szeregu czasowego okresów w kolejnych latach. Przeciętny poziom zjawiska dla szeregu czasowego okresów mierzy średnia arytmetyczna.
Przeciętnie kurs w danym roku kończyło 504 słuchaczy.
Szereg czasowy momentu ( wybrany moment z danego okresu czasu)
t |
lata |
Liczba słuchaczy w dniu 31.XII.
|
1 |
1996 |
490 |
2 |
1997 |
505 |
3 |
1998 |
515 |
4 |
1999 |
550 |
5 |
2000 |
570 |
W szeregu czasowym momentu przeciętny poziom zjawiska określa średnia chronologiczna:
Jeżeli okresy są numerowane od 0 to będzie w mianowniku n.
W dniu 31.XII było przeciętnie 525 słuchaczy na przestrzeni lat 1996 - 2000.
Miary dynamiki zmian szeregu czasowego:
- Przyrosty
- Absolutne
Jedno podstawowe
łańcuchowe
- Względne
Jedno podstawowe
łańcuchowe
- Indeksy
- Indywidualne
Jedno podstawowe
łańcuchowe
- Zespołowe
Przykład:
t |
lata |
liczba
słuchaczy |
|
|
|
|
|
|
|
1 |
1996 |
465 |
0 |
(465 - 480) -15 |
0 |
0 |
0 |
(465: 465) 1 |
- |
2 |
1997 |
490 |
(490 - 465) 25 |
(490 - 480) 10 |
(490 - 465) 25 |
(25: 465) 0,0538 |
(25: 465) 0,0538 |
(490: 465) 1,0538 |
(490: 465) 1,0538 |
3 |
1998 |
480 |
(480 - 465) 15 |
0 |
(480 - 490) -10 |
(15: 465) 0,0323 |
(-10: 490) -0,0204 |
(480: 465) 1,0323 |
(480: 490) 0,9796 |
4 |
1999 |
525 |
(525 - 465) 60 |
(525 - 480) 45 |
(525 - 480) 45 |
(60: 465) 0,1290 |
(45: 480) 0,0940 |
(525: 465) 1,1290 |
(525: 480) 1,0940 |
5 |
2000 |
560 |
(560 - 465) 95 |
(560 - 480) 80 |
(560 - 525) 35 |
(95: 465) 0,2043 |
(35: 525) 0,0670 |
(560: 465) 1,2043 |
(560: 525) 1,0670 |
Przez przyrosty absolutne rozumiemy różnicę między poziomem zjawiska w okresie t a poziomem zjawiska w okresie k.
t - poziom badany
k - poziom bazowy, podstawowy
Przyrosty jedno podstawowe otrzymamy wówczas, jeżeli dla całego szeregu ustalimy jeden, wspólny, dowolnie wybrany okres podstawowy.
W roku 1999 w stosunku do roku 1996
tzn. liczba słuchaczy w roku 1999 w stosunku do roku 1996 była większa o 60 osób.
Przyrosty absolutne łańcuchowe są to przyrosty obliczane w stosunku do okresu poprzedniego:
Przyrosty względne obliczamy jako ułamki, są to wielkości niemianowane a do interpretacji podajemy je pomnożone przez 100 w %.
Mogą być jedno podstawowe, (jeżeli dla całego szeregu ustalimy jeden wspólny okres bazowy) lub też łańcuchowe, (jeżeli obliczane są w stosunku do okresu poprzedniego).
tzn., że liczba słuchaczy w roku 1999 była o 12,9% wyższa niż liczba słuchaczy w roku 1996.
Przez indeksy dynamiki rozumiemy mierniki określające stosunek wielkości badanego zjawiska w dwóch okresach.
Indeksy, które dotyczą zjawisk jednorodnych opisywanych jednym szeregiem czasowym nazywamy indywidualnymi indeksami dynamiki:
Podobnie jak przyrosty względne indeksy interpretujemy jako % a podajemy jako ułamki.
tzn., że w roku 1998 w stosunku z rokiem 1996 liczba słuchaczy wynosiła 103,23% słuchaczy.
Indeks < 1 - oznacza, że poziom zjawiska spada
Indeks >1 - oznacza, że poziom zjawiska rośnie
Jak badamy średnie tempo zmian zjawiska w czasie?
Średnie tempo zmian zjawiska w czasie określa się średnią geometryczną indeksów łańcuchowych.
Stopień √ = liczba badanych czynników.
Przy czym do interpretacji wyznacza się różnicę między obliczaną średnią w % - 100% i nazywa się ją średniookresowe tempo zmian:
tzn. w latach 1996 - 2000 liczba słuchaczy kursów jednocześnie wzrastała z roku na rok przeciętnie o 4,77%.
Indeksy cen, ilości, wartości
Indywidualne indeksy:
I. Indeks cen -
II. Indeks ilości -
III. Indeks wartości -
indeks wartości;
równość indeksowa dla indeksów indywidualnych
t = 0 okres bazowy, podstawowy
t = n okres badany
- cena, ilość, wartość w okresie bazowym
- cena, ilość, wartość w okresie badanym
Przykład:
Przedsiębiorstwo produkuje czajniki elektryczne trzech typów dane dotyczące cen, ilości i wartości poszczególnych typów czajników z lat 1996 i 1999 przedstawia poniższa tabela.
Ocenić przy pomocy indeksów dynamikę zmian cen, ilości, wartości produkcji dla każdego typu czajnika.
Ocenić dynamikę zmian wartości, cen, ilości dla wszystkich typów czajników łącznie.
Typ czajnika |
Produkcja (w tyś. szt.) |
Cena ( w zł.) |
Wartość (w tyś. zł.) |
Indeks indywidualny |
Obliczenia pomocnicze |
||||||
|
1996 |
1999 |
1996 |
1999 |
1996 |
1999 |
|
|
|||
j |
|
|
|
|
|
|
|
|
|
|
|
I |
1,2 |
1,5 |
100 |
90 |
120 |
135 |
1,25 |
0,9 |
1,125 |
108 |
150 |
II |
1,5 |
1,4 |
65 |
70 |
97,5 |
98 |
0,93 |
1,08 |
1,005 |
105 |
91 |
III |
0,8 |
1,2 |
50 |
58 |
40 |
69,6 |
1,5 |
1,16 |
1,74 |
46,4 |
60 |
|
|
|
|
259,4 |
301 |
||||||
|
257,5 |
302,6 |
|
|
|||||||
|
|
|
|
|
|
|
|
|
|
|
Zespołowe indeksy dla wszystkich absolutnych:
I. Indeks wartości:
łączna wartość produkcji czajników w roku 1999 była o 17,5% wyższa od łącznej produkcji tych czajników w roku 1996.
II. Indeks cen:
1. Indeks Laspeyresa:
gdyby wielkość produkcji była cały czas na poziomie roku 1996 to ceny wszystkich typów czajników łącznie w roku 1999 byłyby o 0,74% wyższe w porównaniu z cenami z roku 1999;
gdyby wielkość produkcji była na poziomie 1996 roku to łączna wartość produkcji w roku 1999 byłaby o 0,74% wyższa od łącznej wartości produkcji w roku 1996 tylko na skutek zmiany cen.
2. Indeks Paaschego:
gdyby wielkość produkcji była cały czas na poziomie roku 1999 to ceny wszystkich typów czajników łącznie w roku 1999 byłyby o 0,53% wyższe niż w roku 1996;
gdyby wielkość produkcji była na poziomie roku 1999 to łączna wartość produkcji w roku 1999 byłaby o 0,53% wyższa od łącznej wartości produkcji w roku 1996 tylko na skutek zmiany cen.
III. Indeks ilości
1. Indeks Laspeyresa
gdyby ceny wszystkich czajników cały czas były na poziomie roku 1996 to ilościowo produkcja w roku 1999 byłaby o 16,9% wyższa niż w roku 1996;
gdyby ceny wszystkich typów czajników cały czas były na poziomie roku 1996 to łączna wartość produkcji w roku 1999 byłaby o 16,9% wyższa od łącznej wartości produkcji z roku 1996 tylko na skutek zmian ilościowych w produkcji.
2. Indeks Paaschego:
gdyby ceny wszystkich typów czajników byłby cały czas na poziomie roku 1999 to ilościowo produkcja w roku 1999 byłaby o 16,65% wyższa od łącznej produkcji w roku 1996;
gdyby ceny wszystkich typów czajników byłyby cały czas na poziomie roku 1999 to łączna wartość produkcji w roku 1999 byłaby wyższa o 16,65% od łącznej wartości produkcji w roku 1996 tylko na skutek zmian ilościowych produkcji.