Statystyka- wykłady
Statystyka jest to nauka o liczbowym ujmowaniu zjawisk masowych.
Mamy dwie grupy procedur:
służy opisowi statystycznemu -
opis statystyczny to jakieś dane liczbowe o statystyczności /sondaże/ wyniki badań ujęte liczbowo. Może być stosowany niemal przy każdej sytuacji.
służy wnioskowaniu statystycznemu - występuje w sytuacji kiedy mimo, że nie
posiadamy informacji o wszystkich jednostkach, chcemy o nich formułować jakieś twierdzenia.
Statystyka prowadzi dwa rodzaje badań;
wyczerpujące /całościowe / - każda jednostka populacji zostaje poddana badaniu
częściowe / próbkowe / -bada się część populacji. Badacz sam decyduje, jaki zasięg mają mieć jego wnioski.
Jeżeli maja dotyczyć jednostek które zbadał, to wykorzystuje do opisu narzędzia opisu statystycznego.
Natomiast jeżeli na podstawie poddanych badaniu jednostek chce formułować twierdzenia dotyczące całej populacji, wówczas stosuje narzędzia wnioskowania statystycznego. Ich zastosowanie podlega pewnym rygorom, których jeśli nie można spełnić, to nie można także zrealizować celu takich badań.
Warunki:
badane jednostki muszą zostać dobrane drogą losową,
jednostki zbadane muszą stanowić zbiór dostatecznie liczny,
Dobór losowy może być prowadzony na różne sposoby. Ważne jest tylko to, co chcemy szacować oraz jak wielka powinna być próba / musimy ustalić minimalny szacunek próby /.
Im mniejsza częstość występowania jakiejś cechy, tym liczebność próby powinna być większa.
Odzwierciedlenie populacji w próbie - nie odzwierciedlenie cech społecznych populacji może prowadzić do większego błędu.
Do opisu statystycznego należy szereg narzędzi;
-średnia arytmetyczna-liczbowa
Średnie klasyczne -średnia geometryczna
-średnia harmoniczna
średnie pozycyjne -dominanta /modalna, moda/
-mediana
W/w średnie pozwalają nam wstępnie scharakteryzować zbiór danych przy pomocy jednej liczby / np. mówi się średnia płaca w kraju../
średnia arytmetyczna - ilustruje nam przeciętny poziom zjawiska, czynnika. Jej wadą - jest bardzo podatna na wpływ wartości skrajnych / np. 5 osób o wzroście 160 cm i 1 osoba o wzroście 200 cm -daje średnią 180 cm /
W sytuacji gdy rozkład wartości jest zbyt duży - nie stosuje się jej.
Ma charakter statyczny / w danym momencie/.
średnia geometryczna - służy do mierzenia przeciętnego tempa zmian, przypadającego na dany okres czasu.
Ma charakter porównawczy. /Rzadko stosowana jest w socjologii/
średnia harmoniczna - to matematyczna formuła przystosowująca sposób obliczania średniej arytmetycznej do danych o charakterze ułamkowym
Średnie pozycyjne obrazują stan przy pomocy jednej liczby. Mają tę zaletę, że wartości skrajne oddziaływają na ich stan w o wiele mniejszym stopniu niż na średnią arytmetyczną.
Dominanta - to wartość, która wśród danych występuje najczęściej lub wartość wokół której obserwacje grupują się najgęściej.
Mediana - to wartość środkowa wśród uporządkowanych rosnąco danych lub wartość dzieląca uporządkowany zbiór danych na dwie równe części.
MIARY dyspersji czyli rozproszenia
obszar zmienności czasu zwany rozstępem - to różnica między maksymalną i minimalną wartością zaobserwowaną wśród badanych / niekiedy wykorzystuje się go do czynności mechanicznych np. mechanicznego dzielenia /.
odchylenie przeciętne - to średnia arytmetyczna różnic między wartościami indywidualnymi a średnią arytmetyczną lub medianą - porównujemy jednostki badane, sumujemy różnice i dzielimy przez liczbę obserwacji. Różnice wyrażone są w wartościach bezwzględnych.
odchylenie standardowe -jest ono obliczane wyłącznie od średniej arytmetycznej. Jest podstawową charakterystyką w oparciu o którą statystyka zbudowała wiele narzędzi statystycznych /wariancje -odchylenie standardowe do kwadratu/.
odchylenia międzykwartylowe /ćwiartkowe/ - stosuje się wówczas, gdy nie można posłużyć się średnią arytmetyczną. Kwartyle dzielą uporządkowane rosnąco wyniki obserwacji na 4 równe części. Podstawowa charakterystyka składa się właśnie z średniej i odchylenia.
względne miary rozproszenia - współczynniki zmienności - opierają się na procentowym wyrażeniu ilorazu odchylenia i średniej od której zostało to odchylenie obliczone. Odwołuje się to do trzech w/w miar i dwóch średnich /arytmetyczna i mediana/
odchylenie przeciętne
średnia arytmetyczna x 100%
odchylenie przeciętne
mediana x 100%
odchylenie standardowe
średnia arytmetyczna x 100%
odchylenie międzykwartylowe
mediana x 100%
Wnioskowanie statystyczne - potrzeba kilku warunków by w sposób statystycznie uprawomocniony ..............
1/ jednorodna zbiorowość badana
2/ odzwierciedlenie populacji w próbie / reprezentatywność próby w stosunku do populacji /
3/ wyróżnienie czynników badań istotnych i określić ich możliwości pomiarowe,
4/ losowy dobór próby,
5/ wystarczająca wielkość próby,
ad. 2 Reprezentatywność statystyczna i typologiczna, w zależności która jest potrzebna -stosujemy różne sposoby dalszego postępowania:
przy statystycznej - jednostką opisu jest mini populacja,
przy typologicznej - jednostek opisu jest tyle, ile wyróżniliśmy typów.
Ad. 3 Funkcje konceptualizacji:
Lista informacji, które chcemy uzyskać trzeba zhierarchizować .
Poziom pomiaru wyznacza nam zakres możliwości zastosowania metody statystycznej
i statystycznego wnioskowania w szczególności, a także technik wnioskowania
/np. estymacja punktowa i przedziałowa /.
Ad. 4 Wszystkie jednostki z badanej zbiorowości muszą mieć szanse znalezienia się w
próbie- do czego niezbędny jest tzw. wyczerpujący operat losowy
Ad. 5 Minimalną liczebność próby wyznacza się w zależności od warunków badań. Wynika
ona z przesłanek merytorycznych do których min. należy podział czynników na
pierwszoplanowe w badaniach. Minimalną liczebność próby wyznaczają dwa
parametry:
pewność, którą chcemy wnioskować o populacji /prawdopodobieństwo popełnienia błędu we wnioskowaniu większego niż założony/,
założona dopuszczalna wielkość błędu przy przenoszeniu wyników z próby na populację / wielkość próby nie zależy od wielkości populacji/. Minimalną liczebność próby ustala się na podstawie wzorów w zależności od zakresu wiedzy o populacji z jednej strony i przedmiotu szacowania z drugiej strony /przedmiot szacowania to konkretne parametry statystyczne/. Szacunkowi podlegają wskaźniki struktury czyli % wielkość frakcji, jak i średnia arytmetyczna, odchylenie standardowe bądź wariancja, współczynniki mierzące siłę zależności
a także różnica między tymi miarami pochodzącymi z różnych prób.
W praktyce stosuje się przyjmowanie 1 błędu dla każdego parametru / np. 5%/
I parametr - wśród czynników istotnych zastanawiamy się , którego dopuszczalny
błąd jest najmniejszy i on stanowi istotny parametr do ustalania
liczebności grupy,
II parametr - pewność wnioskowania / 95% i 99% pewności/
Procedura postępowania - dla każdego z istotnych czynników wyliczamy
minimalną liczebność próby i do badań przyjmujemy maksymalną z
wyliczonych wartości . Natomiast istnieje możliwość skrócenia tej
procedury przez posłużenie się formułą uniwersalną, czyli taką
liczebnością próby, która jest wystarczająca w każdych warunkach dla
oszacowania każdego parametru / każdy parametr ma określone
ekstremalne warunki/
jest rozkładem symetrycznym,
daje się sprowadzić do krzywej, której powierzchnią jest jeden, w związku z tym udaje się ustalić wartość prawdopodobieństwa do obszarów pod krzywą
_
68% obserwacji X
Obszar krytyczny
obszar krytyczny
-3s -2s -1s 1s 2s 3s
_
jednomodalny - ma jedną dominantę x = 0
s = 0
, _
X = D = Me _
W badaniach spotykamy się z obserwacją /rzadko/, która będzie różniła się od X o więcej niż 3 odchylenia standardowe / reguła 3 odchyleń /
_ _
_ X - 1s < 68% < X + 1s
x średnia X - 1s V 68 % obserwacji
_
X + 1s
_ _ wszędzie gdzie jest znak <
X - 1,96s < 95 % < X + 1,96s powinno być mniejsze lub równe
_ _ ale nigdzie nie mogłam znaleźć
X - 2,56 < 99 % < X + 2,56s takiego znaku
1,96 ; 2,56 - te parametry budują nam minimalną liczebność próby
U 2 α /0,05/ 1,96 2 2,56 2
N min = ----------------- ---------------- = 106,7 ----------- = ok.1596
4 d 2 4 ( 0,03 ) 2 4 ( 0,03 ) 2
maksymalny błąd 3% błędu
jaki moąemy popełnić podział ryzyka dopuszczalnego / poziom istotności /
U 2 α odległość wyrażona w wielkości odchylenia standardowego od średniej
arytmetycznej
α - ryzyko / jak zwiększamy ryzyko, to parametr U jest
U - odległość od średniej bliżej średniej /
ŚREDNIE ARYTMETYCZNE A PRZEWIDYWANIE PRZYSZŁOŚCI
Szeregi czasowe /chronologiczne/ : x - czas /zmienna/ np. roczniki statystyczne
możliwość opisywania stanów przyszłych.
Narzędzia :
a/ średnia arytmetyczna krocząca / nie bierzemy pod uwagę całego okresu chronologicznego ale tylko część, szuka się okresu, który obejmowałby nie więcej niż 1 okres szczytowy
np. w sprzedaży gruntów / - wyliczamy dla nich średnią arytmetyczną. Jeżeli średnia krocząca z krótszego okresu jest wyższa niż średnia z dłuższego okresu - to mamy tendencję rosnącą
/wzrostową/.
b/ równanie trendu prostolinijnego - mówi się o stanie, który powinien wystąpić w przyszłości
Trend prostoliniowy to równanie pierwszego stopnia. Punktem wyjścia jest średnia arytmetyczna / każdy szacunek jest obciążony błędem /
ważymy dane, jeżeli cięższa jest 1 średnia arytmetyczna mamy trend malejący, jeżeli 2 - rosnący
odp. - pkt przecinania się średnich
Ustalamy żeby nie podstawiać całych dat
np. 1999r. i to do kwadratu to robimy (2,5)2
_
Oś czasu y y /stan zatrudnienia x x • y x 2
na 31 XII /
1. 1990 200 -6,5 - 1300 42,25
2. 1991 190 -5,5 - 1045 30,25
3. 1992 184- dla pierwszych 170 -4,5 - 765 20,25
4. 1993 184 5 okresów 180 -3,5 - 630 12,25
5. 1994 182 180 -2,5 - 450 6,25
6. 1995 186 200 -1,5 - 300 2,25
7. 1996 184 180 przyjmujemy -0,5 - 90 0,25
-------------------------------------------------------0------------------------------------------------połowa
8. 1997 182 190 0,5 95 0,25
9. 1998 186 170 +1,5 255 2,25
10. 1999 176 170 2,5 425 6,25
11. 2000 176 170 3,5 595 12,25
12. 2001 182 180 4,5 810 20,25
13. 2002 190 5,5 1045 30,25
14. 2003 200 6,5 1300 42,25
___________________________________________________________________________
2570 - 55 227,5
_
y k =5
_ ∑ y 2570
y = --------- = -------------- = 184 / średnie zatrudnienie /
14 - ilość okresów 14
średnia ogólna
______________________
182 średnia krótkookresowa
istnieje szansa, że średnia krótkookresowa przetnie średnią ogólną i nastąpi zmiana trendu. Jeżeli najniższą wartość ma śr. arytm. najkrótsza- to tendencja jest malejąca, jeżeli najniższą wartość ma średnia arytm. najdłuższa to trend jest rosnący.
Równanie trendu / w chronologicznym są dwie zmienne /
y = a + bx
∑ y
a = -------- = 184 / średnia arytmetyczna /
N
Podstawiamy z tabelki
∑ x y - 55
b = --------- = -------- = - 0,24
∑ x 2 227,5
a - średnia zatrudnienia
x - czas
szukamy połowy / 7 / y = 184 + ( - 0,24 ) x = 184 - 0,24x
możemy przewidzieć np. dla roku 2010 / x będzie 13,5 /
y 2010 = 184 - 0,24 • 13,5 ≈ 181 / tyle osób powinno pracować w 2010r. /
_ Inny przykład trendu prostolinijnego
Trend ten dotyczy dwóch zmiennych ale jedna jest stała - czas.
Służy on do przewidywania zmiennych w przyszłości / okres przewidywania nie powinien być dłuższy niż okres z którego mamy informacje tzn. jeżeli mamy podane dane z 12 m-cy -to tylko 12 m-cy w przód możemy wnioskować/.
Wzory które musimy użyć:
y = a + bx
Σ y
a = N
Σ xy
b = Σ x2
zatrudnienie
miesiące w jakiejś firmie _
y x3 x xy x2
__________________________________________________________________
01 30 -6 -180 36
02 40 40 -5 -200 25 kwartał
03 50 43 -4 -200 16
04 40 40 -3 -120 9
05 30 37 -2 -60 4
06 40 37 -1 -40 1
07 40 37 0 0 ---------------środek
08 30 40 1 30 1
09 50 47 2 100 4
10 60 47 3 180 9
11 40 43 4 160 16
12 30 37 5 150 25
01 30 6 180 36
________________________________________________________________
510 0 182
_
x3 średnia arytmetyczna dla 3 okresów /m-cy/
47
37
Σ y 510
a = N = 13 = 39,2
Σ xy 0
b = Σ x2 = 182 = 0
pokazuje nachylenie linii wykresu /trendu/
y = a + bx = 39,2 + 0 • x11 = 39,2 + 0 • 11 / nic się nie zmienia /
x11 - 6 miesięcy później
__________________________________________________________________________
Jak procentować tabele stosunek do aborcji / 1000 osób przebadanych/
W % - jak obliczamy
Kobiety mężczyźni
|
K |
M |
|
Jak odniesiemy
|
|
|
|
Σ |
N |
400 |
260 |
660 |
|
N |
60,0 40% |
40,0 26% 26626% 26% |
660
|
P |
200 |
140 |
340 |
|
|
60,0 20% |
40,0 14% |
340 |
|
600 |
400 |
1000 |
|
|
600
|
400 |
1000 |
osoby
N - negatywne przebadane
P - pozytywne
|
K |
M |
|
|
K |
M |
|
N |
67% |
65% |
|
N |
396 |
264 |
660 |
P |
33% |
35% |
|
P |
204 |
136 |
340 |
|
100,0 |
100,0 |
|
|
600 |
400 |
1000 |
600 x 660 400 x 340
1000 = 396 1000 = 136
Nie ma zależności między płcią a postawą.
Test niezależności - zamiast procentów / ponieważ
różnica jest niewielka np. 396 a 400 - zależności nie ma/
__________________________________________________________________________