Statystyka (1)

Statystyka- nauka traktująca o ilościowych metodach badania zjawisk masowych.

Przedmiot badań statystyki- wszelkie zjawiska masowe występujące w naukach ekonomicznych.

Statystyka opisowa- pozwala na dokonanie opisu statystycznego danej zbiorowości. Opisu dokonuje się za pomocą wybranych miar. (sprowadzenie wynikow badan do zbiorczego opisu za pomaca wybranych miar)

Wnioskowanie statystyczne- metody, które polegają na tym, że na podstawie wyników uzyskanych z próby formułuje się wnioski o całej zbiorowości statystycznej. Wnioskowanie statystyczne obejmuje estymację (szacowanie w prosty sposób) i weryfikację hipotez statystycznych.

Populacja (zbiorowość generalna/statystyczna)- wszystkie elementy będące przedmiotem badania, które mają przynajmniej jedną cechę wspólną i jedną różną.

Próba- podzbiór populacji generalnej, który obejmuje część jej elementów.

Własności badania statystycznego:

1. Dotyczy zbiorowości statystycznej.

2. Musi określać prawidłowości charakteryzujące całą zbiorowość (a nie tylko opisywać własności poszczególnych jednostek)

3. Prawidłowości te powinny dotyczyć własności występujących w tej zbiorowości.

Rodzaje badań statystycznych:

1. Pełne (całkowite/wyczerpujące)- obejmują wszystkie jednostki danej zbiorowości statystycznej

2. Niepełne (częściowe)- obejmują niektóre jednostki danej zbiorowości statystycznej; Najpopularniejszym badaniem niepełnym jest badanie reprezentacyjne, np. sondaż opinii publicznej)

Etapy badania statystycznego:

1. Przygotowanie badań:

a) ustalenie celu i metody badania; określenie populacji i jej cech, które są przedmiotem badania

b) ustalenie przedmiotu badania i sposobu wyboru jednostek do próby

c) przed badaniem należy udzielić badanym jednakowej informacji dotyczących badania i jego celu

2. Zbieranie materiału statystycznego:

Materiał statystyczny może być obciążony błędami:

- systematycznymi (tendencyjne odpowiedzi, próba nie była reprezentatywna, błędy fałszujące wyniki)

- niesystematycznymi (pomyłki, błędy przypadkowe, które przy dużej liczebności mają wpływ na wyniki badania)

a) zebrane dane powinny podlegać kontroli formalnej (k. ilościowa, np. liczba zebranych ankiet) i kontroli merytorycznej (k. jakościowa, kontrolowanie logiczności i wiarygodności uzyskanych wyników)

b) uzyskany materiał należy usystematyzować i dokładnie opisać

3. Opracowanie i prezentacja wyników:

a) budowa szeregów

b) sporządzanie tablic i wykresów

4. Opis i analiza wyników:

a) dokonanie opisu statystycznego

b) analiza wyników badań, poprzez odniesienie ich do populacji

Elementy zbiorowości statystycznej- jednostki statystyczne odznaczające się pewnymi właściwościami, cechami statystycznymi

Cechy statystyczne dzielą się na: *cechy stałe; *cechy zmienne

Cechy stałe- określają jednostkę, a tym samym całą zbiorowość pod względem rzeczowym, przestrzennym i czasowym. Cechy te są wspólne dla wszystkich jednostek badanej zbiorowości i nie podlegają badaniu. Decydują one o zaliczeniu poszczególnych jednostek do badanej zbiorowości.

Cechy zmienne- rozróżniają poszczególne jednostki i z tego względu podlegają badaniom statystycznym. Dzielimy je na:

1. Jakościowe- określamy je słowni, np. płeć, kolor włosów

2. Ilościowe- takie, które wyrażamy za pomocą liczb, np. wiek. Te z kolei dzielimy na:

a) cechy skokowe- wyraża się jedynie określonymi liczbami, zmieniającymi się skokowo, bez wartości pośrednich, zbiór wartości jest skończony lub przeliczalny, np. liczba osób w rodzinie.

b) cechy ciągłe- przyjmują wartości z określonego przedziału, zbiór wartości są nieprzeliczalne, np. wiek, wzrost

Opracowanie i prezentacja wyników badań statystycznych- po przeprowadzeniu badań statystycznych otrzymujemy dane liczbowe. W celu większej przejrzystości i dalszych badań trzeba dany materiał uporządkować i pogrupować.

Grupowanie- jest to wyodrębnianie jednorodnych bądź też względnie jednorodnych części w ramach większej i zróżnicowanej zbiorowości statystycznej. Dzielimy je na:

1. Proste- wg. jednej cechy

2. Złożone- wg. kilku cech wzajemnie powiązanych i uzupełniających się

Podstawową formą prezentacji danych jest szereg statystyczny, czyli zbiór wyników obserwacji jednostek.

Rodzaje szeregów statystycznych:

1. Nieuporządkowane- jednostkowe wartości lub odmiany cechy zostały spisane wg kolejności badania jednostek

2. Uporządkowane- najczęściej od wartości najmniejszej do wartości największej

3. Szczegółowe (indywidualny, wyliczający)- uporządkowany materiał statystyczny

4. Rozdzielczy (strukturalny)- uporządkowany i pogrupowany materiał statystyczny:

a) punktowy

b) przedziałowy

5. Przestrzenny (geograficzny))

6. Czasowy (dynamiczny):

a) momentów

b) okresów

Szeregi szczegółowe wykorzystujemy wówczas, gdy badanie dot. małej liczby obserwacji. Natomiast wraz ze wzrostem liczby jednostek zbiorowości wskazane jest prezentowanie materiału statystycznego w postaci szeregów rozdzielczych.

Tablice szeregów rozdzielczych składają się z dwóch kolumn:

- w 1 mamy warianty badanych cech

- w 2 liczby jednostek poszczególnych wariantów

Budowa szeregu szczegółowego:

1.Należy określić: liczbę przedziałów klasowych, rozpiętość przedziałów, sposób określania granic przedziałów

2. Klasyfikacja musi być przeprowadzona w sposób rozłączny( poszczególne przedziały nie mogą nachodzić na siebie) i wyczerpujący(klasy powinny obejmować wszystkie jednostki danej zbiorowości)

Liczba przedziałów klasowych- zarówno zbyt mała i duża liczba przedziałów klasowych utrudnia znajdowanie prawidłowości. Liczbę klas można określić za pomocą wzoru k=$\sqrt{n}$, gdzie n to liczba obserwacji.

Rozpiętość przedziału klasowego to różnica między górną i dolną granicą przedziału ( przedziały powinny mieć jednakową długość). Wyznaczamy ją za pomocą wzoru l= $\frac{R}{k}$, gdzie R= Xmax- Xmin (rozstęp), k= liczba klas.

Graficzna prezentacja wyników dla cechy skokowej (wykresy punktowe), dla cechy ciągłej (histogramy i diagramy).

Histogram- zbiór przylegających prostokątów, których podstawy równe przedziały rozpiętości przedziałów klasowych znajdują się na osi odciętych, a wysokości są liczebnościami przedziałów.

Podstawowe miary opisu zbiorowości statystycznej:

1.miary tendencji centralnej

2.miary zmienności (rozproszenia, dyspersji)

3.miary asymetrii

4.miary koncentracji

1. Miary Tendencji centralnej- służą do określania wartości cechy, wokół której skupiają się wszystkie pozostałe wartości.

A. Średnie klasyczne (arytmetyczna, geometryczna, harmoniczna) – liczone na podstawie wszystkich wartości szeregu

B. Średnie pozycyjne (mediana, dominanta-moda, modalna; kwantyle- kwartale, decyle, percentyle)

Średnia arytmetyczna- jest podstawową miarą średnią w statystyce, określa sumę wartości badanej cechy podzieloną przez liczbę tych jednostek.

$\overset{\overline{}}{x} = \ \frac{\dot{x}n_{1} + \ \dot{x}n_{2} + \ldots + \dot{x}n_{k}}{n}$ lub $\overset{\overline{}}{x} = \ \frac{\sum_{i = 1}^{k}{\dot{x}n_{i}}}{n}$

n-liczba obserwacji

$\dot{x}$i- środek przedziału klasowego($\frac{gorna\ granica + dolna\ granica}{2}$)

Dominanta- wartość zmiennej, która w danym rozkładzie empirycznym występuje najczęściej. W szeregach indywidualnych i rozdzielczych punktowych dominanta to ta wartość cechy, której odpowiada największa liczebność. W szeregu rozdzielczym przedziałowym dominantę można wyznaczyć graficznie (wykorzystując histogram) lub analitycznie (za pomoca wzoru):


$$D = x_{\text{OD}} + \frac{n_{D} - n_{D - 1}}{\left( n_{D} - n_{D - 1} \right) + (n_{D} - n_{D + 1)}}*\ h_{D}$$

X0D- dolna granica przedziału w którym znajduje się dominanta

nD- liczebność przedziału dominanty

nD-1- liczebność przedziału poprzedzającego dominantę

nD+1- liczebność przedziału następującego po przedziale dominanty

hD- rozpiętość przedziału dominanty

Warunki stosowania wzoru:

1.Rozkład badanej cechy jest jednomodalny (jest jeden ośrodek dominujący)

2.Rozpiętość przedziału dominanty i dwóch sąsiednich przedziałów klasowych jest jednakowa

3.Rozkład badanej cechy nie charakteryzuje się skrajną asymetrią

Kwantyle- wartość cechy badanej zbiorowości, które dzielą ją na dwie określone części pod względem liczby jednostek. Części te pozostają względem siebie w określonych proporcjach.

Rodzaje kwantyli:

*Kwartyle- dzielą zbiorowość na 4 części, co 25%

*Decyle- dzielą zbiorowość na 10 części, co 10%

*Percentyle- dzielą zbiorowość na 100 części, co 1%

Kwartyle:

Q1- 25% jednostek ma wartości niższe lub równe Q1, a 75% na wartości wyższe od Q1.

Q2(Mediana)- 50% jednostek ma wartości niższe lub równe Q­2, a 50% ma wartości wyższe od Q2.

Q3- 75% jednostek ma wartości niższe lub równe Q3, a 25% jednostek ma wartości wyższe od Q3.

Mediana- dzieli zbiorowość na 2 równe części(połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa większe od mediany). Może być obliczana wtedy, gdy nie jesteśmy w stanie obliczyć średniej arytmetycznej. Mediana nie jest wrażliwa na występowanie wartości nietypowych. Może być stosowana przy rozkładach asymetrycznych.

Wyznaczanie Mediany w szeregu indywidualnym- analizowany szereg najpierw należy uporządkować wartości od najmniejszej do największej i zastosować wzór:

Me=$x_{\frac{n + 1}{2}}$ , dla n nieparzystych

Me=0,5($x_{\frac{n}{2}} + \ x_{\frac{n}{2} + 1}$), dla parzystych

Wzór mediany w szeregu przedziałowym:

Me=$x_{\text{OMe}} + \frac{\frac{n}{2} - n_{\text{sk} - 1}\ }{n_{\text{Me}}}*h_{\text{Me}}$

xDMe- dolna granica przedziału w którym znajduje się mediana

nMe- liczebność przedziału mediany

nsk-1- zsumowana narastająco liczebność przedziałów poprzedzających przedział mediany

hMe- rozpiętość przedziału mediany

Wzór dla kwartyla pierwszego w szeregu przedziałowym:

Q1= $x_{OQ_{1}} + \frac{\frac{n}{4} + \ n_{\text{sk} - 1}}{n_{Q_{1}}}*\ h_{Q_{1}}$

Wzór dla kwartyla trzeciego w szeregu przedziałowym:

Q3=$x_{\text{OQ}_{3}} + \frac{\frac{3n}{4} - \ n_{\text{sk} - 1}}{n_{Q_{3}}}*\ h_{Q_{3}}$

2.Miary zmienności- określają zróżnicowanie jednostek zbiorowości statystycznej ze względu na wartość badanej cechy. Im mniejsze są różnice tym badana zbiorowość jest bardziej jednorodna.

I podział:

*Klasyczne (wariancja, odch. standardowe, odch. przeciętne, klasyczny współczynnik zmienności)

*Pozycyjne (rozstęp odch. Ćwiartkowe, pozycyjny współczynnik zmienności)

II podział:

*Absolutne (wariancja, odch. Standardowe+ przeciętne+ ćwiartkowe, rozstęp)

*Względne (klasyczny i pozycyjny współczynnik zmienności)

Miary absolutne (bezwzględne)- wyrażane są w takich samych jednostkach jak wartość badanej zmiennej

-nie pozwala na porównanie zmienności cech o różnych miarach

-nie można porównać pod względem tej samej cechy dwóch lub kilku zbiorowości będących na różnym poziomie średnim

Miary względne- służą one do porównywania zmienności cech mierzonych w różnych jednostkach lub na różnym poziomie. Są wyrażane w %.

Wzory na wariancję:

S2(x)=$\frac{\sum_{i = 1}^{n}{(x_{i}} - x)^{2}}{n}$ – szereg szczegółowy (indywidualny)

S2(x)=$\frac{\sum_{i = 1}^{k}{{(x}_{1} - x)^{2}*n_{i}}}{n}$- k- liczba klas, szereg rozdzielczy punktowy

S2(x)=$\frac{\sum_{i = 1}^{k}{(\dot{x_{i}} - x)^{2}*\ n_{i}}}{n}$ - szereg rozdzielczy przedziałowy


$$\dot{x_{i}} - \ srodek\ przedzialow\ klasowych$$

Im zbiorowość jest bardziej zróżnicowana tym wyższa jest wartość odchylenia standardowego.

Nie korzystamy z wariancji jako miary zmienności, ponieważ jej mianem jest kwadrat jednostki fizycznej, w jakiej mierzona jest badana cecha.

Podstawową miarą zmienności jest odchylenie standardowe:

S(x)=$\sqrt{S^{2}(x)}$ , gdzie S2(x)- wariancja

Określa o ile jednostki danej zbiorowości różnią się przeciętnie od średniej arytmetycznej badanej cechy. Im zbiorowość jest bardziej zróżnicowana tym wyższa jest wartość odchylenia standardowego.

Klasyczny współczynnik zmienności:

V(x)=$\frac{S(x)}{\overset{\overline{}}{x}}$*100

Wyrażony w %, inf. jaka część średniej arytmetycznej stanowi odchylenie standardowe badanej cechy

Inf. o stopniu zmienności:

*poniżej 10% - cecha wykazuje małe zróżnicowanie

*powyżej 60% - cecha wykazuje bardzo duże zróżnicowanie (zbiorowość jest niejednorodna z punktu widzenia badanych cech)

Typowy (Klasyczny) obszar zmienności:


$$\overset{\overline{}}{x} - \ S\left( x \right) < x_{\text{typ}} < \overset{\overline{}}{x} + \ S(x)$$

Przy zał. że badana cecha przyjmuje rozkład normalny, w tym obszarze mieści się ok. 2/3 (dokładnie 68,26%) wszystkich jednostek badanej zbiorowości statystycznej. Jest to związane z regułą trzech sigm

Pozycyjny współczynnik zmienności:

V=$\frac{\text{Qx}}{\text{Me}}$ *100

Wyrażony w %. Informuje jaka część mediany stanowi odchylenie ćwiartkowe badanej cechy.

Odchylenie ćwiartkowe:

Q =$\frac{Q_{3} - Q_{1}}{2}$

Określa o ile jednostki danej zbiorowości różnią się przeciętnie od mediany badanej cechy.

Pozycyjne obszar zmienności:

Me- Q < Xtyp < Me+ Q

Przy zał. że badana cecha przyjmuje rozkład normalny, w tym obszarze mieści się 1/2 wszystkich jednostek badanej zbiorowości statystycznej.

3 i 4.MIARY ASYMETRII I KONCENTRACJI

moment zwykły rzędu r:


$$m_{r} = \ \frac{\sum_{}^{}{x^{r}}_{i}}{n}$$

dla r= 1,2,…

mr=x – najprostszy moment zwykły to średnia arytmetyczna

Moment centralny rzędu r:


$$\mu_{r} = \frac{\sum_{}^{}{(x_{i}} - \overset{\overline{}}{x})^{r}*n_{i}}{n}$$

µ1=0 wynika z własności średniej arytmetycznej (suma odchyleń od średniej arytmetycznej jest równa zero)

µ2=S2(x) drugi moment centralny to wariancja

Dodatkowy wzór na wariancję:

S2(x)=m2- (m1)2

Miary asymetrii (skośności)- pozwalają zbadać czy jednostki statystyczne są rozłożone równomiernie wokół średniej. Określają czy występuje asymetria i opisują jej kierunek i siłę.

Rozkład symetryczny=> ma on oś symetrii, a po obu jej stronach liczba jednostek badanej cechy jest taka sama, wówczas $\overset{\overline{}}{x}$=Me=D

Asymetria lewostronna=> przeważająca liczba jednostek badanej cechy znajduje się poniżej wartości dominanty, wówczas $\overset{\overline{}}{x}$<Me<D

Asymetria prawostronna=> przeważająca liczba jednostek badanej cechy znajduje się powyżej wartości dominanty, wówczas $\overset{\overline{}}{x}$>Me>D

Wskaźnik asymetrii:

Ws= $\overset{\overline{}}{x}$-D lub Ws= (Q3-Q2)-(Q2-Q1)

Jeżeli:

Ws=0 to $\overset{\overline{}}{x}$=D mamy rozkład symetryczny

Ws>0 to $\overset{\overline{}}{x}$>D mamy rozkład prawostronnie asymetryczny

Ws<0 to $\overset{\overline{}}{x}$<D mamy rozkład lewostronnie asymetryczny

Wady wskaźników asymetrii :

- jest miarą bezwzględną, tzn. nie można go używać do porównywania asymetrii w zbiorowościach, w których wartość cechy jest wyrażona w różnych jednostkach miary

- określa jedynie kierunek asymetrii, nie informuje nas o jej sile

Współczynnik asymetrii A- jest miarą unormowaną, tzn. umożliwia określenie siły i kierunku asymetrii. Jego wartości zawierają się najczęściej w przedziale <-1;1>

W szczególności:

A=0 rozkład symetryczny A>0 asymetria prawostronna A<0 asymetria lewostronna

O sile asymetrii decyduje wartość bezwzgledna współczynnika asymetrii. Im współczynnik asymetrii A przyjmuje wartość bliższą 0, tym rozkład jest bardziej symetryczny.

Im bezwzględna wartość współczynnika A przyjmuje wartości bliskie 1, tym rozklad jest bardziej asymetryczny.

siła współczynnika asymetrii:

|A|≤0,3 słaba asymetria 0,3<|A|≤0,5 umiarkowana asymetria

0,5<|A|≤0,9 silna asymetria |A|> 0,9 bardzo silna asymetria

Mieszany współczynnik asymetrii:

A= $\frac{\overset{\overline{}}{x} - \ D}{S(x)}$

Przymuje najczęściej wartości w przedziale od -1 do 1

Pozycyjny współczynnik asymetrii:


$$A = \frac{\left( Q_{3} - Q_{2} \right) - \ (Q_{2} - Q_{1})}{\left( Q_{3} - Q_{2} \right) + \ (Q_{2} - \ Q_{1})} = \frac{Q_{3} + Q_{1} - 2Me}{2Q}$$

Q- odchylenie ćwiartkowe

-określa siłę i kierunek asymetrii jednostek zawartych między pierwszym i trzecim kwartylem

-przyjmuje wartości wyłącznie z przedziału [-1,1]

Klasyczny współczynnik asymetrii:


$$A = \frac{\mu_{3}}{S^{3}(x)}$$

Współczynniki klasyczny i mieszany mierzą asymetrię w całym obszarze zmienności, natomiast pozycyjny mierzy asymetrię w zawężonym obszarze zmienności (między Q3 a Q1)

4.Miary koncentracji- służą do badania stopnia nierównomierności rozkładu ogólnej sumy wartości zmiennej pomiędzy poszczególne jednostki zbiorowości lub analizy stopnia poszczególnych jednostek wokół średniej

Klasyczny współczynnik koncentracji:


$$K = \frac{\mu_{4}}{S^{4}(x)}$$

µ4- moment czwarty centralny [mi 4]

Klasyczny współczynnik koncentracji porównuje się ze współczynnikiem dla rozkładu normalnego, który zawsze jest równy 3.

Jeżeli:

k=3 badana cecha ma taką samą koncentrację jak w rozkładzie normalnym

Identyczna koncentracja jak w rozkładzie normalnym nie oznacza jednoczesnie ze mamy do czynienia z rokladem normalnym.

k>3 badana cecha ma większą koncentrację niż w rozkładzie normalnym. Rozkład badanej cechy jest bardziej wysmukły niż w rozkładzie normalnym

k<3 badana cecha ma mniejszą koncentrację niż w rozkładzie normalnym. Rozkład badanej cechy jest bardziej spłaszczony w stosunku do rozkładu normalnego.

Pozycyjny współczynnik koncentracji:


$$W = \frac{D_{9} - D_{1}}{D_{3} - Q_{1}}$$

D9, D1- decyl dziewiąty i pierwszy

Jeżeli:

W=2 –identyczne skupienie jak w rozkładzie normalnym

W>2 –wieksze skupienie wokół mediany niż w rozkładzie normalnym

W<2 –mniejsze skipienie wokół mediany niż w rozkładzie normalnym

Analiza współzależności zjawisk masowych

W badaniach empirycznych badane jednostki statystyczne charakteryzują się przez kilka cech. Cechy te nie występują oddzielnie ale mają na siebie wpływ i posiadają wzajemne uwarunkowania. Istnieje potrzeba badania zależności między tymi cechami.

Wyrózniamy dwa rodzaje zależności:

a)Zależność funkcyjna- polega na tym, że zmiana wartości jednej cechy powoduje ściśle określoną zmianę wartości drugiej cechy (y=2x+3)

b)Zależność stochastyczna- polega na tym, że wraz ze zmianą jednej zmiennej, zmienia się rozkład prawdopodobieństwa drugiej zmiennej. Szczególny przypadek => zależność korelacyjna

Korelacja- oznacza wzajemne powiązanie, współzależność jakichś zjawisk lub obiektów

Najważniejszym miernikiem siły związku między dwiema cechami mierzalnymi jest współczynnik korelacji liniowej Pearsona


$$r_{\text{xy}} = \frac{cov(x,y)}{S\left( x \right)*S(y)}$$

rxy=1 lub=-1 zmienne są skorelowane(występuje miedzy nimi zależność funkcyjna)

rxy=0 zmienne są nieskorelowane

rxy(-1;0)-ujemna liniowa zależność korelacyjna

rxy(0;1)- dodatnia liniowa zależność korelacyjna

W liczniku występuje kwariancja (cov(x,y)) będąca średnią arytmetyczną iloczynu odchyleń wartości zmiennych X i Y od ich średnich arytmetycznych: [mierzy kierunek zależności nie siłę]


$$\text{cov}\left( x,y \right) = \frac{\sum_{i = 1}^{n}{\left( x_{i} - \overset{\overline{}}{x} \right)*(y_{i} - \overset{\overline{}}{y})}}{n}$$

Współczynnik korelacji kolejnościowej Spearmana:


$$r_{s} = 1 - \frac{6\sum_{i = 1}^{n}d^{2}}{n(n^{2} - 1)}$$

interpretuje się go jak Pearsona

Znak współczynnika korelacji mówi o kierunku zależności:

„+” oznacza związek dodatni. Zmiany zachodzą w tym samym kierunku, tzn. wzrost (spadek) wartości jednej cechy powoduje wzrost (spadek) średniej wartości drugiej cechy.

„-‘’ oznacza związek ujemny. Zmiany zachodzą w przeciwnym kierunku, tzn. wzrost (spadek) wartości jednej cechy powoduje spadek (wzrost) średniej wartości drugiej.

Rozkład siły korelacji:

|rxy|≤0,3 – słaba kor. 0,3<|rxy|≤0,6- umiarkowana kor. 0,6<|rxy|<1 silna kor.

Istnieją sytuacje, kiedy nie istnieje zależność korelacyjna, ale ma miejsce zbieżność występowania zjawisk. Takie zjawisko nazywamy korelacją pozorną.

Miary dynamiki: przyrosty absolutne i względne, które dzieli się na jednopodstawowe i łańcuchowe.

Przyrosty absolutne- inf. o ile jednostek wzrósł lub zmalał poziom badanego zjawiska w okresie badanym w porównaniu z okresem przyjętym za podstawę.

Są wielkościami mianowanymi, tzn Są wyrażone w tych samych jednostkach miary co badane zjawiska, czyli nie nadają się one do porównań ze zmianami innych zjawisk, które są wyrażone w odmiennych jednostkach miary lub których rząd wielkości jest inny.

Przy obliczaniu przyrostów absolutnych bardzo ważny jest wybór podstawy. Wybrany okres powinien być charakterystyczny, tak aby pozwalał poznać istotę zachodzących zmian. Nie należy przyjmować za podstawę zupełnie nietypowego okresu, ponieważ wszystkie porównania są wówczas mocno zniekształcone.

Przyrosty względne- to iloraz przyrostów absolutnych zjawiska do jego poziomu w okresie przyjętym za podstawę do porównań.

Wyrażane są w % lub odsetkach. Inf. o ile zmieni się poziom badanego zjawiska w danym okresie w stosunku do okresu bezpośrednio poprzedzającego (przyrosty względne łańcuchowe) lub w porównaniu z okresem przyjętym za podstawę (przyrosty względne jednopodstawowe.

Indeksy- to każda liczba względna powstała przez podzielenie wielkości danego zjawiska o okresie badanym przez wielkości tego zjawisk a okresie podstawowym.

Indeksy indywidualne- stosowane w przypadku badania dynamiki zjawisk jednorodnych

Indeksy agregatowe- stosowane do badania dynamiki zespołu zjawisk.

Indeks jest wielkością mianowaną i może być wyrażony w odsetkach lub %

Indeks (0;1) (0%;100%) następuje spadek poziomu zjawiska w badanym okresie w stosunku do okresu podstawowego.

Indeks>1 (>100%) następuje wzrost poziomu zjawiska w okresie badanym w stosunku do okresu podstawowego

Indeks=1 tzn. że poziom zjawiska w okresie badanym i podstawowym jest taki sam.

Indeksów nie można dodawać, nie można liczyć śr arytmetycznej, ale śr geometryczna:

$i_{g}^{-} = \sqrt[n]{i_{1}*i_{2}*\ldots*i_{n}}$ gdzie in-indeks łańcuchowy

Indeksy zespołowe (agregatowe) dla wielkości absolutnych

Agregatowy indeks wartości- wyraża zmiany jakie nastąpiły w badanym okresie w porównaniu z okresem podstawowym zarówno w ilościach zespołu artykułów jak i ich cenach.

W celu obliczenia siły i kierunku zmian wyłącznie ilości lub wyłącznie cen buduje się odpowiednio agregatowe indeksy ilości i agregatowe indeksy cen.

Agregatowy indeks wartości- dot. określonego zespołu artykułów i jest ilorazem sum wszystkich wartości badanych dóbr w okresie badanym i w okresie podstawowym:

Iw-agregatowy indeks wartości badanego zespołu artykułów

q1p1-suma wartości badanego zespołu w okresie badanym

q0p0-…w okresie podstawowym

W przypadku pozostałych indeksów agregatowych, konstrukcja polega na ustaleniu stałego poziomu jednego z dwóch czynników: cen lub ilości.

Dla uzyskania agregatowego indeksu ilości- na stałym poziomie ustalane są ceny

Dla uzyskania agregatowego indeksu cen- na stałym poziomie ustalane są ilości.

Standaryzacja wg Laspeyresa- polega na ustaleniu ilości (obliczanie agregatowego indeksu cen) lub cen (obliczanie agregatowego indeksu ilości) na poziomie okresu badanego

$I_{q}^{L} = \ \frac{\sum_{}^{}{q_{1}p_{0}}}{\sum_{}^{}{q_{0}p_{0}}}$ Unieruchomienie cen na poziomie okresu podstawowego

Standaryzacja wg Paaschego- polega na unieruchomieniu ilości w indeksie cen lub cen w indeksie ilości na poziomie okresu badawczego:


$$I_{q}^{P} = \frac{\sum_{}^{}{q_{1}p_{1}}}{\sum_{}^{}{q_{0}p}_{1}}$$

Agregatowe indeksy ilości- inf. o ile przeciętnie wzrosła lub zmalała ilość określonego zbioru artykułów w okresie badanym w porównaniu do okresu podstawowego.

Przy obliczaniu agregatowych indeksów cen role wag spełniają ilości:

Agregatowy indeks cen:

Według formuły Laspeyresa:


$$I_{p}^{L} = \frac{\sum_{}^{}p_{1}q_{0}}{\sum_{}^{}p_{0}q_{0}}$$

Według formuły Paaschego:


$$I_{p}^{P} = \ \frac{\sum_{}^{}p_{1}q_{1}}{\sum_{}^{}{p_{0}q_{1}}}$$

Agregatowe indeksy cen- inf. jak zmieniły się przeciętne ceny danego zbioru artykułów w okresie badanym w porównaniu z okresem podstawowym, przy unieruchomieniu ilości w obu okresach zgodnie z przyjęta formułą standaryzacyjną.

Statystyka matematyczna

Zmienne losowe i ich rozkłady

Zmienna losowa- zmienna, która przybiera różne wartości liczbowe z określonymi prawdopodobieństwami. Oznaczane są zazwyczaj dużymi literami X,Y,Z. Wartości przyjmowane przez zmienne są oznaczane odpowiednimi małymi literami x,y,z. Zmienna losowa jest odpowiednikiem pojęcia cechy statystycznej w statystyce opisowej.

Zmienna losowa skokowa- zbiór wartości, które może przyjmować zmienna jest skończony lub przeliczalny

Zmienna losowa ciągła- zbiór wartości, które może przyjmować zmienna jest nieprzeliczalny. Zmienna przyjmuje dowolne wartości z określonego przedziału w szczególności cały zbiór liczb rzeczywistych.

Charakterystyki zmiennej losowej:

Dystrybuanta zmiennej losowej X jest to funkcja: F(x)=P(X<x), dla wybranej wartości zmiennej losowej x, dystrybuanta jest równa prawdopodobieństwu tego, że zmienna losowa X będzie przyjmowała wartości mniejsze niż wartość x.

Własności dystrybuanty: *0≤F(x)≤1 *F(x) = 0 *F(x) = 1

Rozkład prawdopodobieństwa zmiennej losowej:

Zmienne losowe są opisywane za pomocą funkcji:

1.Funkcja prawdopodobieństwa (zmienne losowe skokowe)

2.Funckja gęstości (zmienne losowe ciągłe)

Parametry rozkładu zmiennych losowych:

Zwykle nie mamy pełnego rozkładu prawdopodobieństwa lub jego znajomość nie jest dla nas interesująca, dlatego wystarcza nam wiedza o kilku jego charakterystycznych parametrach (wartości oczekiwanej, wariancji, odchylenia standardowego, momentów i kwantyli)

Zmienna losowa skokowa

Funkcja prawdopodobieństwa jest to funkcja przyporządkowująca wartościom xi prawdopodobieństwa pi

P(X=xi)=pi Czytamy: prawdopodobieństwo ze zmienna losowa X przyjmuje wartości xi jest równe pi.

Dystrybuanta: $F\left( x \right) = \sum_{- \infty < xi < x}^{}p_{i}$

Wartość oczekiwana: $E\left( x \right) = \sum_{i = 1}^{n}{x_{i}p_{i}}$

Wariancja: $D^{2}\left( x \right) = \sum_{i = 1}^{n}{\lbrack x_{i} - E\left( x \right)\rbrack{}^{2}}p_{i}$

Odchylenie standardowe: $D\left( x \right) = \sqrt{D^{2}}(x)$

Najczęściej stosowane w systematyce rozkłady zmiennej losowej skokowej to:

1.Rozkład zero-jedynkowy: jest rezultatem doświadczenia w wyniku którego określone zdarzenie A wystąpi lub nie wystapi. Zdarzeniem elementarnym realizującym zdarzenie A przyporządkowana jest liczba 1, a zdarzeniom elementarnym nie realizjacym zdarzenie A liczba 0.

Rozkład dwumianowy:

Jeżeli chcemy określić prawdopodobieństwo wystąpienia k razy określonego zdarzenia w n niezależnych doświadczeniach przy danym prawdopodobieństwie p wystąpienia tegoż zdarzenia w pojedynczym doświadczeniu korzystamy z rozkładu dwumianowego


$$P\left( X = k \right) = \left( \ \begin{matrix} n \\ k \\ \end{matrix} \right)p^{k}q^{n - k}$$


$$\begin{pmatrix} n \\ k \\ \end{pmatrix} = \frac{n!}{k!\left( n - k \right)!}$$

gdzie:

n- liczba powtórzonych zdarzeń

p- prawdopodobieństwo wystąpienia zdarzenia w pojedynczym doświadczeniu

q=1-p prawdopodobieństwo porażki, czyli niewystąpienia zdarzenia w pojedynczym doświadczeniu

k- liczba sukcesów, czyli doświadczeń, w których ma wystąpić dane zdarzenie

Dla rozkładu dwumianowego zachodzi:

-wartość oczekiwana E(X)=np.

-wariancja D2(X)=np.

Rozkład Poissona (rozkład rzadkich zdarzeń)- zmienna losowa X ma rozkład Poissona, jeżeli jej rozkład prawdopodobieństwa jest określany wzorem:


$$P\left( X = k \right) = \frac{\alpha^{k}}{k!}e^{- \alpha}$$

E=2,7182 jest podstawa logarytmów naturalnych

Lambda=np.

Rozkład Poissona zachodzi gdy prawdopodobieństwo p sukcesu jest małe, a liczba realizacji n jest na tyle duża, że np=L. Stosujemy gdy n>100, p<0,2. Rozkład ten znajduje szerokie zastosowanie m. In. W statystycznej kontroli jakości towarów w toku produkcji i momencie ich odbioru.

E(x)=D2(x)=L

Rozkład Poissona jest rozkładem skośnym prawostronnie i wraz ze wzrostem Lambdy zbliza się do rozkładu symetrycznego. Jest rozkładem jednoparametrycznym, gdyż zależy tylko od parametru Lambda.

Zmienna losowa ciągła:

Zmienna losowa ciągła- zmienna losowa X przyjmująca wszystkie wartości z pewnego przedziału, dla której istnieje nieujemna funkcja f, taka, że dystrybuantę F zmiennej losowej X można przedstawić w postaci: F(x)= −∞Xf(t)dt dla x e R nazywamy zmienną losową ciągłą, a f jest gęstością.

Warunki funkcji gęstości prawdopodobieństwa f(x):

1.f(x)≥0 jest określona nieujemnie

2.−∞+∞f(x)dx = 1 pole powierzchni pomiędzy funkcją gęstości o osią OX=1

Dla zmiennej losowej ciągłej niemożliwe jest przypisanie konkretnym wartościom określonych prawdopodobieństw ponieważ: P(X=x)=0 (wynika to z def zmiennej losowej ciągłej)

Prawdopodobieństwo, że zmienna losowa X przyjmuje wartości w przedziale <a;b>:

P(a<x<b)=abf(x)dx

Jednym z najważniejszych rozkładów ciągłych jest rozkład normalny.

Zmienna losowa X ma rozkład normalny, jeśli jej funkcja gęstości prawdopodobieństwa wyraża się wzorem:


$$f\left( x \right) = \frac{1}{\sigma\sqrt{2\pi}}\exp^{\frac{- (x - m)^{2}}{2\sigma^{2}}}$$

gdzie: E(x)=m, σ=D(x), exp{a}=ea, e= 2,7182

Jeżeli zmienna losowa ma rozkład normalny to zapisujemy to w skrócie w następujący sposób: X~N(m,σ)

Rozkład normalny charakteryzuje zatem dwa parametry i wartość oczekiwana i odchylenie standardowe. Rozkład normalny jest rozkładem symetrycznym ponieważ: średnia=mediana=dominanta

Rozkład t-Studenta o n-1 stopniach swobody określa się wzorem:


$$t = \frac{\overset{\overline{}}{X} - m}{S}\sqrt{n - 1}$$

Liczba stopni swobody jest jedynym parametrem rozkładu t-Studenta; jest ona równa liczbie niezależnych obserwacji określających statystyke.

Wartość oczekiwana=0; Odchylenie standardowe=$\sqrt{(n - 1)/(n - 3)}$

Krzywa gęstości rozkładu ma kształt dzwonu, przypominający krzywa rozkładu normalnego N(0,1), jednak jest nieco bardziej spłaszczona. Im mniejsza jest liczba stopni swobody tym wieksza roznica miedzy rozkładami normalnym i studenta. Przy wzroście liczby stopni swobody rozkład t Studenta jest zbieżny do standardowego rozkładu normalnego N(0,1)

Rozkład chi-kwadrat

Danych jest s ciągłych zmiennych losowych o rozkładzie normalnym z wartościa oczekiwana 0 i odchyleniem standardowym 1, tj kazda zmienna Xi~N(0,1)

Zdefiniujmy zatem nowa zmienna o nazwie chi-kwadrat:

Χ=X12+X22+…+Xs2

Rozkład tak zdefiniowanej zmiennej nazywamy rozkładem zmiennej losowej chi-kwadrat o s stopniach swobody.

Rozkład zmiennej losowej χ2 o s stopniach swobody ma nastepujące parametry:

E(χ2)=S

D(χ2)=$\sqrt{}2S$

Rozkład zmiennej losowej χ2o s stopniach swobody jest rozkładem pomocniczym używanym we wnioskowaniu statystycznym.

Rozkład F snedecora o s1 i s2 stopniach swobody rozklad zmiennej losowej ciągłej o funkcji gęstości prawdopodobieństwa określonej wzorem

Jest to rozklad uzywany najczęściej w analizie wariancji. Jeżeli X1 ma rozklad χ2 o s1 stopniach swobody, a zmienna X2 ma rozkład χ2 o s2 stopniach swobody i jeżeli zmienne X1 i X2 sa niezależne, to zmienna: $F = \frac{\frac{X1}{s1}}{\frac{X2}{s2}}$ ma rozkład F Snedecora o s1 i s2 stopniach swobody.

Statystyka matematyczna- zajmuje się metodami wnioskowania statystycznego, które polegają na tym, że na podstawie wyników uzyskanych z próby formułujemy wnioski o całej zbiorowości. Wnioskowanie statystyczne obejmuje estymację i weryfikację hipotez statystycznych.

Estymacja- to szacowanie wartości parametrów lub postaci funkcji rozkładu prawdopodobieństwa w populacji generalnej na podstawie wyników próby.

Podstawowe Oznaczenia:

Parametr(θ)- charakterystyka określająca całą populację

Estymator(Tn)- pewna funkcja określona na próbie, która służy do oszacowania nieznanej wartości parametru.

Własności estymatora:

1.Nieobciążoność: E(Tn)= θ wartość oczekiwana estymatora jest równa wartości szacowanego parametru; odchylenie wartości estymatora od wartości parametru nie sa systematycznie zawyżone ani zaniżone.

2.Zgodność : estymator jest zgodny jeżeli spełnia następujący warunek: p lim Tn= θ; wraz ze wzrostem liczby obserwacji wzrasta dokładność oszacowania

3.Efektywnośia estymatora nieobciążonego Tn parametru θ nazywamy iloraz


$$e\left( Tn^{'} \right) = \frac{D2(Tn)}{D2(Tn^{'})}$$

Tn-estymator najefektywniejszy

Tn’- estymator badany

Estymacja punktowa- polega na tym, że za ocenę parametru przyjmuje się konkretną liczbę otrzymaną za pomocą estymatora na podstawie próby losowej.

Estymacja przedziałowa- polega na tym, że konstruuje się pewien przedział ufności, w którym możemy powiedzieć, że z określonym prawdopodobieństwem 1-L będzie zawierał wartości szacowanego parametru.Prawdopodobieństwo 1- L okresla się jako współczynnik ufnosci

P{g1(Tn)< θ<g2(Tn)}=1- L

1-L współczynnik ufności, czyli prawdopodobieństwo tego, że wyznaczając na podstawie n- elementowych prób dolną g1 (Tn) i górną g2 (Tn) granicę przedziału, nieznana wartość parametru znajduje się w tym przedziale.

Własności przedziału ufności:

1.W nieskończenie wielu doświadczeniach otrzymany procent przedziałów, które zawierają nieznaną parametru jest równy (1-L)*100

2.Im większa liczba obserwacji, tym krótszy jest przedział ufności, a tym samym większa precyzja.

3.Im większa wartość współczynnika ufności, tym większe prawdopodobieństwo, że estymowany przedział będzie zawierał nieznany parametr. Z drugiej jednak strony większa wartość współczynnika ufności zwiększa długość przedziału, a tym samym zmniejsza precyzję.

Przedział ufności dla średniej w populacji o rozkładzie normalnym ze znanym odch. standardowym

Przedział ufności dla średniej w populacji o rozkładzie normalnym z nieznanym odch. standardowym

Jeżeli próba zawiera mniej niż 30 obserwacji konstruujemy przedział ufności w oparciu o statystykę t o rozkładzie t- studenta dla n-1 stopnia swobody:

Gdy n≥30, możemy skonstruować przedział ufności w oparciu o rozkład normalny:

Przedział ufności dla wskaźnika struktury tylko dla duzej proby

P

Przedział ufności dla wariancji mała próba n<30

Przedział ufności dla odchylenia standardowego n>=30

Weryfikacja hipotez statystycznych- jest drugim sposobem uogólniania wyników badania losowej próby na populację generalną z której próba pochodzi. Polega ona na sprawdzaniu określonych przypuszczeń dot. parametrów lub postaci rozkładu cech statystycznych populacji generalnej na podstawie wyników próby.

Hipoteza statystyczna- to dowolne przypuszczenie dot. nieznanego rozkładu statystycznego jednej zmiennej lub łącznego rozkładu wielu zmiennych w populacji.

Hipoteza parametryczna- dot. nieznanych wartości parametrów rozkładu statystycznego, takich jak: wartość przeciętna, wariancja czy wskaźnik struktury

Hipoteza nieparametryczna- przypuszczenie na temat klasy rozkładów do których należy rozkład statystyczny w populacji postaci rozkładu cechy statystycznej, współzależności cech lub losowości próby.

Hipoteza prosta- hipoteza statystyczna, która jednoznacznie określa rozkład badanej cechy w populacji.

Hipoteza złożona- hipoteza konkurencyjna, która łącznie z hipotezą zerową powinna wyczerpywać zbiór dopuszczalnych hipotez.

Hipoteza zerowa- podstawowa hipoteza statystyczna sprawdzana danym testem. Oznacza się ją: Ho

Hipoteza alternatywna- hipoteza statystyczna konkurencyjna w stosunku do hipotezy zerowej. Jest to na ogół hipoteza złożona. Oznacza się ją H1 lub Ha

Błąd I-go rodzaju to błąd wnioskowania polegający na odrzuceniu hipotezy zerowej, gdy w rzeczywistości jest ona prawdziwa.

Błąd II-go rodzaju to błąd wnioskowania polegający na nieodrzuceniu hipotezy zerowej, gdy w rzeczywistości jest ona fałszywa.

Przy podjęciu decyzji konieczne jest skoncentrowanie się na błędzie jednego rodzaju (na tym ważniejszym, czyli błędem I-go rodzaju). Następnie ustala się takie prawdopodobieństwo popełnienia błędu I-go rodzaju, które można jeszcze zaakceptować. P(błędu)= 0,05 lub 0,01 i jest to poziom istotności oznaczany L. Jako hipotezę alternatywną wybiera się taką, aby P(popełnienia błędu II-go rodzaju) było jak najmniejsze. Oznaczane jest jako B.

Moc testu to prawdopodobieństwo odrzucenia testowanej hipotezy, gdy jest ona nieprawdziwa 1-B

Sposób weryfikacji hipotez-tworzymy przedział krytyczny (W), który znajduje się w ogonach rozkładu. Krańce tego przedziału ustala się na podstawie z góry założonego prawdopodobieństwa błędu I-go rodzaju.

Położenie obszaru krytycznego- warunkowane jest konstrukcją hipotezy alternatywnej.

Jeżeli obliczona przez nas wartość statystyki testowej T znajdzie się w tym obszarze, to weryfikowaną przez nas hipotezę Ho odrzucamy. W przeciwnym przypadku mówimy, że nie mamy podstaw do odrzucenia Ho. Hipoteza zerowa może, ale nie musi być prawdziwa.

Możliwe obszary krytyczne w zależności od hipotezy alternatywnej:

H1: m>m0 obszar krytyczny prawostronny

H1:m<m0 obszar krytyczny lewostronny

H1: m=/m0 obszar obustronny

Zapis formalny obszarów krytycznych:

Obszar krytyczny lewostronny: W=(-∞,-Tα] r normalny i studenta; W=[0, Tα’]-chi, F

O. K. P.: W =[Tα ,∞]

Obszar obustronny: W=(-∞,-Tα]u[Tα ,∞] –normalny, studenta;

W=[0, Tα’]u [Tα ,∞]-chi,F

Jeżeli T e W odrzucamy hipotezę zerową

Jeżeli T e/ W nie możemy odrzucić hipotezy zerowej

Sposób weryfikacji hipotez:

O istotności hipotez zerowej informuje nas tzw. wartość p. Jest to empiryczne prawdopodobieństwo popełnienia błędu I-go rodzaju.

Jeśli p ≤ L to należy odrzucić hipotezę zerową

Jeśli p< L to nie należy odrzucić hipotezy zerowej.


Wyszukiwarka

Podobne podstrony:
Statystyka SUM w4
statystyka 3
Weryfikacja hipotez statystycznych
Zaj III Karta statystyczna NOT st
Metodologia SPSS Zastosowanie komputerów Brzezicka Rotkiewicz Podstawy statystyki
metody statystyczne w chemii 8
Metodologia SPSS Zastosowanie komputerów Golański Statystyki
Statystyka #9 Regresja i korelacja
06 Testowanie hipotez statystycznychid 6412 ppt
BHP STATYSTYKA
Statystyka #13 Podsumowanie
metody statystyczne w chemii 5
STATYSTYKA OPISOWA '
statystyka referat MPrzybyl
statystyka IF cz 5

więcej podobnych podstron