Statystyka semestr zimowy 15 i 16

statystyka

Dr michał trzęsiok

SEMESTR ZIMOWY 2015/2016
INFORMACJE O PRZEDMIOCIE
Literatura
Zaliczenie
Ilość ECTS


Wykład 1, 05.10.2015
Temat: Charakterystyki liczbowe rozkładów empirycznych.

Statystyka:

  1. Zbiór danych liczbowych reprezentujących określone masowe zjawiska bądź procesy

  2. Czynności związane z gromadzeniem i opracowywaniem danych z punktu pierwszego

  3. Charakterystyki liczbowe dotyczących danych z punktu pierwszego (np. średnia arytmetyczna, odchylenie standardowe itp.)

  4. Dyscyplina naukowa traktująca o ilościowych metodach badania zjawisk (procesów) masowych czyli naukę, która dotyczy punktów 1-3.

Za pomocą metod statystycznych można wykryć różnego rodzaju prawidłowości.

Populacja i próba

Populacja – Przedmiotem badań statystycznych jest zbiór jednostek statystycznych podobnych pod względem określonych własności (np. mieszkańcy Śląska, firmy z branży informatycznej itp.) Ów zbiór nazywany populacją (zbiorowością statystyczną).

Próba – ponieważ bezpośrednia badania populacji są zbyt kosztowne i czasochłonne, a często wręcz niemożliwe, w statystyce w tym celu wykorzystuje się próbę, która stanowi podzbiór populacji. Aby rezultaty badania próby mogły być uogólnione na całą populację, próba powinna być reprezentatywna, tj. wybrana w sposób losowy i odpowiednio duża.

Dwa filary statystyki:

  1. Statystyka opisowa

  2. Statystyka matematyczna

Dobór narzędzia do analizy

Zarówno dobór miar statystycznych jak i sposób prezentacji danych zależą od typu zmiennej (cechy), którą badamy.

Cecha – to pewna własność obiektów należących do pewnej zbiorowości wspólna dla wszystkich i przyjmująca wartości z określonego zbioru (badamy zbiór jednostek statystycznych ze względu na wyróżnioną cechę).

Ze względu na sposób wyrażania wartości cechy można je podzielić na:


Zmienne ilościowe i jakościowe

Cecha ilościowa – wartościami cech ilościowych są liczby uzyskane w wyniku pomiaru (np. wielkości PKB danego kraju, wielkość zatrudnienia w firmie, liczba dzieci w rodzinie).

Cecha jakościowa – wartościami cech jakościowych (choć dla odróżnienia częściej mówi się o wartościach cechy jakościowej a nie jej wartościach) są kategorie uzyskane w wyniku pomiaru (kategorie, czyli różnego typu symbole, słowa, np. płeć, imię, kolor).

Kontrowersja – podział cech na ilościowe i jakościowe jest nieprecyzyjny i wywołuje spory. Aby tego uniknąć cechy dzielimy ze względu na skalę pomiaru (wyróżniamy 4 skale pomiaru).

Skale pomiaru według Stevensa

Pomiar – porównanie cech ze wzorcem wyposażonym w odpowiednią skalę

Gdy między wartościami cechy X dla dwóch obieków zachodzi jedna z relacji:

xA=xB lub xA≠xB

(np. zmienna płeć o wariantach kobieta, mężczyzna)

Gdy można określić znak różnicy pomiędzy wartościami cechy X, tj. zachodzi jedna z relacji:

xA>xB xA<xB lub xA=xB xA≠xB

(np. zmienna to wykształcenie o wariantach: podstawowe, średnie, zawodowe)

Gdy można określić wielkość różnicy pomiędzy wartościami cechy X (o ile jednostek), tj. na wartościach cechy dopuszczalne są operacje:

>,<,=,+,-

(np. zmienna temperatura o wartościach na skali Celsjusza lub poziom inteligencji mierzony liczbą punktów z testu IQ)

Gdy można określić krotność różnicy pomiędzy wartościami cechy X (ile razy) tj. na wartościach cechy dopuszczalne są operacje:

>,<,=,+,-,/,*,≠

(np. zmienna temperatura o wartościach na skali Kelvina lub wzrost lub wiek)

Skala nominalna i porządkowa to tzw. skale słabe, a skala przedziałowa i ilorazowa to tzw. skale mocne.

Skale pomiaru zmiennych są uporządkowane (od najsłabszych do najmocniejszych) i zawierają się w sobie (nominalna ⊂ porządkowa ⊂ przedziałowa ⊂ ilorazowa).

Zmienna skokowa (dyskretna)

Przyjmujące wartości z pewnego skończonego lub przeliczalnego zbioru; wyróżnia ją brak wartości pośrednich dla bliskich sobie wartości, np. zmienna dzietność kobiet o wartościach ze zbioru: {0,1,2,3,…}, nie jest możliwe uzyskanie dzietności równej np. 3,14.

Zmienna ciągła

Przyjmujące wartości z pewnego nieskończonego, a dokładniej nieprzeliczalnego zbioru, np. wzrost następuje w sposób płynny, każdy mierzył kiedyś 0,7828399 m.

Szeregi statystyczne:

Xi – wielkość zatrudnienia w firmie budowlanej

5, 7, 10, 10, 15, 21

Niech xi – cena komputera [tys. zł], ni – liczba sklepów z ceną komputera równą xi

xi ni
1,8 10
2,0 11
2,2 13
2,4 9

Niech xi- wydobycie ropy naftowej [mln t], ni – liczba państw

xi ni
60-89 2
90-119 4
120-179 7
180-369 3

xi – wartość badanej cechy

ni – liczebność (krotność)

Szereg rozdzielczy zwany również szeregiem ważonym może być ważony liczebnościami (ni) lub częstościami względnymi ( $w_{i} = \frac{n_{i}}{N}$ )


Dopasowanie typu wykresu do skali pomiaru zmiennej:

Dla zmiennych skokowych – diagramy

Dla zmiennych ciągłych – histogramy

Złote reguły tworzenia histogramu:

Wykład 2, 12.10.2015
Temat: Miary statystyczne

Charakterystyka miar statystycznych:

miary położenia miary rozproszenia miary asymetrii

miary

korelacji

nominalna dominanta entropia - statystyka x2
porządkowa

mediana

kwantyle

odchylenie ćwiartkowe pozycyjny współczynnik asymetrii współczynnik korelacji Kendalla
przedziałowa średnia arytmetyczna odchylenie standardowe klasyczny współczynnik asymetrii współczynnik korelacji Pearsona
ilorazowa średnia geometryczna i harmoniczna współczynnik zmienności klasyczny współczynnik asymetrii stosunek korelacyjny

Inny podział miar statystycznych:

Średnia z liczb x1, x2, … ,xN to wartość teoretyczna, która przypadałaby na jednostkę statystyczną, gdyby łączny zasób cechy był rozłożony równomiernie

Średnia arytmetyczna


$$\overset{\overline{}}{x} = \frac{1}{N}\sum_{i = 1}^{N}x_{i}$$


$$\overset{\overline{}}{x} = \frac{1}{N}\sum_{i = 1}^{k}{x_{i}n_{i}} = \sum_{i = 1}^{k}{x_{i}w_{i}}$$


$$\overset{\overline{}}{x} \approx \frac{1}{N}\sum_{i = 1}^{k}{\hat{x_{i}}n_{i}} = \sum_{i = 1}^{k}{\hat{x_{i}}w_{i}}$$

gdzie:

ni – liczebności

wi – częstości

${\hat{x}}_{i}$ – środek przedziału

k – liczba przedziałów (grup)

Własności średniej:


$$x_{\min} \leq \overset{\overline{}}{x} \leq x_{\max}$$


$$\sum_{i = 1}^{N}{\left( x_{i} - \overset{\overline{}}{x} \right) = 0}$$

Dominanta to wartość występująca najczęściej.

D = xD, dla której nD = max{ni}

Dominanta leży w przedziale o największej gęstości i obliczamy ją według wzoru:


$$D \approx x_{D} + \frac{g_{D} - g_{D - 1}}{\left( g_{D} - g_{D - 1} \right) + \left( g_{D} - g_{D + 1} \right)}*_{D}$$

Gęstość przedziału


$$g_{i} = \ \frac{n_{i}}{_{i}}$$

Lub w przypadku szeregu o przedziałach jednakowej długości:


$$D \approx x_{D} + \frac{n_{D} - n_{D - 1}}{\left( n_{D} - n_{D - 1} \right) + \left( n_{D} - n_{D + 1} \right)}*_{D}$$

Własności dominanty:

Gdy dominanta znajduje się w pierwszym lub ostatnim przedziale nie wyznaczamy jej ze wzorów, informujemy tylko, w którym przedziale się znajduje.

Mediana to wartość środkowa lub inaczej – taka wartość w szeregu, która rozdziela ten szereg na dwie części, w ten sposób, że połowa wartości w szeregu jest od niej mniejsza lub równa, a pozostała połowa – większa lub równa.

Mediana

Dla nieparzystej liczby obserwacji N:


Me = x0, 5(N + 1)

Dla parzystej liczby obserwacji N:


$$Me = \frac{x_{0,5N} + x_{0,5N + 1}}{2}$$

Dla szeregów przedziałowych stosujemy wzór na kwantyl rzędu 0,5, gdyż Me =  Q0, 5

Własności mediany:

Kwantyl rzędu p, gdzie p ∈ (0, 1) to taka wartość w szeregu, która rozdziela ten szereg na dwie części, w ten sposób, że p*100% wartości w szeregu jest od niej mniejsza lub równa, a pozostała część ((1−p) * 100%) – większa lub równa

Kwantyl rzędu p


Qp = x[N*p} + 1

Gdzie [N*p] oznacza część całkowitą (cechę) z liczby N * p

Kwantyl Qp leży w przedziale, w którym znajduje się obserwacja o numerze [N * p]+1  i obliczamy go według wzoru:


$$Q_{p} \approx x_{\text{Qp}} + \frac{p*N - cumn_{Qp - 1}}{n_{\text{Qp}}}$$

Uwagi do kwantyli

Niektóre kwantyle są na tyle ważne i często wykorzystywane, że mają własne nazwy, a czasem i oznaczenia:

Miary rozproszenia:

Warincja to przeciętny kwadrat odchylenia od średniej arytmetycznej

Dla szeregu wyliczającego:


$$S^{2}\left( x \right) = \frac{1}{N}\sum_{i = 1}^{N}{(x_{i} - \overset{\overline{}}{x})^{2}}$$

Dla szeregu ważonego dla zmiennej skokowej:


$$S^{2}\left( x \right) = \frac{1}{N}\sum_{i = 1}^{N}{(x_{i} - \overset{\overline{}}{x})^{2}}n_{i}$$

Dla szeregu ważonego dla zmiennej ciągłej (przedziałowego):


$$S^{2}\left( x \right) \approx \frac{1}{N}\sum_{i = 1}^{N}{(\hat{x_{i}} - \overset{\overline{}}{x})^{2}}n_{i}$$


Własności wariancji:

Odchylenie standardowe to przeciętne odchylenie od średniej


$$S\left( x \right) = \sqrt{S^{2}(x)}$$

Współczynnik zmienności również wyraża przeciętne odchylenie od średniej


$$V_{s}\left( x \right) = \frac{S(x)}{\overset{\overline{}}{x}} = \frac{S(x)}{\overset{\overline{}}{x}}*100\%$$

Uwagi do współczynnika zmienności:

Odchylenie ćwiartkowe to przeciętne odchylenie od mediany


$$Q = \frac{Q_{0,75} - Q_{0,25}}{2}$$


$$V_{Q} = \frac{Q}{\text{Me}}$$


Kierunek asymetrii:

asymetria lewostronna rozkład symetryczny asymetria prawostronna

Miary asymetrii: współczynnik asymetrii Pearsona


$$\gamma = \frac{\overset{\overline{}}{x} - D}{S(x)}$$

Zestandaryzowany moment centralny trzeciego rzędu


$$\text{\ \ \ \ }_{3}\left( x \right) = \frac{M_{3}(x)}{{(S\left( x \right))}^{3}}$$

Gdzie


$$M_{3}\left( x \right) = \frac{1}{N}\sum_{i = 1}^{N}{(x_{i} - {\overset{\overline{}}{x})}^{3}}$$


$$M_{3}\left( x \right) = \frac{1}{N}\sum_{i = 1}^{N}{(x_{i} - {\overset{\overline{}}{x})}^{3}*n_{i}}$$


$$M_{3}\left( x \right) \approx \frac{1}{N}\sum_{i = 1}^{N}{(\hat{x_{i}} - {\overset{\overline{}}{x})}^{3}*n_{i}}$$

Pozycyjny współczynnik asymetrii (Yule’a–Kendalla)


$$A = \frac{\left( Q_{0,75} - Me \right) - (Me - Q_{0,25})}{Q_{0,75} - Q_{0,25}}$$

Wykład 3, 19.10.2015
Temat: Analiza korelacji

Wprowadzenie

Analiza korelacji dla dwóch zmiennych ilościowych:

Analizę korelacji warto rozpocząć od zilustrowania współzmienności wykresu rozrzutu.

Pomiar liniowego związku korelacyjnego

jeśli obwiednia danych jest w przybliżeniu elipsa, to związek jest w przybliżeniu liniowy i do jego zbadania możemy posłużyć się współczynnikiem korelacji liniowej Pearsona (ozn. rxy lub r (x, y))


$$r_{\text{xy}} = \frac{cos(x,y)}{S\left( x \right)*S(y)}$$

gdzie kowariancję definiujemy jako:


$$\text{cov}\left( x,y \right) = \frac{1}{N}\sum_{i = 1}^{N}{\left( x_{i} - \overset{\overline{}}{x} \right)*(y_{i} - \overset{\overline{}}{y})}$$

Własności współczynnika korelacji liniowej Pearsona:

Kierunek liniowej zależności korelacyjnej

Siła liniowej zależności korelacyjnej

|rxy| < 0, 3słaby związek liniowy;

0, 3 ≤ |rxy| < 0, 7 – związek liniowy o umiarkowanej sile;

|rxy| ≥ 0, 7silny związek liniowy;

 |rxy| = 1 - funkcyjny związek liniowy;

Uwaga

Powyższe przedziały określania siły związku korelacyjnego są umowne i kontrowersyjne

Lepszy do oceny siły zależności korelacyjnej jest współczynnik determinacji:


R2 = (rxy)2

Który w przypadku zależności Y(X) informuje jaki procent zmian zmiennej Y można wyjaśnić zmianami w wartościach zmiennej X (precyzyjniejsze niż powyższe umowne przedziały)

Uwaga dotycząca wniosków z analizy korelacji

Analiza korelacji daje informacje o współwystępowaniu zmiennych a nie o zależnościach przyczynowo – skutkowych między nimi.

Uwagi dotyczące miar korelacji

Inne miary zależności korelacyjnej

Wykład 4, 26.10.2015
Temat: Analiza regresji

Wprowadzenie:

Regresja liniowa – idea


Y = f(x)


$$\hat{y} = f(x)$$


y = f(x) + u

[powyższa równość stanowi model badanej zależności – model regresji]


$$u = y - f\left( x \right) = y - \hat{y}$$

Chcielibyśmy, aby reszty modelu były jak najmniejsze


f(x) = ax + b


$$\sum_{i = 1}^{N}{u_{i}^{2} =}\sum_{i = 1}^{N}{(y_{i} - \hat{y_{i}})^{2} \rightarrow min}$$

Wyznaczanie parametrów funkcji regresji


$$g\left( a,b \right) = \sum_{i = 1}^{N}{{(y}_{i} - \hat{y_{i}})^{2} = \sum_{i = 1}^{N}{{(y}_{i} - (\text{ax}_{i} + b{))}^{2}}}$$


$$a = \frac{cos(x,y)}{S^{2}(x)}$$


$$b = \overset{\overline{}}{y} - a\overset{\overline{}}{x}$$

a – mówi o ile zmniejszy się lub zwiększy się wartość y, jeżeli x wzrośnie o jednostkę

współczynnik zbieżności:


$$\varphi^{2} = \frac{\sum_{i = 1}^{N}{(y_{i} - \hat{y_{i}})^{2}}}{\sum_{i = 1}^{N}{(y_{i} - \overset{\overline{}}{y})^{2}}}$$

Mówi w ilu % zmiany w y nie są objaśnione zmianami wartości x.

współczynnik determinacji:


R2 = 1 − φ2


R2ϵ⟨0,1⟩ i φ2ϵ⟨0,1⟩

Mówi w ilu % zmiany w y da się objaśnić zmianami wartości x.

Prognozowanie na podstawie funkcji regresji


$$\hat{y} = f\left( x_{T} \right) = \text{ax}_{T} + b$$


$$s_{U} = \sqrt{\frac{\sum_{i = 1}^{N}{(y_{i} - \hat{y_{i}})^{2}}}{N - k}}$$

gdzie k – liczba parametrów modelu regresji (dla funkcji liniowej k=2)

Wykład 5, 09.11.2015
Temat:

1 część wykładu

Agregatowe wskaźniki dynamiki dla wielkości statystycznych

Indeksy agregatowe (zespołowe) stosujemy w odniesieniu do zjawisk złożonych, tj. zjawisk będących agregatami (zespołami) zjawisk niejednorodnych i bezpośrednio niesumowalnych

Wyróżniamy agregatowe indeksy (dla wielkości absolutnych):

Agregatowy indeks wartości:


$$I_{w} = \frac{\sum_{i = 1}^{n}w_{\text{it}}}{\sum_{i = 1}^{n}w_{i0}} = \frac{\sum_{i = 1}^{n}{p_{\text{it}}*q_{\text{it}}}}{\sum_{i = 1}^{n}{p_{i0}*q_{i0}}}$$

gdzie:

wit, wi0 – wartości produktu w okresie badanym i bazowym

pit, pi0 – ceny produktu w okresie badanym i bazowym

qit, qi0 – ilości produktów w okresie badanym i bazowym

Interpretacja: Iw mówi nam o ile procent wzrosła lub spadła wartość badanego agregatu produktów.

Zmiany procentowe obliczamy analogicznie, jak w przypadku indeksów indywidualnych.

Agregatowe indeksy cen:

Zmiana wartości sprzedaży agregatu produktów może wynikać ze zmiany cen tych produktów. Aby to zbadać obliczamy agregatowe indeksy cen, w których przyjmuje się, iż ilości produktów są na stałym poziomie.

W którym ilości produktów ustalane są na poziomie bazowym (q0)


$$I_{p/q0} = \frac{\sum_{i = 1}^{n}{p_{\text{it}}*q_{i0}}}{\sum_{i = 1}^{n}{p_{i0}*q_{i0}}}$$

W którym ilości produktów ustalane są na poziomie badanym (qt)


$$I_{p/qt} = \frac{\sum_{i = 1}^{n}{p_{\text{it}}*q_{\text{it}}}}{\sum_{i = 1}^{n}{p_{i0}*q_{it}}}$$

Agregatowe indeksy ilości:

Zmiana wartości sprzedaży agregatu produktów może również wynikać ze zmiany ilości sprzedaży tych produktów. Obliczamy wtedy agregatowe indeksy ilości, w których przyjmuje się, iż ceny produktów są na stałym poziomie

W którym ceny produktów ustalane są na poziomie bazowym (p0)


$$I_{q/p0} = \frac{\sum_{i = 1}^{n}{p_{i0}*q_{\text{it}}}}{\sum_{i = 1}^{n}{p_{i0}*q_{i0}}}$$

W którym ceny produktów ustalane są na poziomie badanym (pt)


$$I_{q/pt} = \frac{\sum_{i = 1}^{n}{p_{\text{it}}*q_{\text{it}}}}{\sum_{i = 1}^{n}{p_{it}*q_{i0}}}$$

Agregatowe indeksy Fishera

Agregatowe indeksy Fishera to średnie geometryczne z indeksów (cen lub ilości) według formuł Laspeyresa i Paaschego

Agregatowy indeks cen Fishera

WZÓR

Agregatowy indeks ilości Fishera

WZÓR

Zależności dla indeksów agregatowych

Między agregatowymi indeksami cen, ilości i wartości zachodzą następujące związki:

Iw = Ip/q0 * Iq/p0 WZÓR

Relacje te wykorzystujemy do obliczania indeksów cen lub ilości metodą pośrednią, np.

WZÓR

Wykład 6, 16.11.2015
Temat: Elementy rachunku prawdopodobieństwa

Przedmiot badań statystycznych – przypomnienie

Populacja – Przedmiotem badań statystycznych jest zbiór jednostek statystycznych podobnych pod względem określonych własności (np. mieszkańcy Śląska, firmy z branży informatycznej, itp.). Ów zbiór nazywany populacją (zbiorowością statystyczną).

Próba – Ponieważ bezpośrednie badania populacji są zbyt kosztowne i czasochłonne, a często wręcz niemożliwe, w statystyce w tym celu wykorzystuje się próbę, która stanowi podzbiór populacji.

Statystyka opisowa, a statystyka matematyczna

W ramach statystyki można wyróżnić dwa duże filary:

Badamy próbę i stawiamy wnioski (syntetycznie

...

Schemat wnioskowania statystycznego

Definicje podstawowych pojęć:

Doświadczenie losowe – eksperyment, którego wyniku nie można przewidzieć

Zdarzenie losowe – wynik (rezultat) doświadczenia losowego

Zdarzenie elementarne – niepodzielny rezultat doświadczenia losowego

Przestrzeń zdarzeń elementarnych Ω – zbiór wszystkich zdarzeń elementarnych

Definicje prawdopodobieństwa:

Zdarzenie pewne – Ω

Zdarzenie niemożliwe – ∅

Zdarzenie wykluczające się (rozłączne) – jeśli Ai ∩ Aj = ⌀,  i ≠ j

Klasyczna (szkolna) definicja prawdopodobieństwa


$$P\left( A \right) = \frac{k}{n}$$

k – liczba zdarzeń elementarnych sprzyjających zdarzeniu A

n – liczba wszystkich zdarzeń elementarnych, jednakowo prawdopodobnych

Definicja klasyczna …

Częstościowa (statystyczna) definicja prawdopodobieństwa


$$P(A) \approx \frac{m}{n}$$

m – liczba wyników doświadczeń sprzyjających zdarzeniu A

n – liczba wszystkich przeprowadzonych doświadczeń

Geometryczna definicja prawdopodobieństwa

WZÓR

p(A) – pole powierzchni obszaru reprezentującego zdarzenie A

p(Ω) - …

Najlepsza definicja prawdopodobieństwa

F nazywamy ciałem zdarzeń, jeśli:

Wykład 7, 25.11.2015
Temat:

Wykład 8, 02.12.2015
Temat:


Wyszukiwarka

Podobne podstrony:
~$atystyka semestr zimowy 15 i 16
Rachunkowość finansowa semestr zimowy 15 i 16
Strategie marketingowe semestr zimowy 15 i 16
wniosek o powtarzanie moduw w semestrze zimowym 2015 16, WAT, Pisma do dziekana
PROGRAM laboratoriów z Ekologii i ochrony przyrody na semestr zimowy 14 15
Prewencja Wet semestr zimowy15 16
16.10.08 (wykład), Teologia, ROK I, Pedagogika, wykłady semestr zimowy
Tematy na zaliczenie z fizyki semestr zimowy, statystyka
15.01.09, Teologia, ROK I, Pedagogika, wykłady semestr zimowy
Ăwiczenie 15-16, Studia PWr W-10 MBM, Semestr II, Fizyka, Fizyka - laborki, Fizyka - laborki, Fizyka
Zał. 3 Wniosek o stypendium socjalne na semestr letni roku akad 15 16, pedagogika
semestr 1 15-16
PROGRAM laboratoriów z Ekologii i ochrony przyrody na semestr zimowy 14 15
wyklad badania mediow 15 i 16
Marketing polityczny, Politologia UMCS - materiały, III Semestr zimowy, Marketing polityczny
Tematy, Budownictwo UTP, semestr 1 i 2, budownictwo, SEMESTR ZIMOWY, inzynieria srodowiska, inzynier
egz pilotów 15 i 16 06 2009(2), pilot wycieczek

więcej podobnych podstron