statystyka Dr michał trzęsiok |
---|
SEMESTR ZIMOWY 2015/2016 |
INFORMACJE O PRZEDMIOCIE |
Literatura |
Zaliczenie |
Ilość ECTS |
Statystyka:
Zbiór danych liczbowych reprezentujących określone masowe zjawiska bądź procesy
Czynności związane z gromadzeniem i opracowywaniem danych z punktu pierwszego
Charakterystyki liczbowe dotyczących danych z punktu pierwszego (np. średnia arytmetyczna, odchylenie standardowe itp.)
Dyscyplina naukowa traktująca o ilościowych metodach badania zjawisk (procesów) masowych czyli naukę, która dotyczy punktów 1-3.
Za pomocą metod statystycznych można wykryć różnego rodzaju prawidłowości.
Populacja i próba
Populacja – Przedmiotem badań statystycznych jest zbiór jednostek statystycznych podobnych pod względem określonych własności (np. mieszkańcy Śląska, firmy z branży informatycznej itp.) Ów zbiór nazywany populacją (zbiorowością statystyczną).
Próba – ponieważ bezpośrednia badania populacji są zbyt kosztowne i czasochłonne, a często wręcz niemożliwe, w statystyce w tym celu wykorzystuje się próbę, która stanowi podzbiór populacji. Aby rezultaty badania próby mogły być uogólnione na całą populację, próba powinna być reprezentatywna, tj. wybrana w sposób losowy i odpowiednio duża.
Dwa filary statystyki:
Statystyka opisowa
Statystyka matematyczna
Dobór narzędzia do analizy
Zarówno dobór miar statystycznych jak i sposób prezentacji danych zależą od typu zmiennej (cechy), którą badamy.
Cecha – to pewna własność obiektów należących do pewnej zbiorowości wspólna dla wszystkich i przyjmująca wartości z określonego zbioru (badamy zbiór jednostek statystycznych ze względu na wyróżnioną cechę).
Ze względu na sposób wyrażania wartości cechy można je podzielić na:
metryczne (ilościowe, mierzalne)
niemetryczne (jakościowe, niemierzalne, opisowe)
Zmienne ilościowe i jakościowe
Cecha ilościowa – wartościami cech ilościowych są liczby uzyskane w wyniku pomiaru (np. wielkości PKB danego kraju, wielkość zatrudnienia w firmie, liczba dzieci w rodzinie).
Cecha jakościowa – wartościami cech jakościowych (choć dla odróżnienia częściej mówi się o wartościach cechy jakościowej a nie jej wartościach) są kategorie uzyskane w wyniku pomiaru (kategorie, czyli różnego typu symbole, słowa, np. płeć, imię, kolor).
Kontrowersja – podział cech na ilościowe i jakościowe jest nieprecyzyjny i wywołuje spory. Aby tego uniknąć cechy dzielimy ze względu na skalę pomiaru (wyróżniamy 4 skale pomiaru).
Skale pomiaru według Stevensa
Pomiar – porównanie cech ze wzorcem wyposażonym w odpowiednią skalę
Skala nominalna (skala nazw)
Gdy między wartościami cechy X dla dwóch obieków zachodzi jedna z relacji:
xA=xB lub xA≠xB
(np. zmienna płeć o wariantach kobieta, mężczyzna)
Skala porządkowa
Gdy można określić znak różnicy pomiędzy wartościami cechy X, tj. zachodzi jedna z relacji:
xA>xB xA<xB lub xA=xB xA≠xB
(np. zmienna to wykształcenie o wariantach: podstawowe, średnie, zawodowe)
Skala przedziałowa
Gdy można określić wielkość różnicy pomiędzy wartościami cechy X (o ile jednostek), tj. na wartościach cechy dopuszczalne są operacje:
>,<,=,+,-
(np. zmienna temperatura o wartościach na skali Celsjusza lub poziom inteligencji mierzony liczbą punktów z testu IQ)
Skala ilorazowa
Gdy można określić krotność różnicy pomiędzy wartościami cechy X (ile razy) tj. na wartościach cechy dopuszczalne są operacje:
>,<,=,+,-,/,*,≠
(np. zmienna temperatura o wartościach na skali Kelvina lub wzrost lub wiek)
Skala nominalna i porządkowa to tzw. skale słabe, a skala przedziałowa i ilorazowa to tzw. skale mocne.
Skale pomiaru zmiennych są uporządkowane (od najsłabszych do najmocniejszych) i zawierają się w sobie (nominalna ⊂ porządkowa ⊂ przedziałowa ⊂ ilorazowa).
Zmienna skokowa (dyskretna)
Przyjmujące wartości z pewnego skończonego lub przeliczalnego zbioru; wyróżnia ją brak wartości pośrednich dla bliskich sobie wartości, np. zmienna dzietność kobiet o wartościach ze zbioru: {0,1,2,3,…}, nie jest możliwe uzyskanie dzietności równej np. 3,14.
Zmienna ciągła
Przyjmujące wartości z pewnego nieskończonego, a dokładniej nieprzeliczalnego zbioru, np. wzrost następuje w sposób płynny, każdy mierzył kiedyś 0,7828399 m.
Szeregi statystyczne:
Szereg wyliczający dla zmiennej skokowej
Xi – wielkość zatrudnienia w firmie budowlanej
5, 7, 10, 10, 15, 21
Szereg rozdzielczy dla zmiennej skokowej
Niech xi – cena komputera [tys. zł], ni – liczba sklepów z ceną komputera równą xi
xi | ni |
---|---|
1,8 | 10 |
2,0 | 11 |
2,2 | 13 |
2,4 | 9 |
Szereg rozdzielczy dla zmiennej ciągłej [szereg przedziałowy]
Niech xi- wydobycie ropy naftowej [mln t], ni – liczba państw
xi | ni |
---|---|
60-89 | 2 |
90-119 | 4 |
120-179 | 7 |
180-369 | 3 |
xi – wartość badanej cechy
ni – liczebność (krotność)
Szereg rozdzielczy zwany również szeregiem ważonym może być ważony liczebnościami (ni) lub częstościami względnymi ( $w_{i} = \frac{n_{i}}{N}$ )
Dopasowanie typu wykresu do skali pomiaru zmiennej:
Dla zmiennych skokowych – diagramy |
Dla zmiennych ciągłych – histogramy |
---|
Złote reguły tworzenia histogramu:
Wszystkie obserwacje ze zbioru danych muszą być uwzględnione na wykresie
Sąsiednie przedziały na histogramie muszą się „sklejać” (nie może być „dziur” między przedziałami)
Przedziały na histogramie nie mogą mieć części wspólnej
Charakterystyka miar statystycznych:
Miary położenia charakteryzują przeciętną wartość cechy dla jednostek w próbie
Miary rozproszenia (zróżnicowania, zmienności) charakteryzują stopień zróżnicowania jednostek w próbie
Miary asymetrii (skośności) pokazują czy więcej jednostek ma wartość cechy większą, czy mniejszą od średniej
Miary koncentracji pokazują na ile wartości cechy skupione (skoncentrowane) są blisko średniej
Miary korelacji (dla co najmniej dwóch zmiennych) pokazują kierunek i siłę związku między zmiennymi
miary położenia | miary rozproszenia | miary asymetrii | miary korelacji |
|
---|---|---|---|---|
nominalna | dominanta | entropia | - | statystyka x2 |
porządkowa | mediana kwantyle |
odchylenie ćwiartkowe | pozycyjny współczynnik asymetrii | współczynnik korelacji Kendalla |
przedziałowa | średnia arytmetyczna | odchylenie standardowe | klasyczny współczynnik asymetrii | współczynnik korelacji Pearsona |
ilorazowa | średnia geometryczna i harmoniczna | współczynnik zmienności | klasyczny współczynnik asymetrii | stosunek korelacyjny |
Inny podział miar statystycznych:
Miary klasyczne – wymagają znajomości wszystkich wartości cechy (dla szeregów przedziałowych wszystkie przedziały muszą być domknięte). Są obiektywne, ale bardzo wrażliwe na błędy oraz tzw. wartości oddalone.
Miary pozycyjne – nie wymagają znajomości wszystkich wartości cechy. Ich wartość wynika ze szczególnego położenia w szeregu, co oznacza, że są subiektywne. Nie są jednak wrażliwe na błędy, wartości oddalone itp.
Średnia z liczb x1, x2, … ,xN to wartość teoretyczna, która przypadałaby na jednostkę statystyczną, gdyby łączny zasób cechy był rozłożony równomiernie
Średnia arytmetyczna
dla szeregu wyliczającego:
$$\overset{\overline{}}{x} = \frac{1}{N}\sum_{i = 1}^{N}x_{i}$$
dla szeregu ważonego dla zmiennej skokowej
$$\overset{\overline{}}{x} = \frac{1}{N}\sum_{i = 1}^{k}{x_{i}n_{i}} = \sum_{i = 1}^{k}{x_{i}w_{i}}$$
dla szeregu ważonego dla zmiennej ciągłej (przedziałowego)
$$\overset{\overline{}}{x} \approx \frac{1}{N}\sum_{i = 1}^{k}{\hat{x_{i}}n_{i}} = \sum_{i = 1}^{k}{\hat{x_{i}}w_{i}}$$
gdzie:
ni – liczebności
wi – częstości
${\hat{x}}_{i}$ – środek przedziału
k – liczba przedziałów (grup)
Własności średniej:
średnia jest miarą klasyczną i jest wrażliwa na wartości oddalone (ekstremalne)
$$x_{\min} \leq \overset{\overline{}}{x} \leq x_{\max}$$
$$\sum_{i = 1}^{N}{\left( x_{i} - \overset{\overline{}}{x} \right) = 0}$$
Dominanta to wartość występująca najczęściej.
D = xD, dla której nD = max{ni}
Dominanta leży w przedziale o największej gęstości i obliczamy ją według wzoru:
$$D \approx x_{D} + \frac{g_{D} - g_{D - 1}}{\left( g_{D} - g_{D - 1} \right) + \left( g_{D} - g_{D + 1} \right)}*_{D}$$
Gęstość przedziału
$$g_{i} = \ \frac{n_{i}}{_{i}}$$
Lub w przypadku szeregu o przedziałach jednakowej długości:
$$D \approx x_{D} + \frac{n_{D} - n_{D - 1}}{\left( n_{D} - n_{D - 1} \right) + \left( n_{D} - n_{D + 1} \right)}*_{D}$$
Własności dominanty:
dominanta jest miarą pozycyjną i jest wyznaczana dwuetapowo (najpierw pozycja, a potem wartość odpowiadająca tej pozycji)
dominanta nazywana jest również modą [oznaczenie: Mo]
w szeregu może istnieć więcej niż jedna dominanta (mówimy wtedy o rozkładach wielomodalnych)
w przypadku szeregu przedziałowego, w którym największa gęstość jest w przedziale pierwszym lub ostatnim nie można zastosować podanych wzorów; piszemy wtedy tylko jaki jest przedział dominanty.
Gdy dominanta znajduje się w pierwszym lub ostatnim przedziale nie wyznaczamy jej ze wzorów, informujemy tylko, w którym przedziale się znajduje.
Mediana to wartość środkowa lub inaczej – taka wartość w szeregu, która rozdziela ten szereg na dwie części, w ten sposób, że połowa wartości w szeregu jest od niej mniejsza lub równa, a pozostała połowa – większa lub równa.
Mediana
Dla nieparzystej liczby obserwacji N:
Me = x0, 5(N + 1)
Dla parzystej liczby obserwacji N:
$$Me = \frac{x_{0,5N} + x_{0,5N + 1}}{2}$$
Dla szeregów przedziałowych stosujemy wzór na kwantyl rzędu 0,5, gdyż Me = Q0, 5
Własności mediany:
mediana jest miarą pozycyjną i jest wyznaczana dwuetapowo (najpierw pozycja, a potem wartość odpowiadająca tej pozycji)
mediana jest pozycyjnym odpowiednikiem średniej (miary klasycznej) i często używa się ich zamiennie $\overset{\overline{}}{x} \leftrightarrow Me$
mediana jest odporna na wartości oddalone
średnia, dominanta i mediana nazywane są miarami tendencji centralnej
Kwantyl rzędu p, gdzie p ∈ (0, 1) to taka wartość w szeregu, która rozdziela ten szereg na dwie części, w ten sposób, że p*100% wartości w szeregu jest od niej mniejsza lub równa, a pozostała część ((1−p) * 100%) – większa lub równa
Kwantyl rzędu p
Qp = x[N*p} + 1
Gdzie [N*p] oznacza część całkowitą (cechę) z liczby N * p
Kwantyl Qp leży w przedziale, w którym znajduje się obserwacja o numerze [N * p]+1 i obliczamy go według wzoru:
$$Q_{p} \approx x_{\text{Qp}} + \frac{p*N - cumn_{Qp - 1}}{n_{\text{Qp}}}$$
Uwagi do kwantyli
Niektóre kwantyle są na tyle ważne i często wykorzystywane, że mają własne nazwy, a czasem i oznaczenia:
medniana: Me = Q0, 5
kwartyle (dzielące na części czwarte); pierwszy kwartyl Q0,25, drugi kwartyl, czyli Me, oraz trzeci kwartyl Q0,75
percentyle (dzielące na części setne); pierwszy percentyl Q0,01, drugi percentyl Q0,02, … dziewięćdziesiąty dziewiąty percentyl Q0,99
często wykorzystuje się dwa kwantyle do odcinania wartości skrajnych w szeregu (np. przedział (Q0,1;Q0,9) zawiera 80% obserwacji w szeregu odcinając skrajnie niskie i skrajnie wysokie).
Miary rozproszenia:
Warincja to przeciętny kwadrat odchylenia od średniej arytmetycznej
Dla szeregu wyliczającego:
$$S^{2}\left( x \right) = \frac{1}{N}\sum_{i = 1}^{N}{(x_{i} - \overset{\overline{}}{x})^{2}}$$
Dla szeregu ważonego dla zmiennej skokowej:
$$S^{2}\left( x \right) = \frac{1}{N}\sum_{i = 1}^{N}{(x_{i} - \overset{\overline{}}{x})^{2}}n_{i}$$
Dla szeregu ważonego dla zmiennej ciągłej (przedziałowego):
$$S^{2}\left( x \right) \approx \frac{1}{N}\sum_{i = 1}^{N}{(\hat{x_{i}} - \overset{\overline{}}{x})^{2}}n_{i}$$
Własności wariancji:
wariancja jest miarą klasyczną i jest wrażliwa na wartości oddalone
wariancji nie interpretujemy (z powodu jednostek „kwadratowych” w jakich jest wyrażana)
wariancja ma bardzo duże znaczenie w teorii statystyki
na potrzeby interpretacji pierwiastkujemy wariancję, ale to już inna miara statystyczna.
Odchylenie standardowe to przeciętne odchylenie od średniej
$$S\left( x \right) = \sqrt{S^{2}(x)}$$
Współczynnik zmienności również wyraża przeciętne odchylenie od średniej
$$V_{s}\left( x \right) = \frac{S(x)}{\overset{\overline{}}{x}} = \frac{S(x)}{\overset{\overline{}}{x}}*100\%$$
Uwagi do współczynnika zmienności:
współczynnik zmienności wyraża to samo co odchylenie standardowe, ale Vs jest miarą względną (bez jednostek; wyrażona w %), zaś s jest miarą absolutną (wyrażoną w jednostkach takich jak dane)
to czy zróżnicowanie danej cechy jest duże czy małe zależy od tego ile jest równa średnia, np. zróżnicowanie cech pewnego produktu równe +/- 2zł jest bardzo duże w przypadku, gdy produktem jest kostka masła, lub bardzo małe, gdy produktem jest komputer
zawsze kiedy chcemy porównać zróżnicowanie (rozproszenie) należy posłużyć się (porównać) współczynniki zmienności; nie wolno porównywać odchyleń standardowych.
Odchylenie ćwiartkowe to przeciętne odchylenie od mediany
$$Q = \frac{Q_{0,75} - Q_{0,25}}{2}$$
odchylenie ćwiartkowe jest pozycyjnym odpowiednikiem odchylenia standardowego (miary klasycznej) i często używa się ich zamiennie; s ←→ Q
analogicznie do klasycznego współczynnika zmienności można do porównywania zróżnicowania wykorzystywać pozycyjny współczynnik zmienności:
$$V_{Q} = \frac{Q}{\text{Me}}$$
Kierunek asymetrii:
asymetria lewostronna | rozkład symetryczny | asymetria prawostronna |
---|
Miary asymetrii: współczynnik asymetrii Pearsona
$$\gamma = \frac{\overset{\overline{}}{x} - D}{S(x)}$$
γ jest miara hybrydowa, klasyczno–pozycyjna
γ stosujemy tylko dla rozkładów jednomodalnych
γ = 0 – rozkład symetryczny
γ > 0 – rozkład o asymetrii prawostronnej
γ < 0 – rozkład o asymetrii lewostronnej
Im γ bliższe wartości 0, tym asymetria słabsza, im dalsze 0, tym silniejsza
Zestandaryzowany moment centralny trzeciego rzędu
$$\text{\ \ \ \ }_{3}\left( x \right) = \frac{M_{3}(x)}{{(S\left( x \right))}^{3}}$$
Gdzie
$$M_{3}\left( x \right) = \frac{1}{N}\sum_{i = 1}^{N}{(x_{i} - {\overset{\overline{}}{x})}^{3}}$$
$$M_{3}\left( x \right) = \frac{1}{N}\sum_{i = 1}^{N}{(x_{i} - {\overset{\overline{}}{x})}^{3}*n_{i}}$$
$$M_{3}\left( x \right) \approx \frac{1}{N}\sum_{i = 1}^{N}{(\hat{x_{i}} - {\overset{\overline{}}{x})}^{3}*n_{i}}$$
3 jest miara klasyczna
3(x) = 0 – rozkład symetryczny
3(x) > 0 – rozkład o asymetrii prawostronnej
3(x) < 0 – rozkład o asymetrii lewostronnej
Im 3(x) bliższe wartości 0, tym asymetria słabsza, im dalsze 0, tym silniejsza
Pozycyjny współczynnik asymetrii (Yule’a–Kendalla)
$$A = \frac{\left( Q_{0,75} - Me \right) - (Me - Q_{0,25})}{Q_{0,75} - Q_{0,25}}$$
A jest miara pozycyjna
A 2 h−1, 1i
A = 0 – rozkład symetryczny
A > 0 – rozkład o asymetrii prawostronnej
A < 0 – rozkład o asymetrii lewostronnej
im A bliższe wartości 0, tym asymetria słabsza, im dalsze 0, tym silniejsza
Wprowadzenie
jednostki statystyczne wchodzące w skład badanej zbiorowości są zazwyczaj opisywane za pomocą więcej niż jednej cechy (zmiennej)
analizowane zmienne bardzo często są ze sobą w pewien sposób powiązane
celem analizy korelacji jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś związki a jeśli tak, to jakie są kierunek i siła tej zależności
przykład związku, który możemy badać wykorzystując analizę korelacji: zależność popytu od ceny danego produktu
do statystycznego badania tego typu związków posługujemy się miarami korelacji
Analiza korelacji dla dwóch zmiennych ilościowych:
zakładamy, że mamy dwie zmienne (X i Y) mierzone na mocnych skalach
Istnieją logiczne (merytoryczne) przesłanki badania związków między tymi zmiennymi
Należy się zastanowić nad tym, czy zależność z natury jest jednokierunkowa (np. tylko Y(X)), czy dwukierunkowa (zarówno Y(X) jak i X(Y))
Najsilniejsza znana forma zależności, to zależność funkcyjna (w matematyce: każdemu argumentowi odpowiada dokładnie jedna wartość), ale takie zależności rzadko występują w naukach ekonomicznych (społecznych); dlatego badamy inny rodzaj zależności – zależności korelacyjne. Zależności korelacyjne w istocie dotyczą zależności:$\ \overset{\overline{}}{Y}(X)$ oraz ci:$\ \overset{\overline{}}{X}(Y)$
Analizę korelacji warto rozpocząć od zilustrowania współzmienności wykresu rozrzutu.
Pomiar liniowego związku korelacyjnego
jeśli obwiednia danych jest w przybliżeniu elipsa, to związek jest w przybliżeniu liniowy i do jego zbadania możemy posłużyć się współczynnikiem korelacji liniowej Pearsona (ozn. rxy lub r (x, y))
$$r_{\text{xy}} = \frac{cos(x,y)}{S\left( x \right)*S(y)}$$
gdzie kowariancję definiujemy jako:
$$\text{cov}\left( x,y \right) = \frac{1}{N}\sum_{i = 1}^{N}{\left( x_{i} - \overset{\overline{}}{x} \right)*(y_{i} - \overset{\overline{}}{y})}$$
Własności współczynnika korelacji liniowej Pearsona:
rxy jest miara klasyczna (wrażliwa na wartości oddalone)
jest miarą symetryczna, tj. rxy = rxy (bez względu na to, czy zależność ma charakter jedno– czy dwukierunkowy)
rxyϵ⟨−1,1⟩
Kierunek liniowej zależności korelacyjnej
rxy = 0 – brak liniowego związku korelacyjnego miedzy badanymi zmiennymi
rxy > 0 – korelacja dodatnia [wraz ze wzrostem wartości zmiennej X wartości Y średnio rzecz biorąc rosną]
rxy < 0– korelacja ujemna [wraz ze wzrostem wartości zmiennej X wartości Y średnio rzecz biorąc maleją]
Siła liniowej zależności korelacyjnej
im rxy bliższe wartości 0, tym asymetria słabsza, im dalsze 0, tym silniejsza
stosowane czasem przedziały do określania siły związku:
|rxy| < 0, 3 – słaby związek liniowy;
0, 3 ≤ |rxy| < 0, 7 – związek liniowy o umiarkowanej sile;
|rxy| ≥ 0, 7 – silny związek liniowy;
|rxy| = 1 - funkcyjny związek liniowy;
Uwaga
Powyższe przedziały określania siły związku korelacyjnego są umowne i kontrowersyjne
Lepszy do oceny siły zależności korelacyjnej jest współczynnik determinacji:
R2 = (rxy)2
Który w przypadku zależności Y(X) informuje jaki procent zmian zmiennej Y można wyjaśnić zmianami w wartościach zmiennej X (precyzyjniejsze niż powyższe umowne przedziały)
Uwaga dotycząca wniosków z analizy korelacji
Analiza korelacji daje informacje o współwystępowaniu zmiennych a nie o zależnościach przyczynowo – skutkowych między nimi.
Uwagi dotyczące miar korelacji
Inne miary zależności korelacyjnej
dla zmiennych Y i X mierzonych na skalach ilorazowych zależność korelacyjną można badać wykorzystując bardziej uniwersalną miarę – stosunek korelacyjny (można go stosować zarówno w przypadku zależności liniowych jak i krzywoliniowych)
Możliwe jest badanie zależności wyróżnionej zmiennej Y od wielu zmiennych X1, X2, X3,…; Współczynnik do tego używany nazywamy współczynnikiem korelacji wielorakiej
Jak było wskazane w tabelce dla zmiennych ze słabych skal stosujemy miarę X2, lub współczynnik korelacji rang: Kendalla lub Spearmana
Wprowadzenie:
Nadal rozważamy przypadek, w którym analizowane są dwie zmienne, w pewien sposób powiązane
Dla przypomnienia: celem analizy korelacji jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś związki a jeśli tak, to jakie są kierunek i siła tych zależności
Celem analizy regresji jest predykcja, czyli prognozowanie jak zmienią się wartości zmiennej badanej pod wpływem zmian wartości zmiennej objaśniającej
Do prognozowania konieczna jest znajomość mechanizmu powiązań między zmiennymi i ten mechanizm zapisany w postaci matematycznego równania nazywany funkcją regresji
Regresja liniowa – idea
Mając dany zbiór obserwacji dla dwóch zmiennych {(x1,y1), (x2,y2), …, (xN,yN)} poszukujemy najlepszej dopasowanej funkcji matematycznej f z pewnej rodziny rozpatrywanych funkcji, która jak najlepiej opisuje (reprezentuje) zależność
Y = f(x)
Zmienną Y nazywamy zmienną objaśnianą (lub zmienną zależną) a zmienną X – zmienną objaśniającą.
W rzeczywistości Y oddziałuje nie tylko X, ale również inne zmienne, któ®ych nie obserwowaliśmy. Funkcja f informuje zatem jak kształtowałaby się wartość Y, gdyby oddziaływały na nią tylko wartości X
Funkcja f jest zatem tylko przybliżeniem prawdziwej zależności. Aby zaznaczyć, czy mówimy o wartościach empirycznych zmiennej Y (wynikających z rzeczywistej) obserwacji zjawiska i oznaczanych przez y), czy o wartościach teoretycznych (wynikających z modelu), używać będziemy oznaczenia
$$\hat{y} = f(x)$$
Na y oddziałuje także czynnik losowy (oznaczany przez u), więc model regresji zapisujemy w postaci:
y = f(x) + u
[powyższa równość stanowi model badanej zależności – model regresji]
O u mówimy także, że to tzw. reszty modelu
$$u = y - f\left( x \right) = y - \hat{y}$$
Chcielibyśmy, aby reszty modelu były jak najmniejsze
W dalszej części zakładać będziemy liniową postać modelu, tzn. funkcja f jest funkcją liniową:
f(x) = ax + b
Poszukujemy więc takiej linii prostej y=ax+b, która jak najlepiej opisuje zależność między zmiennymi Y i X (o jak najmniejszych resztach). Wyznaczenie funkcji liniowej f sprowadza się do wyznaczenie współczynnika kierunkowego a i wyrazu wolnego b
Niektóre reszty są ujemne, niektóre dodatnie – my wykorzystamy metodę, która w poszukiwaniu najlepszej funkcji liniowej f minimalizuje sumę kwadratów reszt
$$\sum_{i = 1}^{N}{u_{i}^{2} =}\sum_{i = 1}^{N}{(y_{i} - \hat{y_{i}})^{2} \rightarrow min}$$
Powyższa metoda wyznaczania funkcji regresji nazywana jest metodą najmniejszych kwadratów (MNK)
Wyznaczanie parametrów funkcji regresji
przez g funkcję wyrażającą sumę kwadratów reszt modelu regresji liniowej
$$g\left( a,b \right) = \sum_{i = 1}^{N}{{(y}_{i} - \hat{y_{i}})^{2} = \sum_{i = 1}^{N}{{(y}_{i} - (\text{ax}_{i} + b{))}^{2}}}$$
poszukujemy minimum funkcji dwóch zmiennych (w tej funkcji niewiadome [zmienne] to a oraz b)
warunek konieczny na ekstremum – obliczamy pochodne cząstkowe rzędu pierwszego tej funkcji i przyrównujemy do zera; rozwiązujemy układ równań normalnych
udowodniono, że w metodzie MNK punkt spełniający warunek konieczny, spełnia również warunek wystarczający i w tym punkcie jest minimum
można wykazać, że
$$a = \frac{cos(x,y)}{S^{2}(x)}$$
$$b = \overset{\overline{}}{y} - a\overset{\overline{}}{x}$$
a – mówi o ile zmniejszy się lub zwiększy się wartość y, jeżeli x wzrośnie o jednostkę
dopasowanie funkcji regresji do danych mierzymy wykorzystując:
współczynnik zbieżności:
$$\varphi^{2} = \frac{\sum_{i = 1}^{N}{(y_{i} - \hat{y_{i}})^{2}}}{\sum_{i = 1}^{N}{(y_{i} - \overset{\overline{}}{y})^{2}}}$$
Mówi w ilu % zmiany w y nie są objaśnione zmianami wartości x.
współczynnik determinacji:
R2 = 1 − φ2
R2ϵ⟨0,1⟩ i φ2ϵ⟨0,1⟩
Mówi w ilu % zmiany w y da się objaśnić zmianami wartości x.
Prognozowanie na podstawie funkcji regresji
wartość prognozowania zmiennej Y dla argumentu xT:
$$\hat{y} = f\left( x_{T} \right) = \text{ax}_{T} + b$$
chcemy oszacować błąd (resztę) modelu dla tej prognozy
odchylenie standardowe reszt
$$s_{U} = \sqrt{\frac{\sum_{i = 1}^{N}{(y_{i} - \hat{y_{i}})^{2}}}{N - k}}$$
gdzie k – liczba parametrów modelu regresji (dla funkcji liniowej k=2)
odchylenie standardowe reszt mówi nam o ile średnio rzecz biorąc wartości teoretyczne (wynikające z modelu) odchylają się od wartości rzeczywistych in plus i in minus
1 część wykładu
Agregatowe wskaźniki dynamiki dla wielkości statystycznych
Indeksy agregatowe (zespołowe) stosujemy w odniesieniu do zjawisk złożonych, tj. zjawisk będących agregatami (zespołami) zjawisk niejednorodnych i bezpośrednio niesumowalnych
Wyróżniamy agregatowe indeksy (dla wielkości absolutnych):
wartości
cen
ilości
Agregatowy indeks wartości:
$$I_{w} = \frac{\sum_{i = 1}^{n}w_{\text{it}}}{\sum_{i = 1}^{n}w_{i0}} = \frac{\sum_{i = 1}^{n}{p_{\text{it}}*q_{\text{it}}}}{\sum_{i = 1}^{n}{p_{i0}*q_{i0}}}$$
gdzie:
wit, wi0 – wartości produktu w okresie badanym i bazowym
pit, pi0 – ceny produktu w okresie badanym i bazowym
qit, qi0 – ilości produktów w okresie badanym i bazowym
Interpretacja: Iw mówi nam o ile procent wzrosła lub spadła wartość badanego agregatu produktów.
Zmiany procentowe obliczamy analogicznie, jak w przypadku indeksów indywidualnych.
Agregatowe indeksy cen:
Zmiana wartości sprzedaży agregatu produktów może wynikać ze zmiany cen tych produktów. Aby to zbadać obliczamy agregatowe indeksy cen, w których przyjmuje się, iż ilości produktów są na stałym poziomie.
Agregatowy indeks cen o formule Laspeyresa:
W którym ilości produktów ustalane są na poziomie bazowym (q0)
$$I_{p/q0} = \frac{\sum_{i = 1}^{n}{p_{\text{it}}*q_{i0}}}{\sum_{i = 1}^{n}{p_{i0}*q_{i0}}}$$
Agregatowy indeks cen o formule Paaschego:
W którym ilości produktów ustalane są na poziomie badanym (qt)
$$I_{p/qt} = \frac{\sum_{i = 1}^{n}{p_{\text{it}}*q_{\text{it}}}}{\sum_{i = 1}^{n}{p_{i0}*q_{it}}}$$
Agregatowe indeksy ilości:
Zmiana wartości sprzedaży agregatu produktów może również wynikać ze zmiany ilości sprzedaży tych produktów. Obliczamy wtedy agregatowe indeksy ilości, w których przyjmuje się, iż ceny produktów są na stałym poziomie
Agregatowy indeks ilości o formule Laspeyresa:
W którym ceny produktów ustalane są na poziomie bazowym (p0)
$$I_{q/p0} = \frac{\sum_{i = 1}^{n}{p_{i0}*q_{\text{it}}}}{\sum_{i = 1}^{n}{p_{i0}*q_{i0}}}$$
Agregatowy indeks ilości o formule Paaschego:
W którym ceny produktów ustalane są na poziomie badanym (pt)
$$I_{q/pt} = \frac{\sum_{i = 1}^{n}{p_{\text{it}}*q_{\text{it}}}}{\sum_{i = 1}^{n}{p_{it}*q_{i0}}}$$
Agregatowe indeksy Fishera
Agregatowe indeksy Fishera to średnie geometryczne z indeksów (cen lub ilości) według formuł Laspeyresa i Paaschego
Agregatowy indeks cen Fishera
WZÓR
Agregatowy indeks ilości Fishera
WZÓR
Zależności dla indeksów agregatowych
Między agregatowymi indeksami cen, ilości i wartości zachodzą następujące związki:
Iw = Ip/q0 * Iq/p0 WZÓR
Relacje te wykorzystujemy do obliczania indeksów cen lub ilości metodą pośrednią, np.
WZÓR
Przedmiot badań statystycznych – przypomnienie
Populacja – Przedmiotem badań statystycznych jest zbiór jednostek statystycznych podobnych pod względem określonych własności (np. mieszkańcy Śląska, firmy z branży informatycznej, itp.). Ów zbiór nazywany populacją (zbiorowością statystyczną).
Próba – Ponieważ bezpośrednie badania populacji są zbyt kosztowne i czasochłonne, a często wręcz niemożliwe, w statystyce w tym celu wykorzystuje się próbę, która stanowi podzbiór populacji.
Statystyka opisowa, a statystyka matematyczna
W ramach statystyki można wyróżnić dwa duże filary:
Statystyka opisowa
Badamy próbę i stawiamy wnioski (syntetycznie
Statystyka matematyczna
...
Schemat wnioskowania statystycznego
Definicje podstawowych pojęć:
Doświadczenie losowe – eksperyment, którego wyniku nie można przewidzieć
Zdarzenie losowe – wynik (rezultat) doświadczenia losowego
Zdarzenie elementarne – niepodzielny rezultat doświadczenia losowego
Przestrzeń zdarzeń elementarnych Ω – zbiór wszystkich zdarzeń elementarnych
Definicje prawdopodobieństwa:
Zdarzenie pewne – Ω
Zdarzenie niemożliwe – ∅
Zdarzenie wykluczające się (rozłączne) – jeśli Ai ∩ Aj = ⌀, i ≠ j
Klasyczna (szkolna) definicja prawdopodobieństwa
$$P\left( A \right) = \frac{k}{n}$$
k – liczba zdarzeń elementarnych sprzyjających zdarzeniu A
n – liczba wszystkich zdarzeń elementarnych, jednakowo prawdopodobnych
Definicja klasyczna …
Częstościowa (statystyczna) definicja prawdopodobieństwa
$$P(A) \approx \frac{m}{n}$$
m – liczba wyników doświadczeń sprzyjających zdarzeniu A
n – liczba wszystkich przeprowadzonych doświadczeń
Geometryczna definicja prawdopodobieństwa
WZÓR
p(A) – pole powierzchni obszaru reprezentującego zdarzenie A
p(Ω) - …
Najlepsza definicja prawdopodobieństwa
F nazywamy ciałem zdarzeń, jeśli:
Ω