wykłady statystyka

25.02.10

WYKŁAD 1. WPROWADZENIE DO PRZEDMIOTU.

  1. POCZĄTKI STATYSTYKI, PODSTAWY METODOLOGICZNE:

- Termin „statystyka” pochodzi od łacińskiego słowa status, czyli państwo. Pierwotnie oznaczał zbiór szeroko ujmowanych wiadomości o państwie (G.Achenwall, 1719 – 1772).

- Wyniki opisu liczbowego zwykle ujmowano w postaci zestawień tabelarycznych, które służyły głównie administracji państwowej.

- Pierwsze tablice:

Okres ten można nazwać tabelaryzmem, a przedstawicieli tabelarystami.

- Rozwój statystyki jako nauki wiąże się z działalnością badawczą, tzw. arytmetyków politycznych [J. Graunt (1620 – 1674), W. Petty (1623 – 1687)].

- Podstawę teoretyczną nowoczesnej statystyki stanowi teoria rachunku prawdopodobieństwa (początek – II poł. XVII w.):

- W wyniku dalszego rozwoju statystyki na początku XX w. ukształtowała się metoda reprezentacyjnych badań statystycznych.

  1. PRÓBA DEFINICJI.

W ujęciu szerszym – termin „statystyka” oznacza naukę społeczną, która bada ilościową stronę zjawisk masowych oraz formułuje prawidłowości rozwoju tych zjawisk.

W węższym ujęciu – pojęcie „statystyka” oznacza zbiór informacji dotyczących zjawisk gospodarczych, społecznych, przyrodniczych, itp.

  1. PRZEDMIOT I ZAKRES BADAŃ.

Przedmiotem badań statystycznych są zbiorowości osób, rzeczy lub zjawisk. Określenie

przedmiotu i zakresu badań statystycznych polega więc na dokładnym ustaleniu zbiorowości, jednostki statystycznej oraz cech statystycznych.

  1. STATYSTYKA OPISOWA A STATYSTYKA MATEMATYCZNA.

  1. Badanie zbiorowości ze względu na jedną cechę, np. określenie poziomu średniego zróżnicowania, asymetrii, rozkładu, konwersacji.

  2. Badanie zależności zjawisk masowych, tj.:

- Badanie zbiorowości ze względu na dwie cechy jednocześnie, np. stać pracy i wydajność, kwalifikacje i zarobki, sprzedaż i wydatki na reklamę, wielkość produkcji i liczba braków.

  1. Badanie dynamiki zjawisk masowych, tzn.:

- Badanie przebiegu zjawisk w czasie.

  1. W zakresie struktury zjawisk masowych – wnioskowanie statystyczne z podziałem na:

- estymację parametrów populacji,

- weryfikację hipotez statystycznych dotyczących parametrów oraz rozkładów cech (zmiennych).

  1. W zakresie zależności zjawisk masowych – wnioskowanie dotyczące:

- korelacji,

- regresji.

  1. W zakresie dynamiki zjawisk masowych – wnioskowanie statystyczne obejmuje mianem PROGNOZOWANIA.

  1. ETAPY BADANIA STATYSTYCZNEGO:

  1. Przygotowanie badania statystycznego:

- cele ogólne,

- szczegółowe hipotezy robocze,

- definicja ZBIOROWOŚCI STATYSTYCZNEJ (zbiorowość statystyczna – pewna, zwykle duża, liczba jednostek – osób, rzeczy lub zjawisk – posiadających jedną lub kilka cech stałych – wspólnych – oraz wiele cech zmiennych, których warianty różnią poszczególne jednostki wchodzące w skład zbiorowości statystycznej. Kryteria podziału zbiorowości społecznej – skończenie i nieskończenie liczne, statyczne i dynamiczne, proste i złożone, jednorodne i niejednorodne) i JEDNOSTKI STATYSTYCZNEJ (jednostka statystyczna – pojedynczy element (osoba, przedmiot, itp.) zbiorowości statystycznej mający takie same cechy stałe tak, jak wszystkie jednostki zbiorowości statystycznej).

- podstawą określenia zakresu badania statystycznego jest określenie CECH STATYSTYCZNYCH.

CECHY STATYSTYCZNE (właściwości, których odmiany lub wartości (natężenie) wyróżnia jednostki wchodzące w skład zbiorowości statystycznej).
STAŁE
Określają jednostki pod względem rzeczowym, czasowym i przestrzennym.
METODY BADANIA STATYSTYCZNEGO
BADANIE PEŁNE

- ciągłe – np. ewidencja urodzeń,

- doraźne – np. straty spowodowane wypadkiem,

- okresowe – np. spis ludności, spis rolny, inwentaryzacja.

- spisy,

- rejestracja bieżąca i sprawozdawczość,

- inne sposoby.

  1. Obserwacja statystyczna:

- formalna (ilościowa),

- merytoryczna (jakościowa).

- typologiczne – w oparciu o cechę jakościową,

- wariancyjne – w oparciu o cechę ilościową.

  1. Prezentacja MATERIAŁU STATYSTYCZNEGO (PIERWOTNY – zbieramy informacje do konkretnego badania, WTÓRNY – korzystamy z informacji już zebranych):

- szczegółowe – materiał statystyczny uporządkowany według wariantów jednej cechy,

- rozdzielcze,

- kumulacyjne – szereg, który powstaje w drodze dodawania kolejnych, cząstkowych liczebności.

- proste – szereg rozdzielczy (dwie kolumny, warianty i odpowiadające im liczebności),

- złożone – zjawisko prezentowane ze względu na dwie cechy X i Y – w jednej tablicy przedstawiony jest rozkład zbiorowości ze względu na te cechy,

- robocze – pogrupowany materiał statystyczny,

- wynikowe – możliwość wnioskowania z przygotowanej tablicy.

- powierzchniowe – dzięki nim można scharakteryzować strukturę zbiorowości ze względu na jakąś cechę,

- punktowe,

- liniowe,

- histogramy,

- pasmowe,

- bryłowe,

- kartogramy,

- kombinowane,

- specjalne.

  1. Analiza:

PRZYKŁAD 1.

Wychowanków pewnego Domu Dziecka uciekających z ośrodka „zbadano” pod względem przyczyn ucieczek. Wśród przyczyn ucieczek wyodrębniono następujące: presja grupy (18), trudności adaptacyjne (10), tęsknota za domem (6), włóczęgostwo (4), strach przed karą (2).

Ustalenie wariantów badanej cechy i przyporządkowanie ich uciekającym pozwala na dokonanie grupowania typologicznego i jednocześnie otrzymanie szeregu statystycznego postaci:

Przyczyny ucieczek Liczba wychowanków

presja grupy

trudności adaptacyjne

tęsknota za domem

włóczęgostwo

strach przed karą

18

10

6

4

2

PRZYKŁAD 2.

Grupę studentów (122 osoby) zapytano o czas, jaki w ostatnim tygodniu poświęcili na naukę w bibliotece. 28 studentów odpowiedziało, że nie więcej niż 3 godziny, 42 – w granicach: (3,6] godzin, 30 – między (6,9] godzin, 15 – powyżej 9, ale nie więcej niż 12 godzin, natomiast 7 osób poinformowało, że (12,15] godzin. Informacje te pozwalają na dokonanie grupowania wariancyjnego i utworzenie szeregu rozdzielczego przedziałowego, tj.

Liczba studentów Czas poświęcony na naukę

28

42

30

15

9

0-3

3-6

6-9

9-12

12-15

4.03.10

WYKŁAD 2. ROZKŁADY EMPIRYCZNE.

  1. Pojęcie rozkładu empirycznego (EGZAMIN).

  2. Częstość i dystrybuanta empiryczna.

  3. Podstawowe typy rozkładów empirycznych.

  4. Badanie własności rozkładów empirycznych.

Rozkłady teoretyczne zmiennych (EGZAMIN) – wymienić.

OPIS STATYSTYCZNY (rozważmy cechę X):

Poszczególne warianty cechy X: x1, x2, …, xN

xi : x1 ≤ x2 ≤ … ≤ xN

$\left\{ \begin{matrix} x_{i}:\ x_{1}\ < x_{2} < \ldots < x_{k} \\ n_{i}:n_{1\ } < \ n_{2} < \ldots < n_{k} \\ w_{i}:w_{1} < w_{2} < \ldots{< w}_{k} \\ \end{matrix} \right.\ $

Gdzie: $w_{i} = \frac{n_{i}}{N}\ (czestosc)$

ROZKŁADEM EMPIRYCZNYM cechy nazywamy przyporządkowanie kolejnym wartościom tej cechy odpowiadających im liczebności lub częstości.

DYSTRYBUANTĄ EMPIRYCZNĄ nazywamy przyporządkowanie kolejnym wartościom tej cechy odpowiadających im liczebności (częstości) skumulowanych.

Empiryczny rozkład cechy można przedstawić na wykresie otrzymując, tzw. KRZYWĄ LICZEBNOŚCI.

KRZYWA LICZEBNOŚCI jest to linia łącząca punkty o współrzędnych: (xi, ni).

RODZAJE ROZKŁADÓW EMPIRYCZNYCH:

Graficzna ilustracja zjawiska asymetrii.

Graficzna ilustracja zjawiska koncentracji (kurtozy).

ANALIZA STRUKTURY ZJAWISK MASOWYCH.

Wskaźniki struktury i natężenia, tendencja centralna w zakresie kształtowania się wartości zjawiska, zróżnicowanie wartości, asymetria rozkładu, koncentracja.

EGZAMIN – zagadnienia omawiane w analizie struktury zjawisk masowych.

11.03.10

WYKŁAD 3. MIARY TENDENCJI CENTRALNEJ.

  1. Istota tendencji centralnej.

  2. Miary klasyczne.

  3. Miary pozycyjne.

  4. Wnioski.

TENDENCJA CENTRALNA – wzrastanie liczebności w miarę, gdy maleją odległości pomiędzy konkretnymi wartościami zmiennej, a wartością środkową.

ŚREDNIA ARYTMETYCZNA – wartość przeciętna.


$$\overset{\overline{}}{x} = \frac{\sum_{i = 1}^{N}x_{i}}{N}$$

Gdzie:

xi – określona wartość zmiennej X,

N – liczba jednostek w badanej zbiorowości.


$$\sum_{i = 1}^{k}{n_{i} = N}$$

Gdzie:

k – liczba klas, na które podzielono zbiorowość.

ni – liczebności.

WŁASNOŚCI ŚREDNIEJ ARYTMETYCZNEJ:

  1. Jako miara klasyczna jest wypadkową wszystkich wartości zmiennej i spełnia nierówność: $x_{\text{min\ }} < \overset{\overline{}}{x} < x_{\max}$

  2. Suma odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej jest równa zeru, tj.:


$$\sum_{\mathbf{i = 1}}^{\mathbf{N}}{\left( \mathbf{x}_{\mathbf{i}}\mathbf{-}\overset{\overline{}}{\mathbf{x}} \right)\mathbf{= 0}}\mathbf{,\ }dla\ szeregu\ szczegolowego$$


$$\sum_{\mathbf{i = 1}}^{\mathbf{k}}{\left( \mathbf{x}_{\mathbf{i}}\mathbf{-}\overset{\overline{}}{\mathbf{x}} \right)\mathbf{n}_{\mathbf{i}}\mathbf{= 0}}\mathbf{,\ }\text{dla\ szeregu\ rozdzielczego.}$$

  1. Jeżeli wszystkie wartości zmiennej powiększymy (pomniejszymy, podzielimy lub pomnożymy) o pewną stałą, to średnia arytmetyczna będzie równa sumie (różnicy, ilorazowi, iloczynowi) średniej arytmetycznej wyjściowych wartości i tej stałej.

  2. Jeżeli liczebności poszczególnych wariantów cechy są jednakowe, to średnią arytmetyczną można obliczyć jako iloraz sumy wartości wariantów i ich liczby.

  3. Suma wartości zmiennej jest równa iloczynowi średniej arytmetycznej i liczebności zbiorowości, tj.:


$$\sum_{i = 1}^{N}{x_{i} = N\overset{\overline{}}{x}}$$

  1. Na poziom średniej arytmetycznej silny wpływ wywierają wartości skrajne. Jeśli występują one w szeregu i odbiegają od całej reszty to średnia ważona nie będzie przedstawiała poziomu przeciętnego zjawiska.

ŚREDNIE POZYCYJNE:


D = xi(max ni)


$$D = x_{D} + \frac{n_{D} - n_{- 1}}{\left( n_{D} - n_{- 1} \right) + (n_{D} - n_{+ 1})}h_{D}$$

Gdzie:

xD −  dolna granica przedzialu dominanty

nD −  liczebnosc przedzialu dominanty

n−1 −  liczebnosc przedzialu poprzedzajacego przedzial dominanty

n+1 −  liczebnosc przedzialu nastepujacego po przedziale dominanty

hD −  rozpietosc przedzialu dominanty

11.03.10

Pozycję kwartyla w szeregu można wyznaczyć według wzoru:


$$\text{Poz}Q_{r} = r\frac{N\left( + 1 \right)}{4},\ \ \ \ \ r = 1,2,3$$

Musimy mieć przynajmniej uporządkowany materiał, aby wyznaczyć kwartyle.

KWARTYL PIERWSZY – wartość zmiennej w rozkładzie empirycznym, poniżej której znajduje się 25% jednostek badanej zbiorowości.


$$Q_{1} = x_{Q1} + \frac{\frac{N}{4} - n_{sk - 1}}{n_{Q1}}h_{Q1}$$

KWARTYL DRUGI (mediana) – środkowa wartość cechy, dzieląca zbiorowość na dwie równe liczebnie części: część wartości mniejszych lub równych medianie oraz część wartości większych lub równych medianie.


$$\text{Me} = \left\{ \begin{matrix} x_{\frac{N + 1}{2}},\ \ gdy\ N\ nieparzyste \\ \frac{1}{2}\left\lbrack x_{\frac{N}{2}} + x_{\frac{N}{2} + 1} \right\rbrack,\ gdy\ N\ parzyste \\ \end{matrix} \right.\ $$

KWARTYL TRZECI – wartość zmiennej w rozkładzie empirycznym, poniżej której znajduje się 75% jednostek badanej zbiorowości.


$$Q_{3} = x_{Q3} + \frac{\frac{3N}{4} - n_{sk - 1}}{n_{Q3}}h_{Q3}$$

Wnioski:

  1. Mówienie o tendencji centralnej jest uzasadnione w sytuacjach rozkładów symetrycznych oraz zbliżonych do symetrycznych.

  2. Istnieją różne miary tendencji centralnej, mniej lub bardziej odporne na własności rozkładu.

  3. Stosowanie odpowiednich miar wymaga spełnienia określonych warunków.

  4. Niespełnienie jednych warunków powoduje utratę wartości poznawczej obliczonych miar, innych zaś uniemożliwia nawet ich obliczenie.

WYKŁAD 4. MIARY ZRÓŻNICOWANIA.

  1. Do miar zróżnicowania (dyspersji/rozproszenia) należą:

  1. OBSZAR ZMIENNOŚCI (tzw. rozstęp) – jest to różnica między największą a najmniejszą wartością zmiennej. Obszar zmienności wyraża się wzorem:


Rx = xmax − xmin

Jest on miarą mało dokładną, uzależnioną w dużym stopniu od wielkości skrajnych. Ograniczenia stosowania tej miary są następujące:

  1. ODCHYLENIE ĆWIARTKOWE wyraża się wzorem:


$$Q_{x} = \frac{Q_{3} - Q_{1}}{2}$$

i mierzy przeciętną różnicę między wartością badanej cechy a wartością środkową. Jest to ½ obszaru zmienności 50% środkowych jednostek zbiorowości, mierzy więc rozstęp pokryty przez połowę wszystkich obserwacji. Dzięki wyeliminowaniu wpływu na tę miarę zmienności wartości skrajnych (z I i II ćwiartki), odchylenie ćwiartkowe jest bardziej precyzyjną miarą niż obszar zmienności.

  1. ODCHYLENIE PRZECIĘTNE oblicza się według wzoru:


$$d_{x} = \frac{\sum_{i = 1}^{N}\left| x_{i} - \overset{\overline{}}{x} \right|}{N},\ \text{dla\ danych\ indywidualnych}$$

lub według wzorów:


$$d_{x} = \frac{\sum_{i = 1}^{k}{\left| x_{i} - \overset{\overline{}}{x} \right|n_{i}}}{N}\text{\ \ }d_{x} = \frac{\sum_{i = 1}^{k}{\left| \dot{x_{i}} - \overset{\overline{}}{x} \right|n_{i}}}{N}\ ,\ dla\ szeregow\ rozdzielczych$$

EGZAMIN – Ocenić przeciętne zróżnicowanie cechy w zbiorowości.

Jest to średnia arytmetyczna z bezwzględnych wartości odchyleń zmiennej od średniej arytmetycznej.

Interpretacja: odpowiada na pytanie, ile przeciętnie różnią się wartości badanej cechy od wartości średniej.

  1. WARIANCJA I ODCHYLENIE STANDARDOWE.

Średnia arytmetyczna kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej nazywa się WARIANCJĄ tej zmiennej.

Pierwiastek z wariancji zaś nazywa się ODCHYLENIEM STANDARDOWYM.

Wzory pozwalające na obliczenie wartości wariancji są następujące:


$$S^{2}\left( x \right) = \frac{\sum_{i = 1}^{N}\left( x_{i} - \overset{\overline{}}{x} \right)^{2}}{N},\ dla\ danych\ indywidualnych$$


$$S^{2}\left( x \right) = \frac{\sum_{i = 1}^{N}{\left( x_{i} - \overset{\overline{}}{x} \right)^{2}n_{i}}}{N}\text{\ oraz\ }S^{2}\left( x \right) = \frac{\sum_{i = 1}^{N}{\left( \dot{x_{i}} - \overset{\overline{}}{x} \right)^{2}n_{i}}}{N},dla\ szeregow\ rozdzielczych$$

Zatem odchylenie standardowe, np. z szeregu rozdzielczego przedziałowego obliczymy według wzoru:


$$S\left( x \right) = \sqrt{\frac{\sum_{i = 1}^{k}{\left( \dot{x_{i}} - \overset{\overline{}}{x} \right)^{2}n_{i}}}{N}}$$

Interpretacja: Podobnie jak odchylenie przeciętne, odchylenie standardowe określa przeciętną różnicę pomiędzy wartościami poszczególnych jednostek zbiorowości a wartością średnią.

RÓWNOŚĆ WARIANCYJNA.


$$\mathbf{S}^{\mathbf{2}}\left( \mathbf{x} \right)\mathbf{=}\overset{\overline{}}{\mathbf{S}_{\mathbf{j}}^{\mathbf{2}}\mathbf{(x)}}\mathbf{+}\mathbf{S}^{\mathbf{2}}\left( {\overset{\overline{}}{\mathbf{x}}}_{\mathbf{j}} \right)\ \ \ \ \ j = 1,2$$

Wzór na EGZAMIN!!

Gdzie:


$$\overset{\overline{}}{S_{j}^{2}(x)} = \frac{\sum_{j}^{}{S_{j}^{2}(x)n_{j}}}{N} - \ wariancja\ wewnatrzgrupowa$$


$$\overset{\overline{}}{S_{j}^{2}(x)} = \frac{\sum_{j}^{}{\left( {\overset{\overline{}}{x}}_{j} - \overset{\overline{}}{x} \right)n_{j}}}{N} - \ wariancja\ miedzygrupowa$$

  1. WSPÓŁCZYNNIKI ZMIENNOŚCI są względnymi miarami zróżnicowania. Stosowane są do oceny zróżnicowania, a także do porównań, gdy badane zjawisko mierzone jest w różnych jednostkach miary lub kształtuje się na niejednakowym poziomie przeciętnym. W zależności od zastosowanej miary bezwzględnej zróżnicowania stosuje się odpowiednie współczynniki zmienności, tj.:


$$V_{x} = \frac{d_{x}}{\overset{\overline{}}{x}},\ \ \ V_{x} = \frac{S(x)}{\overset{\overline{}}{x}},\ \text{\ V}_{x} = \frac{Q_{x}}{\text{Me}},\ V_{x} = \frac{Q_{3} - Q_{1}}{Q_{3} + Q_{1}}$$

18.03.10

WYKŁAD 5. MIARY ASYMETRII.

Asymetria rozkładu cechy (zmiennej) oznacza przewagę pewnej grupy jednostek w badanej zbiorowości. Jeśli przeważają jednostki, których wartości przewyższają poziom średni, to mamy do czynienia z asymetrią lewostronną (ujemną). W sytuacji odwrotnej, tj. gdy przeważają jednostki, których wartości są niższe od średniej, to taką asymetrię określa się mianem prawostronnej (dodatniej), np. płace.

Wystąpienie asymetrii rozkładu powoduje określone konsekwencje. W szeregu o skłonności prawostronnej wartości skrajne położone są z prawej strony średniej. Powoduje to przesunięcie średniej arytmetycznej w kierunku prawym w stosunku do dominanty i mediany

$\left( D < \text{Me} < \overset{\overline{}}{x} \right)\text{.\ }$Odwrotnie jest w przypadku skłonności lewostronnej $\left( \overset{\overline{}}{x} < Me < D \right).$ W rozkładach symetrycznych $D = Me = \overset{\overline{}}{x}.$

Wniosek: w celu wykrycia i określenia charakteru asymetrii można posłużyć się różnicą pomiędzy wspomnianymi miarami przeciętnymi.

Najczęściej stosowane miary asymetrii wyrażają się wzorami:


$$M_{A} = \overset{\overline{}}{x} - D$$


$$M_{A} = 3\left( \overset{\overline{}}{x} - Me \right)$$


$$M_{A} = \frac{3\left( Me - D \right)}{2}$$


MA = (Q3Me) − (MeQ1) = Q1 + Q3 − 2Me

Są to miary bezwzględne, zatem nieprzydatne do porównań i oceny skali zjawiska asymetrii.

Względnymi miarami asymetrii są, tzw. WSPÓŁCZYNNIKI SKOŚNOŚCI:


$$W_{S} = \frac{3\left( \overset{\overline{}}{x} - Me \right)}{S\left( x \right)}$$


$$W_{S} = \frac{\frac{3}{2}\left( Me - D \right)}{S\left( x \right)}$$


$$W_{S} = \frac{\left( Q_{3} - Me \right) - \left( Me - Q_{1} \right)}{2Q_{x}}$$

Innym sposobem badania asymetrii jest tzw. moment trzeci centralny.

Określenie: dowolnym r-tym momentem rozkładu nazywamy średnią arytmetyczną z odchyleń poszczególnych wartości zmiennej X od dowolnej liczby q podniesionych r-tej potęgi.

Ogólnie:


$$M_{r} = \frac{\sum_{i = 1}^{k}{\left( x_{i} - q \right)^{r}n_{i}}}{N},\ r = 1,2,\ldots$$

Gdy q=0, to otrzymuje się momenty zwykłe (mr)

Gdy $q = \overset{\overline{}}{x}$, to otrzymuje się momenty centralne (μr)

Do badania asymetrii wykorzystuje się moment trzeci centralny:


$$\mu_{3} = \frac{\sum_{i = 1}^{k}{\left( x_{i} - \overset{\overline{}}{x} \right)^{3}n_{i}}}{N}$$

Względną miarą asymetrii jest w tym wypadku moment trzeci centralny wyrażony w jednostkach odchylenia standardowego:


$$W_{S} = \frac{\frac{1}{N}\sum_{i = 1}^{k}{\left( x_{i} - \overset{\overline{}}{x} \right)^{3}n_{i}}}{S^{3}(x)} = \frac{\mu_{3}}{\left( \sqrt{\mu_{2}} \right)^{3}}$$

Miara ta może posłużyć do oceny stopnia (asymetrii) skośności danego rozkładu oraz do porównań skłonności różnych rozkładów.

WYKŁAD 6. MIARY KONCENTRACJI.

  1. Koncentracja zbiorowości wokół średniej – kurtoza.

Chodzi tu o badanie stopnia skupiania się wartości badanej cechy wokół wartości średniej.

Według tego kryterium wyróżnia się rozkłady wysmukłe i spłaszczone. Podstawą określenia badanego rozkładu jako smukłego lub też spłaszczonego jest porównanie go z rozkładem normalnym.

Bezwzględną miarą kurtozy jest czwarty moment centralny, tj.:


$$\mu_{4} = \frac{\sum_{i = 1}^{k}{\left( x_{i} - \overset{\overline{}}{x} \right)^{4}n_{i}}}{N}$$

Odpowiednio, względną miarą współczynnika koncentracji wyrażony wzorem:


$$W_{k} = \frac{\frac{1}{N}\sum_{i = 1}^{k}{\left( x_{i} - \overset{\overline{}}{x} \right)^{4}n_{i}}}{S^{4}(x)} = \frac{\mu_{4}}{\mu_{2}^{2}}$$

  1. Nierównomierny rozkład zjawiska w zbiorowości utożsamia się z koncentracją rozkładu jednostek zbiorowości (ni) z rozkładem cząstkowych wartości (xini). Im większy jest stopień odmienności tych rozkładów, tym silniejsza jest koncentracja.

Krzywa Lorentza w badaniu koncentracji. Etapy postępowania:


$$w_{i} = \frac{n_{i}}{N}$$

oraz udziałów wartości cząstkowych w ogólnej sumie wartości zmiennej X, tj.:


$$z_{i} = \frac{x_{i}}{\sum_{i = 1}^{N}x_{i}}\text{\ \ \ lub\ }x_{i} = \frac{x_{i}n_{i}}{\sum_{i = 1}^{k}{x_{i}n_{i}}}$$

W kwadracie o boku jeden wykreśla się krzywą o współrzędnych (Wi, Zi). Dla Wi=Zi otrzymuje się tzw. linię równomiernego rozkładu. Jest to przekątna kwadratu. Odpowiada ona sytuacji całkowitego braku koncentracji.

Wniosek: im bardziej od przekątnej odchyla się wyznaczona krzywa, ty, silniejsza jest koncentracja.

Zmierzenie siły koncentracji.

Wykorzystuje się stosunek powierzchni zawartej między krzywą koncentracji, a linią równomiernego rozkładu od ogólnej powierzchni trójkąta. Otrzymuje się:


$$K = \frac{a}{a + b}$$

Metoda prostokątów w wyznaczeniu współczynnika K. Długość podstawy prostokąta wynosi wi, wysokość wyznacza wzór:


$$\overset{\overline{}}{Z_{i}} = \frac{Z_{i - 1} + Z_{i}}{2},\ a\ pole\ P_{i} = \overset{\overline{}}{Z_{i}}w_{i}$$


$$b = \sum_{i = 1}^{k}{P_{i} = \sum_{i = 1}^{k}{\overset{\overline{}}{Z_{i}}w_{i}}}$$

Zatem:


$$K = \frac{0,5 - \sum_{i = 1}^{k}{\overset{\overline{}}{Z_{i}}w_{i}}}{0,5} = \frac{0,5 - \sum_{i = 1}^{k}{\left\lbrack \frac{Z_{i - 1} + Z_{i}}{2} \right\rbrack w_{i}}}{0,5} = 1 - \sum_{i = 1}^{k}{\left( Z_{i - 1} + Z_{i} \right)w_{i}}$$

Uwaga: 0 ≤ K ≤ 1

25.03.10

WYKŁAD 7. ANALIZA WSPÓŁZALEŻNOŚCI ZJAWISK.

EGZAMIN: Wymienić i scharakteryzować jedną rzecz z tego zakresu (zagadnienia, które wchodzą w skład analizy współzależności ze względu na daną cechę). Istota asymetrii, podanie empirycznego przykładu rozkładu o asymetrii np. prawo/lewostronnie, a w szczególności rozkładu symetrycznego, dwa rozumienia koncentracji.

  1. Charakter związków w przypadku zjawisk ekonomiczno – społecznych.

Pomiędzy logicznie powiązanymi cechami mogą zachodzić określone związki (np. związek między wydajnością pracy a stażem pracy, związek między wynagrodzeniami a kwalifikacjami pracowników, związek między wydatkami na żywność gospodarstwa domowego a liczbą członków rodziny, itp.).

Pytanie: Czy związki pomiędzy zjawiskami ekonomiczno – społecznymi mają charakter związków funkcyjnych?

Istota zależności funkcyjnej – związki funkcyjne charakteryzujące się tym, że danej wartości zmiennej niezależnej odpowiada jedna i tylko jedna wartość – zmiennej zależnej. Fakt ten można wyrazić w postaci następującej formuły ogólnej: Y = f(X).

Zależności między zjawiskami ekonomiczno – społecznymi nie podlegają takiemu schematowi opisu. Mają one bardziej złożony charakter. Na zmienną zależną wpływa często wiele zmiennych niezależnych, z różną siłą i w różnych kierunkach, przy czym w danym badaniu uwzględnia się tylko niektóre spośród tych zmiennych niezależnych. Pojawia się potrzeba zdefiniowania tzw. zależności stochastycznej.

ZALEŻNOŚĆ STOCHASTYCZNĄ między X i Y można wyrazić w następującej postaci ogólnej:


Y = f(X) + η.

Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna.

ZALEŻNOŚĆ KORELACYJNA charakteryzuje się tym, że określonym wartościom cechy X odpowiadają różniące się poziomami warunkowe średnie wartości cechy Y.

Wśród związków stochastycznych, w szczególności korelacyjnych, wyróżnia się:

- obiektywny charakter,

- siła sprawcza przyczyny w stosunku do skutku,

- asymetryczność – to przyczyna wpływa na skutek, a nie odwrotnie;

- odstęp czasowy między przyczyną a skutkiem – wcześniej musi zajść przyczyna, żeby później skutek mógł się zrealizować.

Zależności przyczynowo – skutkowe mają charakter zależności jednostronnych (X → Y)

Ze względu na kierunki zmian w wartościach cechy X i Y wyróżnia się korelację ujemną lub dodatnią.

KORELACJA UJEMNA – wzrostom wartości cechy X towarzyszy stały spadek średniej wartości cechy Y lub wzrostom wartości cechy Y towarzyszy stały spadek średniej wartości cechy X ( w wartościach obu cech występują różnokierunkowe zmiany).

KORELACJA DODATNIA – wzrostom wartości cechy X towarzyszy stały wzrost średniej wartości cechy Y lub spadkowi wartości cechy X towarzyszy stały spadek średniej wartości cechy Y (W wartościach obu cech występują jednokierunkowe zmiany).

Ze względu na zmiany wartości cechy X i związane z nimi zmiany w średniej wartości cechy Y (lub odwrotnie) można mówić również o związkach liniowych i nieliniowych (krzywoliniowych).

ZWIĄZKI LINIOWE występują wówczas, gdy stałym przyrostom wartości cechy X odpowiadają względnie stałe przyrosty lub spadki cechy Y (lub odwrotnie).

  1. Metody badania związku cech.

Metody badania związku cech są zdeterminowane formą prezentacji danych statystycznych oraz rodzajami cech statystycznych.

Generalne metody badania związku cech opierają się albo na porównaniu szeregów empirycznych, albo na analizie tablicy korelacyjnej.

Tabela.1 Metody pomiaru związku cech w zależności od rodzaju cech.

cecha zależna cecha niezależna
dane nominalne
dane nominalne współczynnik V Cramera
dane porządkowe współczynnik V Cramera
dane przedziałowe lub ilorazowe współczynnik η

EGZAMIN – jakie są kryteria wyboru metody badania związku cech – forma prezentacji danych, mierzalność.

W zależności od walorów poznawczych stosowanych metod badania związku cech można mówić o:

1.04.10

W zależności od walorów poznawczych stosowanych metod badania związku cech można mówić o:

- metodach umożliwiających wykrycie zależności i określenie jej kierunku,

- metodach pozwalających określić siłę związku,

- metodach pozwalających określić siłę i kierunek związku.

ANALIZA TABLICY KORELACYJNEJ.


x0i − x1i

y0i − y1j

y01 − y11


x01 − x11


x02 − x12


x0k − x1k


n11


n21


nkl


n.j

n.1

k – warianty x

l – warianty y

Określenie 1.

Rozkładem warunkowym zmiennej X nazywamy rozkład, który tworzą jednostki posiadające kolejne warianty zmiennej X i jeden ustalony wariant zmiennej Y (X | Y = yj).

Rozkładem warunkowym zmiennej Y nazywamy rozkład, który tworzą jednostki posiadające kolejne warianty zmiennej Y i jeden ustalony wariant zmiennej X (Y | X = xi).

Określenie 2.

Rozkładem brzegowym zmiennej X nazywamy rozkład, który tworzą jednostki posiadające kolejne warianty zmiennej X i odpowiadające im warianty zmiennej Y.

Rozkładem brzegowym zmiennej Y nazywamy rozkład, który tworzą jednostki posiadające kolejne warianty zmiennej Y i odpowiadające im warianty zmiennej X.

Zachodzą następujące równości:


$$\sum_{i = 1}^{k}{n_{\text{ij}} = n_{\text{.j}}}$$


$$\sum_{j = 1}^{l}{n_{\text{ij}} = n_{\text{i.}}}$$


$$\sum_{i = 1}^{k}{n_{\text{i.}} = n}$$


$$\sum_{j = 1}^{l}{n_{\text{.j}} = n}$$


$$\sum_{i = 1}^{k}{\sum_{j = 1}^{l}{n_{\text{ij}} =}}\sum_{j = 1}^{l}{\sum_{i = 1}^{k}{n_{\text{ij}} = n}}$$

  1. Charakterystyki opisowe rozkładów brzegowych i warunkowych – parametry rozkładów.

Charakterystyki rozkładów brzegowych wyróżniają się następującymi wzorami:


$$\overset{\overline{}}{x} = \frac{\sum_{i = 1}^{k}{x_{i}n_{i}}}{n} \approx \frac{\sum_{i = 1}^{k}{\dot{x_{i}}n_{\text{i.}}}}{n}$$


$$\overset{\overline{}}{y} = \frac{\sum_{j = 1}^{l}{y_{j}\text{n.}_{j}}}{n} \approx \frac{\sum_{j = 1}^{l}{\dot{y_{j}}\text{n.}_{j}}}{n}$$


$$S^{2}\left( x \right) = \frac{\sum_{i = 1}^{k}{\left( x_{i} - \overset{\overline{}}{x} \right)^{2}n_{i}}}{n} \approx \frac{\sum_{i = 1}^{k}{\left( \dot{x_{i}} - \overset{\overline{}}{x} \right)^{2}n_{i}}}{n}$$


$$S^{2}\left( y \right) = \frac{\sum_{i = 1}^{k}{\left( y_{j} - \overset{\overline{}}{y} \right)^{2}n_{\text{.j}}}}{n} \approx \frac{\sum_{i = 1}^{k}{\left( \dot{y_{j}} - \overset{\overline{}}{y} \right)^{2}n_{\text{.j}}}}{n}$$

Dla rozkładów warunkowych otrzymujemy:


$$\overset{\overline{}}{x_{j}} = \frac{\sum_{i = 1}^{k}{x_{i}n_{\text{ij}}}}{n_{\text{.j}}} \approx \frac{\sum_{i = 1}^{k}{\dot{x_{i}}n_{\text{ij}}}}{n_{\text{.j}}}$$


$$\overset{\overline{}}{y_{i}} = \frac{\sum_{i = 1}^{k}{y_{j}n_{\text{ij}}}}{n_{\text{i.}}} \approx \frac{\sum_{i = 1}^{k}{\dot{y_{j}}n_{\text{ij}}}}{n_{\text{i.}}}$$


$$S_{j}^{2}\left( x \right) = \frac{\sum_{i = 1}^{k}{\left( x_{i} - \overset{\overline{}}{x} \right)^{2}n_{\text{ij}}}}{n_{\text{.j}}} \approx \frac{\sum_{i = 1}^{k}{\left( \dot{x_{i}} - \overset{\overline{}}{x} \right)^{2}n_{\text{ij}}}}{n_{\text{.j}}}$$


$$S_{i}^{2}\left( y \right) = \frac{\sum_{i = 1}^{k}{\left( y_{j} - \overset{\overline{}}{y} \right)^{2}n_{\text{ij}}}}{n_{\text{i.}}} \approx \frac{\sum_{i = 1}^{k}{\left( \dot{y_{j}} - \overset{\overline{}}{y} \right)^{2}n_{\text{ij}}}}{n_{\text{i.}}}$$

Średnia i wariancja to najważniejsze parametry rozkładów!

Warunek stochastycznej niezależności Y od X:


$$\overset{\overline{}}{y} = \overset{\overline{}}{y_{1}} = \overset{\overline{}}{y_{2}} = \ldots = \overset{\overline{}}{y_{k}}$$


S2(y) = S12(y) = S22(y) = … = Sk2(y)

Warunek stochastycznej niezależności X od Y:


$$\overset{\overline{}}{x} = \overset{\overline{}}{x_{1}} = \overset{\overline{}}{x_{2}} = \ldots = \overset{\overline{}}{x_{l}}$$


S2(x) = S12(x) = S22(x) = … = Sl2(x)

Niezależność korelacyjna wymaga jedynie równości wartości średnich.

Wniosek:

Jeśli zachodzi


$$\overset{\overline{}}{y} \neq \overset{\overline{}}{y_{1}} \neq \overset{\overline{}}{y_{2}} \neq \ldots \neq \overset{\overline{}}{y_{k}}$$


S2(y) ≠ S12(y) ≠ S22(y) ≠ … ≠ Sk2(y)

Oraz


$$\overset{\overline{}}{x} \neq \overset{\overline{}}{x_{1}} \neq \overset{\overline{}}{x_{2}} \neq \ldots \neq \overset{\overline{}}{x_{l}}$$


S2(x) ≠ S12(x) ≠ S22(x) ≠ … ≠ Sl2(x)

To zmienne X i Y są stochastycznie zależne.

Podobnie jeżeli:

$\overset{\overline{}}{y} \neq \overset{\overline{}}{y_{1}} \neq \overset{\overline{}}{y_{2}} \neq \ldots \neq \overset{\overline{}}{y_{k}}$ oraz $\overset{\overline{}}{x} \neq \overset{\overline{}}{x_{1}} \neq \overset{\overline{}}{x_{2}} \neq \ldots \neq \overset{\overline{}}{x_{l}}$ to zmienne X i Y są korelacyjnie zależne.

  1. Wykorzystanie tablicy korelacyjnej do badania związku cech.

Gdyby badane cechy były niezależne, to liczebności wewnątrz tablicy powinny przyjmować wartości ${\hat{n}}_{\text{ij}}$ wyznaczone według wzoru: ${\hat{n}}_{\text{ij}} = \frac{n_{\text{i.}} \bullet n_{\text{.j}}}{n}$

${\hat{n}}_{\text{ij}}$ – liczebności teoretyczne

Im większa jest rozbieżność między rzeczywistymi liczebnościami nij a liczebnościami teoretycznymi obliczonymi według przytoczonego wyżej wzoru, tym silniejsza jest zależność badanych cech. Miarą rozbieżności jest statystyka χ2, którą oblicza się według wzoru:


$$\chi^{2} = \sum_{i = 1}^{k}{\sum_{j = 1}^{l}\frac{\left( n_{\text{ij}} - {\hat{n}}_{\text{ij}} \right)^{2}}{{\hat{n}}_{\text{ij}}}}$$

Dla tablicy przedstawiającej rozkład dwóch cech nominalnych dwudzielnych tj.:

schemat tablicy czterodzielnej:


X

Y

ni.
1 2
1 a b
2 c d

n.j
a+c b+d

otrzymuje się wzór χ2następującej postaci:


$$\chi^{2} = \frac{n\left( ad - cb \right)^{2}}{\left( a + c \right)\left( b + d \right)\left( a + b \right)(c + d)}$$

Wartość statystyki χ2jest podstawą konstrukcji odpowiednich współczynników służących do badania związku cech.

WYKŁAD 8. MIARY KORELACJI.

  1. Pomiar korelacji w przypadku dwóch cech nominalnych.

Współczynnik zbieżności Czuprowa:


$$T_{\text{xy}} = T_{\text{yx}} = \sqrt{\frac{x^{2}}{n\sqrt{\left( k - 1 \right)\left( l - 1 \right)}}}$$

Warunki stosowania:

- zależność między zmiennymi ma charakter liniowy,

- dane są ujmowane w tablicy korelacyjnej,

- zmienne mogą nie być mierzalne sensu stricte.

Własności:

- mierzy siłę zależności,

- przyjmuje wartości z przedziału [0,1],

- jest symetryczny.

Współczynnik Cramera:


$$V = \sqrt{\frac{\chi^{2}}{n_{\min}\left( k - 1 \right)(l - 1)}}$$

Własności:

- przyjmuje wartości z przedziału [0,1],

- może być obliczany na podstawie dowolnej tablicy korelacyjnej (w odróżnieniu od kolejnego)

Współczynnik Yule’a:


$$\varphi = \sqrt{\frac{\chi^{2}}{n}}$$

Własności:

- przyjmuje wartości z przedziału [-1,1],

- stosowany jest dla tablicy czterodzielnej.

Uwaga!

Wartość „0” omawianego współczynnika oznacza, że cechy są niezależne – „1” lub „-1”, że istnieje między nimi zależność funkcyjna. Jednak nie należy na podstawie współczynnika znaku wyciągać wniosku o kierunku zależności. Znak współczynnika zależy tutaj od tego w jaki sposób zostały uporządkowane warianty rozważanych cech. W tym wypadku interpretuje się jedynie wartość bezwzględną.

Współczynnik φ można też wyrazić wzorem:


$$\varphi = \frac{ad - bc}{\sqrt{\left( a + b \right)\left( a + c \right)\left( b + d \right)(c + d)}}$$

8.04.10

WYKŁAD 9.

Krańcowe wartości współczynnika φ zależą od uszeregowania liczebności w poszczególnych polach tablicy korelacyjnej. Dlatego należy znaleźć wartości φmax oraz φmin i skorygować przy ich pomocy wartość φ wyliczoną według wzoru powyżej.

Współczynnik Cole’a:


$$\varphi_{\text{kor}} = \frac{ad - bc}{n\min\left( b,c \right) + \left( ad - bc \right)},\ gdy\ \varphi \geq 0$$


$$\varphi_{\text{kor}} = \frac{ad - bc}{n\min\left( a,d \right) + \left( ad - bc \right)},\ gdy\ \varphi < 0$$

Współczynnik kontyngencji Pearsona:


$$C = \sqrt{\frac{x^{2}}{x^{2} + n}} = \sqrt{\frac{\varphi^{2}\ }{1 + \varphi^{2}}}$$

Własności:

- przyjmuje wartości z przedziału [0,1],

- wartość „0” osiąga w przypadku niezależności cech,

- górna wartość uzależniona jest od liczby wierszy i kolumn w tablicy korelacyjnej (im więcej jest wierszy o kolumn, tym wartość C jest większa).

Wniosek: wartość współczynnika C należy rozpatrywać relatywnie do wartości maksymalnej.

Zatem:


$$C_{\max} = \sqrt{\frac{l - 1}{l}},$$

Gdzie l – liczba kolumn w tablicy kwadratowej

Lub:


$$C_{\max} = \frac{\sqrt{\frac{k - 1}{k}} + \sqrt{\frac{l - 1}{l}}}{2},$$

Gdzie k, l – odpowiednio: liczba wierszy, liczba kolumn w tablicy korelacyjnej.

Ostatecznie:


$$C_{\text{kor}} = \frac{C}{C_{\max}}$$

  1. Pomiar korelacji w przypadku cech uporządkowanych (współczynnik korelacji rang).

Współczynnik Spearmana:


$$r_{d} = 1 - 6\frac{\sum_{i = 1}^{n}d_{i}^{2}}{n\left( n^{2} - 1 \right)}$$

Gdzie:

di = yi − xi - różnica rang nadanych poszczególnym cechom.

n – liczba obserwacji.

Własności:

- stosowany w przypadku uporządkowań tzw. mocnych,

- przyjmuje wartości z przedziału [-1,1],

- wartość bezwzględna określa siłę współwystępowania (zgodności) nadanych rang,

- znak współczynnika informuje o zgodności (zbieżności) lub niezgodności (rozbieżności) nadanych rang (ocen).

Współczynnik Kendalla:


$$\tau_{b} = \frac{2R}{\sqrt{\frac{n\left( n - 1 \right)}{2}} - T_{x}\sqrt{\frac{n\left( n - 1 \right)}{2}} - T_{y}} - 1,$$

Gdzie:


$$T_{x} = \frac{1}{2}\sum_{i = 1}^{w}{t_{x_{i}}(}t_{x_{i}} - 1);$$


$$T_{y} = \frac{1}{2}\sum_{i = 1}^{w}{t_{y_{i}}(}t_{y_{i}} - 1);$$

txi,  tyi – liczba rang powiązanych w każdej i-tej podgrupie rang w uszeregowaniu odpowiednio według cechy Xi Y;

w – liczba podgrup z rangami powiązanymi w zbudowanym uporządkowaniu;

R – liczba par tych rang, które po uporządkowaniu według pierwszej cechy, czyli:

dla j > i zachodzi xj ≥ xi, zachowują relację: dla j > i zachodzi yj ≥ yi, dla cechy drugiej, kolejno dla każdego j=1,2,…,n;

n – liczba kolejnych jednostek objętych badaniem:

Własności:

- stosowany w przypadku uporządkowań tzw. słabych,

- przyjmuje wartości z przedziału [-1,1],

- wartość bezwzględna określa siłę współwystępowania (zgodności) nadanych rang,

- znak współczynnika informuje o zgodności (zbieżności) lub niezgodności (rozbieżności) nadanych rang (ocen).

Dla uporządkowań mocnych współczynnik korelacji rang Kendalla przyjmuje postać:


$$\tau_{a} = \frac{2R}{\frac{n\left( n - 1 \right)}{2}} - 1.$$

  1. Badanie związku między dwiema cechami nominalnymi.

Badano związek między paleniem papierosów a zachorowalnością na raka w grupie 380 osób. Poniższa tabela zawiera zestawienie otrzymanych wyników.

Palenie papierosów Zachorowalność Ogółem
Chory Zdrowy
pali 240 10
nie pali 80 50
ogółem 320 60

Należy ocenić siłę ewentualnego związku między badanymi cechami.

EGZAMIN – w jaki sposób rozwiązać to zagadnienie wyżej.

  1. Badanie związku między dwiema cechami porządkowymi:

Tabela poniżej przedstawia oceny wystawione przez dział marketingu dotyczące lojalności odbiorców oraz wizerunku marek konkurujących na pięciu rynkach, na których firma prowadzi działalność.

Rynek Ocena lojalności w skali od 1 do 5 Ocena wizerunku marek konkurencyjnych w skali od 1 do 5
A 1 4
B 5 1
C 3 3
D 2 5
E 4 2

Należy ocenić, czy oceny działu marketingu dotyczące lojalności odbiorców oraz wizerunku marek konkurencyjnych na poszczególnych rynkach wykazują rozbieżność? Inaczej mówiąc pytamy, czy opinia o spadku lojalności odbiorców wiąże się z poprawą wizerunku marek konkurencyjnych?

EGZAMIN – wskazać narzędzie, które pozwoli nam ocenić problem wyżej.

  1. Badanie związku między dwiema cechami mierzalnymi sensu stricto.

W celu ustalenia zależności między liczbą braków, w sztukach (Y) a wielkością produkcji części zamiennych (X), w tys. sztuk, w grupie 12 zakładów produkcyjnych wytwarzających takie części wykorzystano następujące dane.


xi
2,0 1,0 0,8 1,2 3,0 1,6 1,0 2,0 1,8 2,2 2.4 2,0

yi
17 10 6 10 22 12 13 15 15 18 20 16
  1. Badanie związku między cechą nominalną a cechą mierzalną sensu stricto.

W firmie oferującej na rynki lokalne soki owocowe przeprowadzono badanie, w którym zestawiono zaobserwowane w 7 dniach ilości sprzedanych opakowań według kolorów.

kolor opakowania wielkość sprzedaży
zielony 18
niebieski 20
biały 10

Pytanie: czy kolor opakowania soku ma wpływ na wielkość sprzedaży?

  1. Pomiar korelacji w przypadku cech mierzalnych sensu stricto.

Współczynnik korelacji liniowej Pearsona.

Warunki stosowania:

- badana zależność jest liniowa,

- obie cechy są mierzalne.

Formuła obliczeniowa zależy od układu danych.


$$r_{\text{xy}} = \frac{\sum_{i = 1}^{n}{\left( x_{i} - \overset{\overline{}}{x} \right)(y_{i} - \overset{\overline{}}{y})}}{\sqrt{\sum_{i = 1}^{n}{{(x_{i} - \overset{\overline{}}{x})}^{2} \bullet \sum_{i = 1}^{n}{(y_{i} - \overset{\overline{}}{y})}^{2}}}}$$


$$r_{\text{xy}} = \frac{\sum_{j = 1}^{l}{\sum_{j = 1}^{k}{\left( x_{i} - \overset{\overline{}}{x} \right)\left( y_{i} - \overset{\overline{}}{y} \right)n_{\text{ij}}}}}{\text{nS}\left( x \right)S\left( y \right)}$$

Własności:

- jest symetryczny,

- mierzy siłę i kierunek zależności,

- przyjmuje wartości z przedziału [-1,1].

  1. Pomiar związków krzywoliniowych. Wskaźniki korelacyjne Pearsona.

Podstawą do oceny związku bez konieczności zakładania liniowości tego związku jest równość wariancyjna. Gdy bada się wpływ zmiennej X na zmienną Y należy rozważyć równość postaci:


$$S^{2}\left( y \right) = S^{2}\left( \overset{\overline{}}{y_{i}} \right) + \overset{\overline{}}{S_{i}^{2}\left( y \right)}$$

Gdzie:


$$S^{2}\left( \overset{\overline{}}{y_{i}} \right) = \frac{1}{n}\sum_{i = 1}^{k}\left( \overset{\overline{}}{y_{i}} - \overset{\overline{}}{y} \right)^{2}n_{i}.$$

ni.– z tablicy korelacyjnej

- wariacja międzygrupowa, informująca o zróżnicowaniu cechy Y, będącym efektem oddziaływania X,


$$\overset{\overline{}}{S_{i}^{2}\left( y \right)} = \frac{1}{n}\sum_{i = 1}^{k}{S_{i}^{2}\left( y \right)n_{i}.}$$

- wariancja wewnątrz grupowa, określająca zróżnicowanie Y wynikające z oddziaływania innych (poza X) czynników.

W oparciu o równość wariancyjną dla zmiennej zależnej wyznacza się wskaźnik korelacyjny Pearsona mierzący siłę zależności Y od X, tj.:


$$e_{\text{yx}} = \sqrt[ + ]{\frac{S^{2}\left( \overset{\overline{}}{y_{i}} \right)}{S^{2}\left( y \right)}} = \frac{S(\overset{\overline{}}{y_{i}})}{S(y)} = \sqrt[ + ]{1 - \frac{\overset{\overline{}}{S_{i}^{2}\left( y \right)}}{S^{2}\left( y \right)}}$$

eyx – mierzy wpływ x na y.

Wskaźniki korelacyjne przyjmują wartości z przedziału [0,1].

15.04.10

WYKŁAD 10. ANALIZA REGRESJI.

Analityczne wyrażenie kształtowania się zmiennej losowej pod wpływem innej zmiennej losowej.

Określenie 1.

Przez funkcję regresji dwóch zmiennych rozumie się funkcję opisującą zmiany w wartościach średnich warunkowych jednej zmiennej wywołane zmianami wartości drugiej zmiennej.

Można mówić o funkcji regresji I rodzaju oraz o funkcji regresji II rodzaju.

Funkcje regresji I rodzaju zmiennej Y względem zmiennej X wyraża się ogólnie w następujący sposób:


f(X) = E(Y|X=xi )   i = 1, 2, …, k

Odpowiednio funkcję regresji I rodzaju zmiennej X względem zmiennej Y zapiszemy:


f(Y) = E(X|Y=xj )   j = 1, 2, …, l

Dokładne postacie tych funkcji nie są znane. Na podstawie badań empirycznych można postawić odpowiednie hipotezy w tym zakresie (hipotezy modelowe).

Określenie 2.

Regresją empiryczną zmiennej Y względem zmiennej X nazywać będziemy zbiór punktów płaszczyzny XY o współrzędnych ${(x}_{i};{\overset{\overline{}}{y}}_{i})$ i  = 1, 2, …, k

Odpowiednio zbiór punktów płaszczyzny XY o współrzędnych ${(y}_{j};{\overset{\overline{}}{x}}_{j})$ i  = 1, 2, …, l nazywa się regresją empiryczną X względem Y.

Wykresy obu zbiorów punktów tworzą, tzw. empiryczne linie regresji.

Zazwyczaj dysponuje się danymi indywidualnymi o wartościach badanych zmiennych, tj. xi oraz yi. Np.:

Rozrzut punktów empirycznych wraz z dopasowanymi liniami regresji.

Wykres jest najprostszym sposobem, który można wykorzystać formułując roboczą hipotezę na temat istniejącej zależności i jej postaci (np. liniowa).

Liniowa funkcja regresji wyraża się wzorem:


Y = f(X) + η = αYX + βY + η      (1)

Gdzie:

Y – zmienna zależna (objaśniana)

X – zmienna niezależna (objaśniająca)

η – resztowa zmienna losowa o własnościach: E(η) = 0          D2(η) = ση2 = constans

odchylenia w regresji=0 wariancja składnika losowego (rozrzut wokół poziomu średniego)

Empiryczne odpowiedniki modeli (1) oraz (2) są następujące:


yi = f(xi) + ui = ayxi + bi + ui          (3)

Albo ${\hat{y}}_{i} = a_{y}x_{i} + b_{y}\ \ \ \ \ \ \ \ \ \ \ \ (3^{'})$

Gdzie ay, by są ocenami parametrów αY,  βY, natomiast $u_{i} = y_{i} - {\hat{y}}_{i}$ są to tzw. reszty modelu.

Analogicznie:


xi = y(yi) + ui = axyi + bx + ui          (4)

Albo ${\hat{x}}_{i} = a_{x}y_{i} + b_{x}\ \ \ \ \ \ \ \ \ \ \ \ (4^{'})$

Określenie 3.

Funkcje wyrażone wzorami (3),(3’) oraz (4), (4’) przedstawiają funkcję II rodzaju.

Warunki nałożone na funkcję II rodzaju:


$$\Psi = \sum_{i = 1}^{n}{\left( y_{i} - {\hat{y}}_{i} \right)^{2} = \sum_{i = 1}^{n}{\left( y_{i} - a_{y}x_{i} - b_{y} \right)^{2} \rightarrow min}}$$

  1. Odchylenia wartości empirycznych yi od wartości teoretycznych muszą być losowe.

Wybór postaci liniowej można też oprzeć na następującym twierdzeniu:

Jeżeli stałym przyrostom zmiennej X odpowiadają stałe przyrosty zmiennej Y, to odpowiednim modelem opisującym zależność Y od X będzie model liniowy.

Uzasadnienie:

Dla kolejnych obserwacji otrzymamy:


$${\hat{y}}_{1} = a_{y}x_{1} + b_{y}\ $$


$${\hat{y}}_{2} = a_{y}x_{2} + b_{y}$$


$${\hat{y}}_{3} = a_{y}x_{3} + b_{y}$$




$${\hat{y}}_{n} = a_{y}x_{n} + b_{y}$$

Przyrosty obliczamy następująco:


$${\hat{y}}_{2} - {\hat{y}}_{1} = \left( a_{y}x_{2} + b_{y} \right) - \left( a_{y}x_{1} + b_{y} \right) = a_{y}(x_{2} - x_{1})$$


$${\hat{y}}_{3} - {\hat{y}}_{2} = \left( a_{y}x_{3} + b_{y} \right) - \left( a_{y}x_{2} + b_{y} \right) = a_{y}(x_{3} - x_{2})$$




$${\hat{y}}_{n} - {\hat{y}}_{n - 1} = \left( a_{y}x_{n} + b_{y} \right) - \left( a_{y}x_{n} + b_{y} \right) = a_{y}(x_{n} - x_{n - 1})$$

Wniosek:

Jeżeli x są stałe to ajx = y też będą stałe.

Parametry αY, βY szacuje się w taki sposób, aby wyrażenie:

$\Psi = \sum_{i = 1}^{n}{\left( y_{i} - {\hat{y}}_{i} \right)^{2} = \sum_{i = 1}^{n}\left( y_{i} - a_{y}x_{i} - b_{y} \right)^{2}}$ osiągnęło minimum.

Procedura minimalizacji polega tutaj na obliczeniu pochodnych cząstkowych Ψ względem ay,  by i przyrównaniu ich do zera.


$$b_{y} = \frac{\sum_{i = 1}^{n}{y_{i} - a_{y}\sum_{i = 1}^{n}x_{i}}}{n} = \overset{\overline{}}{y} - a_{y}\overset{\overline{}}{x}$$


$$a_{y} = \frac{n\sum_{i = 1}^{n}{{x_{i}y}_{i} - n\sum_{i = 1}^{n}{y_{i}\sum_{i = 1}^{n}x_{i}}}}{n} = \overset{\overline{}}{y} - a_{y}\overset{\overline{}}{x}$$


$$a_{y} = \frac{cov(x,y)}{S^{2}(x)}$$


$$a_{y} = \frac{\sum_{i = 1}^{n}{\left( x_{i} - \overset{\overline{}}{x} \right)(y_{i} - \overset{\overline{}}{y})}}{\sum_{i = 1}^{n}\left( x_{i} - \overset{\overline{}}{x} \right)^{2}}$$


$$\text{cov}\left( x,y \right) = \frac{\sum_{i = 1}^{n}{\left( x_{i} - \overset{\overline{}}{x} \right)(y_{i} - \overset{\overline{}}{y})}}{n}$$

Z uwagi na:


$$r_{\text{xy}} = \frac{\text{cov}\left( x,y \right)}{S\left( x \right)S\left( y \right)}$$

można zaproponować jeszcze jeden wzór na obliczenie współczynnika regresji, a mianowicie:


ay = rxy

Z drugiej strony:


$$b_{x} = \frac{\sum_{i = 1}^{n}{x_{i} - a_{x}\sum_{i = 1}^{n}y_{i}}}{n} = \overset{\overline{}}{x} - a_{x}\overset{\overline{}}{y}$$


$$a_{x} = \frac{n\sum_{i = 1}^{n}{{x_{i}y}_{i} - n\sum_{i = 1}^{n}{y_{i}\sum_{i = 1}^{n}x_{i}}}}{n\sum_{i = 1}^{n}y_{i}^{2}} =$$

Czasami przydatny jest również następujący wzór:


$$r_{\text{xy}} = \sqrt{a_{x}a_{y}}$$

EGZAMIN – interpretacja współczynnika regresji ay jest następująca:

Jeżeli wartość zmiennej X wzrośnie o jednostkę, to wartość zmiennej Y wzrośnie (gdy ay > 0) lub spadnie (gdy ay<0) średnio o ay jednostek (patrz rys.2).

punkty empiryczne xi, yi

Rys. Rozrzut punktów empirycznych wraz z dopasowaną teoretyczną linią regresji.

29.04.10

OCENA JAKOŚCI MODELU:

Po oszacowaniu parametrów αY, βY należy:


$$S\left( a_{y} \right) = S\left( u \right):\sqrt{\sum_{i = 1}^{n}{x_{i}^{2} - n\left( \overset{\overline{}}{x} \right)^{2}}}$$


$$S\left( b_{y} \right) = S\left( u \right) \bullet \sqrt{\sum_{i = 1}^{n}{x_{i}^{2} - n\left\lbrack \sum_{i = 1}^{n}{x_{i}^{2} - n\left( \overset{\overline{}}{x} \right)^{2}} \right\rbrack}}$$

S(u) – odchylenie standardowe reszt.


$$S\left( u \right) = \sqrt{\frac{\sum_{i = 1}^{n}\left( y_{i} - {\hat{y}}_{i} \right)^{2}}{n - 2}}$$

Miarami stosowanymi w tym wypadku są współczynnik determinacji (R2) oraz współczynnik zbieżności (φ2), tj.:


$$R^{2} = \frac{\sum_{i = 1}^{n}\left( {\hat{y}}_{i} - {\overset{\overline{}}{y}}_{i} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i} - {\overset{\overline{}}{y}}_{i} \right)^{2}}$$


$$\varphi^{2} = \frac{\sum_{i = 1}^{n}\left( y_{i} - {\hat{y}}_{i} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i} - {\overset{\overline{}}{y}}_{i} \right)^{2}}$$

EGZAMIN – interpretacja współczynników!

Powyższe wzory otrzymuje się w drodze dekompozycji ogólnej zmienności Y na dwie części:


$$\sum_{i = 1}^{n}{\left( y_{i} - {\overset{\overline{}}{y}}_{i} \right)^{2} = \sum_{i = 1}^{n}{\left( {\hat{y}}_{i} - {\hat{y}}_{i} \right)^{2} + \sum_{i = 1}^{n}\left( y_{i} - {\hat{y}}_{i} \right)^{2}}}$$

Dzieląc obie strony równania przez:


$$\sum_{i = 1}^{n}\left( y_{i} - {\overset{\overline{}}{y}}_{i} \right)^{2}$$

Otrzymuje się:


$$1 = \frac{\sum_{i = 1}^{n}\left( {\hat{y}}_{i} - {\overset{\overline{}}{y}}_{i} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i} - {\overset{\overline{}}{y}}_{i} \right)^{2}} + \frac{\sum_{i = 1}^{n}\left( y_{i} - {\hat{y}}_{i} \right)^{2}}{\sum_{i = 1}^{n}\left( y_{i} - {\overset{\overline{}}{y}}_{i} \right)^{2}}$$

Zatem:


1 = R2 + φ2

Interpretacja:

- Współczynnik determinacji informuje, jaka część zmienności Y została wyjaśniona zmiennością X.

- Współczynnik zbieżności informuje, jaka część zmienności Y nie została wyjaśniona zmiennością X a zatem ma charakter losowy.

Stosując odpowiednie testy statystyczne należy w szczególności sprawdzić, czy:

  1. Rzeczywiście istnieje zależność między X i Y (ocena istotności parametru αY),

  2. Przyjęto właściwą postać modelu (czy zależność jest liniowa?),

  3. Odchylenia $y_{i} - {\hat{y}}_{i}$ są losowe.

WYKŁAD 11. KORELACJA I REGRESJA WIELU ZMIENNYCH.

Rozważamy zależności między zmiennymi: X1,  X2,  …, Xk

Określenie 1.

Współczynnik, który mierzy zależność korelacyjną między dwiema zmiennymi (i-tą oraz j-tą), przy wyłączeniu wpływu innych zmiennych (indeksowanych przez: k, l, … ,z) nazywa się współczynnikiem korelacji cząstkowej. Współczynnik korelacji cząstkowej oznaczamy przez rij • kl… z

Współczynnik korelacji cząstkowej dowolnego rzędu można obliczyć według następującego wzoru:


$$r_{ij \bullet kl\ldots\ z} = \frac{- P_{\text{ij}}}{\sqrt{P_{\text{ij}} \bullet P_{\text{jj}}}}$$

Gdzie:

Pij jest dopełnieniem algebraicznym macierzy P (macierz współczynników korelacji par zmiennych włączonych do badania), powstałym przez skreślenie i-tego wiersza oraz j-tej kolumny; Pii jest dopełnieniem algebraicznym macierzy P, powstałym przez skreślenie i-tego wiersza oraz i-tej kolumny; Pjj jest dopełnieniem algebraicznym macierzy P, powstałym przez skreślenie j-tego wiersza i j-tej kolumny macierzy P.

Jak wyżej rozważamy zmienne X1,  X2,  …, Xk. Macierz P przyjmie postać:


$$P = \begin{bmatrix} 1\ \ \ \ \text{\ \ r}_{12}\ \ \ \ \ \ \ \ldots\ \ \ \ \ r_{1K} \\ r_{21\ \ }\ \ 1\ \ \ \ \ \ \ \ \ \ldots\ \ \ \ r_{2K} \\ \ldots\ \ \ \ \ldots\ \ \ \ \ \ \ \ \ \ldots\ \ \ \ \ \ \ldots \\ r_{K1}\ r_{K2}\ \ \ \ \ \ \ \ldots\ \ \ \ \ \ 1\ \\ \end{bmatrix}$$

Uwaga: zauważmy, że macierz P jest symetryczna.

Niech K=3

Wtedy:


$$P = \begin{bmatrix} 1\ \ r_{12}\text{\ \ }r_{13} \\ r_{21}\ \ 1\ \ r_{23} \\ r_{31}\text{\ \ }r_{32}\ \ 1 \\ \end{bmatrix}$$

r12 • 3 – współczynnik korelacji cząstkowej pomiędzy zmienną X 1 i Xprzy wyłączeniu wpływu zmiennej X3.


$$r_{12 \bullet 3} = \frac{- P_{12}}{\sqrt{P_{11} \bullet P_{22}}} = \frac{- \left\lbrack - \left| \begin{matrix} r_{21}\text{\ \ }r_{23} \\ r_{31\ \ \ \ \ \ }1 \\ \end{matrix} \right| \right\rbrack}{\sqrt{\left| \begin{matrix} 1\ \ r_{23} \\ r_{32}\ \ 1 \\ \end{matrix} \right| \bullet \left| \begin{matrix} 1\ \ r_{13} \\ r_{31}\ \ 1 \\ \end{matrix} \right|}}$$

Stąd:


$$r_{12 \bullet 3} = \frac{r_{21} - r_{31}{\bullet r}_{23}}{\sqrt{\left( 1 - r_{23}^{2} \right)\left( 1 - r_{13}^{2} \right)}}$$

Analogicznie:


$$r_{12 \bullet 3} = \frac{- P_{13}}{\sqrt{P_{11} \bullet P_{33}}} = \frac{- \left| \begin{matrix} r_{21\ \ }1 \\ r_{31}\text{\ \ }r_{32} \\ \end{matrix} \right|}{\sqrt{\left| \begin{matrix} 1\ \ r_{23} \\ r_{32}\ 1 \\ \end{matrix} \right| \bullet \left| \begin{matrix} 1\ \ r_{12} \\ r_{21}\ \ 1 \\ \end{matrix} \right|}} = \frac{r_{13} - r_{12}r_{23}}{\sqrt{\left( 1 - r_{23}^{2} \right)\left( 1 - r_{12}^{2} \right)}}$$

Natomiast:


$$r_{23 \bullet 1} = \frac{r_{23} - r_{12}r_{13}}{\sqrt{\left( 1 - r_{13}^{2} \right)\left( 1 - r_{12}^{2} \right)}}$$

Omawiane współczynniki przyjmują wartości z przedziału (-1,1). Taki współczynnik może być większy lub mniejszy od współczynnika korelacji całkowitej. Może także zmieniać znak w stosunku do ostatniego.

Określenie 2.

Współczynnik, który mierzy korelację między wartościami jednej zmiennej (objaśnianej), a wartościami całego kompleksu innych zmiennych (objaśniających) nazywa się współczynnikiem korelacji wielorakiej.

Współczynnik korelacji wielorakiej wyraża się wzorem:


$$R_{1 \bullet 23\ldots K} = \sqrt{1 - \frac{\text{detD}}{\text{detR}}}$$

Gdzie:

$D = \begin{bmatrix} 1\ \ \text{\ \ \ \ \ \ r}_{12}\text{\ \ \ }r_{13}\text{\ \ }{\ldots\ r}_{1K} \\ r_{21}\ \ \ \ \ 1\ \ \ \ \ \ r_{23}\ \ldots\ r_{2K} \\ \ldots\ \ \ \ \ \ldots\ \ \ \ \ldots\ \ \ \ \ \ldots\ \ \ldots\ \\ r_{31}\text{\ \ \ }r_{32}\text{\ \ }r_{K3}\ \ \ldots\ \ 1 \\ \end{bmatrix}$

06.05.10

WYKŁAD 12: ZMIENNE LOSOWE I ICH ROZKŁADY.

POJĘCIA ZDARZENIA LOSOWEGO I ZMIENNEJ LOSOWEJ.

Określenie 1

ZDARZENIEM LOSOWYM nazywa się takie zdarzenie, które przy realizacji danego doświadczenia lub procesu może w określonym zespole warunków wystąpić lub nie wystąpić.

Z pojęciem zdarzenia losowego łączy się pojęcie prawdopodobieństwa.

Określenie 2 (klasyczna definicja prawdopodobieństwa)

PRAWDOPODOBIEŃSTWO zdarzenia A jest to stosunek liczby zdarzeń elementarnych, sprzyjających danemu zdarzeniu A (realizujących zdarzenie A) do ogólnej liczby zdarzeń elementarnych, przy założeniu, że wszystkie zdarzenia elementarne są jednakowo możliwe. Zatem $P\left( A \right) = \frac{n}{N}$

Określenie 3 (statystyczna definicja prawdopodobieństwa):

Prawdopodobieństwem danego zdarzenia A nazywa się liczbę, wokół której oscyluje częstość względna danego zdarzenia.

Określenie 4 (aksonometryczna definicja prawdopodobieństwa – uogólnienie definicji klasycznej i statystycznej).

Prawdopodobieństwo danego zdarzenie jest pojęciem, które wynika z systemu pewników (aksjomatów). Są to:

Pewnik 1. Każdemu zdarzeniu, należącemu do danego zbioru zdarzeń, przyporządkowana jest pewna liczba P(A), która spełnia warunek 0 ≤ P(A)≤1. Liczba ta jest prawdopodobieństwem zdarzenia A.

Pewnik 2. Prawdopodobieństwo zdarzenia pewnego równa się jedności.

Pewnik 3. Prawdopodobieństwo sumy skończonej lub przeliczonej liczby parami wyłączających się zdarzeń A1, A2, …, An równa się sumie prawdopodobieństw poszczególnych zdarzeń, tj. P(A1+A2+…) = P(A1) + P(A2) + …

Na podstawie powyższych pewników formułuje się wnioski:

- prawdopodobieństwo zdarzenia niemożliwego równa się zeru,

- suma prawdopodobieństw zdarzenia danego i przeciwnego równa się jedności,

- jeżeli zdarzenie A pociąga za sobą zdarzenie B to prawdopodobieństwo zdarzenia A jest nie większe od prawdopodobieństwa zdarzenia B.

- znając prawdopodobieństwo zdarzeń elementarnych możemy obliczyć prawdopodobieństwo dowolnego zdarzenia losowego. Jeżeli liczba zdarzeń elementarnych zbioru A jest skończona tj.: A =  A1, A2, …, Ani każdemu z nich przyporządkowano to samo prawdopodobieństwo P(A1) = P(A2) = … = P(An), wtedy prawdopodobieństwo dowolnego zdarzenia losowego oblicza się tak samo, niezależenie od tego, czy stosuje się klasyczną, czy aksjomatyczną definicję prawdopodobieństwa.

Uogólnieniem pojęcia zdarzenia losowego jest pojęcie zmiennej losowej.

Określenie 5.

Przez ZMIENNĄ LOSOWĄ rozumiemy taką zmienną, którą w wyniku doświadczenia lub procesu realizuje różne wartości liczbowe z określonymi prawdopodobieństwami.

Określenie 6.

ZMIENNA LOSOWA jest to funkcja mierzalna, jednoznacznie określona na zbiorze zdarzeń elementarnych, przyjmująca wartości ze zbioru liczb rzeczywistych.

Wśród zmiennych losowych wyróżnia się zmienne skokowe oraz ciągłe.

W przypadku zmiennej losowej skokowej, każdej możliwej wartości tej zmiennej przyporządkowane jest określone prawdopodobieństwo:


P(X=xi) = pi

pi – prawdopodobieństwo dla zmiennej skokowej.

W przypadku zmiennej losowej ciągłej mówimy o prawdopodobieństwie przyjęcia przez tą zmienną wartości z dowolnie małego przedziału liczbowego.

Jeżeli znany jest zbiór możliwych wartości zmiennej losowej oraz prawdopodobieństwa przyjęcia tych wartości przez zmienną losową (bądź też prawdopodobieństwa, że zmienna przyjmie wartość z określonego przedziału), to znany jest rozkład tej zmiennej losowej.

ROZKŁAD ZMIENNEJ LOSOWEJ może być przedstawiony za pomocą szeregu (szczególnie w przypadku rozkładów empirycznych), wykresu, lub też funkcji formułującej zależność pomiędzy wartościami zmiennej a częstościami lub prawdopodobieństwami ich wystąpienia.

Na przykład:


xi : x1, x2, …, xn


wi : w1, w2, …,  wn


pi : p1, p2, …, pn

Określenie 7.

ROZKŁAD ZMIENNEJ LOSOWEJ (SKOKOWEJ) nazywa sie przyporządkowanie konkretnym wariantom tej zmiennej odpowiadających im prawdopodobieństw.

Określenie 8.

ROZKŁAD ZMIENNEJ LOSOWEJ CIĄGŁEJ jest to przyporządkowanie prawdopodobieństw wartościom z określonego (dowolnie małego) przedziału – otoczenia tych wartości.

Funkcja rozkładu prawdopodobieństwa w przypadku zmiennej losowej ciągłej nazywa się funkcją gęstości. Wyraża się ona następującym wzorem:


$$f\left( x \right) = \operatorname{}\frac{F(x + x) \bullet F(x)}{x}$$

Określenie 9.

DYSTRYBUANTA ZMIENNEJ LOSOWEJ SKOKOWEJ X, oznacza: F(xi) jest funkcją opisującą prawdopodobieństwo wystąpienia dowolnych wartości zmiennej mniejszych lub równych xi, tj.


$$F\left( x_{i} \right) = P\left( X \leq x_{i} \right) = \sum_{x_{j} \leq x_{i}}^{}P_{j}$$

Określenie 10.

DYSTRYBUANTA ZMIENNEJ LOSOWEJ CIĄGŁEJ, oznacza: F(x) jest ot funkcja określająca prawdopodobieństwo, że zmienna X przyjmuje wartość mniejszą od x, tj.:


F(x) = P(X<x) = ∫−∞xf(x)dx

PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ.

ZMIENNA LOSOWA
SKOKOWA

Wartość oczekiwana


$$E\left( X \right) = \sum_{i = 1}^{n}{x_{i}p_{i}}$$

Wariancja


$$D^{2}\left( X \right) = \sum_{i = 1}^{n}{\left\lbrack x_{i} - E(X) \right\rbrack^{2}p_{i}}$$

Współczynnik zmienności


$$V = \frac{D(X)}{E(X)}$$

Moment trzeci centralny


$$\mu_{3} = \sum_{i = 1}^{n}{\left\lbrack x_{i} - E\left( X \right) \right\rbrack^{3}p_{i}}$$

Kwartyl pierwszy


$$\left\{ \begin{matrix} P\left( X \leq Q_{1} \right) \geq 0,25 \\ P\left( X \geq Q_{1} \right) \geq 0,75 \\ \end{matrix} \right.\ $$

Kwartyl drugi


$$\left\{ \begin{matrix} P\left( X \leq Q_{2} \right) \geq 0,5 \\ P\left( X \geq Q_{2} \right) \geq 0,5 \\ \end{matrix} \right.\ $$

Kwartyl trzeci


$$\left\{ \begin{matrix} P\left( X \leq Q_{3} \right) \geq 0,75 \\ P\left( X \geq Q_{3} \right) \geq 0,25 \\ \end{matrix} \right.\ $$

Dominanta – wartość zmiennej, dla której:

P(X=D) = max

PRZYKŁADOWE ROZKŁADY TEORETYCZNE ZMIENNEJ LOSOWEJ SKOKOWEJ:

Jest rezultatem takiego doświadczenia, w wyniku którego określone zdarzenie A wystąpi lub nie wystąpi. Zdarzeniom elementarnym realizującym zdarzenie A przyporządkowania jest liczba 1, a zdarzeniom elementarnym nie realizującym zdarzenia A – liczba 0.

Zatem,


$$P(A) = p = > P\left( \overset{\overline{}}{A} \right) = 1 - p = q$$

Inaczej,


P(1) = p,  P(0) = q,  p + q = 1,  0 < p < 1,  0 < q < 0

Parametry tego rozkładu wyrażają się następującym wzorami:


E(X) = x1p1 + x2p2 = 1 • p + 0 • q = p


D2(x) = (x1p)2p1 + (x2p)2p2 = (1−p)2p + (0−p)2q = q2p + p2q = pq(q+p) = pq

Przedstawia prawdopodobieństwo k-krotnego wystąpienia zdarzenia losowego A w serii n niezależnych doświadczeń, gdy prawdopodobieństwo wystąpienia zdarzenia A w pojedynczym doświadczeniu…

Funkcja rozkładu prawdopodobieństwa wyraża się w tym wypadku wzorem:


$$f\left( x_{i} \right) = f\left( k \right) = P\left( X = k \right) = \begin{pmatrix} n \\ k \\ \end{pmatrix}p^{k}q^{n - k}$$

Parametry tego rozkładu zapiszemy:


E(X) = np


D2(x) = npq

Odpowiednio dystrybuantę zapiszemy wzorem:


$$F\left( x \right) = \sum_{k \leq x}^{}{\begin{pmatrix} n \\ k \\ \end{pmatrix}p^{k}q^{n - k}}$$

Jest szczelnym przypadkiem rozkładu dwumianowego. Można powiedzieć, że jest to rozkład graniczny, do którego zmierza rozkład dwumianowy, gdy p jest bardzo małe, natomiast n → ∞.

Funkcja rozkładu Poissona jest następująca:


$$p\left( k,\lambda \right) = \frac{\lambda^{k}}{k!}e^{- \lambda}$$

Parametry rozkładu:


E(X) = np = λ = D2(X)

PRZYKŁADOWE ROZKŁADY TEORETYCZNE ZMIENNEJ LOSOWEJ CIĄGŁEJ:

Zmienna losowa ma rozkład prostokątny w przedziale [a,b] jeśli jej funkcja gęstości i dystrybuanta wyrażają się następującymi wzorami:


$$f\left( x \right) = \left\{ \frac{\begin{matrix} 0 \\ 1 \\ \end{matrix}}{\begin{matrix} b - a \\ 0 \\ \end{matrix}},dla\ a < x < b\ \right.\ $$


dla x < 0


dla x > b

Podstawowe parametry omawianego rozkładu są następujące:


$$E\left( X \right) = \frac{a + b}{2}$$


$$D^{2}\left( x \right) = \frac{\left( b - a \right)^{2}}{12}$$

Rozkład normalny jest opisany funkcją gęstości następującej postaci:


$$f\left( x \right) = \frac{1}{\sigma\sqrt{2\pi}}e^{- \frac{\left( x - \mu \right)}{2\sigma^{2}}}$$

Gdzie:

μ = E(X) – wartość oczekiwana rozkładu

σ = D(X) – odchylenie standardowe

e = 2, 718 – podstawa logarytmu naturalnego

Funkcja gęstości dla zmiennej standaryzowanej wyraża się wzorem:


$$f\left( u \right) = \frac{1}{\sqrt{2\pi}}e^{- \frac{u^{2}}{2}}$$

DZIAŁ: WNIOSKOWANIE STATYSTYCZNE.

WNIOSKOWANIEM STATYSTYCZNYM nazywamy proces myślowy polegający na formułowaniu sądów dotyczących całej zbiorowości (populacji generalnej) na podstawie wyników z próby.

13.05.10

WYKŁAD 13.

Analiza tendencji rozwojowej w przebiegu zjawisk ekonomicznych.

Niech Yt oznacza zmienną losową, której wartości obserwowane są w kolejnych jednostkach czasu t (t = 1, 2, …, n). Wartości te oznaczamy przez y. Zmienna Yt będzie opisywać kształtowanie się w czasie pewnego zjawiska.

Przebieg zjawiska w czasie bada się na podstawie szeregów czasowych.

Określenie 1.

Szeregiem czasowym nazywa się uporządkowany według czasu zbiór wartości yt.

Szereg czasowy będziemy oznaczać przez {yt,t}.

Określenie 2.

Trendem nazywa się pewną tendencję rozwojową w przebiegu analizowanego zjawiska Yt. Przedstawia on zmiany w czasie wartości średniej tego zjawiska.

W przebiegu zjawisk ekonomicznych oprócz trendu wyróżnić można także:

- wahania okresowe (np. koniunkturalne, sezonowe),

- wahania przypadkowe.

W poznaniu procesu ekonomicznego ważna jest umiejętność wyodrębniania wymienionych wahań i odpowiednie ich modelowanie.

Metody wyodrębniania trendu:

Polega ona na obliczeniu na podstawie szeregu czasowego, a zatem na podstawie obserwacji: y1, y2, …, yn (gdzie indeks oznacza kolejne jednostki czasu), tzw. średnich ruchomych k-wyrazowych.

Przykład 1 (zwykła średnia ruchoma) – nieparzyste.

Trzywyrazową średnią ruchomą otrzymuje się w następujący sposób:


y1, y2, y3, y4, y5, y6, y7, …, yn − 2, yn − 1, yn


$${\overset{\overline{}}{y}}_{1},{\overset{\overline{}}{y}}_{2},{\overset{\overline{}}{y}}_{3},{\overset{\overline{}}{y}}_{4},{\overset{\overline{}}{y}}_{5},{\overset{\overline{}}{y}}_{6},\ldots,{\overset{\overline{}}{y}}_{n - 2}$$

Przykład 2 (sce… średnia ruchoma)

y1

y2

y3 ${\overset{\overline{}}{y}}_{1} = \frac{\frac{1}{2}y_{1} + y_{2} + y_{3} + y_{4} + \frac{1}{2}y_{5}}{4}$

y4 ${\overset{\overline{}}{y}}_{2} = \frac{\frac{1}{2}y_{2} + y_{3} + y_{4} + y_{5} + \frac{1}{2}y_{6}}{4}$

y5

y6

y7

yn − 3

yn − 2 ${\overset{\overline{}}{y}}_{n - 4} = \frac{\frac{1}{2}y_{n - 4} + y_{n - 3} + y_{n - 2} + y_{n - 1} + \frac{1}{2}y_{n}}{4}$

yn − 1

yn

Efekty zastosowania średniej ruchomej:

- wyrównanie szeregu czasowego (eliminacja wahań przypadkowych i ewentualnie sezonowych),

- uwidacznianie trendu (tendencji rozwojowej).

Polega ona na aproksymacji (dopasowaniu) odpowiedniej funkcji trendu.

Dopasowanie liniowej funkcji trendu.

Hipoteza trendu liniowego: Yt = α0 + α1t + ηt

Yt – zmienna mierząca poziom badanego zjawiska w okresie t,

t – zmienna czasowa,

α0, α1t – parametry strukturalne funkcji trendu,

ηt – resztowa zmienna losowa.

Empiryczny model ekonometryczny:


$${\overset{\overline{}}{y}}_{t} = \ \ \ \ a_{0}\ \ \ \ + \text{\ \ \ \ a}_{1t}$$

[S(a0)] [S(a1t)]

Gdzie:


$$a_{1} = \frac{n\sum_{t = 1}^{n}{y_{t}t - \sum_{t = 1}^{n}{y_{t}\sum_{t = 1}^{n}t}}}{n\sum_{t = 1}^{n}{t^{2} - \left( \sum_{t = 1}^{n}t \right)^{2}}}\text{\ \ \ \ \ \ \ \ \ }a_{0} = \overset{\overline{}}{y} - a_{1}\overset{\overline{}}{t}$$

Uproszczone wzory otrzyma się, gdy przyjmie się, że:

$t^{*} = t - \overset{\overline{}}{t}$ wtedy:


$$a_{1} = \frac{\sum_{t = 1}^{n}{y_{t}t^{*}}}{\sum_{t = 1}^{n}\left( t^{*} \right)^{2}}\text{\ \ \ \ \ \ \ \ \ \ \ }a_{0} = \frac{\sum_{t = 1}^{n}y_{t}}{n} = \overset{\overline{}}{y}\text{\ \ \ }$$

Parametry modelu trendu liniowego można obliczyć również według następujących wzorów macierzowych:


$$a = \begin{bmatrix} a_{0} \\ a_{1} \\ \end{bmatrix} = \left( X^{T}X \right)^{- 1}X^{T}y\ \ \ \ lub\ \ \ a = \begin{bmatrix} a_{0}^{*} \\ a_{1} \\ \end{bmatrix} = \left( X^{*T}X^{*} \right)^{- 1}X^{*T}\text{y\ \ \ \ }$$

Gdzie:


$$X = \begin{bmatrix} \begin{matrix} 1 & 1 \\ 1 & 2 \\ 1 & 3 \\ \end{matrix} \\ \begin{matrix} \ldots & \ldots \\ 1 & n \\ \end{matrix} \\ \end{bmatrix}\text{\ \ \ \ \ }X^{*} = \begin{bmatrix} \begin{matrix} \begin{matrix} 1 & \ldots \\ 1 & \ldots \\ 1 & - 5 \\ \end{matrix} \\ \begin{matrix} 1 & - 4 \\ \ldots & \ldots \\ \ldots & 5 \\ \end{matrix} \\ \end{matrix} \\ \begin{matrix} 1 & \ldots \\ \end{matrix} \\ \end{bmatrix}\ \ \ \ \ y = \begin{bmatrix} \begin{matrix} y_{1} \\ y_{2} \\ y_{3} \\ \end{matrix} \\ \begin{matrix} \ldots \\ y_{n} \\ \end{matrix} \\ \end{bmatrix}$$

20.05.10

WYKŁAD 14: ANALIZA DYNAMIKI ZJAWISK MASOWYCH.

Dynamikę zjawisk masowych bada się na podstawie szeregów czasowych. Pojęcie szeregu czasowego – patrz poprzedni wykład.

Wyróżnia się szeregi czasowe momentów i szeregi czasowe okresów, np. liczba ludności danego kraju na dzień 31 grudnia 2007 r., lub wielkość PKB per capita w kolejnych latach.

Rodzaj danych ma wpływ na metody analizy zjawisk. Przy analizie szeregów czasowych okresów pojawia się problem nierówności przedziałów czasowych, np. liczba dni w miesiącach. W takich sytuacjach należałoby dokonać sprowadzenia wartości zjawisk do okresów porównywalnych (zawierających jednakową liczbę dni).

Proponuje się wykorzystanie następującego przekształcenia:


$$y_{t_{0}} = \frac{y_{t} \bullet t_{0}}{z}$$

Gdzie:

y0 – wartość obserwowanego zjawiska przy założeniu, że wszystkie jednostki czasu (miesiące, kwartały) mają jednakową liczbę dni,

yt – wartość zjawiska faktycznie zaobserwowana w czasie t,

t0 – liczba dni przyjęta za podstawę porównywalności,

z – rzeczywista liczba dni kalendarzowych w danej jednostce czasu.

  1. Przypadek szeregów czasowych okresów.

Przy założeniu równości przedziałów czasowych, przeciętny poziom zjawiska można ocenić za pomocą średniej arytmetycznej.

  1. Przypadek szeregów czasowych momentów.

Średni poziom zjawiska ocenia się wykorzystując w tym celu średnią chronologiczną.

Średnią chronologiczną oblicza się według wzoru:


$${\overset{\overline{}}{y}}_{\text{ch}} = \frac{\frac{y_{1} + y_{2}}{2} + \frac{y_{2} + y_{3}}{2} + \ldots + \frac{y_{n - 1} + y_{n}}{2}}{n - 1} = \frac{\frac{1}{2}y_{1} + y_{2} + \ldots + y_{n - 1} + \frac{1}{2}y_{n}}{n - 1}$$

  1. Przyrost absolutny:

Jest to różnica pomiędzy poziomem zjawiska w okresie (momencie) badanym a poziomem zjawiska w okresie (momencie) przyjętym z podstawę porównań.

Jeśli za podstawę porównań przyjmiemy okres (moment) poprzedni, to otrzymamy:


yt = yt − yt − 1

Są to tzw. przyrosty absolutne łańcuchowe.

Przykład 1.

Niech y1, y2, …, yn oznacza kolejne wyrazy szeregu czasowego. Ciąg przyrostów absolutnych łańcuchowych otrzymamy następująco: y2 − y1, y3 − y2, …, yn − yn − 1

Można też rozważać przyrosty obliczane w odniesieniu do jednego okresu (momentu). Będą to przyrosty absolutne o podstawie stałej.

Interpretacja.

Przyrosty absolutne informują o tym, o ile jednostek wzrósł lub zmalał poziom badanego zjawiska w okresie (momencie) badanym w porównaniu z okresem (momentem) przyjętym za podstawę.

  1. Przyrost względny (tempo wzrostu):

Przyrost względny jest stosunkiem absolutnego przyrostu zjawiska do poziomu zjawiska w okresie (momencie) przyjętym za podstawę porównań.

Przyrosty względne podobnie jak przyrosty absolutne mogą być jedno-podstawowe lub łańcuchowe.

Przykład 2.

Ciąg przyrostów względnych łańcuchowych zapiszemy następująco:


$$\frac{y_{2} - y_{1}}{y_{1}},\frac{y_{3} - y_{2}}{y_{2}},\ldots,\frac{y_{n - 1} - y_{n - 2}}{y_{n - 2}},\frac{{y_{n} - y}_{n - 1}}{y_{n - 1}}$$

Przykład 3.

Ciąg przyrostów względnych o stałej podstawie zapiszemy jako:


$$\frac{y_{2} - y_{1}}{y_{1}},\frac{y_{3} - y_{1}}{y_{1}},\ldots,\frac{y_{n - 1} - y_{1}}{y_{1}},\frac{{y_{n} - y}_{1}}{y_{1}}$$

Interpretacja.

Przyrosty względne odpowiadają na pytanie, o ile wyższych lub niższy jest poziom badanego zjawiska w danym okresie w stosunku do okresu przyjętego za podstawę.

  1. Wskaźniki dynamiki (indeksy).

Wskaźniki dynamiki są to wielkości otrzymane przez podzielenie wartości danego zjawiska w okresie badanym przez wartość zjawiska w okresie podstawowym tj.:


$$i = \frac{y_{t}}{y_{t_{0}}}$$

i – indeks indywidualny (wielkości niemianowane),

yt – poziom zjawiska w okresie badanym,

yt0 – poziom zjawiska w okresie bazowym.

Interpretacja.

Indeksy są wielkościami niemianowanymi. Wyrażane są w ułamkach albo w procentach (podobnie jak przyrosty względne). Przyjmują wyłącznie wartości dodatnie (w odróżnieniu od przyrostów względnych). Jeśli 0 ≤ i ≤ 1, tzn., że nastąpił spadek poziomu zjawiska w okresie badanym w stosunku do okresu podstawowego. Jeżeli i > 1, to znaczy, że nastąpił wzrost poziomu zjawiska w okresie badanym w stosunku do okresu podstawowego. Jeżeli z kolei i = 1, to oznacza brak zmian poziomu zjawiska w czasie.

W zależności od przyjętej podstawy porównań, wyróżnia się indeksy łańcuchowe oraz indeksy jednopodstawowe.

Przykład 4.

Ciąg łańcuchowy zapiszemy jako:


$$\frac{y_{2}}{y_{1}},\frac{y_{3}}{y_{1}},\ldots,\frac{y_{n - 1}}{y_{n - 2}},\frac{y_{n}}{y_{n - 1}}$$

Z kolei ciąg indeksów o stałej podstawie:


$$\frac{y_{1}}{y_{1}},\frac{y_{2}}{y_{1}},\frac{y_{3}}{y_{1}},\ldots,\frac{y_{n - 1}}{y_{1}},\frac{y_{n}}{y_{1}}$$


$$\frac{y_{t}}{y_{1}}:\frac{y_{t - 1}}{y_{1}} = \frac{y_{t}}{y_{t - 1}}$$

  1. Indeks jednopodstawowy w okresie następującym bezpośrednio po okresie przyjętym za podstawę jest taki sam jak indeks łańcuchowy.

  2. Indeks jednopodstawowy w okresie przyjętym za podstawę wynosi 1 (100%).

  3. Dalsze indeksy jednopodstawowe po okresie przyjętym za podstawę otrzymuje się mnożąc w sposób narastający kolejne indeksy łańcuchowe, licząc od wskaźnika łańcuchowego znajdującego się tuż po okresie podstawowym.

  4. Indeksy jednopodstawowe przed okresem podstawowym otrzymuje się jako odwrotność narastających iloczynów kolejnych indeksów łańcuchowych, licząc od okresu przyjętego za podstawę.

EGZAMIN – przejście z indeksu jednopodstawowego na indeks łańcuchowy i odwrotnie (prof. coś wybierze) lub zmiana podstawy ciągu indeksów jednopodstawowych.

Średnie tempo zmian zjawiska w czasie można wyznaczyć z indeksów łańcuchowych, jako ich średnią geometryczną, tj. według wzoru:


$${\overset{\overline{}}{y}}_{g} = \sqrt[{n - 1}]{\frac{y_{2}}{y_{1}} \bullet \frac{y_{3}}{y_{2}} \bullet \ldots \bullet \frac{y_{n - 1}}{y_{n - 2}} \bullet \frac{y_{n}}{y_{n - 1}}} = \sqrt[{n - 1}]{\prod_{t = 2}^{n}\frac{y_{t}}{y_{t - 1}}}$$

Co po uproszczeniu daje:


$${\overset{\overline{}}{y}}_{g} = \sqrt[{n - 1}]{\frac{y_{n}}{y_{1}}}$$

EGZAMIN!!! – oceń średnie tempo zmian zjawiska w czasie.

27.05.10

WYKŁAD 15: ANALIZA DYNAMIKI ZJAWISK C.D.

  1. Indywidualne; indeksy indywidualne znajdują zastosowanie w przypadku badania dynamiki zjawisk jednorodnych. Chodzi tutaj o indeksy dotyczące indywidualnych jednostek. Wśród indeksów indywidualnych szczególnie interesujące dla ekonomistów są indeksy: cen, ilości oraz wartości.

Indywidualny indeks cen można zapisać następująco:


$$i_{p} = \frac{p_{1}}{p_{0}}$$

Gdzie:

ip – indywidualny indeks cen,

p1 – cena jednostkowa wyrobu w okresie badanym,

p0 – cena jednostkowa wyrobu w okresie podstawowym.

Indywidualny indeks ilości zapiszemy jako:


$$i_{q} = \frac{q_{1}}{q_{0}}$$

Gdzie:

iq – indywidualny indeks ilości,

q1 – ilość wyrobu wyprodukowanego w okresie badanym,

q0 – ilość wyrobu wyprodukowanego w okresie podstawowym.

Indywidualny indeks wartości wyraża wzór:


$$i_{w} = \frac{q_{1}p_{1}}{q_{0}p_{0}} = \frac{w_{1}}{w_{0}}$$

Gdzie:

w1 – wartość wyrobu w okresie badanym,

w0 – wartość wyrobu w okresie podstawowym.

EGZAMIN – jaka zmiana była w danym roku w stosunku do innego roku (wartość odpowiedniego indeksu statystycznego)

Indywidualne indeksy cen, ilości i wartości informują o wzroście lub spadku tych wielkości w okresie badanym w porównaniu z okresem podstawowym, tj. przyjętym za podstawę porównań.

Jeśli rozważamy indeksy cen, ilości i wartości dla tego samego wyrobu, to możemy zapisać:


iw = ip • iq

  1. Zespołowo (agregatowe); indeksy zespołowe wykorzystuje się, gdy bada się dynamikę zmian odnoście do całego zespołu (agregatu zbioru) jednostek. W zależności od przedmiotu badań wyróżnia się:

  1. Indeksy zespołowe dla wielkości absolutnych:

Wśród zespołowych indeksów wielkości absolutnych wyróżnia się agregatowe indeksy cen, ilości oraz wartości.

Agregatowy indeks wartości wyraża się wzorem:


$$I_{w} = \frac{\sum_{i = 1}^{m}{q_{i1}p_{i1}}}{\sum_{i = 1}^{m}{q_{i0}p_{i0}}}$$

Gdzie:

Iw – agregatowy indeks wartości,

q1, q0 - ilość w okresie, odpowiednio – badanym i podstawowym,

p1, p0 – cena jednostkowa w okresie badanym i podstawowym.

EGZAMIN – podaj wzory na agregatowe indeksy.

Jest to zatem stosunek wartości pewnego zbioru (agregatu) wyrobów w okresie badanym do wartości tego zbioru w okresie podstawowym, obliczanej w cenach bieżących.

Wniosek: należy rozważać także agregatowe indeksy cen oraz agregatowe indeksy ilości (masy fizycznej).

Agregatowy indeks cen wyraża się wzorem:

$I_{p} = \frac{\sum_{i = 1}^{m}{q_{1}\ \ \ \ \ \bullet \text{\ p}_{i1}}}{\sum_{i = 1}^{m}{q_{1}\ \ \ \ \ \bullet \ p_{i0}}}$

Gdzie:

Ip – agregatowy indeks cen,

q – stała ilość wyrobu,

p1, p0 – cena jednostkowa w okresie badanym i podstawowym.

Określa on średnie względne zmiany w poziomie cen określonego zbioru produktów, zaobserwowane w dwóch porównywanych ze sobą okresach. Indeks cen oblicza się przy założeniu, że ilości badanych produktów nie uległy zmianie, a jedynie zmieniły się ich ceny.

EGZAMIN – wielkości absolutne, stosunkowe – wzory.


$$\text{\ L\ \ I}_{p} = \frac{\sum_{i = 1}^{m}{q_{i0}p_{i1}}}{\sum_{i = 1}^{m}{q_{i0}p_{i0}}}$$

Odpowiada na pytanie: o ile więcej lub mnie musielibyśmy zapłacić (lub otrzymać) za produkty nabyte (sprzedane) w okresie podstawowym według cen okresu badanego w stosunku do cen okresu podstawowego.


$$\text{P\ I}_{p} = \frac{\sum_{i = 1}^{m}{q_{i1}p_{i1}}}{\sum_{i = 1}^{m}{q_{i1}p_{i0}}}$$

EGZAMIN – podaj wzór na agregatowy indeks cen (trzeba zaznaczyć, że ceny się zmieniają).

Informuje o tym, o ile mniej lub więcej musielibyśmy zapłacić (otrzymać) za produkty nabyte (sprzedane) w okresie badanym według cen okresu badanego w stosunku do cen okresu podstawowego.

Agregatowy indeks ilości ogólnie zapiszemy następująco:

$\text{\ I}_{p} = \frac{\sum_{i = 1}^{m}{q_{i1}p_{\text{i\ }}}}{\sum_{i = 1}^{m}{q_{i0}p_{\text{i\ }}}}$

EGZAMIN – podaj wzór na agregatowy indeks ilości.

Gdzie oznaczenia analogicznie jak wcześniej.

Indeks ten informuje o średnich względnych zmianach w fizycznych rozmiarach określonego zespołu produktów, które nastąpiły pomiędzy okresem podstawowym i badanym.


$$\text{\ L\ \ I}_{p} = \frac{\sum_{i = 1}^{m}{q_{i1}p_{i0}}}{\sum_{i = 1}^{m}{q_{i0}p_{i0}}}$$


$$\text{P\ I}_{p} = \frac{\sum_{i = 1}^{m}{q_{i1}p_{i1}}}{\sum_{i = 1}^{m}{q_{i0}p_{i1}}}$$

Różnice występujące pomiędzy tymi formułami mają ten sam charakter, co w przypadku indeksów cen.

W przypadku, gdy okres podstawowy i badany nie są zbyt odległe, do obliczenie agregatowych indeksów cen i ilości można też zastosować formułę Fishera:


$$\text{F\ }I_{p} = \sqrt{\text{L\ }I_{p} \bullet P\ I_{p}}$$


Iw = L Ip • P Iq = P Ip • L Iq = F Ip • F Iq

10.06.10

WYKŁAD 16. ANALIZA DYNAMIKI ZJAWISK CD. AGREGATOWE (ZESPOŁOWE) INDEKSY WIELKOŚCI STOSUNKOWYCH.

Pyt. 1. Co to są wielkości stosunkowe?

WIELKOŚCI STOSUNKOWE wyrażają stosunki dwóch zjawisk logicznie ze sobą powiązanych. Można je określić mianem wskaźników natężenia.

Przykłady:

Wyróżnia się:

  1. Wielkości stosunkowe cząstkowe:

Wielkości stosunkowe cząstkowe można zapisać w następującej postaci:


$$x = \frac{a}{b}$$

Stąd:


$$a = xb\ \ \ \ \ \ b = \frac{a}{x} = \frac{1}{x}a$$

  1. Wielkości stosunkowe ogólne.

Wielkości stosunkowe ogólne można wyrazić następująco:


$$X = \frac{A}{B} = \frac{\sum_{}^{}a}{\sum_{}^{}b} = \frac{\sum_{}^{}\text{xb}}{\sum_{}^{}b} = \frac{\sum_{}^{}a}{\sum_{}^{}\frac{a}{x}}$$

Pyt. 2. W jaki sposób bada się dynamikę wielkości stosunkowych?

Do analizy dynamiki wielkości stosunkowych wykorzystuje się indeksy wielkości stosunkowych.


$$I_{x} = \frac{x_{1}}{x_{2}} = \frac{\sum_{}^{}a_{1}}{\sum_{}^{}b_{1}}:\frac{\sum_{}^{}a_{0}}{\sum_{}^{}b_{0}}\ \ \ \ \ \ \ \ \ (a)$$


$$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \frac{\sum_{}^{}{x_{1}b}_{1}}{\sum_{}^{}b_{1}}:\frac{\sum_{}^{}{x_{0}b}_{0}}{\sum_{}^{}b_{0}}\ \ \ \ \ \ \ (b)$$


$$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ = \frac{\sum_{}^{}a_{1}}{\sum_{}^{}\frac{a_{1}}{x_{1}}}:\frac{\sum_{}^{}a_{0}}{\sum_{}^{}\frac{a_{0}}{x_{0}}}\ \ \ \ \ \ \ \ \ \ \ \ c)$$

Zaprezentowane wzory wykorzystuje się w różnych sytuacjach, zależnie od wyjściowych informacji, którymi dysponuje badacz.

Wyrażenie (b) można zapisać w innej postaci:


$$I_{x} = \sum_{}^{}{x_{1}\frac{b_{1}}{\sum_{}^{}b_{1}}:\sum_{}^{}{x_{0}\frac{b_{0}}{\sum_{}^{}b_{0}}}}\text{\ \ \ }\left( * \right)$$

Z kolei, wyrażenie (c) można zapisać jako:


$$I_{x} = \sum_{}^{}{\frac{1}{x_{1}}\frac{a_{1}}{\sum_{}^{}a_{1}}:\sum_{}^{}{\frac{1}{x_{0}}\frac{a_{0}}{\sum_{}^{}a_{0}}}}\text{\ \ \ }\left( ** \right)$$

Wzór (*) określa wszechstronny indeks wielkości stosunkowych ważonych współczynnikami struktury składnika b, natomiast wzór (**) – wszechstronny indeks wielkości stosunkowych ważonych współczynnikami struktury składnika a.

Wartość indeksu wszechstronnego wynika z działania dwóch czynników:

  1. Dynamiki cząstkowych wielkości stosunkowych.

  2. Zmian w dynamice w strukturze czynnika a lub czynnika b.

Pyt. 3. Jak można określić te wpływy?

Wyrażają one wpływ dynamiki cząstkowych wielkości stosunkowych na poziom indeksu wszechstronnego.


$$I_{x/a_{0}} = \frac{\sum_{}^{}a_{0}}{\sum_{}^{}\frac{a_{0}}{x_{1}}}:\frac{\sum_{}^{}a_{0}}{\sum_{}^{}\frac{a_{0}}{x_{0}}}$$


$$= \sum_{}^{}{\frac{1}{x_{1}}\frac{a_{0}}{\sum_{}^{}a_{0}}}:\ \sum_{}^{}{\frac{1}{x_{0}}\frac{a_{0}}{\sum_{}^{}a_{0}}}$$


$$I_{x/b_{0}} = \frac{\sum_{}^{}{x_{1}b_{0}}}{\sum_{}^{}b_{0}}:\frac{\sum_{}^{}{x_{0}b}_{0}}{\sum_{}^{}b_{0}}$$


$$\sum_{}^{}x_{1}\frac{\sum_{}^{}b_{0}}{\sum_{}^{}b_{0}}:\sum_{}^{}x_{0}\frac{\sum_{}^{}b_{0}}{\sum_{}^{}b_{0}}$$


$$I_{x/a_{1}} = \frac{\sum_{}^{}a_{1}}{\sum_{}^{}\frac{a_{1}}{x_{1}}}:\frac{\sum_{}^{}a_{1}}{\sum_{}^{}\frac{a_{1}}{x_{0}}}$$


$$= \sum_{}^{}{\frac{1}{x_{1}}\frac{a_{1}}{\sum_{}^{}a_{1}}}:\ \sum_{}^{}{\frac{1}{x_{0}}\frac{a_{1}}{\sum_{}^{}a_{1}}}$$


$$I_{x/b_{1}} = \frac{\sum_{}^{}{x_{1}b_{1}}}{\sum_{}^{}b_{1}}:\frac{\sum_{}^{}{x_{0}b}_{1}}{\sum_{}^{}b_{1}}$$


$$\sum_{}^{}x_{1}\frac{\sum_{}^{}b_{1}}{\sum_{}^{}b_{1}}:\sum_{}^{}x_{0}\frac{\sum_{}^{}b_{1}}{\sum_{}^{}b_{1}}$$

Określają wpływ zmian w strukturze czynników a i b ma poziom indeksy wszechstronnego.

Wpływ czynnika b określimy następująco:


$$\text{b\ }I_{x/x_{0}}\sum_{}^{}{\frac{x_{0}b_{1}}{b_{1}}:\sum_{}^{}\frac{x_{0}b_{0}}{b_{0}}}$$


$$= \sum_{}^{}{x_{0}\frac{b_{1}}{b_{1}}:\sum_{}^{}{x_{0}\frac{b_{0}}{b_{0}}}}$$


$$\text{b\ }I_{x/x_{0}}\sum_{}^{}{\frac{x_{1}b_{1}}{b_{1}}:\sum_{}^{}\frac{x_{1}b_{0}}{b_{0}}}$$


$$= \sum_{}^{}{x_{1}\frac{b_{1}}{b_{1}}:\sum_{}^{}{x_{1}\frac{b_{0}}{b_{0}}}}$$

Wpływ czynnika a określimy następująco:


$$\text{a\ }I_{x/x_{0}} = \frac{\sum_{}^{}a_{1}}{\sum_{}^{}\frac{a_{1}}{x_{0}}}:\frac{\sum_{}^{}a_{0}}{\sum_{}^{}\frac{a_{0}}{x_{0}}}$$


$$= \sum_{}^{}{\frac{1}{x_{0}}\frac{a_{1}}{\sum_{}^{}a_{1}}}:\sum_{}^{}{\frac{1}{x_{0}}\frac{a_{0}}{\sum_{}^{}a_{0}}}$$


$$\text{a\ }I_{x/x_{0}} = \frac{\sum_{}^{}a_{1}}{\sum_{}^{}\frac{a_{1}}{x_{1}}}:\frac{\sum_{}^{}a_{0}}{\sum_{}^{}\frac{a_{0}}{x_{0}}}$$


$$= \sum_{}^{}{\frac{1}{x_{1}}\frac{a_{1}}{\sum_{}^{}a_{1}}}:\sum_{}^{}{\frac{1}{x_{1}}\frac{a_{0}}{\sum_{}^{}a_{0}}}$$


Ix = Ix/b1 •  b Ix/x0,           Ix = Ix/b0 •  b Ix/x1


Ix = Ix/a1 •  a Ix/x0,           Ix = Ix/a0 •  a Ix/x1

EGZAMIN – informacje teoretyczne, jeśli chodzi o indeksy zespolone. Przykłady liczbowe do pozostałych indeksów (podstawianie do wzoru z informacji, które będą dostępne – wskazujemy sposób rozwiązania). INDEKS CEN KONSUMPCYJNYCH – służy do przeliczania nominalnych wielkości na realne wielkości (przykłady).


Wyszukiwarka

Podobne podstrony:
WYKŁAD 4 statystyka
WZORY DO WYKŁADU 9, Statystyka
WZORY DO WYKŁADU 3, Statystyka
wyklad 3, Statystyka
statystyka odpowiedzi wyklad, Statystyka(1)
wyklad 7, Statystyka
Wyklad 9 statystyka testy nieparametryczne
Wyklad statystyka opisowa 03 10 2010
wykład6-statystyka
Statystyka dzienne wyklad13, STATYSTYKA
wykłady z zadaniami, wykład I, STATYSTYKA
pdst. statystyka, Statystyka WYKŁAD 3, Statystyka WYKŁAD 3 (14
Wykład z statystyki
Zagadnienia z wykladow statystyka
Statystyka - wykład I, Statystyka
Wykład - statystyka, pielęgniarstwo, Pielegniarstwo lic PWSZ, Socjologia
wyklad2 STATYSTYKA OPISOWA

więcej podobnych podstron