25.02.10
WYKŁAD 1. WPROWADZENIE DO PRZEDMIOTU.
POCZĄTKI STATYSTYKI, PODSTAWY METODOLOGICZNE:
- Termin „statystyka” pochodzi od łacińskiego słowa status, czyli państwo. Pierwotnie oznaczał zbiór szeroko ujmowanych wiadomości o państwie (G.Achenwall, 1719 – 1772).
- Wyniki opisu liczbowego zwykle ujmowano w postaci zestawień tabelarycznych, które służyły głównie administracji państwowej.
- Pierwsze tablice:
Tablica dotycząca Rosji z okresu 1726 – 1727 (J.K. Kirgiłow),
Tablica dotycząca Danii w 1741 r. (Anchersen).
Okres ten można nazwać tabelaryzmem, a przedstawicieli tabelarystami.
- Rozwój statystyki jako nauki wiąże się z działalnością badawczą, tzw. arytmetyków politycznych [J. Graunt (1620 – 1674), W. Petty (1623 – 1687)].
- Podstawę teoretyczną nowoczesnej statystyki stanowi teoria rachunku prawdopodobieństwa (początek – II poł. XVII w.):
B. Pascal (1623 – 1662), P. Fernat (1601 – 1665),
J. Bernouli (1654 – 1705),
P.S. de Laplace (1749 – 1835),
K.F. Gaus (1777 – 1835),
Questele (1796 – 1874).
- W wyniku dalszego rozwoju statystyki na początku XX w. ukształtowała się metoda reprezentacyjnych badań statystycznych.
PRÓBA DEFINICJI.
W ujęciu szerszym – termin „statystyka” oznacza naukę społeczną, która bada ilościową stronę zjawisk masowych oraz formułuje prawidłowości rozwoju tych zjawisk.
W węższym ujęciu – pojęcie „statystyka” oznacza zbiór informacji dotyczących zjawisk gospodarczych, społecznych, przyrodniczych, itp.
PRZEDMIOT I ZAKRES BADAŃ.
Przedmiotem badań statystycznych są zbiorowości osób, rzeczy lub zjawisk. Określenie
przedmiotu i zakresu badań statystycznych polega więc na dokładnym ustaleniu zbiorowości, jednostki statystycznej oraz cech statystycznych.
STATYSTYKA OPISOWA A STATYSTYKA MATEMATYCZNA.
STATYSTYKA OPISOWA obejmuje następujące zagadnienia:
Badanie zbiorowości ze względu na jedną cechę, np. określenie poziomu średniego zróżnicowania, asymetrii, rozkładu, konwersacji.
Badanie zależności zjawisk masowych, tj.:
- Badanie zbiorowości ze względu na dwie cechy jednocześnie, np. stać pracy i wydajność, kwalifikacje i zarobki, sprzedaż i wydatki na reklamę, wielkość produkcji i liczba braków.
Badanie dynamiki zjawisk masowych, tzn.:
- Badanie przebiegu zjawisk w czasie.
STATYSTYKA MATEMATYCZNA obejmuje następujące zagadnienia:
W zakresie struktury zjawisk masowych – wnioskowanie statystyczne z podziałem na:
- estymację parametrów populacji,
- weryfikację hipotez statystycznych dotyczących parametrów oraz rozkładów cech (zmiennych).
W zakresie zależności zjawisk masowych – wnioskowanie dotyczące:
- korelacji,
- regresji.
W zakresie dynamiki zjawisk masowych – wnioskowanie statystyczne obejmuje mianem PROGNOZOWANIA.
ETAPY BADANIA STATYSTYCZNEGO:
Przygotowanie badania statystycznego:
Określenie celów badania statystycznego:
- cele ogólne,
- szczegółowe hipotezy robocze,
Określenie przedmiotów badania:
- definicja ZBIOROWOŚCI STATYSTYCZNEJ (zbiorowość statystyczna – pewna, zwykle duża, liczba jednostek – osób, rzeczy lub zjawisk – posiadających jedną lub kilka cech stałych – wspólnych – oraz wiele cech zmiennych, których warianty różnią poszczególne jednostki wchodzące w skład zbiorowości statystycznej. Kryteria podziału zbiorowości społecznej – skończenie i nieskończenie liczne, statyczne i dynamiczne, proste i złożone, jednorodne i niejednorodne) i JEDNOSTKI STATYSTYCZNEJ (jednostka statystyczna – pojedynczy element (osoba, przedmiot, itp.) zbiorowości statystycznej mający takie same cechy stałe tak, jak wszystkie jednostki zbiorowości statystycznej).
Określenie zakresu badania:
- podstawą określenia zakresu badania statystycznego jest określenie CECH STATYSTYCZNYCH.
CECHY STATYSTYCZNE (właściwości, których odmiany lub wartości (natężenie) wyróżnia jednostki wchodzące w skład zbiorowości statystycznej). |
STAŁE |
Określają jednostki pod względem rzeczowym, czasowym i przestrzennym. |
Wybór metod badania statystycznego:
METODY BADANIA STATYSTYCZNEGO |
BADANIE PEŁNE |
- ciągłe – np. ewidencja urodzeń, - doraźne – np. straty spowodowane wypadkiem, - okresowe – np. spis ludności, spis rolny, inwentaryzacja. |
Wybór metod (technik) obserwacji statystycznej (gromadzenie danych):
- spisy,
- rejestracja bieżąca i sprawozdawczość,
- inne sposoby.
Obserwacja statystyczna:
Kontrola zebranego materiału statystycznego:
- formalna (ilościowa),
- merytoryczna (jakościowa).
Porządkowanie i grupowanie materiału statystycznego:
- typologiczne – w oparciu o cechę jakościową,
- wariancyjne – w oparciu o cechę ilościową.
Zliczanie danych statystycznych.
Prezentacja MATERIAŁU STATYSTYCZNEGO (PIERWOTNY – zbieramy informacje do konkretnego badania, WTÓRNY – korzystamy z informacji już zebranych):
Budowa szeregów statystycznych:
- szczegółowe – materiał statystyczny uporządkowany według wariantów jednej cechy,
- rozdzielcze,
- kumulacyjne – szereg, który powstaje w drodze dodawania kolejnych, cząstkowych liczebności.
Budowa tablic statystycznych:
- proste – szereg rozdzielczy (dwie kolumny, warianty i odpowiadające im liczebności),
- złożone – zjawisko prezentowane ze względu na dwie cechy X i Y – w jednej tablicy przedstawiony jest rozkład zbiorowości ze względu na te cechy,
- robocze – pogrupowany materiał statystyczny,
- wynikowe – możliwość wnioskowania z przygotowanej tablicy.
Budowa wykresów statystycznych:
- powierzchniowe – dzięki nim można scharakteryzować strukturę zbiorowości ze względu na jakąś cechę,
- punktowe,
- liniowe,
- histogramy,
- pasmowe,
- bryłowe,
- kartogramy,
- kombinowane,
- specjalne.
Analiza:
Analiza struktury zbiorowości,
Analiza współzależności cech,
Analiza dynamiki zbiorowości lub zjawisk.
PRZYKŁAD 1.
Wychowanków pewnego Domu Dziecka uciekających z ośrodka „zbadano” pod względem przyczyn ucieczek. Wśród przyczyn ucieczek wyodrębniono następujące: presja grupy (18), trudności adaptacyjne (10), tęsknota za domem (6), włóczęgostwo (4), strach przed karą (2).
Ustalenie wariantów badanej cechy i przyporządkowanie ich uciekającym pozwala na dokonanie grupowania typologicznego i jednocześnie otrzymanie szeregu statystycznego postaci:
Przyczyny ucieczek | Liczba wychowanków |
presja grupy trudności adaptacyjne tęsknota za domem włóczęgostwo strach przed karą |
18 10 6 4 2 |
PRZYKŁAD 2.
Grupę studentów (122 osoby) zapytano o czas, jaki w ostatnim tygodniu poświęcili na naukę w bibliotece. 28 studentów odpowiedziało, że nie więcej niż 3 godziny, 42 – w granicach: (3,6] godzin, 30 – między (6,9] godzin, 15 – powyżej 9, ale nie więcej niż 12 godzin, natomiast 7 osób poinformowało, że (12,15] godzin. Informacje te pozwalają na dokonanie grupowania wariancyjnego i utworzenie szeregu rozdzielczego przedziałowego, tj.
Liczba studentów | Czas poświęcony na naukę |
28 42 30 15 9 |
0-3 3-6 6-9 9-12 12-15 |
4.03.10
WYKŁAD 2. ROZKŁADY EMPIRYCZNE.
Pojęcie rozkładu empirycznego (EGZAMIN).
Częstość i dystrybuanta empiryczna.
Podstawowe typy rozkładów empirycznych.
Badanie własności rozkładów empirycznych.
Rozkłady teoretyczne zmiennych (EGZAMIN) – wymienić.
OPIS STATYSTYCZNY (rozważmy cechę X):
Poszczególne warianty cechy X: x1, x2, …, xN
Gdzie:
ROZKŁADEM EMPIRYCZNYM cechy nazywamy przyporządkowanie kolejnym wartościom tej cechy odpowiadających im liczebności lub częstości.
DYSTRYBUANTĄ EMPIRYCZNĄ nazywamy przyporządkowanie kolejnym wartościom tej cechy odpowiadających im liczebności (częstości) skumulowanych.
Empiryczny rozkład cechy można przedstawić na wykresie otrzymując, tzw. KRZYWĄ LICZEBNOŚCI.
KRZYWA LICZEBNOŚCI jest to linia łącząca punkty o współrzędnych: (xi, ni).
RODZAJE ROZKŁADÓW EMPIRYCZNYCH:
Symetryczne i asymetryczne,
Jednomodalne, bimodalne (dwa wierzchołki), wielomodalne (kilka wierzchołków),
Spłaszczone i wysmukłe.
Graficzna ilustracja zjawiska asymetrii.
Graficzna ilustracja zjawiska koncentracji (kurtozy).
ANALIZA STRUKTURY ZJAWISK MASOWYCH.
Ogólna charakterystyka struktury zjawisk masowych.
Wskaźniki struktury i natężenia, tendencja centralna w zakresie kształtowania się wartości zjawiska, zróżnicowanie wartości, asymetria rozkładu, koncentracja.
EGZAMIN – zagadnienia omawiane w analizie struktury zjawisk masowych.
11.03.10
WYKŁAD 3. MIARY TENDENCJI CENTRALNEJ.
Istota tendencji centralnej.
Miary klasyczne.
Miary pozycyjne.
Wnioski.
TENDENCJA CENTRALNA – wzrastanie liczebności w miarę, gdy maleją odległości pomiędzy konkretnymi wartościami zmiennej, a wartością środkową.
ŚREDNIA ARYTMETYCZNA – wartość przeciętna.
Gdzie:
– określona wartość zmiennej X,
N – liczba jednostek w badanej zbiorowości.
Gdzie:
k – liczba klas, na które podzielono zbiorowość.
– liczebności.
WŁASNOŚCI ŚREDNIEJ ARYTMETYCZNEJ:
Jako miara klasyczna jest wypadkową wszystkich wartości zmiennej i spełnia nierówność:
Suma odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej jest równa zeru, tj.:
Jeżeli wszystkie wartości zmiennej powiększymy (pomniejszymy, podzielimy lub pomnożymy) o pewną stałą, to średnia arytmetyczna będzie równa sumie (różnicy, ilorazowi, iloczynowi) średniej arytmetycznej wyjściowych wartości i tej stałej.
Jeżeli liczebności poszczególnych wariantów cechy są jednakowe, to średnią arytmetyczną można obliczyć jako iloraz sumy wartości wariantów i ich liczby.
Suma wartości zmiennej jest równa iloczynowi średniej arytmetycznej i liczebności zbiorowości, tj.:
Na poziom średniej arytmetycznej silny wpływ wywierają wartości skrajne. Jeśli występują one w szeregu i odbiegają od całej reszty to średnia ważona nie będzie przedstawiała poziomu przeciętnego zjawiska.
ŚREDNIE POZYCYJNE:
DOMINANTA – wartość najliczniej reprezentowana w zbiorowości statystycznej,
Gdzie:
11.03.10
Kwartyle (Q1,Q2, Q3) – takie wartości zmiennej w rozkładzie empirycznym, które dzielą zbiorowość na cztery części.
Pozycję kwartyla w szeregu można wyznaczyć według wzoru:
Musimy mieć przynajmniej uporządkowany materiał, aby wyznaczyć kwartyle.
KWARTYL PIERWSZY – wartość zmiennej w rozkładzie empirycznym, poniżej której znajduje się 25% jednostek badanej zbiorowości.
KWARTYL DRUGI (mediana) – środkowa wartość cechy, dzieląca zbiorowość na dwie równe liczebnie części: część wartości mniejszych lub równych medianie oraz część wartości większych lub równych medianie.
KWARTYL TRZECI – wartość zmiennej w rozkładzie empirycznym, poniżej której znajduje się 75% jednostek badanej zbiorowości.
Wnioski:
Mówienie o tendencji centralnej jest uzasadnione w sytuacjach rozkładów symetrycznych oraz zbliżonych do symetrycznych.
Istnieją różne miary tendencji centralnej, mniej lub bardziej odporne na własności rozkładu.
Stosowanie odpowiednich miar wymaga spełnienia określonych warunków.
Niespełnienie jednych warunków powoduje utratę wartości poznawczej obliczonych miar, innych zaś uniemożliwia nawet ich obliczenie.
WYKŁAD 4. MIARY ZRÓŻNICOWANIA.
Do miar zróżnicowania (dyspersji/rozproszenia) należą:
OBSZAR ZMIENNOŚCI (tzw. rozstęp) – jest to różnica między największą a najmniejszą wartością zmiennej. Obszar zmienności wyraża się wzorem:
Jest on miarą mało dokładną, uzależnioną w dużym stopniu od wielkości skrajnych. Ograniczenia stosowania tej miary są następujące:
Rozstępu nie można obliczyć dla szeregów nieskończonych, a w przypadku przedziałowych szeregów rozdzielczych, gdy klasy są otwarte.
Nie należy porównywać rozproszenia badanej cechy w szeregach o istotnie różnych liczebnościach oraz, gdy badana cecha mierzona jest w różnych jednostkach miary.
ODCHYLENIE ĆWIARTKOWE wyraża się wzorem:
i mierzy przeciętną różnicę między wartością badanej cechy a wartością środkową. Jest to ½ obszaru zmienności 50% środkowych jednostek zbiorowości, mierzy więc rozstęp pokryty przez połowę wszystkich obserwacji. Dzięki wyeliminowaniu wpływu na tę miarę zmienności wartości skrajnych (z I i II ćwiartki), odchylenie ćwiartkowe jest bardziej precyzyjną miarą niż obszar zmienności.
ODCHYLENIE PRZECIĘTNE oblicza się według wzoru:
lub według wzorów:
EGZAMIN – Ocenić przeciętne zróżnicowanie cechy w zbiorowości.
Jest to średnia arytmetyczna z bezwzględnych wartości odchyleń zmiennej od średniej arytmetycznej.
Interpretacja: odpowiada na pytanie, ile przeciętnie różnią się wartości badanej cechy od wartości średniej.
WARIANCJA I ODCHYLENIE STANDARDOWE.
Średnia arytmetyczna kwadratów odchyleń poszczególnych wartości zmiennej od średniej arytmetycznej nazywa się WARIANCJĄ tej zmiennej.
Pierwiastek z wariancji zaś nazywa się ODCHYLENIEM STANDARDOWYM.
Wzory pozwalające na obliczenie wartości wariancji są następujące:
Zatem odchylenie standardowe, np. z szeregu rozdzielczego przedziałowego obliczymy według wzoru:
Interpretacja: Podobnie jak odchylenie przeciętne, odchylenie standardowe określa przeciętną różnicę pomiędzy wartościami poszczególnych jednostek zbiorowości a wartością średnią.
RÓWNOŚĆ WARIANCYJNA.
Wzór na EGZAMIN!!
Gdzie:
WSPÓŁCZYNNIKI ZMIENNOŚCI są względnymi miarami zróżnicowania. Stosowane są do oceny zróżnicowania, a także do porównań, gdy badane zjawisko mierzone jest w różnych jednostkach miary lub kształtuje się na niejednakowym poziomie przeciętnym. W zależności od zastosowanej miary bezwzględnej zróżnicowania stosuje się odpowiednie współczynniki zmienności, tj.:
Interpretacja: współczynniki zmienności informują o względnym zróżnicowaniu zbiorowości ze względu na badaną cechę. Informują zatem jaki jest udział przeciętnego zróżnicowania w wartości przeciętnej.
18.03.10
WYKŁAD 5. MIARY ASYMETRII.
Asymetria rozkładu cechy (zmiennej) oznacza przewagę pewnej grupy jednostek w badanej zbiorowości. Jeśli przeważają jednostki, których wartości przewyższają poziom średni, to mamy do czynienia z asymetrią lewostronną (ujemną). W sytuacji odwrotnej, tj. gdy przeważają jednostki, których wartości są niższe od średniej, to taką asymetrię określa się mianem prawostronnej (dodatniej), np. płace.
Wystąpienie asymetrii rozkładu powoduje określone konsekwencje. W szeregu o skłonności prawostronnej wartości skrajne położone są z prawej strony średniej. Powoduje to przesunięcie średniej arytmetycznej w kierunku prawym w stosunku do dominanty i mediany
Odwrotnie jest w przypadku skłonności lewostronnej W rozkładach symetrycznych
Wniosek: w celu wykrycia i określenia charakteru asymetrii można posłużyć się różnicą pomiędzy wspomnianymi miarami przeciętnymi.
Najczęściej stosowane miary asymetrii wyrażają się wzorami:
Są to miary bezwzględne, zatem nieprzydatne do porównań i oceny skali zjawiska asymetrii.
Względnymi miarami asymetrii są, tzw. WSPÓŁCZYNNIKI SKOŚNOŚCI:
Innym sposobem badania asymetrii jest tzw. moment trzeci centralny.
Określenie: dowolnym r-tym momentem rozkładu nazywamy średnią arytmetyczną z odchyleń poszczególnych wartości zmiennej X od dowolnej liczby q podniesionych r-tej potęgi.
Ogólnie:
Gdy q=0, to otrzymuje się momenty zwykłe
Gdy , to otrzymuje się momenty centralne
Do badania asymetrii wykorzystuje się moment trzeci centralny:
Względną miarą asymetrii jest w tym wypadku moment trzeci centralny wyrażony w jednostkach odchylenia standardowego:
Miara ta może posłużyć do oceny stopnia (asymetrii) skośności danego rozkładu oraz do porównań skłonności różnych rozkładów.
WYKŁAD 6. MIARY KONCENTRACJI.
Koncentracja zbiorowości wokół średniej – kurtoza.
Chodzi tu o badanie stopnia skupiania się wartości badanej cechy wokół wartości średniej.
Według tego kryterium wyróżnia się rozkłady wysmukłe i spłaszczone. Podstawą określenia badanego rozkładu jako smukłego lub też spłaszczonego jest porównanie go z rozkładem normalnym.
Bezwzględną miarą kurtozy jest czwarty moment centralny, tj.:
Odpowiednio, względną miarą współczynnika koncentracji wyrażony wzorem:
Nierównomierny rozkład zjawiska w zbiorowości utożsamia się z koncentracją rozkładu jednostek zbiorowości () z rozkładem cząstkowych wartości (). Im większy jest stopień odmienności tych rozkładów, tym silniejsza jest koncentracja.
Krzywa Lorentza w badaniu koncentracji. Etapy postępowania:
Obliczenie udziałów liczebności cząstkowych w ogólnej liczbie jednostek zbiorowości:
oraz udziałów wartości cząstkowych w ogólnej sumie wartości zmiennej X, tj.:
Obliczenie wielkości skumulowanych:
Sporządzenie wykresu Lorentza.
W kwadracie o boku jeden wykreśla się krzywą o współrzędnych (, ). Dla = otrzymuje się tzw. linię równomiernego rozkładu. Jest to przekątna kwadratu. Odpowiada ona sytuacji całkowitego braku koncentracji.
Wniosek: im bardziej od przekątnej odchyla się wyznaczona krzywa, ty, silniejsza jest koncentracja.
Zmierzenie siły koncentracji.
Wykorzystuje się stosunek powierzchni zawartej między krzywą koncentracji, a linią równomiernego rozkładu od ogólnej powierzchni trójkąta. Otrzymuje się:
Metoda prostokątów w wyznaczeniu współczynnika K. Długość podstawy prostokąta wynosi wi, wysokość wyznacza wzór:
Zatem:
Uwaga:
25.03.10
WYKŁAD 7. ANALIZA WSPÓŁZALEŻNOŚCI ZJAWISK.
EGZAMIN: Wymienić i scharakteryzować jedną rzecz z tego zakresu (zagadnienia, które wchodzą w skład analizy współzależności ze względu na daną cechę). Istota asymetrii, podanie empirycznego przykładu rozkładu o asymetrii np. prawo/lewostronnie, a w szczególności rozkładu symetrycznego, dwa rozumienia koncentracji.
Charakter związków w przypadku zjawisk ekonomiczno – społecznych.
Pomiędzy logicznie powiązanymi cechami mogą zachodzić określone związki (np. związek między wydajnością pracy a stażem pracy, związek między wynagrodzeniami a kwalifikacjami pracowników, związek między wydatkami na żywność gospodarstwa domowego a liczbą członków rodziny, itp.).
Pytanie: Czy związki pomiędzy zjawiskami ekonomiczno – społecznymi mają charakter związków funkcyjnych?
Istota zależności funkcyjnej – związki funkcyjne charakteryzujące się tym, że danej wartości zmiennej niezależnej odpowiada jedna i tylko jedna wartość – zmiennej zależnej. Fakt ten można wyrazić w postaci następującej formuły ogólnej:.
Zależności między zjawiskami ekonomiczno – społecznymi nie podlegają takiemu schematowi opisu. Mają one bardziej złożony charakter. Na zmienną zależną wpływa często wiele zmiennych niezależnych, z różną siłą i w różnych kierunkach, przy czym w danym badaniu uwzględnia się tylko niektóre spośród tych zmiennych niezależnych. Pojawia się potrzeba zdefiniowania tzw. zależności stochastycznej.
ZALEŻNOŚĆ STOCHASTYCZNĄ między X i Y można wyrazić w następującej postaci ogólnej:
Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna.
ZALEŻNOŚĆ KORELACYJNA charakteryzuje się tym, że określonym wartościom cechy X odpowiadają różniące się poziomami warunkowe średnie wartości cechy Y.
Wśród związków stochastycznych, w szczególności korelacyjnych, wyróżnia się:
Związki przyczynowo – skutkowe charakteryzują:
- obiektywny charakter,
- siła sprawcza przyczyny w stosunku do skutku,
- asymetryczność – to przyczyna wpływa na skutek, a nie odwrotnie;
- odstęp czasowy między przyczyną a skutkiem – wcześniej musi zajść przyczyna, żeby później skutek mógł się zrealizować.
Zależności przyczynowo – skutkowe mają charakter zależności jednostronnych
Związki symptomatyczne – w ich przypadku zmienne nie są powiązane przyczynowo, ale istnieją wspólne przyczyny kształtowania się obu zmiennych. Zależności mogą mieć tutaj charakter jednokierunkowy lub dwukierunkowy
Związki pozorne nie mają podstaw teoretycznych i praktycznych istnienia jakiejkolwiek więzi przyczynowo – skutkowej. Są przejawem tzw. formalizmu statystycznego w badaniu zależności.
Ze względu na kierunki zmian w wartościach cechy X i Y wyróżnia się korelację ujemną lub dodatnią.
KORELACJA UJEMNA – wzrostom wartości cechy X towarzyszy stały spadek średniej wartości cechy Y lub wzrostom wartości cechy Y towarzyszy stały spadek średniej wartości cechy X ( w wartościach obu cech występują różnokierunkowe zmiany).
KORELACJA DODATNIA – wzrostom wartości cechy X towarzyszy stały wzrost średniej wartości cechy Y lub spadkowi wartości cechy X towarzyszy stały spadek średniej wartości cechy Y (W wartościach obu cech występują jednokierunkowe zmiany).
Ze względu na zmiany wartości cechy X i związane z nimi zmiany w średniej wartości cechy Y (lub odwrotnie) można mówić również o związkach liniowych i nieliniowych (krzywoliniowych).
ZWIĄZKI LINIOWE występują wówczas, gdy stałym przyrostom wartości cechy X odpowiadają względnie stałe przyrosty lub spadki cechy Y (lub odwrotnie).
Metody badania związku cech.
Metody badania związku cech są zdeterminowane formą prezentacji danych statystycznych oraz rodzajami cech statystycznych.
Generalne metody badania związku cech opierają się albo na porównaniu szeregów empirycznych, albo na analizie tablicy korelacyjnej.
Tabela.1 Metody pomiaru związku cech w zależności od rodzaju cech.
cecha zależna | cecha niezależna |
dane nominalne | |
dane nominalne | współczynnik V Cramera |
dane porządkowe | współczynnik V Cramera |
dane przedziałowe lub ilorazowe | współczynnik |
EGZAMIN – jakie są kryteria wyboru metody badania związku cech – forma prezentacji danych, mierzalność.
W zależności od walorów poznawczych stosowanych metod badania związku cech można mówić o:
Metodach umożliwiających wykrycie zależności i określenie jej kierunku,
Metodach pozwalających określić siłę związku,
Metodach pozwalających określić siłę i kierunek związku.
1.04.10
W zależności od walorów poznawczych stosowanych metod badania związku cech można mówić o:
- metodach umożliwiających wykrycie zależności i określenie jej kierunku,
- metodach pozwalających określić siłę związku,
- metodach pozwalających określić siłę i kierunek związku.
ANALIZA TABLICY KORELACYJNEJ.
… | … |
k – warianty x
l – warianty y
Określenie 1.
Rozkładem warunkowym zmiennej X nazywamy rozkład, który tworzą jednostki posiadające kolejne warianty zmiennej X i jeden ustalony wariant zmiennej Y .
Rozkładem warunkowym zmiennej Y nazywamy rozkład, który tworzą jednostki posiadające kolejne warianty zmiennej Y i jeden ustalony wariant zmiennej X .
Określenie 2.
Rozkładem brzegowym zmiennej X nazywamy rozkład, który tworzą jednostki posiadające kolejne warianty zmiennej X i odpowiadające im warianty zmiennej Y.
Rozkładem brzegowym zmiennej Y nazywamy rozkład, który tworzą jednostki posiadające kolejne warianty zmiennej Y i odpowiadające im warianty zmiennej X.
Zachodzą następujące równości:
Charakterystyki opisowe rozkładów brzegowych i warunkowych – parametry rozkładów.
Charakterystyki rozkładów brzegowych wyróżniają się następującymi wzorami:
Dla rozkładów warunkowych otrzymujemy:
Średnia i wariancja to najważniejsze parametry rozkładów!
Warunek stochastycznej niezależności Y od X:
Warunek stochastycznej niezależności X od Y:
Niezależność korelacyjna wymaga jedynie równości wartości średnich.
Wniosek:
Jeśli zachodzi
Oraz
To zmienne X i Y są stochastycznie zależne.
Podobnie jeżeli:
oraz to zmienne X i Y są korelacyjnie zależne.
Wykorzystanie tablicy korelacyjnej do badania związku cech.
Gdyby badane cechy były niezależne, to liczebności wewnątrz tablicy powinny przyjmować wartości wyznaczone według wzoru:
– liczebności teoretyczne
Im większa jest rozbieżność między rzeczywistymi liczebnościami a liczebnościami teoretycznymi obliczonymi według przytoczonego wyżej wzoru, tym silniejsza jest zależność badanych cech. Miarą rozbieżności jest statystyka , którą oblicza się według wzoru:
Dla tablicy przedstawiającej rozkład dwóch cech nominalnych dwudzielnych tj.:
schemat tablicy czterodzielnej:
1 | 2 | |
1 | a | b |
2 | c | d |
a+c | b+d |
otrzymuje się wzór następującej postaci:
Wartość statystyki jest podstawą konstrukcji odpowiednich współczynników służących do badania związku cech.
WYKŁAD 8. MIARY KORELACJI.
Pomiar korelacji w przypadku dwóch cech nominalnych.
Współczynnik zbieżności Czuprowa:
Warunki stosowania:
- zależność między zmiennymi ma charakter liniowy,
- dane są ujmowane w tablicy korelacyjnej,
- zmienne mogą nie być mierzalne sensu stricte.
Własności:
- mierzy siłę zależności,
- przyjmuje wartości z przedziału [0,1],
- jest symetryczny.
Współczynnik Cramera:
Własności:
- przyjmuje wartości z przedziału [0,1],
- może być obliczany na podstawie dowolnej tablicy korelacyjnej (w odróżnieniu od kolejnego)
Współczynnik Yule’a:
Własności:
- przyjmuje wartości z przedziału [-1,1],
- stosowany jest dla tablicy czterodzielnej.
Uwaga!
Wartość „0” omawianego współczynnika oznacza, że cechy są niezależne – „1” lub „-1”, że istnieje między nimi zależność funkcyjna. Jednak nie należy na podstawie współczynnika znaku wyciągać wniosku o kierunku zależności. Znak współczynnika zależy tutaj od tego w jaki sposób zostały uporządkowane warianty rozważanych cech. W tym wypadku interpretuje się jedynie wartość bezwzględną.
Współczynnik można też wyrazić wzorem:
8.04.10
WYKŁAD 9.
Krańcowe wartości współczynnika zależą od uszeregowania liczebności w poszczególnych polach tablicy korelacyjnej. Dlatego należy znaleźć wartości oraz i skorygować przy ich pomocy wartość wyliczoną według wzoru powyżej.
Współczynnik Cole’a:
Współczynnik kontyngencji Pearsona:
Własności:
- przyjmuje wartości z przedziału [0,1],
- wartość „0” osiąga w przypadku niezależności cech,
- górna wartość uzależniona jest od liczby wierszy i kolumn w tablicy korelacyjnej (im więcej jest wierszy o kolumn, tym wartość C jest większa).
Wniosek: wartość współczynnika C należy rozpatrywać relatywnie do wartości maksymalnej.
Zatem:
Gdzie l – liczba kolumn w tablicy kwadratowej
Lub:
Gdzie k, l – odpowiednio: liczba wierszy, liczba kolumn w tablicy korelacyjnej.
Ostatecznie:
Pomiar korelacji w przypadku cech uporządkowanych (współczynnik korelacji rang).
Współczynnik Spearmana:
Gdzie:
- różnica rang nadanych poszczególnym cechom.
– liczba obserwacji.
Własności:
- stosowany w przypadku uporządkowań tzw. mocnych,
- przyjmuje wartości z przedziału [-1,1],
- wartość bezwzględna określa siłę współwystępowania (zgodności) nadanych rang,
- znak współczynnika informuje o zgodności (zbieżności) lub niezgodności (rozbieżności) nadanych rang (ocen).
Współczynnik Kendalla:
Gdzie:
– liczba rang powiązanych w każdej i-tej podgrupie rang w uszeregowaniu odpowiednio według cechy Xi Y;
w – liczba podgrup z rangami powiązanymi w zbudowanym uporządkowaniu;
R – liczba par tych rang, które po uporządkowaniu według pierwszej cechy, czyli:
dla zachowują relację: dla dla cechy drugiej, kolejno dla każdego j=1,2,…,n;
n – liczba kolejnych jednostek objętych badaniem:
Własności:
- stosowany w przypadku uporządkowań tzw. słabych,
- przyjmuje wartości z przedziału [-1,1],
- wartość bezwzględna określa siłę współwystępowania (zgodności) nadanych rang,
- znak współczynnika informuje o zgodności (zbieżności) lub niezgodności (rozbieżności) nadanych rang (ocen).
Dla uporządkowań mocnych współczynnik korelacji rang Kendalla przyjmuje postać:
Przykłady badania związku cech:
Badanie związku między dwiema cechami nominalnymi.
Badano związek między paleniem papierosów a zachorowalnością na raka w grupie 380 osób. Poniższa tabela zawiera zestawienie otrzymanych wyników.
Palenie papierosów | Zachorowalność | Ogółem |
Chory | Zdrowy | |
pali | 240 | 10 |
nie pali | 80 | 50 |
ogółem | 320 | 60 |
Należy ocenić siłę ewentualnego związku między badanymi cechami.
EGZAMIN – w jaki sposób rozwiązać to zagadnienie wyżej.
Badanie związku między dwiema cechami porządkowymi:
Tabela poniżej przedstawia oceny wystawione przez dział marketingu dotyczące lojalności odbiorców oraz wizerunku marek konkurujących na pięciu rynkach, na których firma prowadzi działalność.
Rynek | Ocena lojalności w skali od 1 do 5 | Ocena wizerunku marek konkurencyjnych w skali od 1 do 5 |
A | 1 | 4 |
B | 5 | 1 |
C | 3 | 3 |
D | 2 | 5 |
E | 4 | 2 |
Należy ocenić, czy oceny działu marketingu dotyczące lojalności odbiorców oraz wizerunku marek konkurencyjnych na poszczególnych rynkach wykazują rozbieżność? Inaczej mówiąc pytamy, czy opinia o spadku lojalności odbiorców wiąże się z poprawą wizerunku marek konkurencyjnych?
EGZAMIN – wskazać narzędzie, które pozwoli nam ocenić problem wyżej.
Badanie związku między dwiema cechami mierzalnymi sensu stricto.
W celu ustalenia zależności między liczbą braków, w sztukach (Y) a wielkością produkcji części zamiennych (X), w tys. sztuk, w grupie 12 zakładów produkcyjnych wytwarzających takie części wykorzystano następujące dane.
2,0 | 1,0 | 0,8 | 1,2 | 3,0 | 1,6 | 1,0 | 2,0 | 1,8 | 2,2 | 2.4 | 2,0 | |
17 | 10 | 6 | 10 | 22 | 12 | 13 | 15 | 15 | 18 | 20 | 16 |
Badanie związku między cechą nominalną a cechą mierzalną sensu stricto.
W firmie oferującej na rynki lokalne soki owocowe przeprowadzono badanie, w którym zestawiono zaobserwowane w 7 dniach ilości sprzedanych opakowań według kolorów.
kolor opakowania | wielkość sprzedaży |
zielony | 18 |
niebieski | 20 |
biały | 10 |
Pytanie: czy kolor opakowania soku ma wpływ na wielkość sprzedaży?
Pomiar korelacji w przypadku cech mierzalnych sensu stricto.
Współczynnik korelacji liniowej Pearsona.
Warunki stosowania:
- badana zależność jest liniowa,
- obie cechy są mierzalne.
Formuła obliczeniowa zależy od układu danych.
Dla danych indywidualnych:
Dla danych w postaci tablicy korelacyjnej:
Własności:
- jest symetryczny,
- mierzy siłę i kierunek zależności,
- przyjmuje wartości z przedziału [-1,1].
Pomiar związków krzywoliniowych. Wskaźniki korelacyjne Pearsona.
Podstawą do oceny związku bez konieczności zakładania liniowości tego związku jest równość wariancyjna. Gdy bada się wpływ zmiennej X na zmienną Y należy rozważyć równość postaci:
Gdzie:
– z tablicy korelacyjnej
- wariacja międzygrupowa, informująca o zróżnicowaniu cechy Y, będącym efektem oddziaływania X,
- wariancja wewnątrz grupowa, określająca zróżnicowanie Y wynikające z oddziaływania innych (poza X) czynników.
W oparciu o równość wariancyjną dla zmiennej zależnej wyznacza się wskaźnik korelacyjny Pearsona mierzący siłę zależności Y od X, tj.:
– mierzy wpływ x na y.
Wskaźniki korelacyjne przyjmują wartości z przedziału [0,1].
15.04.10
WYKŁAD 10. ANALIZA REGRESJI.
Analityczne wyrażenie kształtowania się zmiennej losowej pod wpływem innej zmiennej losowej.
Określenie 1.
Przez funkcję regresji dwóch zmiennych rozumie się funkcję opisującą zmiany w wartościach średnich warunkowych jednej zmiennej wywołane zmianami wartości drugiej zmiennej.
Można mówić o funkcji regresji I rodzaju oraz o funkcji regresji II rodzaju.
Funkcje regresji I rodzaju zmiennej Y względem zmiennej X wyraża się ogólnie w następujący sposób:
Odpowiednio funkcję regresji I rodzaju zmiennej X względem zmiennej Y zapiszemy:
Dokładne postacie tych funkcji nie są znane. Na podstawie badań empirycznych można postawić odpowiednie hipotezy w tym zakresie (hipotezy modelowe).
Określenie 2.
Regresją empiryczną zmiennej Y względem zmiennej X nazywać będziemy zbiór punktów płaszczyzny XY o współrzędnych
Odpowiednio zbiór punktów płaszczyzny XY o współrzędnych nazywa się regresją empiryczną X względem Y.
Wykresy obu zbiorów punktów tworzą, tzw. empiryczne linie regresji.
Zazwyczaj dysponuje się danymi indywidualnymi o wartościach badanych zmiennych, tj. oraz Np.:
Rozrzut punktów empirycznych wraz z dopasowanymi liniami regresji.
Wykres jest najprostszym sposobem, który można wykorzystać formułując roboczą hipotezę na temat istniejącej zależności i jej postaci (np. liniowa).
Liniowa funkcja regresji wyraża się wzorem:
Gdzie:
Y – zmienna zależna (objaśniana)
X – zmienna niezależna (objaśniająca)
– resztowa zmienna losowa o własnościach:
odchylenia w regresji=0 wariancja składnika losowego (rozrzut wokół poziomu średniego)
Empiryczne odpowiedniki modeli (1) oraz (2) są następujące:
Albo
Gdzie , są ocenami parametrów , natomiast są to tzw. reszty modelu.
Analogicznie:
Albo
Określenie 3.
Funkcje wyrażone wzorami (3),(3’) oraz (4), (4’) przedstawiają funkcję II rodzaju.
Warunki nałożone na funkcję II rodzaju:
Wyrażenie:
Odchylenia wartości empirycznych od wartości teoretycznych muszą być losowe.
Wybór postaci liniowej można też oprzeć na następującym twierdzeniu:
Jeżeli stałym przyrostom zmiennej X odpowiadają stałe przyrosty zmiennej Y, to odpowiednim modelem opisującym zależność Y od X będzie model liniowy.
Uzasadnienie:
Dla kolejnych obserwacji otrzymamy:
Przyrosty obliczamy następująco:
Wniosek:
Jeżeli są stałe to też będą stałe.
Szacowanie parametrów modelu (1) klasyczną metodą najmniejszych kwadratów.
Parametry szacuje się w taki sposób, aby wyrażenie:
osiągnęło minimum.
Procedura minimalizacji polega tutaj na obliczeniu pochodnych cząstkowych względem i przyrównaniu ich do zera.
Z uwagi na:
można zaproponować jeszcze jeden wzór na obliczenie współczynnika regresji, a mianowicie:
Z drugiej strony:
Czasami przydatny jest również następujący wzór:
EGZAMIN – interpretacja współczynnika regresji jest następująca:
Jeżeli wartość zmiennej X wzrośnie o jednostkę, to wartość zmiennej Y wzrośnie lub spadnie średnio o jednostek (patrz rys.2).
punkty empiryczne
Rys. Rozrzut punktów empirycznych wraz z dopasowaną teoretyczną linią regresji.
29.04.10
OCENA JAKOŚCI MODELU:
Po oszacowaniu parametrów należy:
Znaleźć błędy ocen tych parametrów, tj.:
S(u) – odchylenie standardowe reszt.
Ocenić stopień dopasowania modelu do danych empirycznych.
Miarami stosowanymi w tym wypadku są współczynnik determinacji oraz współczynnik zbieżności , tj.:
EGZAMIN – interpretacja współczynników!
Powyższe wzory otrzymuje się w drodze dekompozycji ogólnej zmienności Y na dwie części:
Dzieląc obie strony równania przez:
Otrzymuje się:
Zatem:
Interpretacja:
- Współczynnik determinacji informuje, jaka część zmienności Y została wyjaśniona zmiennością X.
- Współczynnik zbieżności informuje, jaka część zmienności Y nie została wyjaśniona zmiennością X a zatem ma charakter losowy.
Zweryfikować pewne hipotezy dotyczące jakości modelu.
Stosując odpowiednie testy statystyczne należy w szczególności sprawdzić, czy:
Rzeczywiście istnieje zależność między X i Y (ocena istotności parametru ),
Przyjęto właściwą postać modelu (czy zależność jest liniowa?),
Odchylenia są losowe.
WYKŁAD 11. KORELACJA I REGRESJA WIELU ZMIENNYCH.
Rozważamy zależności między zmiennymi:
Określenie 1.
Współczynnik, który mierzy zależność korelacyjną między dwiema zmiennymi (i-tą oraz j-tą), przy wyłączeniu wpływu innych zmiennych (indeksowanych przez: k, l, … ,z) nazywa się współczynnikiem korelacji cząstkowej. Współczynnik korelacji cząstkowej oznaczamy przez
Współczynnik korelacji cząstkowej dowolnego rzędu można obliczyć według następującego wzoru:
Gdzie:
jest dopełnieniem algebraicznym macierzy P (macierz współczynników korelacji par zmiennych włączonych do badania), powstałym przez skreślenie i-tego wiersza oraz j-tej kolumny; jest dopełnieniem algebraicznym macierzy P, powstałym przez skreślenie i-tego wiersza oraz i-tej kolumny; jest dopełnieniem algebraicznym macierzy P, powstałym przez skreślenie j-tego wiersza i j-tej kolumny macierzy P.
Przykład:
Jak wyżej rozważamy zmienne . Macierz P przyjmie postać:
Uwaga: zauważmy, że macierz P jest symetryczna.
Niech K=3
Wtedy:
– współczynnik korelacji cząstkowej pomiędzy zmienną i przy wyłączeniu wpływu zmiennej .
Stąd:
Analogicznie:
Natomiast:
Omawiane współczynniki przyjmują wartości z przedziału (-1,1). Taki współczynnik może być większy lub mniejszy od współczynnika korelacji całkowitej. Może także zmieniać znak w stosunku do ostatniego.
Określenie 2.
Współczynnik, który mierzy korelację między wartościami jednej zmiennej (objaśnianej), a wartościami całego kompleksu innych zmiennych (objaśniających) nazywa się współczynnikiem korelacji wielorakiej.
Współczynnik korelacji wielorakiej wyraża się wzorem:
Gdzie:
06.05.10
WYKŁAD 12: ZMIENNE LOSOWE I ICH ROZKŁADY.
POJĘCIA ZDARZENIA LOSOWEGO I ZMIENNEJ LOSOWEJ.
Określenie 1
ZDARZENIEM LOSOWYM nazywa się takie zdarzenie, które przy realizacji danego doświadczenia lub procesu może w określonym zespole warunków wystąpić lub nie wystąpić.
Z pojęciem zdarzenia losowego łączy się pojęcie prawdopodobieństwa.
Określenie 2 (klasyczna definicja prawdopodobieństwa)
PRAWDOPODOBIEŃSTWO zdarzenia A jest to stosunek liczby zdarzeń elementarnych, sprzyjających danemu zdarzeniu A (realizujących zdarzenie A) do ogólnej liczby zdarzeń elementarnych, przy założeniu, że wszystkie zdarzenia elementarne są jednakowo możliwe. Zatem
Określenie 3 (statystyczna definicja prawdopodobieństwa):
Prawdopodobieństwem danego zdarzenia A nazywa się liczbę, wokół której oscyluje częstość względna danego zdarzenia.
Określenie 4 (aksonometryczna definicja prawdopodobieństwa – uogólnienie definicji klasycznej i statystycznej).
Prawdopodobieństwo danego zdarzenie jest pojęciem, które wynika z systemu pewników (aksjomatów). Są to:
Pewnik 1. Każdemu zdarzeniu, należącemu do danego zbioru zdarzeń, przyporządkowana jest pewna liczba , która spełnia warunek . Liczba ta jest prawdopodobieństwem zdarzenia A.
Pewnik 2. Prawdopodobieństwo zdarzenia pewnego równa się jedności.
Pewnik 3. Prawdopodobieństwo sumy skończonej lub przeliczonej liczby parami wyłączających się zdarzeń równa się sumie prawdopodobieństw poszczególnych zdarzeń, tj.
Na podstawie powyższych pewników formułuje się wnioski:
- prawdopodobieństwo zdarzenia niemożliwego równa się zeru,
- suma prawdopodobieństw zdarzenia danego i przeciwnego równa się jedności,
- jeżeli zdarzenie A pociąga za sobą zdarzenie B to prawdopodobieństwo zdarzenia A jest nie większe od prawdopodobieństwa zdarzenia B.
- znając prawdopodobieństwo zdarzeń elementarnych możemy obliczyć prawdopodobieństwo dowolnego zdarzenia losowego. Jeżeli liczba zdarzeń elementarnych zbioru A jest skończona tj.: i każdemu z nich przyporządkowano to samo prawdopodobieństwo wtedy prawdopodobieństwo dowolnego zdarzenia losowego oblicza się tak samo, niezależenie od tego, czy stosuje się klasyczną, czy aksjomatyczną definicję prawdopodobieństwa.
Uogólnieniem pojęcia zdarzenia losowego jest pojęcie zmiennej losowej.
Określenie 5.
Przez ZMIENNĄ LOSOWĄ rozumiemy taką zmienną, którą w wyniku doświadczenia lub procesu realizuje różne wartości liczbowe z określonymi prawdopodobieństwami.
Określenie 6.
ZMIENNA LOSOWA jest to funkcja mierzalna, jednoznacznie określona na zbiorze zdarzeń elementarnych, przyjmująca wartości ze zbioru liczb rzeczywistych.
Wśród zmiennych losowych wyróżnia się zmienne skokowe oraz ciągłe.
W przypadku zmiennej losowej skokowej, każdej możliwej wartości tej zmiennej przyporządkowane jest określone prawdopodobieństwo:
– prawdopodobieństwo dla zmiennej skokowej.
W przypadku zmiennej losowej ciągłej mówimy o prawdopodobieństwie przyjęcia przez tą zmienną wartości z dowolnie małego przedziału liczbowego.
Jeżeli znany jest zbiór możliwych wartości zmiennej losowej oraz prawdopodobieństwa przyjęcia tych wartości przez zmienną losową (bądź też prawdopodobieństwa, że zmienna przyjmie wartość z określonego przedziału), to znany jest rozkład tej zmiennej losowej.
ROZKŁAD ZMIENNEJ LOSOWEJ może być przedstawiony za pomocą szeregu (szczególnie w przypadku rozkładów empirycznych), wykresu, lub też funkcji formułującej zależność pomiędzy wartościami zmiennej a częstościami lub prawdopodobieństwami ich wystąpienia.
Na przykład:
Określenie 7.
ROZKŁAD ZMIENNEJ LOSOWEJ (SKOKOWEJ) nazywa sie przyporządkowanie konkretnym wariantom tej zmiennej odpowiadających im prawdopodobieństw.
Określenie 8.
ROZKŁAD ZMIENNEJ LOSOWEJ CIĄGŁEJ jest to przyporządkowanie prawdopodobieństw wartościom z określonego (dowolnie małego) przedziału – otoczenia tych wartości.
Funkcja rozkładu prawdopodobieństwa w przypadku zmiennej losowej ciągłej nazywa się funkcją gęstości. Wyraża się ona następującym wzorem:
Określenie 9.
DYSTRYBUANTA ZMIENNEJ LOSOWEJ SKOKOWEJ X, oznacza: jest funkcją opisującą prawdopodobieństwo wystąpienia dowolnych wartości zmiennej mniejszych lub równych , tj.
Określenie 10.
DYSTRYBUANTA ZMIENNEJ LOSOWEJ CIĄGŁEJ, oznacza: jest ot funkcja określająca prawdopodobieństwo, że zmienna X przyjmuje wartość mniejszą od x, tj.:
PARAMETRY ROZKŁADU ZMIENNEJ LOSOWEJ.
ZMIENNA LOSOWA |
SKOKOWA |
Wartość oczekiwana |
Wariancja |
Współczynnik zmienności |
Moment trzeci centralny |
Kwartyl pierwszy |
Kwartyl drugi |
Kwartyl trzeci |
Dominanta – wartość zmiennej, dla której: |
PRZYKŁADOWE ROZKŁADY TEORETYCZNE ZMIENNEJ LOSOWEJ SKOKOWEJ:
Rozkład zero-jedynkowy.
Jest rezultatem takiego doświadczenia, w wyniku którego określone zdarzenie A wystąpi lub nie wystąpi. Zdarzeniom elementarnym realizującym zdarzenie A przyporządkowania jest liczba 1, a zdarzeniom elementarnym nie realizującym zdarzenia A – liczba 0.
Zatem,
Inaczej,
Parametry tego rozkładu wyrażają się następującym wzorami:
Rozkład dwumianowy.
Przedstawia prawdopodobieństwo k-krotnego wystąpienia zdarzenia losowego A w serii n niezależnych doświadczeń, gdy prawdopodobieństwo wystąpienia zdarzenia A w pojedynczym doświadczeniu…
Funkcja rozkładu prawdopodobieństwa wyraża się w tym wypadku wzorem:
Parametry tego rozkładu zapiszemy:
Odpowiednio dystrybuantę zapiszemy wzorem:
Rozkład Poissona.
Jest szczelnym przypadkiem rozkładu dwumianowego. Można powiedzieć, że jest to rozkład graniczny, do którego zmierza rozkład dwumianowy, gdy p jest bardzo małe, natomiast .
Funkcja rozkładu Poissona jest następująca:
Parametry rozkładu:
PRZYKŁADOWE ROZKŁADY TEORETYCZNE ZMIENNEJ LOSOWEJ CIĄGŁEJ:
Rozkład prostokątny.
Zmienna losowa ma rozkład prostokątny w przedziale [a,b] jeśli jej funkcja gęstości i dystrybuanta wyrażają się następującymi wzorami:
Podstawowe parametry omawianego rozkładu są następujące:
Rozkład normalny.
Rozkład normalny jest opisany funkcją gęstości następującej postaci:
Gdzie:
– wartość oczekiwana rozkładu
– odchylenie standardowe
– podstawa logarytmu naturalnego
Funkcja gęstości dla zmiennej standaryzowanej wyraża się wzorem:
DZIAŁ: WNIOSKOWANIE STATYSTYCZNE.
WNIOSKOWANIEM STATYSTYCZNYM nazywamy proces myślowy polegający na formułowaniu sądów dotyczących całej zbiorowości (populacji generalnej) na podstawie wyników z próby.
13.05.10
WYKŁAD 13.
Analiza tendencji rozwojowej w przebiegu zjawisk ekonomicznych.
Niech oznacza zmienną losową, której wartości obserwowane są w kolejnych jednostkach czasu . Wartości te oznaczamy przez . Zmienna będzie opisywać kształtowanie się w czasie pewnego zjawiska.
Przebieg zjawiska w czasie bada się na podstawie szeregów czasowych.
Określenie 1.
Szeregiem czasowym nazywa się uporządkowany według czasu zbiór wartości .
Szereg czasowy będziemy oznaczać przez
Określenie 2.
Trendem nazywa się pewną tendencję rozwojową w przebiegu analizowanego zjawiska . Przedstawia on zmiany w czasie wartości średniej tego zjawiska.
W przebiegu zjawisk ekonomicznych oprócz trendu wyróżnić można także:
- wahania okresowe (np. koniunkturalne, sezonowe),
- wahania przypadkowe.
W poznaniu procesu ekonomicznego ważna jest umiejętność wyodrębniania wymienionych wahań i odpowiednie ich modelowanie.
Metody wyodrębniania trendu:
Metoda mechaniczna.
Polega ona na obliczeniu na podstawie szeregu czasowego, a zatem na podstawie obserwacji: (gdzie indeks oznacza kolejne jednostki czasu), tzw. średnich ruchomych k-wyrazowych.
Przykład 1 (zwykła średnia ruchoma) – nieparzyste.
Trzywyrazową średnią ruchomą otrzymuje się w następujący sposób:
Przykład 2 (sce… średnia ruchoma)
Efekty zastosowania średniej ruchomej:
- wyrównanie szeregu czasowego (eliminacja wahań przypadkowych i ewentualnie sezonowych),
- uwidacznianie trendu (tendencji rozwojowej).
Metoda analityczna.
Polega ona na aproksymacji (dopasowaniu) odpowiedniej funkcji trendu.
Dopasowanie liniowej funkcji trendu.
Hipoteza trendu liniowego:
– zmienna mierząca poziom badanego zjawiska w okresie t,
– zmienna czasowa,
, – parametry strukturalne funkcji trendu,
– resztowa zmienna losowa.
Empiryczny model ekonometryczny:
Gdzie:
Uproszczone wzory otrzyma się, gdy przyjmie się, że:
wtedy:
Parametry modelu trendu liniowego można obliczyć również według następujących wzorów macierzowych:
Gdzie:
20.05.10
WYKŁAD 14: ANALIZA DYNAMIKI ZJAWISK MASOWYCH.
Dynamikę zjawisk masowych bada się na podstawie szeregów czasowych. Pojęcie szeregu czasowego – patrz poprzedni wykład.
Wyróżnia się szeregi czasowe momentów i szeregi czasowe okresów, np. liczba ludności danego kraju na dzień 31 grudnia 2007 r., lub wielkość PKB per capita w kolejnych latach.
Rodzaj danych ma wpływ na metody analizy zjawisk. Przy analizie szeregów czasowych okresów pojawia się problem nierówności przedziałów czasowych, np. liczba dni w miesiącach. W takich sytuacjach należałoby dokonać sprowadzenia wartości zjawisk do okresów porównywalnych (zawierających jednakową liczbę dni).
Proponuje się wykorzystanie następującego przekształcenia:
Gdzie:
– wartość obserwowanego zjawiska przy założeniu, że wszystkie jednostki czasu (miesiące, kwartały) mają jednakową liczbę dni,
– wartość zjawiska faktycznie zaobserwowana w czasie t,
– liczba dni przyjęta za podstawę porównywalności,
– rzeczywista liczba dni kalendarzowych w danej jednostce czasu.
Ocena przeciętnego poziomu zjawiska w czasie:
Przypadek szeregów czasowych okresów.
Przy założeniu równości przedziałów czasowych, przeciętny poziom zjawiska można ocenić za pomocą średniej arytmetycznej.
Przypadek szeregów czasowych momentów.
Średni poziom zjawiska ocenia się wykorzystując w tym celu średnią chronologiczną.
Średnią chronologiczną oblicza się według wzoru:
Ocena zmian w czasie poziomu jednorodnych zjawisk – mierniki dynamiki:
Przyrost absolutny:
Jest to różnica pomiędzy poziomem zjawiska w okresie (momencie) badanym a poziomem zjawiska w okresie (momencie) przyjętym z podstawę porównań.
Jeśli za podstawę porównań przyjmiemy okres (moment) poprzedni, to otrzymamy:
Są to tzw. przyrosty absolutne łańcuchowe.
Przykład 1.
Niech oznacza kolejne wyrazy szeregu czasowego. Ciąg przyrostów absolutnych łańcuchowych otrzymamy następująco:
Można też rozważać przyrosty obliczane w odniesieniu do jednego okresu (momentu). Będą to przyrosty absolutne o podstawie stałej.
Interpretacja.
Przyrosty absolutne informują o tym, o ile jednostek wzrósł lub zmalał poziom badanego zjawiska w okresie (momencie) badanym w porównaniu z okresem (momentem) przyjętym za podstawę.
Przyrost względny (tempo wzrostu):
Przyrost względny jest stosunkiem absolutnego przyrostu zjawiska do poziomu zjawiska w okresie (momencie) przyjętym za podstawę porównań.
Przyrosty względne podobnie jak przyrosty absolutne mogą być jedno-podstawowe lub łańcuchowe.
Przykład 2.
Ciąg przyrostów względnych łańcuchowych zapiszemy następująco:
Przykład 3.
Ciąg przyrostów względnych o stałej podstawie zapiszemy jako:
Interpretacja.
Przyrosty względne odpowiadają na pytanie, o ile wyższych lub niższy jest poziom badanego zjawiska w danym okresie w stosunku do okresu przyjętego za podstawę.
Wskaźniki dynamiki (indeksy).
Wskaźniki dynamiki są to wielkości otrzymane przez podzielenie wartości danego zjawiska w okresie badanym przez wartość zjawiska w okresie podstawowym tj.:
– indeks indywidualny (wielkości niemianowane),
– poziom zjawiska w okresie badanym,
– poziom zjawiska w okresie bazowym.
Interpretacja.
Indeksy są wielkościami niemianowanymi. Wyrażane są w ułamkach albo w procentach (podobnie jak przyrosty względne). Przyjmują wyłącznie wartości dodatnie (w odróżnieniu od przyrostów względnych). Jeśli , tzn., że nastąpił spadek poziomu zjawiska w okresie badanym w stosunku do okresu podstawowego. Jeżeli , to znaczy, że nastąpił wzrost poziomu zjawiska w okresie badanym w stosunku do okresu podstawowego. Jeżeli z kolei , to oznacza brak zmian poziomu zjawiska w czasie.
W zależności od przyjętej podstawy porównań, wyróżnia się indeksy łańcuchowe oraz indeksy jednopodstawowe.
Przykład 4.
Ciąg łańcuchowy zapiszemy jako:
Z kolei ciąg indeksów o stałej podstawie:
Kilka uwag praktycznych:
Indeksy jednopodstawowe można otrzymać z przyrostów względnych o stałej podstawie przez dodanie 1 (lub 100). W ten sam sposób otrzymamy indeksy łańcuchowe z przyrostów względnych łańcuchowych. Oczywista jest również operacja odwrotna.
Istnieje możliwość zamiany indeksów jednopodstawowych na łańcuchowe i odwrotne, a także zmiany podstawy w szeregu indeksów o podstawie stałej.
Zamiany indeksów jednopodstawowych na łańcuchowe można dokonać w drodze dzielenia indeksów jednopodstawowych przez siebie, tj. wg wzoru:
Natomiast zamiany indeksów łańcuchowych na jednopodstawowe dokonujemy następująco:
Indeks jednopodstawowy w okresie następującym bezpośrednio po okresie przyjętym za podstawę jest taki sam jak indeks łańcuchowy.
Indeks jednopodstawowy w okresie przyjętym za podstawę wynosi 1 (100%).
Dalsze indeksy jednopodstawowe po okresie przyjętym za podstawę otrzymuje się mnożąc w sposób narastający kolejne indeksy łańcuchowe, licząc od wskaźnika łańcuchowego znajdującego się tuż po okresie podstawowym.
Indeksy jednopodstawowe przed okresem podstawowym otrzymuje się jako odwrotność narastających iloczynów kolejnych indeksów łańcuchowych, licząc od okresu przyjętego za podstawę.
EGZAMIN – przejście z indeksu jednopodstawowego na indeks łańcuchowy i odwrotnie (prof. coś wybierze) lub zmiana podstawy ciągu indeksów jednopodstawowych.
Obliczanie średniego tempa zmian zjawiska w czasie.
Średnie tempo zmian zjawiska w czasie można wyznaczyć z indeksów łańcuchowych, jako ich średnią geometryczną, tj. według wzoru:
Co po uproszczeniu daje:
EGZAMIN!!! – oceń średnie tempo zmian zjawiska w czasie.
27.05.10
WYKŁAD 15: ANALIZA DYNAMIKI ZJAWISK C.D.
Rodzaje indeksów statystycznych:
Indywidualne; indeksy indywidualne znajdują zastosowanie w przypadku badania dynamiki zjawisk jednorodnych. Chodzi tutaj o indeksy dotyczące indywidualnych jednostek. Wśród indeksów indywidualnych szczególnie interesujące dla ekonomistów są indeksy: cen, ilości oraz wartości.
Indywidualny indeks cen można zapisać następująco:
Gdzie:
– indywidualny indeks cen,
– cena jednostkowa wyrobu w okresie badanym,
– cena jednostkowa wyrobu w okresie podstawowym.
Indywidualny indeks ilości zapiszemy jako:
Gdzie:
– indywidualny indeks ilości,
– ilość wyrobu wyprodukowanego w okresie badanym,
– ilość wyrobu wyprodukowanego w okresie podstawowym.
Indywidualny indeks wartości wyraża wzór:
Gdzie:
– wartość wyrobu w okresie badanym,
– wartość wyrobu w okresie podstawowym.
EGZAMIN – jaka zmiana była w danym roku w stosunku do innego roku (wartość odpowiedniego indeksu statystycznego)
Interpretacja:
Indywidualne indeksy cen, ilości i wartości informują o wzroście lub spadku tych wielkości w okresie badanym w porównaniu z okresem podstawowym, tj. przyjętym za podstawę porównań.
Równość indeksowa.
Jeśli rozważamy indeksy cen, ilości i wartości dla tego samego wyrobu, to możemy zapisać:
Zespołowo (agregatowe); indeksy zespołowe wykorzystuje się, gdy bada się dynamikę zmian odnoście do całego zespołu (agregatu zbioru) jednostek. W zależności od przedmiotu badań wyróżnia się:
Indeksy zespołowe dla wielkości absolutnych:
Wśród zespołowych indeksów wielkości absolutnych wyróżnia się agregatowe indeksy cen, ilości oraz wartości.
Agregatowy indeks wartości wyraża się wzorem:
Gdzie:
– agregatowy indeks wartości,
- ilość w okresie, odpowiednio – badanym i podstawowym,
– cena jednostkowa w okresie badanym i podstawowym.
EGZAMIN – podaj wzory na agregatowe indeksy.
Jest to zatem stosunek wartości pewnego zbioru (agregatu) wyrobów w okresie badanym do wartości tego zbioru w okresie podstawowym, obliczanej w cenach bieżących.
Indeks ten informuje, w jakim stosunku pozostaje wartość agregatu z okresu badanego do wartości agregatu z okresu podstawowego. Wyraża on zmiany, jakie nastąpiły w wartościach określonego zespołu wyrobów w okresie badanym w porównaniu z okresem podstawowym, przy czym zmiany te uwarunkowane są zmianami dwóch czynników: ilości i cen. Indeks wartości przedstawia zmiany wartości będące wypadkową zmian ilości oraz cen i nie informuje, który z tych czynników odegrał główną rolę we wzroście lub spadku wartości.
Wniosek: należy rozważać także agregatowe indeksy cen oraz agregatowe indeksy ilości (masy fizycznej).
Agregatowy indeks cen wyraża się wzorem:
Gdzie:
– agregatowy indeks cen,
– stała ilość wyrobu,
– cena jednostkowa w okresie badanym i podstawowym.
Interpretacja:
Określa on średnie względne zmiany w poziomie cen określonego zbioru produktów, zaobserwowane w dwóch porównywanych ze sobą okresach. Indeks cen oblicza się przy założeniu, że ilości badanych produktów nie uległy zmianie, a jedynie zmieniły się ich ceny.
EGZAMIN – wielkości absolutne, stosunkowe – wzory.
Indeks cen typu Laspeyresa:
Interpretacja:
Odpowiada na pytanie: o ile więcej lub mnie musielibyśmy zapłacić (lub otrzymać) za produkty nabyte (sprzedane) w okresie podstawowym według cen okresu badanego w stosunku do cen okresu podstawowego.
Indeks cen typu Paaschego:
EGZAMIN – podaj wzór na agregatowy indeks cen (trzeba zaznaczyć, że ceny się zmieniają).
Interpretacja:
Informuje o tym, o ile mniej lub więcej musielibyśmy zapłacić (otrzymać) za produkty nabyte (sprzedane) w okresie badanym według cen okresu badanego w stosunku do cen okresu podstawowego.
Agregatowy indeks ilości ogólnie zapiszemy następująco:
EGZAMIN – podaj wzór na agregatowy indeks ilości.
Gdzie oznaczenia analogicznie jak wcześniej.
Interpretacja:
Indeks ten informuje o średnich względnych zmianach w fizycznych rozmiarach określonego zespołu produktów, które nastąpiły pomiędzy okresem podstawowym i badanym.
Indeks ilości typu Laspeyresa:
Indeks ilości typu Paaschego:
Różnice występujące pomiędzy tymi formułami mają ten sam charakter, co w przypadku indeksów cen.
W przypadku, gdy okres podstawowy i badany nie są zbyt odległe, do obliczenie agregatowych indeksów cen i ilości można też zastosować formułę Fishera:
Równość indeksowa:
10.06.10
WYKŁAD 16. ANALIZA DYNAMIKI ZJAWISK CD. AGREGATOWE (ZESPOŁOWE) INDEKSY WIELKOŚCI STOSUNKOWYCH.
Pyt. 1. Co to są wielkości stosunkowe?
WIELKOŚCI STOSUNKOWE wyrażają stosunki dwóch zjawisk logicznie ze sobą powiązanych. Można je określić mianem wskaźników natężenia.
Przykłady:
Wydajność pracy (iloraz produkcji i czasu pracy)
Koszt jednostkowy (iloraz nakładów i wielkości produkcji),
Średnia płaca (iloraz funduszu płac i wielkości zatrudnienia).
Wyróżnia się:
Wielkości stosunkowe cząstkowe:
Wielkości stosunkowe cząstkowe można zapisać w następującej postaci:
Stąd:
Wielkości stosunkowe ogólne.
Wielkości stosunkowe ogólne można wyrazić następująco:
Pyt. 2. W jaki sposób bada się dynamikę wielkości stosunkowych?
Do analizy dynamiki wielkości stosunkowych wykorzystuje się indeksy wielkości stosunkowych.
Agregatowy indeks wszechstronny (o zmiennej strukturze) można wyrazić wzorami:
Zaprezentowane wzory wykorzystuje się w różnych sytuacjach, zależnie od wyjściowych informacji, którymi dysponuje badacz.
Wyrażenie (b) można zapisać w innej postaci:
Z kolei, wyrażenie (c) można zapisać jako:
Wzór (*) określa wszechstronny indeks wielkości stosunkowych ważonych współczynnikami struktury składnika b, natomiast wzór (**) – wszechstronny indeks wielkości stosunkowych ważonych współczynnikami struktury składnika a.
Wartość indeksu wszechstronnego wynika z działania dwóch czynników:
Dynamiki cząstkowych wielkości stosunkowych.
Zmian w dynamice w strukturze czynnika a lub czynnika b.
Pyt. 3. Jak można określić te wpływy?
Agregatowe indeksy wielkości stosunkowych o stałej strukturze.
Wyrażają one wpływ dynamiki cząstkowych wielkości stosunkowych na poziom indeksu wszechstronnego.
Według formuły Laspeyresa otrzymamy:
Według formuły Paaschego otrzymamy:
Agregatowe indeksy zmian strukturalnych.
Określają wpływ zmian w strukturze czynników a i b ma poziom indeksy wszechstronnego.
Wpływ czynnika b określimy następująco:
Według formuły Laspeyresa:
Według formuły Paaschego:
Wpływ czynnika a określimy następująco:
Według formuły Laspeyresa:
Według formuły Paaschego:
Równości indeksowe:
EGZAMIN – informacje teoretyczne, jeśli chodzi o indeksy zespolone. Przykłady liczbowe do pozostałych indeksów (podstawianie do wzoru z informacji, które będą dostępne – wskazujemy sposób rozwiązania). INDEKS CEN KONSUMPCYJNYCH – służy do przeliczania nominalnych wielkości na realne wielkości (przykłady).