Statystyka opracowanie

Statystyka

Kolokwium 26.01.14r. 1515-1830

Egzamin 22.01.14r. 945-1030

22.09.13r.

13.07.1918r. - Początek GUS

Józef Buzek prof. Uniwersytetu Lwowskiego – I prezes

Statystyka – nauka zajmująca się metodami gromadzenia, opracowywania, prezentacji, analizy i interpretacji danych ilościowych dotyczących badanych zbiorowości.

Metody statystyczne służą do opisu przebiegu zjawisk i procesów, do oceny związków między zjawiskami, do przewidywania następstw podejmowanych decyzji. Metody stat. Są wykorzystywane m.in. w badaniach jakości produkcji, w analizie rynku, w działalności firm ubezpieczeniowych.

Opis statystyczny – jest opisem liczbowym i może być realizowany w postaci danych liczbowych zestawionych w szeregi i tablice (tzw. opis tabelaryczny), w postaci wykresów ujawniających prawidłowości (tzw. opis graficzny) oraz w postaci charakterystyk liczbowych, zwanych parametrami, odnoszących się do różnych prawidłowości (tzw. opis parametryczny).

Dziedzina statystyki zajmująca się metodami opisu nosi nazwę statystyki opisowej.

Wnioskowanie statystyczne – odnosi się do metod mających na celu uogólnienie wyników badania części zbiorowości zwanej próbą na całą zbiorowość (populacje), z której ta część pochodzi. Metody wnioskowania statystycznego oparte są na rachunku prawdopodobieństwa. Wnioskowanie statystyczne wchodzi w zakres statystyki matematycznej.

Statystyka opisowa – jest dyscypliną zajmującą się metodami, … jw. ^.

Można wyróżnić 3 podstawowe grupy metod analizy, odnoszące się do:

- opisu struktury zbiorowości poprzez określenie przeciętnego poziomu dyspersji asymetrii i koncentracji cech.

-opisu współzależności poprzez analizę korelacji i regresji.

-opisu zmian zjawisk w czasie poprzez analizę indeksową oraz analizę składników szeregów czasowych ( trend, wahania sezonowe, wahania przypadkowe).

ETAPY BADANIA STATYSTYCZNEGO:

  1. Programowanie badania

  2. Obserwacja statystyczna

  3. Prezentacja wyników

  4. Analiza statystyczna

Badanie statystyczne – ogół prac mających na celu poznanie struktury określonej zbiorowości statystycznej.

ETAP 1 PROGRAMOWANIE BADANIA

  1. Określenie celów badania: ogólnych, cząstkowych.

  2. Określenie przedmiotu badania:

- zdefiniowanie zbiorowości statystycznej (populacji statystycznej)

- jednostki statystycznej

Zbiorowość statystyczna – zbiór dowolnych elementów nazywanych jednostkami statystycznymi podobnych pod względem określonych cech i poddanych badaniom statystycznym.

Może składać się z osób, rzeczy lub zdarzeń.

Np. wszystkie gospodarstwa domowe w Polsce w 1993r., studenci Uniwersytetu Gdańskiego w roku akademickim 1993/1994, komputery zainstalowane w przedsiębiorstwie „Z” według stanu na koniec 1993r., wszystkie wypadki drogowe w Polsce zarejestrowane w 1988r.

Jednostka statystyczna – poszczególny element zbiorowości statystycznej podlegający bezpiecznej obserwacji i pomiarowi.

Np. gospodarstwo domowe, każdy student UG, każdy komputer, poszczególne wypadki.

  1. Wyodrębnienie cech statystycznych.

Cechy stałe - właściwości wspólne (identyczne) dla wszystkich jednostek statystycznych, wchodzących w skład badanej zbiorowości.

Cechy zmienne - właściwości, którymi poszczególne jednostki statystyczne różnią się między sobą, przyjmując odmienne warianty cechy. Mamy możliwość ich pomiaru.

CECHY

STAŁE ZMIENNE

jakościowa (niemierzalne) opisowe ilościowa (mierzalne) liczbowe

Dwudzielna (dychotomiczne) Wielodzielna Skokowa Ciągła

Np. płeć: K, M Np. Wykształcenie Np. liczba dzieci Np. średnia ocen

(Podstawowe, Średnie, ..) w rodzinie czas dojazdu na ucz.

Cechy ilościowe skokowe to te, które mogą przyjmować tylko określone wartości całkowite z natury niepodzielne.

Cechy zmienne są wyrażane za pomocą wariantów cechy.

Np. Zbiorowość: Gospodarstwa domowe w 1992r., studenci UG w roku akademickim 1993/1994, komputery w przedsiębiorstwie „Y” według stanu na 31.12.1993r., wypadki drogowe w Polsce w 1988r.

Jednostka: gospodarstwo domowe, student UG w roku akademickim 1993/1994, komputer w przedsiębiorstwie, wypadek, który wydarzył się w Polsce w 1988r.

Cechy zmienne – warianty cechy

Jakościowe: grupa społeczno-ekonomiczna (pracownicze, pracowniczo-chłopskie, chłopskie, emerytów i rencistów); kierunek studiów, płeć, miejsce zamieszkania (z rodziną, DS., kwatera); typ, marka, rodzaj karty graficznej; przyczyna wypadku, rodzaje pojazdów biorących udział w wypadku.

Ilościowe

Skokowe: liczba osób w gospodarstwie domowym (1,2,3,4,5,6 i więcej); liczba osób w rodzinie studenta, liczba izb w mieszkaniu studenta; liczba osób korzystających z pracy komputera, liczba zmian pracy; liczba osób poszkodowanych w wypadku, liczba pojazdów biorących udział w wypadku.

Ciągłe: miesięczna suma dochodów na jedną osobę ( w tys. zł): do 600, 600-800, 800-1000, 1000-1200; średnia ocen w sesji, czas poświęcony na naukę w ciągu tygodnia; miesięczny czas pracy komputera, wartość usług świadczonych przez komputer; straty (w tys. zł.) spowodowane wypadkiem.

Cechę jakościową można wyrazić jedynie na:

  1. Skali nominalnej

  2. Skali porządkowej

  3. Skali przedziałowej

  4. Skali ilorazowej

Ad. 1) Pozwala rozpoznawać obiekty jednakowe i różne, bez wypowiadania się. Identyfikuje przynależność jednostki np. do województwa.

Np. płeć, stan cywilny, miejsce zamieszkania.

Ad. 2) Skala porządkowa (rangowa) – określa pozycję bez odległości między obiektami.

Np. ranking uczelni wyższych, skala stopni szkolnych, rodzaje ryzyka kredytowego 1-5, miejsce sportowca zajęte na zawodach.

Ad. 3) Zachowuje własności skali porządkowej, a dodatkowo wyposażona jest w stałą jednostkę miary i umowne 0. Pozwala stwierdzić o ile natężenie zmiennej X dla obiektu A.

Np. skale od mierzenia temperatury.

Ad. 4) Posiada bezwzględne zero. Pozwala stwierdzić, że natężenie zmiennej X dla obiektu A jest k razy większe od B.

4) Wybór metody badania statystycznego.

BADANIA STATYSTYCZNE

B. PEŁNE B. CZĘŚCIOWE

(całkowite, wyczerpujące) (próbkowe)

Przedmiotem obserwacji może być każda jednostka badanej zbiorowości – wówczas jest to badanie pełne (całkowite, wyczerpujące) lub też niektóre wybrane lub wylosowane jednostki z danej zbiorowości – wtedy mamy do czynienia z badaniem częściowym. Zarówno badania pełne i okresowe mogą być ciągłe, okresowe, doraźne.

Badanie budżetów gosp. dom. przez GUS jest badaniem częściowym (reprezentacyjnym) prowadzonym w sposób ciągły.

Badanie wypadków drogowych jest badaniem całkowitym okresowym, corocznie Biuro Ruchu Drogowego przeprowadza analizę tego zjawiska.

Analiza czasu wolnego studenta, ocena wykorzystania komputerów są badaniami doraźnymi.

Wśród badań częściowych możemy wyróżnić: badania reprezentacyjne (badanie, w którym losowo pobrane jednostki do badania (próba) reprezentują całą zbiorowość (populację) mimo że stanowią małą jej część

Np. badanie zasobów wód morskich, ocena jakości konserw, gosp. dom., monograficzne (polega na wyczerpującym opisie wybranej jednostki (przedsiębiorstwa, miasta, województwa, zdarzenia historycznego) , ankietowe ( gdy chcemy znać opinię wybranych osób o interesujących nas faktach, często posługują się nią socjolodzy, dla statystyków mają charakter pomocniczy gdyż są dobrowolne.

Spis ludności powinien być:

Spisy w okresie międzywojennym:

30 IX 1921

9 XII 1931

NARODOWE SPISY POWSZECHNE

14 II 1946r. – Sumaryczny Spis Ludności

3 XII 1950r. – Narodowy Spis Powszechny

pierwsze pełne badanie masowe badanie ludności

6 XII 1960r. – Narodowy Spis Powszechny

trudny ze względu na gromady, które nie miały administracji

8 XII 1970r. – Narodowy Spis Powszechny

7 XII 1978r. – Narodowy Spis Powszechny

nowe 49 województw

7 XII 1988r. – Narodowy Spis Powszechny

20 V 2002r. – Narodowy Spis Powszechny

1 IV 2011 - Narodowy Spis Powszechny

pierwszy spis RP w Unii Europejskiej

ETAP 2 OBSERWACJA STATYSTYCZNA

Obserwacja – gromadzenie, zbieranie materiału statystycznego. Informacji o właściwościach poszczególnych jednostek statystycznych.

  1. Określenie źródeł poszukiwania danych:

* pierwotnych (obserwacja, wywiad, ankieta)

* wtórnych ( sprawozdawczość przedsiębiorstw, publikacje statystyczne, spisy)

Materiał statystyczny może pochodzić ze spisów, bądź z rejestracji bieżącej.

Spis jest okresowym (najczęściej) lub doraźnym (rzadziej) badaniem wszystkich jednostek zbiorowości w ściśle określonym momencie czasu. Przykładem spisu jest przeprowadzany co 10 lat w Polsce powszechny spis ludności, spis nieruchomości, mieszkań, gospodarstw rolnych, zwierząt gospodarskich.

Szczególnym rodzajem spisu jest INWENTARYZACJA, polegająca na ustaleniu stanu (ilościowego i wartościowego) oraz struktury, a także stopnia zużycia majątku trwałego w ściśle określonym momencie czasu.

Rejestracja bieżąca – polega na sukcesywnym rejestrowaniu wydarzeń, które są przedmiotem badania. Np. ewidencja urodzeń, zgonów, małżeństw, ewidencja rozwodów, ewidencja zatrudnienia i płac. Na podstawie danych ewidencyjnych jest sporządzana sprawozdawczość.

Formularz statystyczny – najczęściej stosowane narzędzie gromadzenia materiału. Zawiera zestaw pytań dotyczących cech badanej zbiorowości.

2) Grupowanie materiału statystycznego

Usystematyzowanie, podział zbiorowości na jednorodne podgrupy według jednej lub kilku cech.

Przed opracowaniem wyników badania całość zbieranych informacji musi być poddana kontroli. Kontrola formalna dotyczy kompletności zebranych informacji, kontrola merytoryczna polega na ocenie jakości otrzymanego materiału. Ten materiał jest zbiorem szczegółowych danych o wartościach cech każdej jednostki badanej zbiorowości. Później następuje klasyfikacja, czyli ustalenie wariantów cechy natomiast grupowanie jest to podział zbiorowości na jednorodne lub względnie jednorodne podgrupy z punktu widzenia wyróżnionej cechy.

Cechy jakościowe często automatycznie mają wyodrębnione podgrupy. Zazwyczaj odbywa się na poziomie programowania badania poprzez podanie wariantów odpowiedzi na pytania dotyczące cech.

Cechy ilościowe – ich klasyfikacja zależy od tego czy są to cechy skokowe, czy ciągłe. Skokowa w pewnym sensie ograniczona, konkretna wartość. Np. do 50 osó. Możemy ustalić klasy o równej rozpiętości.

51 – 100

101 – 200

Ciągła – ustalamy warianty, tworzymy klasy wartości cechy.

Po ustaleniu klas wartości badanych cech przystępujemy do grupowania statystycznego.

Grupowanie statystyczne – jest to podział zbiorowości statystycznej na jednorodne podgrupy według jednej lub kilku cech. Jeżeli grupowaniu podlega cecha jakościowa to jest to grupowanie typologiczne, jeśli cecha ilościowa jest to grupowanie wariancyjne.

Wyróżniamy następujące rodzaje grupowania:

GRUPOWANIE

ETAP 3 PREZENTACJA WYNIKÓW

Szereg statystyczny – ciąg wyników obserwacji uporządkowany lub uporządkowany i pogrupowany według określonych kryteriów, przyjętych wariantów cechy.

SZEREGI STATYSTYCZNE

Powstaje w wyniku Powstaje w wyniku

grupowania cechy jakościowej grupowania cechy ilościowej skokowej

Powstaje w wyniku

grupowania cechy

ilościowej ciągłej lub skokowej

KONSTRUOWANIE SZEREGU ROZDZIELCZEGO PRZEDZIAŁOWEGO

Wymaga określenia liczby przedziałów

k – liczba przedziałów (klas)

n – liczba obserwacji (liczebność)

c – rozpiętość przedziałów (klas)

k=√n k=2√n

k=10logn k=5logn

k=1+3,32logn=1+log2

n=1+n(lnn/ln2)

k=1+log2n

Wykresy statystyczne – graficzna, wizualna forma prezentacji materiału graficznego.

Sz. r. wielostopniowy

Błąd 3% +/- w każdym badaniu

3) Tablice statystyczne – forma prezentacji rezultatów obserwacji statystycznej.

Znaki umowne używane w tablicach statystycznych:

Kreska (-) – zjawisko nie wystąpiło

Zero (0) – zjawisko istniało w wielkości mniejszej od 0,5jednostki miary przyjętej w tablicach.

Znak (x) – wypełnienie pozycji jest niemożliwe lub niecelowe

(0,0) – Mniejsze od 0,05

06.10.13r.

ETAP IV ANALIZA STATYSTYCZNA

Własności rozkładu empirycznego.

Równe średnie, różne rozproszenie Różne średnie, różne rozproszenie

Asymetria dodatnia prawostronna Skrajna asymetria prawostronna Skrajna asymetria lewostronna

♣ Koncentrację rozumianą jako skupienie poszczególnych wartości zmiennej wokół średniej.

♣Koncentrację interpretowaną jako nierównomierny podział ogólnej sumy wartości cechy (tzw. łącznego funduszu cechy np. dochodu) między poszczególnymi jednostkami zbiorowości. (indywidualne osoby)

Koncentracja w tym znaczeniu jest bezpośrednio związana z asymetrią i dyspresją. Im silniejsza jest asymetria i większe zróżnicowanie jednostek, tym koncentracja jest większa.

WSTĘPNA ANALIZA DANYCH – ma charakter opisowy, obejmuje proste operacje, metody sporządzania tablic i wykresów statystycznych. Ma na celu zrozumienie przez badacza charakteru struktury danych, a w konsekwencji dobranie odpowiednich modelów statystycznych.

Ilościowy opis każdej z własności rozkładu nazywa się ANALIZĄ STRUKTURY.

Miary opisujące szeregi mogą być:

Wartości wyrażone w tych samych

Jednostkach miary co badane.

Wartości niemianowane lub np. w %, w ułamkach.

Lepsze dla celów porównawczych

Do opisu własności rozkładu służą charakterystyki liczbowe tj.

PARAMETRY ROZKŁADU

W zależności od liczby zmiennych, które w tym samym czasie są przedmiotem analizy, stosuje się różne metody analizy danych.

Liczba zmiennych będących przedmiotem analizy w tym samym czasie.

MIARY POŁOŻENIA

Dzielą się na miary przeciętne i kwartyle.

Miary przeciętne – charakteryzuje średni lub typowy poziom wartości cechy. Są to więc takie wartości, wokół których skupiają się wszystkie pozostałe wartości analizowanej cechy.

Kwartyle – są to wartości cechy badanej zbiorowości, przedstawionej w postaci szeregu statystycznego, które dzielą zbiorowości na określone części pod względem liczby jednostek. Części te pozostają do siebie w określonych proporcjach.

Średnia arytmetyczna – powinna być stosowana w przypadku rozkładów symetrycznych lub o umiarkowanej asymetrii. Wielkość mianowana wyrażana jest w konkretnych jednostkach miary. Nie powinna być stosowana w szeregach, w których obserwacje są skupione w skrajnych przedziałach.

Wymaga szeregów o domkniętych przedziałach! Średnia arytmetyczna jest szczególnie wrażliwa na występowanie wartości skrajnych. Gdy jest otwarty przedział nie da się obliczyć średniej.

Własności średniej arytmetycznej:

  1. Przyjmuje wartości z przedziału xmin≤ ≤xmax

  2. Suma odchyleń wartości cechy od średniej arytmetycznej równa się 0.

  3. Jeżeli wszystkie wartości badanej cechy x pomnożymy przez dowolną stałą a (a≠0), to średnia arytmetyczna nowej zmiennej Y będzie a razy większa od średniej arytmetycznej zmiennej x.

  4. Jeżeli do wszystkich wartości cechy dodamy (odejmiemy) dowolną stałą b, to średnia arytmetyczna nowej zmiennej Z będzie różnić się od średniej arytmetycznej zmiennej X o tę samą wartość.

  5. Suma kwadratów odchyleń wartości cechy od jej średniej arytmetycznej jest mniejsza niż suma kwadratu odchyleń od jakiejkolwiek innej stałej.

Dominanta – (moda, modalna, wartość typowa) pozycyjna, absolutna miara tendencji centralnej. Jest to wartość występowana najczęściej (dominuje) w badanej zbiorowości.

Wymaga pogrupowania materiału statystycznego – wyznaczana zatem jedynie dla szeregów rozdzielczych.

Stosowana w przypadku rozkładów jednorodnych.

Histogram – wykres powierzchniowy,

pola słupków. Między słupkami nie ma

pustych miejsc.

KWANTYLE

Mediana – (wartość środkowa, kwartyl drugi, decyl piąty) pozycyjna, absolutna miara tendencji centralnej wartości cechy jaką posiada jednostka znajdująca się w środku uporządkowanego szeregu.

Nie wrażliwa na występowanie wartości skrajnych, nietypowych.

Q- kwartyl

Me-mediana

MIARY DYSPRESJI

Klasyczne Pozycyjne

A

A

A

A

A

W

A – miary absolutne W – miary względne

Rozstęp – różnica między maksymalną i minimalną zaobserwowaną wartością.

Najpowszechniej stosowane miary rozproszenia to:

- wariancja

- odchylenie standardowe – pierwiastek kwadratowy z wariancji

Wariancją – nazywamy przeciętne kwadratowe odchylenie poszczególnych wyników od średniej arytmetycznej.

Odchylenie standardowe – w zbiorze wyników obserwacji nazywamy pierwiastek kwadratowy z wariancji. Jest obok średniej arytmetycznej najczęściej stosowanym parametrem statystycznym.

Klasyczna, absolutna miara dyspersji.

Im zbiorowość jest bardziej zróżnicowana, tym większa jest wariancja i odchylenie standardowe.

Odchylenie standardowe w przeciwieństwie do wariancji można interpretować.

POZYCYJNE MIARY DYSPRESJI

Odchylenie ćwiartkowe – połowa różnicy między trzecim, a pierwszym kwartylem. Połowa obszaru zmienności środkowych 50% jednostek zbiorowości.

Zastosowanie miary pozycyjnej jaką jest odchylenie ćwiartkowe powoduje, że nic nie wiemy o pierwszej i ostatniej ćwiartce. Znamy jedynie informacje o środkowych 50% jednostek. Tracimy informacje o 50% jednostek zbiorowości.

Współczynnik zmienności – iloraz bezwzględnej miary zmienności cechy i średniej wartości tej cechy.

WZGLĘDNA MIARA ROZPROSZENIA

Wielkość niemianowana najczęściej podawana jest w procentach. Duże wartości tego współczynnika świadczą o zróżnicowaniu. A więc o niejednorodności zbiorowości.

Stosowany zwykle w analizach porównawczych. Gdy chcemy ocenić.

~ wykres pudełko z wąsami – prosta struktura, dużo informacji.

Ocena asymetrii (skośności) rozkładu:

Asymetrią rozkładu najłatwiej jest określić w drodze porównania dominanty, mediany i średniej arytmetycznej. W rozkładzie symetrycznych wszystkie średnie są sobie równe.

Rozkłady jednej zmiennej różnią się między sobą kierunkiem i siłą asymetrii.

MIARY ASYMETRII:

- współczynnik skośności zbudowany na podstawie np. kwartyli

A(Q) <-1,1> - pozycyjna miara asymetrii (ocenia asymetrię zawężonej przestrzeni)

- współczynnik skośności

A( ) <-1,1> - mieszana miara asymetrii

Są to miary niemianowane i unormowane, względne co umożliwia porównanie asymetrii różnych rozkładów.

ANALIZA KONCENTRACJI

Koncentracja- określa stopień w jakim pewna wielkość jest skupiona w niektórych elementach pewnego agregatu w czasie lub przestrzeni. Nazywana również nierównomiernym agregatu podziałem pewnej wielkości między jednostki tworzące zbiorowość.

Problem koncentracji i metody jej pomiaru po raz pierwszy sformułował M. O. Lorenz w 1905r. w badaniach nad rozkładem dochodów.

Pojęcie koncentracji ograniczone jest dwiema skrajnymi przypadkami:

Dwie metody badania siły koncentracji zjawiska.

Analityczna Graficzna

Współczynnik koncentracji Lorenza Wielobok koncentracji Lorenza

(Pearsona) Oś odciętych – skumulowanie częstości

względne (w %).

Oś rzędnych – skumulowanie częstości

względne łącznego funduszu

cechy (w%)

Pole a – powierzchnia koncentracji. Im większy jest

stopień koncentracji, tym bardziej krzywa Lorenza

odchyla się do linii równomiernego podziału.

Krzywa Lorezna – krzywa lokalizacji, krzywa dystersyfikacji, krzywa specjalizacji.

08.12.13r.

Czellan - genetyk, statystyk.

Korelacja – statystyka dostarcza narzędzia pozwalające wykryć, zmierzyć i ocenić powiązania między cechami. Analizy takiej można dokonać dla 2 lub większej liczby zmiennych. W dalszych rozważaniach ograniczamy się jedynie do analizy jednej pary zmiennych x i y.

Jeżeli zmienne x i y oddziaływują na siebie wzajemnie lub współwystępują to mówimy o korelacji lub współzależności tych cech. Nie mówimy wówczas o przyczynie i skutku lecz określamy wzajemną relację tych cech. Najprostszą formą oceny związku między cechami jest analiza graficzna.

Wykres korelacyjny - (diagram korelacyjny, rozproszenia, wykres rozrzutu) pozwala zaobserwować i ocenić najważniejsze właściwości powiązań cech, a więc:

  1. Istnienie związku

  2. Rodzaj związku

  3. Kierunek zależności

  4. Siłę zależności

Związek funkcyjny liniowy dodatni ( rosnącym wartościom jednej cechy odpowiadają rosnące wartości drugiej cechy).

Związek funkcyjny liniowy ujemny ( rosnącym wartościom jednej cechy odpowiadają malejące wartości drugiej cechy).

Brak korelacji.

Związek funkcyjny krzywoliniowy.

Na podstawie diagramu korelacyjnego możemy stwierdzić czy powiązane cechy mają charakter:

-liniowy, krzywoliniowy, nieliniowy

-dodatni, ujemny

-silny, umiarkowany, słaby

Związek silny Związek słaby Brak związku

Pomiary siły i kierunku korelacji.

Do najlepiej znanych i najczęściej stosowanych współczynników korelacji należą:

  1. Współczynniki korelacji liniowej Pearsona (obie cechy ilościowe).

  2. Współczynniki korelacji rang Spearmana (cechy wyrażone w skali porządkowej, jakościowej, mieszanej).

  3. Współczynniki kontyngencji np. współczynniki T-Czuprowa (cechy jakościowe, cechy wyrażone w skali nominalnej).

WSPÓŁCZYNNIK KORELACJI PEARSONA

Najczęściej stosowany w praktyce współczynnik korelacji. Można go stosować jeżeli spełnione są jednocześnie dwa założenia:

-obie cechy są cechami ilościowymi

-zależność między cechami jest liniowa

Współczynnik ten jest ilorazem miary łącznego zróżnicowania cech – kowariancji i iloczynu odchyleń standardowych tych cech.

Korelacja (kowariancja) – jest miarą współzależności cech, jednak jej wartość nie jest unormowana. Może przyjąć wartości z przedziału <-∞,+∞>. Podzielenie korelacji (kowariancji) przez iloczyn odchyleń standardowych cech unormuje jej wartości do przedziału <-1,1>. Ten unormowany wskaźnik to WSP. Współczynnik korelacji liniowej Pearsona.

Interpretacja

r = -1 - doskonała korelacja ujemna, związek funkcyjny

r < 0 - korelacja ujemna

r = 0 - brak związku, cechy są niezależne

r > 0 - korelacja dodatnia

r = 1 - doskonała korelacja dodatnia, związek funkcyjny

np. r = 95 - bardzo silna korelacja dodatnia

r = - 0,13 – bardzo słaba korelacja ujemna

Współczynnik ten jest symetryczny, a więc nie ma znaczenia którą cechę nazwiemy x, a która y.

WSPÓŁCZYNNIK KORELACJI RANG SPEARMANA

Ranga to miara ważności, intensywności, kolejności cechy. Badając cechy x i y w oparciu o rangi możemy mówić o ich zgodnym lub niezgodnym uporządkowaniu.

Jeżeli zbadamy uszeregowanie rang dla obu cech możemy stwierdzić czy są one zgodne, jeżeli tak to w jakim stopniu, czy też są niezgodne.

Formalnie współczynnik korelacji rang Spearmana wyznacza się ze wzoru:

Interpretacja

rs = -1 - uporządkowania są całkowicie przeciwne

rs = 1 - uporządkowania są idealnie zgodne

|rs| - ocena natężenia zgodności uporządkowań, siła korelacji

MIARY WSPÓŁZALEŻNOŚCI CECH JAKOŚCIOWYCH

W praktyce często zdarza się, że chcemy ocenić współzależność między cechami jakościowymi wyrażanymi w skali nominalnej lub między cechami jakościowymi, a ilościowymi. Do cechy współzależności między cechami oceniającymi stopień powiązania (skojarzenia) cech. Ocena kojarzenia cech opiera się na statystyce (chi-kwadrat).

Statystyka - mierzy różnicę między liczebnościami zaobserwowanymi empirycznie, a teoretycznymi, które powinny by się pojawić gdyby nie były ze sobą w żaden sposób powiązane.

Współczynnik T Czuprowa

Kresem górnym tego miernika jest jedność tylko wówczas, gdy liczba kolumn i wierszy tablicy są równe. W takich tablicach jak np. 2x3 lub 3x5 wartość T musi zawsze być mniejsza od jedności. Gdy liczba kolumn jest znacznie większa od jedności lub mniejsza od liczby wierszy, maksymalna wartość T może być znacznie mniejsza od jedności.

Współczynnik V Cramera

Stosowany jest dość rzadko, choć nad T-Czuprowem ma tę przewagę, że jego wartość maksymalna wynosi 1,0 niezależnie od liczby kolumn i wierszy. V i T są sobie równe, gdy k=l. W innym wypadku V jest zawsze nieco większe od T. W przypadku 2x2 oba mierniki są równe φ (symbol Yule’a).

Regresja liniowa – to statystyczny opis związku przyczynowo-skutkowego między niezależną (przyczyna) a zmienną zależną (skutkiem).

Analityczną postacią tego związku jest formalna konstrukcja nazywana modelem regresji.

Model może mieć postać dowolnej funkcji.

Analiza regresji jest wykorzystywana do:

  1. Rozpoznawania wielkości wpływu jednej z cech na drugą w związkach przyczynowo-skutkowych.

  2. Objaśnianie zmienności jednej cechy zmiennością drugiej, co ma szczególne znaczenie przy badaniu współwystępowania zjawisk.

Z regresją liniową mamy do czynienia, gdy związek między zmiennymi ma charakter liniowy, co łatwo rozpoznać po diagramie korelacyjnym. Jeżeli dwie zmienne x i y są ze sobą powiązane liniowo i występuje zależność przyczynowo-skutkowa, to zależność można przedstawić następująco:

- funkcja pokazująca wpływ cechy x na cechę y.

-funkcja pokazująca wpływ cechy y na cechę x.

Analiza regresji nie jest symetryczna wi.

Liniowa funkcja regresji

Jeżeli zmienna niezależna wzrośnie o 1 jednostkę, to zmienna zależna zmieni się (wzrośnie lub spadnie średnio o parametr b).

Różnice między wartościami empirycznymi (punktami), a teoretycznymi (prosta) nazywamy resztami.

reszta = ( - )

Wyznaczanie wartości współczynników regresji.

Pomiaru zmienności resztowej dokonamy w oparciu o odchylenie standardowe składnika resztowego (średni błąd szacunku, odchylenie standardowe reszt).

Średni błąd szacunku ma jedną wadę. Może przyjmować wartości z przedziału (0,+∞), jest więc ograniczony z dołu. Małe wartości łatwo zinterpretować, duże trudno.

Aby uniknąć niedogodności należy posłużyć się względnym wskaźnikiem wahań przypadkowych – współczynnikiem zmienności resztowej.

Pozwala on zinterpretować natężenie wahań przypadkowych w stosunku do przeciętnego poziomu zmiennej zależnej.

Wartości bliskie 0 będą oznaczały minimalne natężenie wahań przypadkowych, więc „dobrą” regresję.

Wartości bliskie 100% będą oznaczały, że wahania przypadkowe stanowią przeciętnie 100% średniej.

Współczynnik determinizacji:

Przyjmuje wartości z przedziału

<0,1> i informuje jako część.

Drugi iloraz to współczynnik zbieżności <0,1). Informuje nas jaka część zmienności cechy zależnej jest wywołana innymi czynnikami niż kształtowanie się cechy niezależnej.

Regresja krzywoliniowa

W analizie regresji można zastosować wiele różnych funkcji w zależności od rodzaju związku między zmienną.

Funkcja potęgowa.

Funkcja w postaci:

Może być przekształcona w postaci liniowej przez logarytmowanie.

Parametr b jest interpretowany jako współczynnik elastyczności tzn. jeżeli zmienna x wzrośnie o 1%, to y zmieni się (wzrośnie/spadnie) średnio o 1%.

Funkcja wykładnicza

Funkcja w postaci:

Może być przekształcona do postaci liniowej przez logarytmowanie.

Parametr b funkcji wykładniczej jest interpretowany jako średni przyrost względu tzw. stopa przyrostu.

Jeżeli x wzrośnie o jednostkę, to y zmieni się (wzrośnie/spadnie) średnio o (b-1)*100%.

Funkcja hiperboliczna

Parametr a jest interpretowany jako współczynnik nasycenia. Jeżeli x rośnie, to y utrzymuje się przeciętnie na poziomie a.

ANALIZA SZEREGÓW CZASOWYCH

Szeregiem czasowym nazywamy taki szereg statystyczny, w którym kryterium porządkowania jest czas. Szereg czasowy to ciąg czynników obserwacji uporządkowanych w kolejnych jednostkach czasu. Szeregi czasowe mają znacznie różnić się między sobą dynamiką, ogólnym kierunkiem zmian, natężeń, wahań przypadkowych i okresowych.

Jeżeli chcemy badać natężenie zmian jakiegoś zjawiska w poszczególnych okresach (warunkach) w odniesieniu do innych okresów to stosujemy miary zwane wskaźnikami dynami.

Jeżeli interesują nas prawidłowości rozwojowe w dłuższym czasie (w kliku, kilkunastu, kilkudziesięciu okresach, to badamy tendencję rozwojową (trend)). Analizujemy także sezonowość, gdy informacje liczbowe są w kwartałach lub miesiącach.

Indywidualne wskaźniki dynamiki.

Przyrost możemy wyznaczyć w sposób bezwzględny (absolutny), bądź względny.

Przyrosty absolutne informują nas o zmianach zachodzących w poziomie zjawiska w takich jednostkach jak jednostka badanej cechy.

Przyrosty względne przekazują tę samą informację jednak w sposób względny, a więc opisując zmiany w poziomie badanego zjawiska lecz są to zmiany procentowe.

PRZYROSTY

Absolutne Względne

Jednopodstawowe Łańcuchowe Jednopodstawowe Łańcuchowe

Podając zmiany w poziomie zjawiska możemy jako punkt odniesienia mieć okres bezpośrednio poprzedzający okres badania.

Przyrosty Absolutne Względne

Jednopodstawowe

Łańcuchowe

Indeksy jednopodstawowe

Indeksy łańcuchowe

Średnie tempo zmian pokazuje średnią względną zmianę (wzrost lub spadek – w zależności od znaku badanego zjawiska z okresu na okres).

Średni indeks możemy wyznaczyć stosując średnią geometryczną indeksów łańcuchowych. Średnia geometryczna jest pierwiastkiem stopnia n-1 z iloczynu indeksów łańcuchowych, gdzie n oznacza liczbę wyrazów szeregu czasowego, a stopień pierwiastka równy jest liczbie indeksów.

11.01.14r.

Indeksy agregatowe

Jeżeli cenę oznaczymy symbolem p, a ilość (fizyczną wielkość) dóbr symbolem q, to mnożąc (p,q) otrzymamy wartość. Sumując wartości poszczególnych towarów lub usług.

Indeks agregatowy to indeks, który mierzy względne wartości kilku zmiennych wziętych razem, tworzących pewną kombinację.

Indeks cen konsumpcyjnych (CPI) – stanowi relację cen reprezentatywnego zestawu towarów i usług nabywanych przez przeciętne gospodarstwa domowe (statystyczny koszyk zakupów) w kolejnych latach badania do ceny tego koszyka w roku podstawowym, czyli przyjętym za podstawę wyliczeń. W Polsce GUS tworzy koszyk na podstawie badań budżetów gospodarstw domowych, co roku ustala ile i czego kupuje „uśrednione”.

Indeksy agregatowe

LASPEYRESA

PAASHEGO

FISHERA

Analiza dynamiki

Dynamika dla zjawisk jednorodnych Zjawiska złożone, wówczas budujemy

agregaty indeksowe.

SKŁADOWE SZEREGÓW CZASOWYCH

Tendencja rozwojowa (trend) – ogólny kierunek zmian badanego zjawiska zachodzący w długim okresie czasu, będący wynikiem odziaływania określonego zespołu przyczyn głównych; trend może być wzrostowy, spadkowy lub pozostawać na takim samym poziomie (wtedy mówi się o stałym lub średnim poziomie zjawiska).

Wahania okresowe – regularny wzrost lub spadek wartości badanego zjawiska w podobnych odstępach czasu.

Wahania krótkookresowe – powtarzają się w obrębie miesięcy, tygodni, dni (wahania sprzedaży w hipermarketach spowodowane dużą zmiennością natężenia ruchu nabywców w ciągu tygodnia).

Wahania sezonowe – mają roczny okres (cykl) wahań (wynikają z przyczyn naturalnych np. z przebiegu pór roku oraz z przyczyn konwencjonalnych np. zwyczajów świątecznych).

Wahania koniunkturalne (cykliczne)- powtarzają się w odstępach dłuższych niż rok i są na ogół związane z cyklem koniunkturalnym gospodarki.

Wahania nieregularne – pozostałe wahania nie będące wahaniami cyklicznymi ani sezonowymi, zwykle są to nieregularne odchylenia wartości badanego zjawiska o niewielkim natężeniu. Należą do nich: wahania czysto losowe (przypadkowe), wahania incydentalne (katastroficzne).

ANALITYCZNA METODA WYODRĘBNIANIA TRENDU

Funkcje trendu

Jeżeli abstrajcyjną zmienną „t” zapiszemy t=1, 2, 3,…,n, to parametry funkcji, trendu możemy wyznaczyć metodą najmniejszych kwadratów.

Przyjmujemy założenie, że trend jest to pewna funkcja czasowa.

Ekstrapolacja trendu

Se- średni błąd szacunku

ANALIZA WAHAŃ SEZONOWYCH

Zostanie przedstawiona w dwóch ujęciach:

Etapy wyznaczania wskaźników sezonowych przy występującym trendzie:

Dla każdego okresu (t) obliczamy wartości teoretyczne z funkcji trendu lub średnich ruchomych.

Dla każdego okresu (t) obliczamy iloraz lub różnicę

-względne wskaźników sezonowości

-absolutne wskaźników sezonowości

SIP Ustawa o statystyce publicznej SISP

GUS – Witkowski Centrum informatorium statystycznego

EGZAMIN – pisemny i teoretyczny. Dowód tożsamości, indeks z wpisem z ćw.

Portal studenta – sylabus.

40-50 pytań, 30 minut c-9 Test (Dokończ zdanie …, Twierdzenia Prawda/Fałsz, Wskaźniki + interpretacje, dopasować zagadnienia z pojęciami). Każda odp. 1p. Suma zdane połowa +1%

Pełne nazwy.


Wyszukiwarka

Podobne podstrony:
Statystyka - opracowane pyt 3(1), Nauka, statystyka
Metrologia statystyczne opracowanie wyników
Analiza błędów Statystyczne opracowanie wyników pomiarów
Statystyka - opracowane pyt 5, Statystyka
Statystyka-opracowane, Studia, Psychologia, SWPS, 2 rok, Semestr 04 (lato), Metodologia ze statystyk
Statystyka - opracowane pyt 1, Statystyka
ćwiczenie 2 Statystyczne opracowanie wyników pomiarów, ZiIP Politechnika Poznańska, Podstawy Metrolo
Statystyka - opracowane pyt 2007, Statystyka
Statystyka - opracowane pyt 4, SGGW - Technologia żywnosci, II semestr, SEMESTR 2, statystyka
LABORATORIUM 1 [Statystyczne opracowanie wyników pomiarów wytrzymałości?tonu na ściskanie]
Analiza błędów. Statystyczne opracowanie wyników pomiarów, Metrologia
Statystyka - opracowane pyt 2, statystyka
Statystyka i opracowanie wyników badań
Statystyka - opracowane pyt 3, Technologia żywnosci i Żywienie człowieka, 2 semestr, Statystyka
Celowość statystycznego opracowania wyników?dań własnych
statystyka opracowywanie danych

więcej podobnych podstron