Wyklady ze statystyki


Zalecana literatura:
" W. Makać, D. Urbanek-Krzysztofiak  Metody opisu statystycznego
" W. Makać  Podstawowe metody statystyczne w analizie rynku pracy
" W. Makać  Podstawy statystyki i demografii dla studentów administracji
" S. Ostasiewicz, Z. Rusnak, U. Siedlecka  Statystyka - elementy teorii i zadania
" A. D. Aczel  Statystyka w zarzÄ…dzaniu
" J. Józwiak, J. Podgórski  Statystyka od podstaw
+ wszystkie dostępne zbiory zadań
Statystyka:
Ä… nauka zajmujÄ…ca siÄ™ metodami gromadzenia, opracowywania, prezentacji,
analizy i interpretacji danych ilościowych, dotyczących badanych zbiorowości;
ą nauka traktująca o metodach ilościowych badania prawidłowości zjawisk
(procesów) masowych;
Ä… zbiory danych liczbowych dotyczÄ…cych konkretnego zagadnienia;
ą  badanie zmienności .
Przedmiotem statystyki jest wykrywanie prawidłowości występujących w badaniach
różnorodnych zbiorowości.
Funkcje statystyki:
1) Opis, zebranie informacji w taki sposób, by były najbardziej użyteczne.
2) Indukcja, czyli reguły uogólniania na populację wniosków wyciągniętych
w oparciu o próbę.
Statystyczne metody badania prawidłowości charakteryzujących badane zjawiska
występują w formie opisu statystycznego oraz w formie wnioskowania statystycznego.
Opis statystyczny - liczbowy opis badanej zbiorowości lub zjawisk, występujący
w formie tabelarycznej, graficznej i parametrycznej (za pomocÄ…
charakterystyk liczbowych, takich jak: miary położenia,
dyspersji, asymetrii, zwanych parametrami).
1
Jeżeli niektórych zbiorowości nie można, a innych nie warto badać w całości, to czy
mimo to można uzyskać dokładne informacje o tych zbiorowościach? Można.
RozwiÄ…zaniem tego problemu jest wnioskowanie statystyczne.
Wnioskowanie statystyczne - proces uogólniania wyników uzyskanych z próby
losowej na całą zbiorowość statystyczną.
Wnioskowanie statystyczne prowadzi się na podstawie próby losowej, a więc
w szczególności nie może być to próba dowolna, wybrana chybił trafił. Różnica
między próbą a próbą losową jest taka, jak między krzesłem a krzesłem elektrycznym.
ETAPY BADANIA STATYSTYCZNEGO
Badanie statystyczne - ogół prac mających na celu poznanie struktury określonej
zbiorowości statystycznej.
I. Programowanie badania.
II. Obserwacja statystyczna.
III. Prezentacja wyników.
IV. Analiza statystyczna.
ETAP I - PROGRAMOWANIE BADANIA
1. Określenie celów badania: ogólnych, cząstkowych.
2. Określenie przedmiotu badania:
" zdefiniowanie zbiorowości statystycznej (populacji statystycznej),
" zdefiniowanie jednostki statystycznej.
Zbiorowość statystyczna (populacja statystyczna) - zbiór dowolnych elementów
(osób, przedmiotów, faktów) nazywanych jednostkami
statystycznymi, podobnych pod względem określonych
cech i poddanych badaniom statystycznym.
2
Jednostka statystyczna - poszczególny element (obiekt badania) zbiorowości
statystycznej podlegający bezpośredniej obserwacji lub
pomiarowi.
3. Wyodrębnienie cech statystycznych.
Jednostki statystyczne charakteryzują się pewnymi właściwościami, które określa się
mianem cech statystycznych.
CECHY
STAAE ZMIENNE
" rzeczowe (kto lub co?)
" czasowe (z jakiego okresu?)
" przestrzenne
Cechy stałe są wspólne wszystkim jednostkom danej zbiorowości i nie podlegają
badaniu, a jedynie decydują o zaliczeniu jednostki do określonej zbiorowości.
Cechy zmienne to właściwości, które różnią poszczególne jednostki statystyczne.
CECHY ZMIENNE
JAKOÅšCIOWE ILOÅšCIOWE
(niemierzalne) (mierzalne)
możemy je podać tylko w sposób opisowy właściwość, której odmiany wyrażamy
w fizycznych jednostkach miary
DWUDZIELCZE WIELODZIELCZE SKOKOWE CIGAE
(DYCHOTOMICZNE) nieskończenie wiele skończona ilość
wariantów, wariantów,
wyrażane w postaci wyrażane w postaci
liczb całkowitych liczb rzeczywistych
3
Cecha jakościowa dwudzielcza - np. płeć: kobieta, mężczyzna
Cecha jakościowa wielodzielcza - np. wykształcenie: podstawowe, zawodowe, średnie,
wyższe
Cecha ilościowa skokowa - np. liczba dzieci w rodzinie: 1, 2, 3, 4 i więcej
Cecha ilościowa ciągła - np. czas dojazdu na uczelnię, średnia ocen w semestrze
Cechę jakościową można wyrazić jedynie na:
" skali nominalnej
Cechę ilościową (zależnie od pomiaru) można wyrazić na:
" skali porzÄ…dkowej
" skali przedziałowej
" skali ilorazowej
Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna,
porządkowa, przedziałowa, ilorazowa.
4. Wybór metody badania statystycznego.
BADANIA STATYSTYCZNE
kryterium rodzaju badania
BADANIE PEANE BADANIE CZÅšCIOWE
(całkowite, wyczerpujące) (próbkowe)
Powszechny Spis Ludności, Rejestracja urodzeń,
zgonów, liczby zawartych małżeństw, rozwodów
kryterium badanego okresu
BADANIA OKRESOWE DORAyNE
DOBÓR LOSOWY DOBÓR NIELOSOWY
BADANIE REPREZENTACYJNE DOBÓR PRZYPADKOWY,
Badanie budżetów gospodarstw DOBÓR CELOWY
domowych, Badanie warunków życia np. Badanie monograficzne,
ludności DOBÓR KWOTOWY i inne
4
Właściwie przeprowadzony Spis Ludności powinien być:
ą powszechny - powinna być spisana każda osoba w zbiorowości ludności objętej
badaniem,
ą imienny - dla każdej spisanej osoby odnotowuje się oddzielnie wszystkie objęte
badaniem informacje,
ą bezpośredni - dane są uzyskiwane bezpośrednio od osób spisywanych (bądz
członków ich rodzin),
ą jednochwilowy - odnotowuje stan na ściśle określony moment, tzw. moment
krytyczny spisu - jest to najczęściej godzina 24. w dniu określonym datą spisu.
ETAP II - OBSERWACJA STATYSTYCZNA
Obserwacja - gromadzenie, zbieranie materiału statystycznego - informacji
o właściwościach poszczególnych jednostek statystycznych.
1. Określenie zródeł pozyskiwania danych:
" pierwotnych (obserwacja, wywiad, ankieta)
" wtórnych (sprawozdawczość przedsiębiorstw, publikacje statystyczne, spisy)
2. Grupowanie materiału statystycznego - usystematyzowanie, podział zbiorowości
na jednorodne podgrupy według jednej lub kilku cech. Rozróżniamy zwykle dwa
rodzaje grupowania.
GRUPOWANIE
TYPOLOGICZNE WARIANCYJNE
Gdy podstawą grupowania jednostek statystycznych jest cecha jakościowa, to takie
grupowanie nazywamy grupowaniem typologicznym.
Gdy podstawą grupowania jednostek statystycznych jest cecha ilościowa, to takie
grupowanie nazywamy grupowaniem wariancyjnym.
5
ETAP III - PREZENTACJA WYNIKÓW OBSERWACJI STATYSTYCZNEJ
1) Szereg statystyczny - ciąg wyników obserwacji uporządkowany lub
uporządkowany i pogrupowany według określonych kryteriów, przyjętych
wariantów cechy.
SZEREGI STATYSTYCZNE
SZCZEGÓAOWE ROZDZIELCZE CZASOWE
(wyliczajÄ…ce, proste) (dynamiczne, chronologiczne)
SZEREG SZEREG SZEREG
ROZDZIELCZY ROZDZIELCZY ROZDZIELCZY
STRUKTURALNY JEDNOSTOPNIOWY WIELOSTOPNIOWY
(PUNKTOWY) (PRZEDZIAAOWY)
Konstruowanie szeregu rozdzielczego przedziałowego wymaga określenia liczby
przedziałów oraz rozpiętości przedziałów.
Zaobserwowany zakres zmienności badanej cechy należy podzielić na pewną liczbę
przedziałów, będącą jakąś funkcją liczby obserwacji k=f(n).
k - liczba przedziałów (klas)
n - liczba obserwacji (liczebność)
c - rozpiętość przedziałów (klas)
k=5 logn
k= n
ćą k=1ƒÄ…3,32 log n
Określenie optymalnej liczby przedziałów:
xmax-xmin
c=
k
xmax-xmin Losowy charakter próby. Zakładamy, że może istnieć wartość mniejsza
c=
k-1
od x oraz wartość większa od x .
min max
6
c
a0=xmin-
Dolna wartość pierwszego przedziału.
2
Przedziały powinny spełniać zasadę:
" rozłączności,
" zupełności,
" jednoznaczności klasyfikacji.
2) Wykresy statystyczne - graficzna, wizualna forma prezentacji materiału
statystycznego.
" szereg strukturalny - wykresy powierzchniowe (np. wykres słupkowy, wykres
kołowy bądz na planie innych figur płaskich)
" szereg rozdzielczy jednostopniowy (punktowy) - wykres punktowy
" szereg rozdzielczy wielostopniowy (przedziałowy)
SZEREG ROZDZIELCZY WIELOSTOPNIOWY (PRZEDZIAAOWY)
WYKRESY LINIOWE WYKRESY POWIERZCHNIOWE
krzywe liczebności histogram
Histogram - zbiór prostokątów, których podstawy stanowią rozpiętość
poszczególnych przedziałów klasowych, natomiast wysokości są
określone przez liczebności odpowiadające poszczególnym
przedziałom klasowym.
Krzywa liczebności - łamana powstała przez połączenie punktów, których
współrzędnymi są środki przedziałów klasowych
i odpowiadające im liczebności.
3) Tablice statystyczne - forma prezentacji rezultatów obserwacji statystycznej.
7
ETAP IV - ANALIZA STATYSTYCZNA
Własności rozkładu empirycznego:
ą tendencja centralna - polega na skupianiu się jednostek wokół wartości
centralnej; występuje w przypadku rozkładów jednomodalnych i zbliżonych do
rozkładu symetrycznego
ą dyspersja (rozproszenie, zróżnicowanie, zmienność, rozrzut) - odchylenie od
tendencji centralnej; jeżeli wszystkie jednostki znajdują się blisko wartości
centralnej, ich zmienność jest mniejsza niż wtedy, gdy oddalają się one
znacznie od wartości centralnej
ą asymetria (skośność) - odchylenie od symetrii; określa symetryczność bądz
niesymetryczność rozkładu liczebności
Ä… koncentracja
Rozróżnia się dwa rodzaje koncentracji:
" koncentrację rozumianą jako skupienie poszczególnych wartości zmiennej
wokół średniej oraz
" koncentrację interpretowaną jako nierównomierny podział ogólnej sumy
wartości cechy (tzw. łącznego funduszu cechy, np. dochodu) między
poszczególne jednostki zbiorowości (np. indywidualne osoby); koncentracja
w tym znaczeniu jest bezpośrednio związana z asymetrią i dyspersją; im
silniejsza jest asymetria i większe zróżnicowanie jednostek, tym koncentracja
jest większa.
WSTPNA ANALIZA DANYCH - ma charakter opisowy, obejmuje proste operacje,
metody sporządzania tablic i wykresów statystycznych; ma na celu zrozumienie
przez badacza charakteru struktury danych, a w konsekwencji dobranie
odpowiednich modelów statystycznych.
Ilościowy opis każdej z własności nazywa się ANALIZ STRUKTURY.
Miary opisujące szeregi mogą być: BEZWZGLDNE oraz WZGLDNE.
8
Do opisu własności rozkładu służą charakterystyki liczbowe zwane
PARAMETRAMI ROZKAADU
PARAMETRY KLASYCZNE PARAMETRY POZYCYJNE
obliczane sÄ… na podstawie wszystkich wyznaczone sÄ… na podstawie miejsca
obserwacji w szeregu w szeregu lub częstotliwości występowania
Stosowane głównie do rozkładów Stosowane do badania każdego typu
charakteryzujących się tendencją centralną rozkładu.
(rozkłady symetryczne, rozkłady
o umiarkowanej asymetrii).
W zależności od liczby zmiennych, które w tym samym czasie są przedmiotem
analizy, stosuje się różne metody analizy danych.
Liczba zmiennych będących przedmiotem analizy w tym samym czasie
JEDNA DWIE WICEJ NIÅ» DWIE
(jednowymiarowa) (dwuwymiarowa) (wielowymiarowa)
1) MIARY POAOŻENIA
MIARY PRZECITNE KWANTYLE
charakteryzują średni lub typowy wartości cechy badanej zbiorowości,
poziom wartości cechy; są to więc takie przedstawianej w postaci szeregu
wartości, wokół których skupiają statystycznego
się wszystkie pozostałe wartości
analizowanej cechy
9
MIARY POAOŻENIA
KLASYCZNE POZYCYJNE
" średnia arytmetyczna
" średnia harmoniczna
" średnia geometryczna
DOMINANTA KWANTYLE
inne
KWARTYLE DECYLE
KWARTYL MEDIANA KWARTYL
PIERWSZY TRZECI
MIARY TENDENCJI CENTRALNEJ: średnia arytmetyczna, dominanta, mediana.
Åšrednia arytmetyczna:
" uwzględnia wszystkie informacje zawarte w zbiorze danych,
" powinna być stosowana w przypadku rozkładów symetrycznych lub rozkładów
o umiarkowanej asymetrii,
" wielkość mianowana, tzn. wyrażana jest w konkretnych jednostkach miary,
" nie powinna być stosowana w szeregach, w których obserwacje skupione są
w skrajnych przedziałach,
" wymaga szeregów o domkniętych przedziałach klasowych,
" jest szczególnie wrażliwa na występowanie tzw. wartości skrajnych.
Dominanta (moda, modalność, wartość typowa):
" pozycyjna, absolutna miara tendencji centralnej,
" wartość występująca najczęściej (dominuje) w badanej zbiorowości,
" wymaga pogrupowania materiału statystycznego - wyznaczana zatem jedynie
dla szeregów rozdzielczych,
" stosowana w przypadku rozkładów jednomodalnych.
10
KWANTYLE
KWARTYLE DECYLE PERCENTYLE
dzielą zbiorowość na dzielą zbiorowość na dzielą zbiorowość na
cztery ćwiartki dziesięć części sto części
Mediana (wartość środkowa, kwartyl drugi, decyl piąty):
" pozycyjna, absolutna miara tendencji centralnej,
" wartość cechy, jaką posiada jednostka znajdująca się w środku
uporzÄ…dkowanego szeregu,
" może być obliczana, np. w szeregach o otwartych przedziałach klasowych,
o różnych rozpiętościach przedziałów,
" nie jest wrażliwa (jak średnia arytmetyczna) na występowanie wartości
skrajnych.
2) MIARY DYSPERSJI
KLASYCZNE POZYCYJNE
A R - rozstęp
A R(Q) - rozstęp kwartylowy
A s2 - wariancja R(D) - rozstęp decylowy
A s - odchylenie standardowe Q - odchylenie ćwiartkowe
A x - typowy obszar zmienności x - typowy obszar zmienności
typ typ
W V(s) - współczynnik zmienności V(Q) - współczynnik zmienności
A - miary absolutne
W - miary względne
OCENA ASYMETRII (SKOŚNOŚCI) ROZKAADU - asymetrię rozkładu najłatwiej jest
określić poprzez porównanie dominanty, mediany i średniej arytmetycznej.
W rozkładach symetrycznych wszystkie średnie są sobie równe. W rozkładach
asymetrycznych wymienione średnie kształtują się na różnych poziomach.
11
ANALIZA KONCENTRACJI
Koncentracja określa stopień w jakim pewna wielkość jest skupiona w niektórych
elementach pewnego agregatu w czasie lub przestrzeni (zwiÄ…zana z asymetriÄ…).
Dwie metody badania siły koncentracji zjawiska:
" graficzna - wielobok koncentracji Lorenza,
" analityczna - współczynnik koncentracji Lorenza (Pearsona).
Analiza koncentracji rynku jest ważnym elementem oceny potencjalnych skutków
fuzji i przejęć, z którymi mamy do czynienia coraz częściej na współczesnych rynkach
finansowych.
ANALIZA WSPÓAZALEŻNOŚCI I REGRESJI
Korelacja (współzależność)
Większość zjawisk w otaczającym nas świecie występuje w różnorakich związkach
i powiązaniach. Dotyczy to także zjawisk ekonomicznych i społecznych.
Przedsiębiorca oczekuje, że nakłady poniesione na promocję jego produktów zwrócą
się w postaci przychodów ze sprzedaży.
Statystyka dostarcza narzędzi pozwalających wykryć, zmierzyć i ocenić powiązania
między cechami. Analizy takiej można dokonać dla dwóch lub większej liczby
zmiennych. W dalszych rozważaniach ograniczymy się jedynie do analizy jednej pary
zmiennych. Nazwijmy te zmienne X i Y.
ZWIZEK (między cechami)
LINIOWY KRZYWOLINIOWY NIELINIOWY
punkty na diagramie korelacyjnym punkty rozkładają się wokół innej linii punkty rozkładają się wokół linii
rozkładają się wokół linii prostej (funkcji) niż liniowa - mamy na myśli funkcji niesprowadzalnej
funkcje sprowadzalne do liniowej
12
KORELACJA
DODATNIA UJEMNA
wzrostowi wartości jednej cechy X, zmiany wartości cech
odpowiada wzrost średnich wartości są różnokierunkowe
drugiej cechy Y
KORELACJA
SILNA UMIARKOWANA SAABA
jeżeli rozrzut punktów jeżeli rozproszenie punkty są znacznie
na diagramie jest mały, punktów jest wyrazne rozproszone, jednak nadal
punkty układają się niemal wyraznie widać wokół
idealnie wokół linii prostej jakiej linii
KORELACJA IDEALNA - wszystkie punkty diagramu leżą dokładnie na prostej.
Pomiar siły i kierunku korelacji
Do najlepiej znanych i najczęściej stosowanych współczynników korelacji należą
(dotyczą tylko zależności liniowej):
1) Współczynnik korelacji liniowej Pearsona (obie cechy ilościowe)
2) Współczynnik korelacji rang Spearmana (cechy wyrażone w skali porządkowej:
jakościowe, mieszane)
3) Współczynnik kontyngencji np. współczynnik zbieżności T-Czuprowa (cechy
jakościowe, cechy wyrażone na skali nominalnej)
13
WSPÓACZYNNIK KORELACJI LINIOWEJ PEARSONA
Najczęściej stosowanym w praktyce współczynnikiem korelacji jest współczynnik
korelacji liniowej Pearsona. Można go stosować jeżeli spełnione są jednocześnie dwa
założenia:
" obie cechy są cechami ilościowymi,
" zależność między cechami jest liniowa.
Współczynnik ten jest ilorazem miary łącznego zróżnicowania cech - kowariancji
i iloczynu odchyleń standardowych tych cech.
Korelacja jest miarą współzależności cech, jednak jej wartość nie jest unormowana.
Może przyjąć wartości z przedziału (-", +"). Podzielenie kowariancji przez iloczyn
odchyleń standardowych cech normuje jej wartość do przedziału <-1, +1>. Ten
unormowany wskaznik to współczynnik korelacji liniowej Pearsona.
Interpretacja:
r = -1 - doskonała korelacja ujemna, związek funkcyjny
r < 0 - korelacja ujemna
r = 0 - brak związku, cechy są niezależne
r > 0 - korelacja dodatnia
r = 1 - doskonała korelacja dodatnia, związek funkcyjny
r = 0,95 - bardzo silna korelacja dodatnia
r = -0,33 - bardzo silna korelacja ujemna
Współczynnik korelacji nie jest odporny na występujące wartości odbiegające tzw.
outliers, dlatego dwa podobne wykresy korelacyjne mogą różnić się współczynnikiem
korelacji.
Dwie silne korelacje mogą zredukować się do korelacji, gdzie r = 0, co nie oznacza, że
obie cechy są niezależne. W takim przypadku nie należy stosować współczynnika
korelacji liniowej Pearsona.
14
WSPÓACZYNNIK KORELACJI RANG SPEARMANA
Ranga - miara ważności, intensywności, kolejności cechy. Badając cechy X i Y
w oparciu o rangi, możemy mówić o ich zgodnym lub niezgodnym
uporzÄ…dkowaniu.
Jeżeli zbadamy uszeregowanie rang dla obu cech możemy stwierdzić, czy są one
zgodne (jeżeli tak to w jakim stopniu), bądz czy nie są zgodne.
Współczynnik ten przyjmuje wartości z przedziału <-1, 1>.
Interpretacja:
r = -1 - uporządkowania są całkowicie przeciwne
s
r = 1 - uporzÄ…dkowania idealnie zgodnie
s
|r | - ocena natężenia zgodności uporządkowań, siła korelacji
s
MIARY WSPÓAZALEŻNOŚCI CECH JAKOŚCIOWYCH
W praktyce często zdarza się, że chcemy ocenić współzależność między cechami
jakościowymi wyrażonymi w skali nominalnej lub między cechami jakościowymi
a ilościowymi.
Do oceny współzależności między cechami jakościowymi posługujemy się
współczynnikami kontyngencji oceniającymi stopień powiązania (skojarzenia) cech.
Ocena skojarzenia cech opiera siÄ™ na statystyce Ç2 (chi-kwadrat).
Statystyka Ç2 mierzy różnicÄ™ miÄ™dzy liczebnoÅ›ciami zaobserwowanymi empirycznie
a teoretycznymi, które powinny by się pojawić gdyby cechy nie były ze sobą w żaden
sposób powiązane.
15
TABLICE KONTYNGENCJI
Tablica powstaje w wyniku grupowania badanej zbiorowości według dwóch cech
i składa się z k wierszy odpowiadających wariantom jednej cechy oraz l kolumn
odpowiadajÄ…cych wariantom drugiej.
W przypadku małych różnic pomiędzy wartościami empirycznymi i teoretycznymi
statystyka Ç2 osiÄ…gnie niewielkÄ… wartość. Gdy różnice miÄ™dzy wartoÅ›ciami
empirycznymi i teoretycznymi sÄ… wiÄ™ksze, statystyka Ç2 osiÄ…gnie wartość wyższÄ….
WSPÓACZYNNIK T-CZUPROWA
Kresem górnym tego miernika jest jedność tylko wówczas, gdy liczby kolumn
i wierszy tablicy są równe. W tablicach takich jak np. 2x3 lub 3x5. Wartość T musi
zawsze być mniejsza od jedności.
Gdy liczba kolumn jest znacznie większa lub mniejsza od liczby wierszy, maksymalna
wartość T może być znacznie mniejsza od jedności.
REGRESJA
REGRESJA LINIOWA - statystyczny opis związku przyczynowo-skutkowego między
zmienną niezależną (przyczyną), a zmienną zależną (skutkiem). Analityczną
postaciÄ… tego zwiÄ…zku jest formalna konstrukcja nazywana modelem regresji.
Model może mieć postać dowolnej funkcji. Szczególnym przypadkiem regresji
jest regresja liniowa, jako przypadek najprostszy (o Å‚atwo interpretowalnych
parametrach), a jednocześnie często spotykany w praktyce.
Analiza regresji wykorzystywana jest do:
1) rozpoznania wielkości wpływu jednej z cech na drugą w związku przyczynowo-
skutkowym,
2) objaśniania zmienności jednej cechy zmiennością drugiej, co ma szczególne
znaczenie przy badaniu współwystępowania zjawisk,
16
3) szacowania nieznanych wartości jednej cechy, na podstawie znanych lub
założonych wartości drugiej cechy.
Jeżeli dwie zmienne X i Y są ze sobą powiązane liniowo i występuje zależność
przyczynowo-skutkowa, to zależność tą można przedstawić następująco:
* funkcja pokazująca wpływ cechy X na cechę Y
w = Å‚(x ) = a + bx
i i i
* funkcja pokazująca wpływ cechy Y na cechę X
x = Å‚(y ) = a + by
i i i
Analiza regresji nie jest symetryczna!!! Wpływ cechy X na Y nie jest identyczny
jak wpływ cechy Y na X. Z tej przyczyny należy dokładnie sprecyzować, która cecha
wpływa na którą!
w = a + bx
i i
w - zmienna zależna (teoretyczna)
i
a, b - współczynniki regresji
x - zmienna niezależna
i
Jeżeli zmienna niezależna wzrośnie o jedną jednostkę to zmienna zależna zmieni się
(wzrośnie lub spadnie) średnio o parametr b.
Jest oczywiste, że empiryczne punkty prawie nigdy nie będą leżały dokładnie na
prostej regresji. Wystąpi różnica między wartościami empirycznymi a teoretycznymi
wynikającymi z przyjętej funkcji. Chcemy jednak, aby linia regresji przechodziła
między punktami empirycznymi jak najbliżej wszystkich tych punktów jednocześnie.
Różnice między wartościami empirycznymi (punktami) a teoretycznymi (prosta)
nazywamy resztami.
reszta = (y )
i - w
i
17
Wyznaczanie wartości współczynników regresji
Chcemy, aby linia regresji przechodziła między punktami empirycznymi jak najbliżej
wszystkich tych punktów jednocześnie. Chcemy więc, aby suma odchyleń wartości
empirycznych od teoretycznych była minimalna. Ponieważ jednak odchylenia
dodatnie znoszą się z ujemnymi, będziemy analizować kwadraty reszt:
" (y )2 = min dla w = Å‚(x )
i - w
i i i
i
" (x )2 = min dla x = Å‚(y )
i - x
i i i
i
Kryterium to nazywa się kryterium najmniejszych kwadratów.
Ocena dopasowania regresji
Można powiedzieć, że na cechę Y wpływa cecha X. Jednak prawie nigdy nie jest to
jedyny czynnik kształtujący wartość cechy Y. Są zwykle jeszcze inne, nieuwzględnione
w analizie czynniki (choć mniej istotne).
Pomiaru zmienności resztowej dokonamy w oparciu o odchylenie standardowe
składnika resztowego (średni błąd szacunku, odchylenie standardowe reszt).
Współczynnik ten mierzy przeciętne odchylenie wartości empirycznych od
teoretycznych.
Średni błąd szacunku ma jedną wadę. Może przyjmować wartości z przedziału
(0, +"), jest więc ograniczony jedynie z dołu. Małe wartości łatwo zinterpretować,
duże zaś trudniej.
Aby unikać tej niedogodności należy posłużyć się względnym wskaznikiem wahań
przypadkowych.
18
Współczynnik determinacji - przyjmuje wartości z przedziału i informuje jaka
część zmienności zmiennej zależnej jest wyjaśniona przez kształtowanie się
zmiennej niezależnej.
Współczynnik zbieżności (indeterminacji) - informuje nas jaka część
zmienności cechy zależnej jest wywołana innymi czynnikami niż
kształtowanie się cechy niezależnej.
Ponieważ oba wskazniki przyjmują wartości z przedziału <0, 1> wystarczy policzyć
jeden z nich i na jego podstawie drugi.
R2 + Ć2 = 1
W regresji liniowej (i tylko liniowej!!!) jest on co do wartości bezwzględnej równy
współczynnikowi korelacji liniowej Pearsona.
REGRESJA KRZYWOLINIOWA
W analizie regresji można zastosować wiele różnych funkcji, w zależności od rodzaju
występującego związku:
" funkcję potęgową,
" funkcję wykładniczą,
" funkcjÄ™ hiperbolicznÄ….
Funkcją potęgową o wykładniku n nazywamy funkcję określoną wzorem ł(x) = xn.
Dziedzina funkcji potęgowej zależy od wykładnika n. Jeżeli n jest liczbą naturalną,
wtedy ł jest funkcją wielomianową, a jej dziedziną jest zbiór liczb rzeczywistych.
Jeżeli n jest liczbą całkowitą parzystą, to funkcja potęgowa ł(x) = xn jest parzysta.
Jeżeli n jest liczbą całkowitą nieparzystą, to funkcja potęgowa ł(x) = xn jest
nieparzysta.
19
Funkcja wykładnicza jest to funkcja określona wzorem ł(x) = ax dla a > 0 , a `" 1, x " R.
Dziedziną funkcji jest zbiór liczb rzeczywistych R. Zbiorem wartości funkcji jest zbiór
liczb rzeczywistych dodatnich.
Monotoniczność funkcji wykładniczej - jeżeli a > 1, to funkcja wykładnicza y = ax jest
rosnąca, a jeżeli a " (0; 1), to funkcja wykładnicza jest malejąca.
Funkcjami hiperbolicznymi nazywamy sześć funkcji: cosinus hiperboliczny, sinus
hiperboliczny, tangens hiperboliczny, cotangens hiperboliczny, secans hiperboliczny
i cosecans hiperboliczny.
ANALIZA SZEREGÓW CZASOWYCH
Szeregi czasowe przedstawiamy na wykresach liniowych lub punktowych.
Indywidualne wskazniki dynamiki
Przyrosty możemy wyznaczyć w sposób bezwzględny (absolutny) lub względny.
Przyrosty absolutne - informujÄ… nas o zmianach zachodzÄ…cych w poziomie zjawiska
w takich jednostkach jak jednostka badanej cechy.
Przyrosty względne - przekazują tą samą informację, jednak w sposób względny,
a więc opisują zmiany w poziomie badanego zjawiska, lecz są to zmiany
procentowe.
PRZYROSTY
ABSOLUTNE WZGLDNE
JEDNOPODSTAWOWE AACCUCHOWE JEDNOPODSTAWOWE AACCUCHOWE
20
Dzięki formule łańcuchowej możemy badać zmiany zjawiska z okresu na okres.
Przyrosty jednopodstawowe informują, jak zmienia się wielkość zjawiska
w porównaniu z wielkością zjawiska z okresu, który został przyjęty jako podstawa
porównań.
Relatywne zmiany w szeregach czasowych możemy mierzyć za pomocą wskazników
dynamiki, zwanych indeksami.
Indeksem nazywamy iloraz poziomu zjawiska w okresie badanym do poziomu
zjawiska w okresie przyjętym za podstawę porównań.
INDEKSY INDYWIDUALNE
INDEKSY JEDNOPODSTAWOWE INDEKSY AACCUCHOWE
Średnie tempo zmian - pokazuje średnią względną zmianę (wzrost lub spadek,
w zależności od znaku) badanego zjawiska z okresu na okres.
_ _
T = (i - 1) " 100%
_
i - średni indeks
Średni indeks możemy wyznaczyć stosując średnią geometryczną z indeksów
łańcuchowych. Średnia geometryczna jest pierwiastkiem stopnia n-1 z iloczynu
indeksów łańcuchowych, gdzie n oznacza liczbę wyrazów szeregu czasowego,
a stopień pierwiastka jest równy liczbie indeksów.
21


Wyszukiwarka

Podobne podstrony:
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 6
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 2
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 3
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 7
Mikołaj Rybaczuk Materiały do ćwiczeń i wykładów ze statystyki Politechnika BIałostocka
Boratyńska A Wykłady ze statystyki matematycznej
Wykład ze statystyki dobry
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 5
Tikhonenko O Wykłady ze statystyki matematycznej Wykład 1
wyklad 1 wprowadzenie statystyki oisowe
praca ze statystyki
Wykłady z metod statystycznych
100 pytań i odpowiedzi ze statystyki (5)

więcej podobnych podstron