Autorzy raportu: Data: 24 kwiecień 2007 r.
Karolina Długosz
Mateusz Bilski
TEMAT RAPORTU
Badanie współzależności cech charakteryzujących działalność firmy handlowej
W pliku tekstowym FIRMA.TXT zestawiono dane o wartościach następujących cech w różnych oddziałach firmy: obroty w tys. złotych, koszty transportu w tys. złotych, średni staż pracy w latach.
Raport ma na celu zbadanie istotności zależności liniowej oraz jej charakter między wielkością obrotów firmy a kosztami transportu towarów oraz między wielkością obrotów i średnim stażem pracy osób zatrudnionych w firmie.
W raporcie przedstawiono wyniki uzyskane z rozwiązań podanych niżej zagadnień.
1. Analiza korelacji liniowej
Analiza współzależności liniowej między badanymi cechami
H0: współczynnik korelacji jest równy 0 - nie ma korelacji między tymi zmiennymi H1: współczynnik korelacji jest różny od 0 - jest korelacja między tymi zmiennymi |
||
Zmienne |
Obr x KT |
Obr x SP |
Współczynnik korelacji z próby |
0,96783 |
0,22053 |
Statystyka testowa t |
- |
- |
Licz. stopni .swobody |
27 |
27 |
Poziom istotności α |
0,05 |
0,05 |
Prawdopodobieństwo testowe p - value |
<0,0001 |
0,2503 |
Wniosek |
p -value < α; odrzucamy hipotezę zerową na korzyść H1 na poziomie istotności równym 0.05 |
p -value > α; nie ma podstaw do odrzucenia hipotezy zerowej na korzyść H1 na poziomie istotności równym 0.05 |
Liczebność próby: 29
Poziom istotności=5%
1.2. Wykres punktowy dla zależności między obrotami a kosztami transportu:
K_TRANS = f(OBROTY)
1.3. Wykres punktowy dla zależności między obrotami a stażem pracy:
Staż_pr = f(obroty)
1.4. Wnioski:
Na podstawie zestawionych wyników w postaci tabelarycznej oraz punktowej (wykres) stwierdzamy, że:
- w przypadku kosztów transportu w funkcji obrotów współczynnik korelacji liniowej dla poziomu istotności równej 0,05 (wartość prawdopodobieństwa testowego jest mniejsza od poziomu istotności α=0,05) wynosi 0,968 i nie zawiera się w obszarze krytycznym, dlatego należy odrzucić hipotezę H0, która mówi, że nie ma związku pomiędzy tymi dwiema cechami. Ze względu na wartość współczynnika korelacji (0,968) stwierdzamy, że występuje prawie pełna korelacja
- po dokonaniu analizy wykresu punktowego K_TRANS = f(OBROTY) obrazującego związek pomiędzy zmiennymi (obroty a koszty) stwierdzamy, że wzrostowi wartości jednej zmiennej odpowiada wzrost wartości drugiej zmiennej, co świadczy o korelacji dodatniej
- Analizując powyższe zestawienia wyników obrotów w stosunku do średniego stażu pracy otrzymujemy wartość prawdopodobieństwa testowego (p-value) wyższą od przyjętego poziomu istotności, co oznacza, że współzależność pomiędzy badanymi cechami nie istnieje (przyjmujemy hipotezę zerową). Wartość współczynnika korelacji z próby jest równy 0,221 co świadczy o znikomej korelacji.
- po dokonaniu analizy wykresu punktowego K_TRANS = f(STAŻ_PR) zauważyliśmy, że jest znaczne rozproszenie punktów i niezauważalna jest żadna tendencja centralna, co potwierdza nam brak współzależności liniowej między badanymi cechami..
2. Analiza regresji liniowej
Budujemy model regresji liniowej dla pary cech, dla których współczynnik korelacji jest istotny statystycznie, czyli dla zależności między obrotami i kosztami transportu.
Na podstawie wyników otrzymanych w systemie SAS dokonujemy oceny oszacowanego modelu w postaci niniejszego zestawienia.
Wyestymowana postać zależności regresyjnej: koszty transportu = m * obroty + b
2.1. Istotność statystyczna współczynników modelu
2.1.1. Współczynnik m: 0,07105
Elementy testu istotności:
poziom istotności: α = 0,05
statystyka testowa dla m: t-value = 19,99
wartość p - value <0,0001
Wniosek:
Ponieważ p-value jest mniejsze od poziomu istotności 0,05 więc odrzucamy hipotezę zerową (H0) na korzyść alternatywnej (H1); współczynnik m jest więc istotny statystycznie.
2.1.2. Współczynnik b: 22,26130
Elementy testu istotności:
poziom istotności: α = 0,05
statystyka testowa dla b: t = 10,17
wartość p - value <0,0001
Wniosek:
Ponieważ p-value jest mniejsze od poziomu istotności 0,05 więc odrzucamy hipotezę zerową (H0) na korzyść alternatywnej (H1); współczynnik b jest więc istotny statystycznie.
2.2. Dopasowanie modelu do danych empirycznych
2.2.1. Współczynnik determinacji(R-square) : 0,9367
Wniosek:
Wartość współczynnika determinacji świadczy o tym, że zmienność kosztów transportu K_TRANS prawie w 94% wyjaśniona jest liniową zależnością od wartości obrotów OBROTY.
2.2.2. Błąd oceny (Root MSE) Y: 4,58974
Wniosek:
Średni błąd oszacowania kosztów transportu K_TRANS, spowodowany wpływem czynników losowych wynosi 4,58974 tys.zł. Oznacza to, iż wartości rzeczywiste zmiennej objaśnianej różnią się od wartości przewidywanej przez model o powyższą wartość.
2.3. Istotność statystyczna modelu liniowego
Elementy testu istotności:
poziom istotności: α = 0,05
statystyka testowa: t = 399,53
wartość p - value <0,0001
Wniosek:
Ponieważ poziom istotności jest większy od prawdopodobieństwa testowego odrzucamy hipotezę H0 na korzyść H1; stwierdzamy też, że istnieje liniowy związek pomiędzy badanymi cechami.
2.4. Regresyjna i resztowa suma kwadratów
Regresyjna suma kwadratów (MODEL): 8416.39796
Resztowa suma kwadratów (ERROR): 568.77446
Wniosek:
Dopasowanie modelu jest odpowiednie, ponieważ resztowa suma kwadratów jest mniejsza od regresyjnej sumy kwadratów.
Istnieje liniowy związek (y=0,071*obroty+22,261) między badanymi cechami (wraz ze wzrostem obrotów wzrastają koszty transportu.
Wykres punktowy z wstawioną linią trendu dla zależności K_TRANS = f(OBROTY)
Wykres obrazuje związek pomiędzy zmiennymi (obroty, a koszty). Łatwo zauważyć, że wzrostowi wartości jednej zmiennej odpowiada wzrost wartości drugiej zmiennej, co świadczy o korelacji dodatniej. Punkty na wykresie tworzą tzw „smugę”, która układa się wzdłuż linii prostej, tak więc możemy dopasować do niej funkcję liniową, którą można opisać zależnością: Y = mX+b.
Położenie prostej na płaszczyźnie określają obie stałe m i b funkcji Y = mX+b, zwanej liniową funkcją regresji, co świadczy o tym, że istnieje liniowy związek (y=0,071*obroty+22,261) między badanymi cechami (wraz ze wzrostem obrotów wzrastają koszty transportu).
3. Prognozowanie:
Celem badania było określenie prognozy cechy Y dla wartosci X równej 500 oraz oszacowanie błędu prognozy.
3.1 Prognoza:
Y=m*X+b
gdzie:
X= 500 tys.zł.
m = 0,07105
b = 22,2613
Y=57,7863tyś.zł.
Błąd prognozy:
Błąd prognozy w punkcie x wyznaczono według poniższego wzoru:
gdzie:
n =29
x=500 tys.zł.
tys.zł.
tys.zł.
tys.zł.
tys.zł.
BP(500)= 4,674286 tys.zł.
Błąd prognozy wynosi 4,674286 tys.zł.