Projekt zaliczeniowy:
STATYSTYKA OPISOWA
Linda Moisa
Gr.2a
Projekt jest interpretacja wyników otrzymanych za pomocą programu Statistica na podstawie przykładowych danych mających określić, które z poszczególnych czynników takich jak ilość kucharzy, kelnerów, stolików, krzeseł, nakryć, menu, potraw, maksymalnej ilości osób przy jednym stoliku, średniej cenie za obiad oraz powierzchni lokalu maja największy wpływ na ilość klientów w danej restauracji i czy są one ze sobą powiązane.
Tabela wyników 1
Średnią arytmetyczną - definiuje się jako sumę wartości cechy mierzalnej podzieloną przez liczbę jednostek skończonej zbiorowości statystycznej. Tak więc określa nam ona np. średnia ilość krzeseł we wszystkich restauracjach razem
Odchylenie standardowe - klasyczna miara zmienności, obok średniej arytmetycznej najczęściej stosowane pojęcie statystyczne. Intuicyjnie rzecz ujmując, odchylenie standardowe mówi, jak szeroko wartości jakiejś wielkości (takiej jak np. wiek, inflacja, kurs akcji itp.) są rozrzucone wokół jej średniej. Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej.
Największe skupienie w „ilość kucharzy” oraz „max.os.przy1stoliku”, najmniejsze skupienie w „powierzchnia lokalu”
Współczynnik zmienności to klasyczna miara zróżnicowania rozkładu cechy. W odróżnieniu od odchylenia standardowego, które określa bezwzględne zróżnicowanie cechy, współczynnik zmienności jest miarą względną, czyli zależną od wielkości średniej arytmetycznej. Podawany w %. Definiowany jest wzorem:
gdzie
to odchylenie standardowe z próby,
to średnia arytmetyczna z próby.
Współczynnik zmienności jest najwyzszy w „ilość potraw”, a najmniejszy w „śr.cena za obiad”
Skośność - wskaźnik asymetrii rozkładu wokół średniej. Zawiera on informacje o możliwych różnicach pomiędzy dodatnimi i ujemnymi odchyleniami od wartości średniej.
Współczynnik skośności rozkładu to miara asymetrii rozkładu wyznaczana według wzoru:
gdzie
m to wartość średniej arytmetycznej
d to wartość dominanty (mody)
s to wartość odchylenia standardowego
Współczynnik skośności przyjmuje wartość zero dla rozkładu symetrycznego, wartości ujemne dla rozkładów o lewostronnej asymetrii (wydłużone lewe ramię rozkładu) i wartości dodatnie dla rozkładów o prawostronnej asymetrii (wydłużone prawe ramię rozkładu).
Wszystkie rozkłady są prawostronne, najbliżej zera „ilość kucharzy”
Kurtoza (z gr. κυρτός, kyrtos, kurtos - wydęty) - jedna z miar spłaszczenia rozkładu wartości cechy. Definiuje się ją następującym wzorem:
gdzie μ4 jest czwartym momentem centralnym, zaś σ to odchylenie standardowe.
Rozkłady prawdopodobieństwa można podzielić ze względu na wartość kurtozy na rozkłady:
mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)
leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym
platykurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym
Platykurtycznosc występuje w „ilość kucharzy”, „śr.cena za obiad”, powierzchnia lokalu” oraz „ilość klientów”, pozostałe są lepokurtyczne, najbliżej zera „powierzchnia lokalu”
Współczynnik korelacji - liczba określająca, w jakim stopniu zmienne są współzależne. Jest miarą korelacji dwu (lub więcej) zmiennych. Zwykle może przybierać wartości od -1 (zupełna korelacja ujemna), przez 0 (brak korelacji) do +1 (zupełna korelacja dodatnia).
Korelacja - zależność zmiennych losowych, wzajemny związek pomiędzy zmiennymi; znając wartość jednej z nich, dałoby się przynajmniej w niektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez tej informacji - np. w wykresie nr1 r = 0,80401 oznacza, ze w 80,4% kucharze maja wpływ na ilość klientów; współczynnik korelacji bliski 1 (badane cechy są bardzo silnie skorelowane dodatnio) - „ilość stolików”, najsłabiej skorelowana cecha to „ilość menu”
Tabela wyników 2
Tabela wyników 3
Regresja-metoda, pozwalająca na zbadanie związku pomiędzy różnymi wielkościami występującymi w danych i wykorzystanie tej wiedzy do przewidywania nieznanych wartości jednych wielkości na podstawie znanych wartości innych
P-wartość (ang. p-value) - w analizie danych prawdopodobieństwo, że uzyskalibyśmy takie jak faktycznie obserwujemy, lub bardziej oddalone od zera wartości pewnej statystyki (np. różnicy średnich), przy zzałożeniu, żehipoteza zerowa jest spełniona. Stosowane jako miarę prawdopodobieństwa popełnienia błędu I rodzaju, czyli liczbowe wyrażenie istotności statystycznej.; p-wartości, mówią nam czy są podstawy do odrzucenia hipotezy zerowania się współczynnika przy danej zmiennej, czyli czy zmienna jest istotna
Hipoteza zerowa jest spełniona
R wielorakie - dopasowanie modelu w 95,6%
R2 - mala zależność miedzy zmiennymi = 1, duża zależność =0 (R-kwadrat bliskie 1,0 wskazuje, że prawie cała zmienność zmiennej zależnej może być objaśniona przez zmienne niezależne włączone do modelu)
Tabela wyników 4
BETA-jakie jest znaczenie danej zmiennej niezależnej po usunięciu wpływu skali, czyli kiedy jedna zmienna zmieni swoją wartość o 1 to nasza ilość klientów zmieni się o wartość beta wyliczoną dla tej zmiennej
Poziom p jest to najmniejszy poziom istotności α, przy którym
możemy odrzucić hipotezę zerowa dysponując otrzymana wartością statystyki
testowej.
Wyniki regresji wielorakiej (Krok 4)
Zmn. zależ.ilość klientów Wielor. R = ,95626931 F = 66,80753
R^2= ,91445099 df = 4,25
Liczba przyp. 30 Skoryg. R^2= ,90076314 p = ,000000
Błąd standardowy estymacji:11,663688856
Wyr. wolny -19,35819502 Błąd std.: 8,378075 t( 25) = -2,311 p = ,0294
ilość stolikó beta=1,74 ilość kucharz beta=-,74 max.os.przy1s beta=,300
ilość potraw beta=-,41
(istotne beta są podświetlone)