background image

STATYSTYKA OPISOWA

  - to dział statystyki zajmujący się metodami opisu danych 

statystycznych uzyskanych podczas badania statystycznego. Celem stosowania metod statystyki 
opisowej jest podsumowanie zbioru danych i wyciągnięcie pewnych podstawowych wniosków i 
uogólnień na temat zbioru. 

Statystykę opisową stosuje się zazwyczaj jako pierwszy i podstawowy krok w analizie 

zebranych danych. 
Do technik statystyki opisowej można zaliczyć: 
 

1.  Opis tabelaryczny 

Dane przedstawiane są w postaci tabel. Dla małych zbiorów danych tabele mogą prezentować 
wszystkie dane, w przeciwnym przypadku tworzy się różnego rodzaju podsumowania, jak np. 
szereg rozdzielczy. 

Szereg rozdzielczy - Uzyskuje się go dzieląc dane statystyczne na pewne kategorie i podając 

liczebność lub częstość zbiorów danych przypadających na każdą z tych kategorii.  

Jeśli cecha ma charakter ciągły, wtedy przedział wartości cechy dzieli się na przedziały 

klasowe. Liczba i rozpiętości przedziałów powinny być tak dobrane, aby dawały przejrzysty obraz 
rozkładu. Na ogół przyjmuje się, że liczba przedziałów powinna być większa od 5 i mniejsza od 20. 

Jeśli cecha ma charakter skokowy, ale liczba możliwych wartości jest bardzo duża, wtedy 

można postąpić podobnie jak w przypadku cechy o charakterze ciągłym. 
 

2.  Graficzna prezentacja wyników 

Dane prezentowane są w formie graficznej. Podstawowymi narzędziami są tutaj: histogram, 
wielobok liczebności i krzywa liczebności, które wykreślane są bezpośrednio na podstawie danych z 
szeregu rozdzielczego; wykres pudełkowy, przedstawiający zależności pomiędzy niektórymi 
statystykami pozycyjnymi; krzywa Lorenza charakteryzująca koncentrację wartości cechy. 
 

Histogram to jeden z graficznych sposobów przedstawiania rozkładu empirycznego cechy. 

Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. 
 

3.  Wyznaczanie miar rozkładu 

Do opisu służą miary rozkładu - różnego rodzaju wielkości obliczane na podstawie uzyskanych 
danych. Interpretacja wartości tych miar dostarcza informacji na temat charakteru rozkładu cechy. 
Miary można podzielić na kilka podstawowych kategorii: 

 

miary położenia, np. kwantyl   
w tym miary tendencji centralnej: 
np. średnia arytmetyczna, średnia geometryczna, średnia harmoniczna, średnia 
kwadratowa, mediana, moda 

 

miary zróżnicowania 
np. odchylenie standardowe, wariancja, rozstęp, rozstęp ćwiartkowy, średnie odchylenie 
bezwzględne, 
odchylenie ćwiartkowe, współczynnik zmienności 

 

miary asymetrii 
np. współczynnik skośności, współczynnik asymetrii, trzeci moment centralny 

 

miary koncentracji 
np. współczynnik Giniego, kurtoza 

 
 

background image

Asymetria rozkładu: 

 

Współczynnik skośności przyjmuje wartość zero dla rozkładu symetrycznego, wartości 

ujemne dla rozkładów o lewostronnej asymetrii (wydłużone lewe ramię rozkładu) i wartości 
dodatnie dla rozkładów o prawostronnej asymetrii (wydłużone prawe ramię rozkładu).Nie ma 
gwarancji, że powyższe wzory będą miały ten sam znak. 

Jeśli funkcja gęstości prawdopodobieństwa (dla rozkładów ciągłych) lub funkcja masy 

prawdopodobieństwa (dla rozkładów dyskretnych) po prawej stronie swojego maksimum (mody) 
maleje wolniej niż po lewej stronie (rozkład ma "prawy ogon dłuższy"), to rozkład nazywamy 
prawostronnie skośnym, dodatnio skośnym, prawostronnie asymetrycznym lub o prawostronnej 
asymetrii. Rozkład taki ma wartość oczekiwaną (średnią) większą od mediany. 

 

Miara rozkładu jest to liczbowa charakterystyka rozkładu cechy, dostarczająca informacji na temat 
właściwości tego rozkładu. 
Taką charakterystykę określa się w zależności od przedmiotu badania statystycznego jako: 

 

parametr - jeśli analizowane są dane z pełnej populacji 

 

statystykę - jeśli przedmiotem badania są dane z próby losowej 

Miary rozkładu można podzielić na: 

 

Miary położenia rozkładu, np.:  

średnia arytmetyczna 

mediana 

kwantyl 

moda 

 

Miary zróżnicowania rozkładu, np.:  

odchylenie standardowe 

wariancja 

średnie odchylenie bezwzględne 

współczynnik zmienności 

rozstęp 

rozstęp ćwiartkowy 

odchylenie ćwiartkowe 

 

Miary asymetrii rozkładu 

 
 

ANALIZA REGRESJI 

Regresja − metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i 
przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych 
wartości innych. 

Formalnie regresja to dowolna metoda statystyczna pozwalającą estymować warunkową 

wartość oczekiwaną zmiennej losowej, zwanej zmienną objaśnianą, dla zadanych wartości innej 
zmiennej lub wektora zmiennych losowych (tzw. zmiennych objaśniających). 

background image

Estymacja to dział wnioskowania statystycznego będący zbiorem metod pozwalających na 

uogólnianie wyników badania próby losowej na nieznaną postać i parametry rozkładu zmiennej 
losowej 
całej populacji oraz szacowanie błędów wynikających z tego uogólnienia. Wyrażenie 
nieznana postać jest kluczem do odróżnienia estymacji od drugiego działu wnioskowania 
statystycznego, jakim jest weryfikacja hipotez statystycznych, w którym najpierw stawiamy 
przypuszczenia na temat rozkładu, a następnie sprawdzamy ich poprawność. 

 

Użycie regresji w praktyce sprowadza się do dwóch faz: 

 

konstruowanie modelu - budowa tzw. modelu regresyjnego, czyli funkcji opisującej, jak 
zależy wartość oczekiwana zmiennej objaśnianej od zmiennych objaśniających. Funkcja ta 
może być zadana nie tylko czystym wzorem matematycznym, ale także całym algorytmem, 
np. w postaci drzewa regresyjnego, sieci neuronowej, itp.. Model konstruuje się tak, aby jak 
najlepiej pasował do danych z próby, zawierającej zarówno zmienne objaśniające, jak i 
objaśniane. Mówiąc o wyliczaniu regresji ma się na myśli tę fazę. 

 

stosowanie modelu - użycie wyliczonego modelu do danych w których znamy tylko zmienne 
objaśniające, w celu wyznaczenia wartości oczekiwanej zmiennej objaśnianej. 

Dział statystyki zajmujący się modelami i metodami regresji zwany jest analizą regresji. Regresja, w 
której występuje więcej niż jedna zmienna objaśniająca, zwana jest regresją wieloraką 
 

modelach parametrycznych ogólna postać modelu jest założona z góry, a celem 

procedury regresji jest dobranie takich jej parametrów, które definiowałyby funkcję możliwie 
dobrze odpowiadającą próbie uczącej. 

Zwykle stosuje się tzw. globalne modele parametryczne, gdzie wartości współczynników są 

takie same dla dowolnych wartości zmiennych objaśniających. 

 

Regresja liniowa – w statystyce, metoda estymowania wartości oczekiwanej zmiennej  przy 
znanych wartościach innej zmiennej lub zmiennych  . Szukana zmienna  jest tradycyjnie 
nazywana zmienną objaśnianą, lub zależną. Inne zmienne  nazywa się zmiennymi objaśniającymi 
lub niezależnymi. Zarówno zmienne objaśniane, jak i objaśniające, mogą być wielkościami 
skalarnymi 
lub wektorami. 

Regresja w ogólności to problem estymacji warunkowej wartości oczekiwanej. Regresja 

liniowa jest nazywana liniową, gdyż zakładanym modelem zależności między zmiennymi zależnymi, 
a niezależnymi, jest funkcja liniowa. 

Dla jednej zmiennej objaśniającej zagadnienie polega na poprowadzeniu prostej 

 

 jak najlepiej dopasowanej do zbioru n punktów doświadczalnych  

 Celem dopasowania jest przede wszystkim uzyskanie ocen wartości parametrów a i b 
opisujących prostą, oraz ich niepewności u(a) i u(b). 

W ogólnym przypadku zadanie prowadzi do estymacji współczynników modelu statystycznego: 

 

gdzie: 

 

to zmienna objaśniana 

 

to zmienne objaśniające 

 

to współczynniki modelu 

 

to błąd o wartości oczekiwanej zero 

 

background image

Najczęściej wykorzystuje się do tego celu klasyczną metodę najmniejszych kwadratów i jej 

pochodne. Metoda ta jest najstarsza i najłatwiejsza do zastosowania, choć posiada wady (np. 
niewielką odporność na elementy odstające), które udało się usunąć w innych, mniej 
rozpropagowanych metodach. Są to np. odporne metody statystyczne (ang. robust methods), do 
których należy m.in. regresja medianowa. 

 

ANALIZA WARIANCJI

 to metoda statystyczna, służąca do badania obserwacji, które zależą 

od jednego lub wielu działających równocześnie czynników. Metoda ta wyjaśnia, z jakim 
prawdopodobieństwem wyodrębnione czynniki mogą być powodem różnic między 
obserwowanymi średnimi grupowymi. Analiza wariancji została stworzona w latach dwudziestych 
przez Ronalda Fishera. Celem analizy wariancji (ANOVA) jest zazwyczaj testowanie istotności różnic 
pomiędzy średnimi. 
 
Modele analizy wariancji można podzielić na: 

 

modele jednoczynnikowe - wpływ każdego czynnika jest rozpatrywany oddzielnie, tą klasą 
zagadnień zajmuje się jednoczynnikowa analiza wariancji, 

 

modele wieloczynnikowe - wpływ różnych czynników jest rozpatrywany łącznie, tą klasą 
zagadnień zajmuje się wieloczynnikowa analiza wariancji. 

Według kryterium podział modeli przebiega następująco: 

 

model efektów stałych - obserwacje są z góry podzielone na kategorie, 

 

model efektów losowych - kategorie mają charakter losowy, 

 

model mieszany - część kategorii jest ustalona, a część losowa. 

 
Jednoczynnikowa analiza wariancji jest testem statystycznym służącym do porównywania 
średnich w wielu populacjach. Nazwa metody pochodzi od algorytmu postępowania przy 
testowaniu układu hipotez. Całkowita wariancja (zmienność wyników) dzielona jest na część 
pochodzącą z różnic między populacjami (zabiegami) oraz część pochodzącą z różnic między 
wynikami wewnątrz populacji (błąd losowy). 
 
Wyniki uzyskane metodą analizy wariancji mogą być uznane za prawdziwe, gdy spełnione są 
następujące założenia: 

 

Każda populacja musi mieć rozkład normalny 

 

Pobrane do analizy próby są niezależne 

 

Próby pobrane z każdej populacji muszą być losowymi próbami prostymi 

 

Wariancje w populacjach są równe 

 
Testy dla wariancji – są to testy parametryczne służące do weryfikacji hipotez statystycznych 
dotyczących wartości wariancji w populacji generalnej lub też do porównania wartości wariancji w 
dwóch lub kilku populacjach – na podstawie znajomości wartości badanej cechy w losowej próbie 
(lub w kilku próbach). Rozstrzygnięcie pytań dotyczących wariancji jest ważne m.in. dlatego, że 
wiele testów służących do porównania wartości średnich w dwóch lub kilku populacjach wymaga 
przyjęcia założenia o równości wariancji w tych populacjach (tak zwane założenie o jednorodności 
wariancji). Ponadto wariancja może być miernikiem dokładności w procesie pomiarowym lub 
produkcyjnym (zbyt duża wariancja wyników pomiaru może na przykład świadczyć o uszkodzeniu 
lub rozregulowaniu aparatury lub urządzeń). 
 

Hipotezy dotyczące wariancji testuje się zgodnie z ogólnymi zasadami testowania hipotez 

statystycznych: formułujemy hipotezy, zakładamy poziom istotności  – dopuszczalną wartość 

background image

błędu pierwszego rodzaju (tj. prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej) i na 
podstawie danych z próby wyznaczamy wartość statystyki testowej, po czym porównujemy ją z 
wartościami krytycznymi odczytanymi z tablic odpowiedniego rozkładu teoretycznego. Przy 
konstrukcji wszystkich omawianych niżej testów przyjmowane jest założenie, że badane cechy 
maja w populacjach generalnych rozkład normalny.
 

 
Postać stosowanej statystyki testowej zależy od kilku czynników:  

czy badamy hipotezę dotyczącą jednej, dwóch czy wielu wariancji? 

czy porównujemy próby niezależne, czy zależne (skorelowane, powiązane)? 

jaka jest liczebność próby (prób)?. Przyjmuje się na ogół (dość arbitralnie), że próba 

jest duża, gdy jej liczebność przekracza 30 obserwacji 

(można wtedy 

zakładać, że statystyki mają rozkład normalny - patrz centralne twierdzenie 
graniczne)
. W przypadku przeciwnym - mamy do czynienia z próbami małymi. 

 

Liczba stopni swobodydf – liczba niezależnych wyników obserwacji pomniejszona o liczbę 
związków, które łączą te wyniki ze sobą. 

Liczbę stopni swobody można utożsamiać z liczbą niezależnych zmiennych losowych, które 

wpływają na wynik. Inną interpretacją liczby stopni swobody może być: liczba obserwacji minus 
liczba parametrów estymowanych przy pomocy tych obserwacji. 

Liczba stopni swobody ogranicza liczbę parametrów które mogą być estymowane przy użyciu 

danej próby. 

 

Jeśli mamy do czynienia z jedną próbką losową zawierającą n obserwacji, z której 
estymujemy jeden parametr (powiedzmy, wartość oczekiwaną) to w rezultacie pozostaje 
nam 

stopni swobody do dalszej estymacji (na przykład wariancji). 

 

W przypadku dwóch próbek o 

obserwacjach, zwykle musimy estymować dwie 

wartości oczekiwane, a zatem pozostaje nam 

stopni swobody. 

 
Wariancja
 to w statystyce klasyczna miara zmienności. Intuicyjnie utożsamiana ze zróżnicowaniem 
zbiorowości; jest średnią arytmetyczną kwadratów odchyleń (różnic) poszczególnych wartości 
cechy od wartości oczekiwanej. 
Pierwiastek kwadratowy z wariancji definiujemy jako odchylenie standardowe. 

Pierwiastek z estymatora nieobciążonego wariancji jest często używany jako estymator 

odchylenia standardowego, jednak jest wówczas obciążony. 
 
Odchylenie standardowe – klasyczna miara zmienności, obok średniej arytmetycznej najczęściej 
stosowane pojęcie statystyczne. 

Intuicyjnie rzecz ujmując, odchylenie standardowe mówi, jak szeroko wartości jakiejś 

wielkości (takiej jak np. wiek, inflacja, kurs akcji itp.) są rozrzucone wokół jej średniej

[1]

. Im 

mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej. 

Odchylenie standardowe jest pierwiastkiem kwadratowym z wariancji. Pojęcie odchylenia 

zostało wprowadzone przez pioniera statystyki, Karla Pearsona w 1894 roku

[2]

. 

Wyróżnia się: 

 

odchylenie standardowe zmiennej losowej, będące właściwością badanego zjawiska. Daje 
się ono obliczyć na podstawie ścisłych informacji o rozkładzie zmiennej losowej

[3]

. Rozkład 

ten w praktycznych badaniach nie jest zwykle znany. 

background image

 

odchylenie standardowe w populacji, które jest liczbą dającą się obliczyć dokładnie, jeśli 
znane byłyby wartości zmiennej dla wszystkich obiektów populacji; odpowiada odchyleniu 
zmiennej losowej, której rozkład jest identyczny z rozkładem w populacji. 

 

odchylenie standardowe z próby, które jest oszacowaniem odchylenia standardowego w 
populacji na podstawie znajomości wyłącznie części jej obiektów, czyli właśnie tzw. próby 
losowej.
 Stosowane do tego celu wzory nazywane są estymatorami odchylenia 
standardowego. 

 

Kowariancja

– liczba określająca zależność liniową między zmiennymi losowymi X i Y. 

 

Jeżeli między zmiennymi losowymi X i Y nie istnieje żadna zauważalna korelacja liniowa i 

istnieją ich wartości oczekiwane, to kowariancja przyjmuje wartość 0 (nie musi to być prawda dla 
kowariancji w próbie losowej z tych zmiennych). 
Innymi słowy: zmienne losowe X i Y są niezależne, a więc 

 

 
Szeregi 
 Szereg szczegółowy 
- uporządkowany ciąg wartości badanej cechy statystycznej, wartości cechy 
porządkujemy rosnąco lub malejąco.  
Szereg rozdzielczy - stanowi zbiorowość statystyczną, podzieloną na części (klasy) według 
określonej cechy z podaniem liczebności każdej z wyodrębnionych klas. 
 
Średnia arytmetyczna nieważona 
-suma odchyleń poszczególnych wartości cechy od średniej równa się zero  
-Suma kwadratów odchyleń poszczególnych wartości cechy od średniej jest minimalna  
-średnia arytmetyczna jest wrażliwa na skrajne wartości cechy  
-średnia arytmetyczna z próby jest dobrym przybliżeniem wartości przeciętnej  
 
Średnią geometryczną 
 
Stosuje się w badaniach średniego tempa zmian zjawisk, a więc gdy zjawiska są ujmowane 
dynamicznie. 
 
Medianą  
Oznaczaną xmed nazywamy następującą wielkość: Pożądaną cechą mediany jest jej brak 
wrażliwości na wartości odstające, czyli wartości bardzo wyraźnie oddalone od innych i w tym 
sensie zdecydowanie nietypowe dla zaobserwowanego rozkładu. 
 
Modalna Mo (dominanta D, moda, wartość najczęstsza  
Jest to wartość cechy statystycznej, która w danym rozdziale empirycznym występuje najczęściej. 
 
Rozstęp   
Jest to różnica pomiędzy wartością maksymalną, a minimalną cechy - jest miarą charakteryzującą 
empiryczny obszar zmienności badanej cechy. Rozstęp nie podaje informacji o zróżnicowaniu 
poszczególnych wartości cechy w zbiorowości. 

background image

 
Kwantyle  
Definiuje się jako wartości cechy badanej zbiorowości, przedstawionej w postaci szeregu 
statystycznego, które dzielą zbiorowość na określone części pod względem liczby jednostek. 
 
 
Kwartyl  
pierwszy Q 

dzieli zbiorowość na dwie części w ten sposób, że 25% jednostek zbiorowości ma wartości  
cechy niższe bądź równe kwartylowi pierwszemu Q1, a 75% równe bądź wyższe od tego  
kwartyla  

Kwartyl drugi  
(mediana Me)  

dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze  
lub równe medianie, a połowa wartości cechy równe lub większe od Me; stąd nazwa  
wartość środkowa  

Kwartyl  
trzeci Q 

dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości 
 cechy niższe bądź równe kwartylowi pierwszemu Q3, a 25% równe bądź wyższe  
od tego kwartyla  

Decyle  

np. decyl pierwszy oznacza, że 10% jednostek ma wartości cechy mniejsze bądź równe 
 od decyla pierwszego, a 90% jednostek wartości cechy równe lub większe od decyla 
 pierwszego  

Wariancja  
Jest to średnia arytmetyczna kwadratów odchyleń poszczególnych wartości cechy od średniej 
arytmetycznej zbiorowości. 
 
Odchylenie standardowe  
jest to pierwiastek kwadratowy z wariancji. Stanowi miarę zróżnicowania o mianie zgodnym z 
mianem badanej cechy, określa przeciętne zróżnicowanie poszczególnych wartości cechy od 
średniej arytmetycznej. 

Typowy obszar zmienności cechy Około 2/3 wszystkich jednostek badanej zbiorowości 

statystycznej posiada wartości cechy w odległości 1 sigma ,zgodnie z regułą 3 sigma. 

 

Współczynnik zmienności  
jest ilorazem bezwzględnej miary zmienności cechy i średniej wartości tej cechy, wielkość 
niemianowana, najczęściej podawana w procentach. Współczynnik zmienności stosuje się w 
porównaniach zróżnicowania:  
• kilku zbiorowości pod względem tej samej cechy,  
• tej samej zbiorowości pod względem kilku różnych cech.  

background image

Współczynnik skośności  
Jest stosowany w porównaniach, do określenia siły oraz kierunku asymetrii, liczba niemianowana, 
im większa wartość tym silniejsza asymetria. W zależności od znaku współczynnika rozkład jest:  
• prawostronnie (dodatnio) skośny dla dodatnich wartości współczynnika - ma dłuższy prawy 
,,ogon'',  
• symetryczny dla równego zero,  
• lewostronnie (ujemnie) skośny dla współczynnika ujemnego - ma dłuższy lewy ,,ogon''.  
 
Wykres skrzynkowy może obrazować zmiany rozkładu w kolejnych próbkach, jeśli dla każdej z nich 
wyznaczono kwartyle (w tym medianę) i rozstęp. 

 

Proste regresji drugiego rodzaju 
Prostą regresji zmiennej losowej Y względem zmiennej losowej X nazywamy prostą o równaniu: 
y = β1 + β2x, 
którego współczynniki β1, β2 są tak dobrane, aby średnie odchylenie kwadratowe zmiennej 
losowej Y od zmiennej losowej 
β1 + β2Xbyło jak najmniejsze (ze względu na współczynniki β1 i β2)