STATYSTYKA WYKŁADY (2)

Funkcje statystyki

Informacyjna – daje pełny i obiektywny obraz badanych zjawiskAnalityczna – określenie czynników kształtujących konkretne procesy i zjawiska Prognostyczna – przewidywanie kierunku rozwoju

BADANIA STATYSTYCZNE – zebranie, odpowiednie przetworzenie i analiza informacji dotyczących określonej na początku badania zbiorowości statystycznej. To proces, którego celem jest zebranie danych, przetworzenie ich oraz interpretacja wyników.

Celem organizacji badania jest poznanie struktury i dynamiki określonej zbiorowości statystycznej, zaobserwowanie czynników ją kształtujących, a także ustalenie rodzaju związków występujących pomiędzy…

W badaniu wyróżniamy 5 etapów:

1.Projektowanie – określenie celu, zakresu źródła materiału statystycznego (pierwotne lub wtórne), opracowanie narzędzi i badanie pilotażowe

2.Obserwacja statystyczna (zebranie danych)

3.Opracowanie surowego materiału statystycznego

4.Analiza opracowanego materiału statystycznego

5.Przetworzenie raportu i prezentacja wyników

Wyróżnia się następujące badania statystyczne:

  1. Pełne

  1. Częściowe

  1. Metody pośrednie

Ekstrapolacja Czynniki wpływające na wybór metody:

Z uwagi na kryterium liczby jednostek zbiorowości statystycznej wyróżniamy dwie metody badań:

Metody badań generalnych:

Metody badań częściowych:

Podstawowym problemem w stosowaniu tej metody jest odpowiedni dobór jednostek do próby.

Wybór jednostek do próby

Metody losowania próby

Poza tym stosowana jest procedura losowania z wykorzystaniem tablic liczb losowych (przypadkowych)

Warstwy te powinny być rozłączne (element populacji może być zaliczony tylko i wyłącznie do jednej warstwy) oraz wyczerpujące (suma elementów warstw powinna być równa liczbie elementów produkcji)

Kolejnym etapem jest losowanie jednostek statystycznych z poszczególnych warstw. Losowanie warstwowe stosuje się przypadku, gdy populacja nie jest jednorodna.

Losowanie bezpośrednie jak i warstwowe może być:

BADANIE MONOGRAFICZNE – opiera się na całościowym i szczegółowym opisie ( zarówno ilościowym jak i jakościowym) jednostki bądź grupy jednostek. Istotnym elementem badania jest taki wybór jednostki by była ona typowym reprezentantem. (Np. badanie szpitali w województwie, badanie gminy)

BADANIE ANKIETOWE – badanie przeprowadzane na konkretnej grupie osób dotyczące zazwyczaj specyficznego zagadnienia. Podstawę takich badań stanowi kwestionariusz ankiety ze ściśle zdefiniowanym zestawem pytań, na które respondenci odpowiadają. Wyniki te zostają poddane analizie oraz interpretacji. Najczęściej stosowana metoda badawcza w naukach społecznych.

SZACUNEK STATYSTYCZNY (ocena strat) – postępowanie, w którym:

Przykład: dane o sytuacji społeczno-gospodarczej w kraju, liczba ludności w wieku produkcyjnym, produkcja produktów rolnych.

INTERPOLACJA LINIOWA – określamy nieznane wartości cechy na podstawie znanych wartości sąsiednich (wcześniejszych i późniejszych)


$$x = \frac{dana\ pozniejsza - dana\ wczesniejsza}{2} + \ dana\ wczesniejsza$$

EKSTRAPOLACJA – szacowanie na podstawie wartości wcześniejszych, wartości cechy wykraczającej poza przedział wartości znanych (prognozowanie)


x = dana wczesniejsza + (dana wczesniejsza − dana jeszcze wczesniejsza)

Wykład 2

GRUPOWANIE STATYSTYCZNE – polega na podziale danej zbiorowości na jednorodne lub względnie jednorodne części, grupy, klasy, według cech, które charakteryzują najbardziej istotne jej strony z punktu widzenia celu badania
Korzyści

W zależności od liczby cech będących podstawą podziału badanej zbiorowości statystycznej wyróżniamy:

GRUPOWANIE PROSTE – polega na podziale badanej zbiorowości ze względu na jedną cechę charakterystyczną np. grupowani spółek giełdowych według form własności, grupowanie przedsiębiorstw według wielkości produkcji, grupowanie hurtowni według powierzchni magazynowej

GRUPOWANIE ZŁOŻONE – polega na tym, że uwzględnia się w podziale danej zbiorowości kilka cech charakterystycznych, przy czym poszczególne części wyodrębnione na podstawie jednej cechy dzielone są na dalsze części, podgrupy, ze względu na kolejne cechy charakterystyczne np. grupowanie ludności według wieku, płci i stanu cywilnego.

Zasady grupowania

Stopień szczegółowości podziału zbiorowości statystycznej – czyli ustalanie liczby grup, które jest zależne od rodzaju zjawiska i celu badania.

GRUPOWANIE (podział) KILKUSTOPNIOWE – odmiana grupowania złożonego, w grupowaniu tym przechodzi się od podziału najmniej szczegółowego do najbardziej szczegółowego.

Po podziale zbiorowości na grupy według pewnej cechy ustala się kolejność oraz nazwy tych grup. Otrzymuje się uporządkowane grupy tworzące WYKAZ KLASYFIKACYJNY. Wykaz powinien być tak skonstruowany, aby żadna odmiana cechy nie mogła znaleźć się poza wykazem.

Uporządkowanie grup w wykazach klasyfikacyjnych powinno odznaczać się logiką i przejrzystością. Ułatwia to zaszeregowanie poszczególnych jednostek do odpowiednich grup.

CECHY MIERZALNE – grupy porządkujemy najczęściej zgodnie ze wzrostem wartości cechy

PRZEDZIAŁY KLASOWE – wyodrębnione podczas grupowania części (grupy, klasy) zbiorowości statystycznej w wypadku cech mierzalnych są więc przedziałami liczbowymi zwanymi przedziałami klasowymi

PRZEDZIAŁ DOMKNIĘTY – jeżeli dla rozpatrywanego przedziału jest określona dolna i górna granica.

PRZEDZIAŁ OTWARTY – jeżeli górna i dolna granica nie jest określona liczbowo np. więcej niż 2400zł

SZEREG STATYSTYCZNY – pogrupowanie materiału; jest to uporządkowanie zbioru wyników obserwacji jednostek według pewnej cechy; tworzone są przez ciągi wielkości statystycznych, które zostały uporządkowane według określonych kryteriów

Na sposób grupowanie cech mają wpływ:

SZEREGI PRZESTRZENNE (geograficzne) – przedstawiają rozmieszczenie wielkości statystycznych w przestrzeni. Mają one zazwyczaj charakter opisowy (jakościowy)

SZEREGI CZASOWE (dynamiczne, chronologiczne) – pokazują zachodzące w czasie zmiany pewnych stanów lub faktów
Dzieli się na:

SZEREGI RZECZOWE (strukturalne) – tworzymy zestawiając pary liczb, z których pierwsza podaje wartość i-tego wariantu badanej cechy statystycznej xi, druga liczbę i-jednostek n przypadających na dany wariant cechy.

Dzielą się na:

punktowy - jeśli mamy do czynienia z cechami skokowymi (np. ilość dzieci w rodzinie, ilość pokoi w mieszkaniu itp.) i jest reprezentowana przez ilość wystąpień ni tego wariantu

- prosty

- skumulowany

przedziałowy – jeśli mamy do czynienia z cechami ciągłymi (przyjmującymi dowolna wartość w jakimś przedziale np. wzrost, staż pracy, wynagrodzenie itp.)

- prosty

- skumulowany

W przypadku cech mierzalnych łączenie w kategorie jednostek o odpowiednich wartościach cech statystycznych nazywamy GRUPOWANIEM WARIANCYJNYM

Zaobserwowane wartości (w przykładzie wzrost i liczba dzieci) porządkujemy:

Tworzenie szeregu przedziałowego

Budowa szeregu rozdzielczego – przedziałowego obejmuje ustalenie

k = $\sqrt{\mathbf{n}}$

k = 1 + 3,322 log n

hi = x1i­ – x0i

­Aby wyznaczyć rozpiętość przedziału klasowego h stosujemy poniższy wzór

H = $\frac{\mathbf{xmax - xmin}}{\mathbf{k}}$

Zazwyczaj x0i jest różne xmin ub bliskie minimalnej wartości

Środek i-tego przedziału klasowego to suma wartości górnej x1i i dolnej granicy x0i przedziały podzielona przez 2


$$\frac{\mathbf{x}\mathbf{1}\mathbf{i + x}\mathbf{0}\mathbf{i}}{\mathbf{2}}$$

Skumulowany wskaźnik struktury musi się zsumować do 100 lub pełnej liczby.

Malejąca liczebność i malejący wskaźnik struktury jest objawem pozytywnym ponieważ liczba jest astymulantą, im większe wartości przyjmuje ta cecha tym większa jest absencja chorobowa pracowników.

Jest skrajnie asymetryczny prawostronnie (badamy rozkład liczby zwolnień) ponieważ najważniejsza wartość występuje w skrajnym (prawym) przedziale klasowym.

Skrajna asymetria lewostronna- największa częstość występuje w ostatniej klasie.

Wśród cech prostych tworzących cechę agregatową mogą występować cechy:

Stymulanta – taka cecha, której większe wartości pożądane mniejsze zaś niepożądane z punktu widzenia rozważanej właściwości cechy syntetycznej. / Zamienne wywierające dodatni wpływ na poziom rozwoju badanego zjawiska, a więc korzystne są wysokie wartości tych zmiennych

Destymulanta – taka cecha, której mniejsze wartości są pożądane większe zaś niepożądane z punktu widzenia rozpatrywanej właściwości cechy syntetycznej / Zmienne charakteryzujące się opóźniającym oddziaływaniem na stopień rozwoju zjawiska, a więc takie, których niskie wartości są korzystne

Nominanta – obok stymulant i de stymulant mogą także wystąpić dominanty, czyli zmienne nie mające istotnego wpływu na poziom rozwoju badanego obiektu. Nie wykazuje istotnej korelacji z cechą agregatową.

Podobieństwo struktur:

Aby porównać między sobą podobieństwo struktur różnych zbiorowości korzysta się z tzw. wskaźnika podobieństwa struktur.


$$w_{p} = \sum_{i = 1}^{n}{\min(}w_{1i},\ w_{2i)}$$

Przy czym 0< wp≤ 1

Wielkość wskaźnika podobieństwa struktur- im jego wartość jest bliższa jedności tym struktury analizowanych zbiorowości są bardziej podobne.

Rozkłady empiryczne:

  1. Rozkład równomodalny

  2. Rozkład wielomodalny

Rozkłady symetryczny i umiarkowanie asymetryczny odnoszą się zazwyczaj do zbiorowości jednorodnych ze względu na rozpatrywaną zmienną, natomiast w przypadku znacznego zróżnicowania cech zbiorowości charakteryzowane są przez rozkłady wielomodalne skrajnie asymetryczne lub siodłowe.

Klasyfikacja miar statystycznych

Miary położenia – (miary przeciętne, poziome) – określają najbardziej typowe, przeciętne dla badanego rozkładu wartości zmiennej wokół której skupiają się pozostałe wartości

xH = n/( 1/x1 + 1/x2 +…)

n- liczba jednostek zbiorowości

x – wartości cechy

Dla szeregu szczegółowego:

XH = n/ Σ1/xi

Dla szeregu rozdzielczego:
xH­ = Σni / (Σ ni/xi)

Wyrażona przez pierwiastek n-tego stopnia z iloczynu wartości cechy.


$$x_{G} = \ \sqrt[n]{x_{1}x_{2}\ldots}$$

W przedsiębiorstwie w ciągu 3 kolejnych lat zatrudniono w pierwszym roku 500 osób, w drugim 750, w trzecim 825. Należy obliczyć średni względny przyrost zatrudnienia. Cecha to stosunek zatrudnienia w roku rozpatrywanym do roku poprzedniego.

X1 = 750/500 = 1,5

X2 = 825/750 = 1,1

XG = pierw z 1,5 x 1,1 = 1,2845

W szeregu punktowym prostym i ważonym jest to wartość cechy, która pojawiła się największą ilość razy.

W szeregu rozdzielczym znajduje się w przedziale o największej liczebności, jednak bezpośrednio nie można jej wskazać.

Gdy rozkład wartości cechy jest symetryczny, w przypadku szeregu rozdzielczego można przyjąć środek najliczniejszego przedziału klasowego.

Mo = xm + (nm – nm-1) / [(nm – nm-1) + (nm – nm+1)] x hm

Hm – rozpiętość przedziału

X - dolna granica przedziału

Modalną wyznacza się gdy:
- rozkład ma jedno maksimum lokalne

- rozkład charakteryzuje się co najwyżej umiarkowaną asymetrią

- przedział, w którym występuje modalna oraz przedziały sąsiadujące mają jednakową rozpiętość.

Kwartyl pierwszy Q1 – dolny; dzieli zbiorowość uporządkowaną na dwie części: 25% jednostek ma wartości niższe (lub równe), a 75% wyższe (lub równe) od kwartyle pierwszego

Mediana Me – dzieli na połowy

Liczebność nieparzysta: x (n+1)/2

Liczebność parzysta: ½ (xn/2 + xn/2 +1)

Kumulanta – linia łamana łącząca prawe narożniki prostokątów przedziałów.

Na osi wykresu wartości skumulowanej (pionowej) znajdujemy punkt odpowiadający medianie. (?) Me = 4,5

Ogólne uwagi dotyczące mediany

- mediana jest obok średniej arytmetycznej jedną z najczęściej stosowanych miar położenia

- może być stosowana, kiedy nie jest możliwe wyznaczenie średniej arytmetycznej lub modalnej

- mediana nie reaguje na obserwacje nietypowe lub przypadkowe, przejawiające się wartościami skrajnymi

Kwatyl trzeci Q3 – górny; dzieli zbiorowość uporządkowaną na dwie części: 75% jednostek ma wartości niższe (lub równe), a 25% wyższe (lub równe) od kwartyla trzeciego

Mediana i modalna są przeciętnymi pozycyjnymi, które w zbiorowościach o rozkładach symetrycznych lub umiarkowanie asymetrycznych zaliczane są (obk średnich klasycznych) do miar tendencji centralnej.

W przypadku zbiorowości charakteryzującej się umiarkowaną asymetrią zachodzi związek opisany przez wzór Pearsona

Xśr – Mo = 3(xśr – Me)

Wzorem tym możemy posłużyć się, gdy nie znamy jedne z charakterystyk a znane są pozostałe

Jeśli np. układ danych nie pozwala na obliczenie średniej arytmetycznej znając modalną i medianę wyznaczone graficznie, w posty sposób wyznaczamy przybliżoną wartość jako:

Xśr – 3/2 (Me – Mo)

Miary zmienności (rozproszenia, zróżnicowania, dyspersji) – umożliwiają zaobserwowanie stopnia zróżnicowania wartości zmiennej wokół wartości przeciętnej

Miary asymetrii – (skośności) służą do oceny kierunku zróżnicowania wartości zmiennej

W wielu sytuacjach badanie średniego poziomu cechy i rozproszenia jej wartości nie wskazuje na istnienie różnic między analizowanymi zbiorowościami. Obserwacja rozkładów empirycznych tych cech wyklucza natomiast podobieństwo struktury badanych zbiorowości. Zilustrujemy taką sytuację na przykładzie.

Xxx

Można łatwo stwierdzić, że średnie aryt. I odchylenie standardowe premii we wszystkich trzech wydziałach są takie same. Można więc powiedzieć, że w badanych zakładach typowy przedział zmienności premii pracowników jest taki sam i wynosi 35 ÷10,95 tys.

Mimo to istnieją różnice między premiami w tych wydziałach. Widać to wyraźnie na histogramach.

Przykład pokazuje, że istotne są nie tylko przeciętny poziom i wewnętrzne zróżnicowanie cechy, ale także to, czy przeważająca liczba badanych jednostek ma wartości cechy powyżej czy poniżej przeciętnego …

W wydziale II większa część pracowników otrzymuje premie poniżej przeciętnej.

Natomiast w III wydziale większość pracowników ma stawki powyżej przeciętnej.

Asymetrię rozkładu można określić porównując średnią arytmetyczną (35tys zł) z parametrami pozycyjnymi.

Im większe są różnice między średnią arytmetyczną, a modalną, tym bardziej asymetryczny jest rozkład badanej cechy.

Rozkłady różnią się między sobą kierunkiem i siłą asymetrii

W szeregach symetrycznych xśr = Me = Mo

Jeśli spełniona jest nierówność xśr > Me> Mo, to mówimy o asymetrii prawostronnej, a gdy xśr<Me<Mo to mówimy o asymetrii lewostronnej.

Wielkość bezwzględną, przyjętą do określania asymetrii i wyrażoną jako różnica między średnią arytmetyczną a modalną, nazywa się w literaturze wskaźnikiem skośności.

Xayt – Mo

Wskaźnik skośności można też wyznaczyć przy wykorzystaniu miar pozycyjnych:

W rozkładzie symetrycznycm: (Q3 - Me) – (Me – Q 1) = 0

Przy asymetrii prawostronnej: (Q3 - Me) – (Me – Q 1) > 0

Przy asymetrii lewostronnej: (Q3 - Me) – (Me – Q 1) < 0

W porównaniach, dla określenia zarówno siły jak i kierunku asymetrii stosuje się tzw. Współczynniki skośności:

As = (xart – M) / Sx

As = (xart – Mo) / d

Wykorzystując wyłącznie miary położenia:

As = (Q3 - Me) – (Me – Q 1) / (Q3 - Me) + (Me – Q 1)

Pozycyjny współczynnik asymetrii określa kierunek I siłę asymetrii jednostek znajdujących się między I a III kwartylem, a więc w zawężonym obszarze zmienności cechy.

Do klasycznych współczynników asymetrii należy także współczynnik asymetrii A:
A = m3/ s3

S – odchylenie standardowe

m3 – jest to moment centralny trzeciego stopnia który wynosi:

Dla szeregu szczegółowego:

m3 = 1/n razy suma (xi – xart)3

Dla szeregu rozdzielczego:

m3 = 1/n razy suma (xi – xart)3 razy n

Współczynniki asymetrii są liczbami niewymiernymi, przy czym im większa jest wartość bezwzględna tych współczynników, tym silniejsza jest asymetria.

Z reguły wartość bezwzględna współczynnika asymetrii ogranicza się do przedziału [0,1] niemniej przy bardzo silnej asymetrii może on przyjąć wartość większą od 1.

Brak asymetrii: A = 0

Asymetria prawostronna: A>0
Asymetria lewostronna: A<0

Miary koncentracji – wykorzystujemy do pomiaru stopnia wysmukłości rozkłau oraz badania stopnia skupienia (koncentracji) wartości wokół średniej

Omówione wcześniej miary asymetrii (skośności) pozwalają wyczerpująco opisać kształt struktury. Można ten ois uzupełnić o miary koncentracji.

Istnieje ścisły związek między koncentracją wartości cechy wokół średniej a ich zróżnicowaniem. Im większe jest zróżnicowanie, tym mniejsza jest koncentracja.

Miarą skupienia poszczególnych obserwacji jest współczynnik skupienia (kurioza)

K = m4 / s4

S – odchylenie standardowe

m4 moment dentalny czwartego rzędu

Dla szeregu szczegółowego:

m4 = 1/n razy suma (xi – xart)4

Dla szeregu rozdzielczego:

m4 = 1/n razy suma (xi – xart)4 razy n

K <3 – rozkład bardziej spłaszczony od normalnego

K>3 – rozkład bardziej wysmukły od normalnego

K = 3 – rozkład normalny

Eksces – inna postać współczynnika koncentracji

K1 = ( m4 / s4 )- 3

W przypadku wykorzystywania miar pozycyjnych, współczynnik koncentracji pozycyjnej wygląda tak
KQ = D1 – D9 ­/ Q1 – Q3

D – decyle

Q – kwartyle

W przypadku występowania spłaszenia jak w rozkładzie normalnym uzyskujemy KQ = 1,92

Stosując procedurę standaryzacyjną analogiczną jak w przypadku ekscesu, uzyskujemy standaryzowany pozycyjny współczynnik koncentracji :

KQ = KQ - 1,92


Wyszukiwarka

Podobne podstrony:
statystyka wykład
statystyka wyklady, Szkoła WSTiH
Statystyka wykład 1
statystyka wyklad III
Statystyka - egzamin - ściąga - Kuszewski, Statystyka - wykłady - T.Kuszewski
statystyka- wyklady, Ekonomia, 1ROK, statystyka
statystyka -wykłady II sem, statystyka
AnaLIZA STATYSTYCZNA 8 wykład6, 1
statystyka wyklad V
Metodologia badań psychologicznych i statystyka dr I. Sowińska Gługiewicz, Metodologia badań psychol
Statystyka wykłady
STATYSTYKA WYKŁAD wybrane rozkłady zmiennych lsoowych
statystyka wyklad IV
STATYSTYKA WYKŁAD 5
AnaLIZA STATYSTYCZNA 8 wykład2, ANALIZA STATYSTYCZNA
AnaLIZA STATYSTYCZNA 8 wykład3, ANALIZA STATYSTYCZNA
statystyka wykłady, Wyklad5-6, Rozkład normalny
Rajfura A, Statystyka Wyklad 01 OPIS STATYSTYCZNY krotki

więcej podobnych podstron