Stata teoria


Do najczęściej wykorzystywanych miar do opisu zbiorowości statystycznej należą:

0x08 graphic
Wskaźnik struktury - mówi jaki jest udział wyróżnionej zbiorowości w całej zbiorowości

ni -liczba jednostek charakteryzujących się i-tym wariantem,

wartością cechy.

N-liczba jednostek zbiorowości

0x08 graphic
Inaczej wskaźnik struktury nazywa się odsetkiem, frakcją, procentem.

0x08 graphic
Do porównania rozkładu tej samej cechy w dwóch różnych zbiorowościach statystycznych stosuje się wskaźnik podobieństwa struktur.

Im wskaźnik Wp bliższy jest jedności tym bardziej podobne do siebie są rozkłady cech w tych zbiorowościach.

0x08 graphic
Klasyczne miary średnie: średnia arytmetyczna, harmoniczna, geometryczna i kwadratowa.

Średnia arytmetyczna jest to suma wartości cechy mierzalnej dla wszystkich jednostek statystycznych podzielna przez liczbę.

0x08 graphic

0x08 graphic
W przypadku szeregów rozdzielczych z przedziałami klasowymi umownym reprezentantem każdego przedziału jest środek tego przedziału. W związku z tym średnia arytmetyczna może być nieco zniekształcona.

Własności średniej arytmetycznej:

  1. 0x08 graphic
    Średnia arytmetyczna jest wypadkową wszystkich wartości badanej cechy w związku z tym

  2. 0x08 graphic

0x08 graphic

  1. 0x08 graphic

0x08 graphic

0x08 graphic
0x08 graphic

  1. 0x08 graphic
    Suma kwadratów odchyleń poszczególnych wartości badanej cechy od średniej arytmetycznej jest najmniejsza. Oznacza to, że średnia arytmetyczna jest najlepszą miarą średnią pod wieloma względami.

Średnia arytmetyczna ma również wady:

Jest bardzo wrażliwa na wartości nietypowe cechy, gdy takie wartości występują w szeregu to średniej arytmetycznej nie należy liczyć.

Przez obserwację nietypową rozumiemy obserwację skrajną, ale występującą w niewielkiej ilości mniej niż 10%.

0x08 graphic
Średniej arytmetycznej nie liczymy również gdy skrajne przedziały klasowe są otwarte, chyba że można je w sensowny sposób domknąć.

Średnią geometryczną liczymy wtedy gdy w szeregu występują znaczne różnice między obserwacjami.

0x08 graphic
Często stosuje się postać logarytmiczną.

Własności średniej geometrycznej:

  1. Średnia geometryczna wychodzi równa zero gdy jedna z obserwacji jest równa zero.

  2. Średnia geometryczna może być wartością urojoną gdy choć jedna z obserwacji jest wartością ujemną.

  3. Stosujemy ją gdy wartości wyrażają zmiany stosunkowe.

0x08 graphic
Średnia harmoniczna - stosujemy ją dla wielkości stosunkowych.

Przykład :

Samochód z miasta A do B jechał z prędkością 50km/h natomiast z miasta B do C 70km/h jeżeli odległość między tymi miastami jest równa średnią prędkość na tej trasie należy liczyć jako średnią harmoniczną i otrzymamy taką samą wartość jak wtedy gdybyśmy przejechaną odległość na całej trasie podzielili przez czas przejazdu na całej trasie.

Średnia kwadratowa

Używana jest rzadko np. stosujemy ją we wzorze na odchylenia standardowe.

Średnie klasyczne charakteryzują się tym, że obliczane są ze wszystkich wartości cechy.

0x08 graphic

Średnie miary pozycyjne:

Mediana (wartość topologiczna) - to wartość jednostki statystycznej położonej w zbiorowości w ten sposób, że liczba jednostek mających wartość niemniejszą od mediany równa jest liczbie jednostek mających wartość niewiększą od mediany.

Własności mediany:

  1. Nie zależy ona od wartości krańcowych.

  2. Można ją wyznaczyć gdy wszystkie liczebności nie są dokładnie znane, wystarczy znać liczebność zbiorowości i jednostkę środkową.

  3. 0x08 graphic
    Medianę można policzyć wtedy gdy nie można obliczyć średniej arytmetycznej. Medianę można policzyć na skali porządkowej (wtedy nie można obliczyć średniej arytmetycznej, harmonicznej, ani geometrycznej)

W szeregu rozdzielczym z przedziałami klasowymi:

0x08 graphic
Jest to wzór interpolacyjny wyprowadzony przy założeniu, że przedziale mediany cecha zachowuje się w sposób liniowy.

Najprostsza skala nazywa się skalą nominalną, np. ktoś jest protestantem, a ktoś katolikiem (nie wiemy kto jest lepszy).

Następna jest skala porządkowa, czyli jakaś hierarchia, np. wykształcenie wyższe jest lepsze niż średnie, a średnie lepsze niż zawodowe.

Skala interwałowa - możemy na niej liczyć odległości między wartościami, ale nie posiada ona zera bezwzględnego.

Skala ilorazowa - posiada odległości i ma zero bezwzględne.

Następnymi miarami pozycyjnymi są kwartyle:

Kwartyl pierwszy jest równy wartości cechy takiej, że ¼ zbiorowości ma wartości nie przekraczające tej cechy, a ¾ zbiorowości ma wartości niemniejsze od tej cechy.

Kwartyl trzeci analogicznie, tzn. jest to taka wartość cechy, że ¾ zbiorowości ma wartości nie przekraczające tej cechy.

Mediana jest drugim kwartylem.

Q=½(Q3-Q1)

Dominanta zwana wartością najczęstszą (zwana modą, wartością modalną, typową).

Dominanta jest to ta wartość cechy, która występuje w zbiorowości statystycznej najczęściej.

W szeregu szczegółowym obliczamy ją z definicji, natomiast w szeregu rozdzielczym z przedziałami klasowymi z następującego wzoru:

0x01 graphic

0x01 graphic
- dolna granica klasy, w której znajduje się dominanta;

0x01 graphic
- liczebność przedziału dominanty;

0x01 graphic
- liczebność przedziału poprzedzającego przedział dominanty;

0x01 graphic
- liczebność przedziału następującego po przedziale dominanty;

0x01 graphic
- interwał, czyli rozpiętość przedziału dominanty;

Wzór ten stosujemy gdy jest jeden przedział dominujący; rozpiętości przedziału dominanty poprzedniego oraz następnego są równe.

Własności dominanty:

Rozkład cechy musi posiadać jedną wyraźnie zaznaczoną wartość dominującą w przeciwnym razie mówimy o szeregach wielo modalnych. Szereg nie może być skrajnie asymetryczny z otwartym przedziałem dominującym (nie można wtedy w ogóle obliczać dominanty).

Miary dyspersji i asymetrii:

Dyspersja - to inaczej rozproszenie, zróżnicowanie, rozrzut, zmienność.

Przykład ilustrujący potrzebę stosowania miar dyspersji:

Rozważmy 2 grupy 10-cio osobowe o następujących wartościach wieku:

  1. 16,18,19,19,20,20,21,21,23,23

  2. 4,6,8,10,19,20,29,30,40,42

w obydwu grupach średnia wieku jest w przybliżeniu równa 20 lat, lecz obydwie grupy różnią się rozkładem wieku bardzo istotnie.

Miary zróżnicowania służą do tego by ocenić w jakim stopniu poszczególne wartości cechy koncentrują się wokół wartości średniej (jakie jest zróżnicowanie cechy w danej zbiorowości).

Miary dyspersji informują jak duże jest odchylenie pomiędzy poszczególnymi wartościami cechy, a wartością przeciętną.

Klasyczne miary dyspersji to:

Współczynnik zmienności - jest ilorazem bezwzględnej miary dyspersji i odpowiednich wartości średnich. Jest on wyrażany w procentach, ponieważ w analizie rozkładu zmienności cech korzystamy z różnych miar zróżnicowania i różnych przeciętnych.

Współczynnik ufności - dzięki estymacji przedziałowej wyznacza się przedział liczbowy, który z pewnym prawdopodobieństwem zawiera nieznaną wartość parametru. To prawdopodobieństwo nazywane jest współczynnikiem ufności, a oszacowany przedział - przedziałem ufności (Neymana).

Współczynnik ufności oznacza się: 0x01 graphic
.

Estymacja, czyli szacowanie parametrów, polega na podaniu ocen parametrów populacji generalnej na podstawie statystyki uzyskanej z próby losowej.

Wyróżniamy dwa rodzaje estymacji:

      1. Estymacja punktowa polega na podaniu wielkości szacowanego parametru, która jest równa wartości estymatora. Ponieważ z reguły wielkości estymatora różnią się od wartości parametru populacji generalnej, podaje się jednocześnie średni błąd szacunku, czyli odchylenie standardowe estymatora.

      2. Estymacja przedziałowa polega na skonstruowaniu pewnego przedziału liczbowego, zwanego przedziałem ufności (Neymana), który z określonym prawdopodobieństwem pokryje estymarowy parametr.

Zbiorowość generalna - jedna cecha zmienna ; Co jest elementem zbiorowości generalnej? - jednostka statystyczna

Parametr zbiorowości generalnej 0x01 graphic
- miara opisowa, np. średnia arytmetyczna 0x01 graphic
odchylenie standardowe 0x01 graphic
czy wskaźnik struktury 0x01 graphic
zbiorowości generalnej, której wartość jest na ogół nie znana.

Zmienną losową X jest wielkością, która przy zajściu każdego zdarzenia losowego ω przyjmuje konkretną wartość 0x01 graphic
, co można zapisać w sposób następujący:

0x01 graphic

Zmienna losowa może być :

Zmienna losowa jest skokowa ( dyskretna ), gdy może przyjmować wartości ze zbioru najwyżej przeliczalnego.

Zmienna losowa ciągła może przyjmować wartości z dowolnego przedziału liczbowego. Możliwe wartości takiej zmiennej tworzą zbiór nieprzeliczalnie nieskończony.

Decyle i centyle (percentyle) wyznacza się podobnie jak kwartyle. Decyle dzielą zbiorowość na 10 części - 5 decyl to mediana. Centyle zaś na 100 części - 50 centyl jest medianą.

Wariancja - jest to średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej całej zbiorowości.

0x01 graphic

Kierunek i siłę asymetrii określa współczynnik asymetrii (skośności). Jest ot miara niemianowana i nieunormowana, co umożliwia porównywanie skośności różnych rozkładów.

Rozkład t - Studenta

Jest to ważny rozkład , który jest stosowany głównie do małych próbek . Rozkład t - Studenta ( pseudonim angielskiego statystyka W. Gosseta ) jest rozkładem symetrycznym względem prostej x=0, a jego kształt jest bardzo zbliżony do rozkładu normalnego standaryzowanego ( jest nieco bardziej spłaszczony ).

Jeżeli Z :N(0;1) i 0x01 graphic
są niezależnymi zmiennymi losowymi , to zmienna 0x01 graphic
ma rozkład t- Studenta o k stopniach swobody .

Wartość oczekiwana w rozkładzie t- Studenta ma postać następującą:

0x01 graphic
dla 0x01 graphic

Wariancja w rozkładzie t- Studenta ma postać następującą:

0x01 graphic
dla 0x01 graphic

Odchylenie standardowe w rozkładzie t- Studenta ma postać następującą :

0x01 graphic
dla 0x01 graphic

Dla k >30 zmienna o rozkładzie t- Studenta ma rozkład zbliżony do rozkładu normalnego standaryzowanego [ N : ( 0 , 1 ) ]

Dla różnych wartości k i różnych prawdopodobieństw α stablicowane są wartości 0x01 graphic
takie , dla których spełniona jest zależność 0x01 graphic
dla 0x01 graphic
stopni swobody.

Rozkład F - Snedecora

Jeżeli zmienne 0x01 graphic
i 0x01 graphic
są zmiennymi niezależnymi i mają rozkłady 0x01 graphic
o 0x01 graphic
i 0x01 graphic
stopniach swobody , to zmienna losowa 0x01 graphic
ma rozkład F - Snedecora :

0x01 graphic

gdzie 0x01 graphic
i 0x01 graphic
są stopniami swobody .

Wartość oczekiwana w rozkładzie F wyraża się następującą formułą :

0x01 graphic
dla 0x01 graphic

Wariancja w rozkładzie F wyraża się następującym wzorem :

0x01 graphic
dla 0x01 graphic

W zależności od 0x01 graphic
i 0x01 graphic
stablicowano wartości zmiennej losowej 0x01 graphic
, w taki sposób , że dla danych wartości prawdopodobieństw α zależność 0x01 graphic

Rozkład chi - kwadrat 0x01 graphic
) został opracowany przez statystyków A. Abbego ( 1863 ), H. Helmerta ( 1875 ) , K. Pearsona ( 1900

Zakładając , że X1, X2 , ..., Xk są niezależnymi zmiennymi losowymi o rozkładzie normalnym o parametrach 0x01 graphic
i 0x01 graphic
, zmienna losowa 0x01 graphic
określona w sposób następujący :

0x01 graphic

ma rozkład 0x01 graphic
z k „ liczbą stopni swobody „

Zmienna losowa o rozkładzie chi- kwadrat przyjmuje wartości dodatnie , a jej rozkład zależy od liczby stopni swobody k . Dla małych wartości k jest to rozkład silnie asymetryczny , w miarę wzrostu k asymetria jest coraz mniejsza. Liczbę stopni swobody k wyznaczamy najczęściej w sposób następujący :

0x01 graphic

lub

0x01 graphic

gdzie :

n - liczebność próby

p - liczba szacowanych parametrów z próby

Liczba stopni swobody jest równa liczbie wszystkich parametrów ( która nie musi być równa liczbie wyników obserwacji ) pomniejszonej o liczbę wszystkich ograniczeń narzuconych na te parametry . Ograniczeniem jest każda wielkość , która zostaje obliczona na podstawie tych samych pomiarów

Wartość oczekiwana w rozkładzie 0x01 graphic
wyraża się następującą formułą :

0x01 graphic

Wariancja w rozkładzie 0x01 graphic
jest wyrażona formułą :

0x01 graphic

Odchylenie standardowe w rozkładzie 0x01 graphic
to :

0x01 graphic

Dla uproszczenia zapisów można się posługiwać formułą :

0x01 graphic
, co oznacza ,że 0x01 graphic
ma rozkład o k stopniach swobody . Rozkład 0x01 graphic
jest rozkładem asymetrycznym, przy czym wraz ze wzrostem k rozkład ten staje się coraz bardziej zbliżony do symetrycznego, a dla k>30 zachodzi zależność :

0x01 graphic

Oznacza to , że wraz ze wzrostem k ( powyżej 30 ) rozkład 0x01 graphic
przechodzi w rozkład asymptotycznie normalny o tych samych parametrach 0x01 graphic
i 0x01 graphic
.

Hipoteza statystyczna - Założenie dotyczące wartości parametru lub rodzaju rozkładu zmiennej w zbiorowości generalnej.

Hipoteza zerowa ( H0 ) - Hipoteza formułowana często w testach istotności w taki sposób , aby na podstawie wyników próby mogła być odrzucona ( wbrew zdrowemu rozsądkowi ), tak aby można było ją łatwo odrzucić. Na przykład stawiamy 0x01 graphic
( hipoteza prosta ) . Częściej jednak chodzi o zapis 0x01 graphic
lub 0x01 graphic
( hipotezy złożone ).

Hipoteza alternatywna ( H1 ) - Hipoteza odnośnie której przypuszczamy , że jest prawdziwa ( zgodnie ze zdrowym rozsądkiem ). Jeżeli H0 zostanie odrzucona , wówczas przyjmujemy H1, w przeciwnym przypadku nie mamy podstaw do stwierdzenia , że hipoteza alternatywna jest prawdziwa, np. dla nieznanej średniej zbiorowości generalnej.

Poziom istotności - maksymalne prawdopodobieństwo popełnienia błędu I rodzaju , na które godzi się badacz przeprowadzający test statystyczny .Zazwyczaj jest ono małe i przyjmuje wartości 0,01 ; 0,02 ; 0,05 ; lub 0,10 .

Korelacja jest to współzależność , czyli wzajemne oddziaływanie lub współwystępowanie dwóch zjawisk lub cech tej samej zbiorowości .

Celem analizy współzależności jest stwierdzenie , czy między badanymi zmiennymi zachodzą jakieś zależności , jaka jest ich siła , kształt i kierunek.

Współzależność między zmiennymi może być :

  1. funkcyjna

  2. stochastyczna ( probabilistyczna)

Zależność funkcyjna - określonej wartości jednej zmiennej ( X - niezależnej - objaśniającej ) , odpowiada jedna i tylko jedna wartość drugiej zmiennej ( Y - zależna -objaśniana ). Zależność funkcyjna ( dokładna ) występuje w naukach przyrodniczych , natomiast w naukach społecznych mamy do czynienia z zależnością stochastyczną .

Zależność stochastyczna ( probabilistyczna ) - wraz ze zmianą jednej zmiennej , zmienia się rozkład prawdopodobieństwa drugiej zmiennej . Szczególnym przypadkiem tej zależności jest zależność korelacyjna ( statystyczna ) Polega na tym , że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej .

Współczynnik korelacji liniowej

Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby (r).

Przyjmuje on wartości z przedziału domkniętego <-1;1>

Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżą dokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżą dokładnie na prostej, skierowanej w górę). Wartość 0 oznacza brak korelacji liniowej.

Postać wzoru do obliczenia współczynnika korelacji:

0x01 graphic

Gdzie xi oraz yi oznaczają odpowiednio wartości zmiennych x i y, a 0x01 graphic
i y oznaczają średnie wartości tych zmiennych.

1

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic

0x01 graphic



Wyszukiwarka

Podobne podstrony:
stata teoria
stata teoria
teoria stata
teoria bledow 2
sroda teoria organizacji i zarzadzania
W10b Teoria Ja tozsamosc
Teoria organizacji i kierowania w adm publ prezentacja czesc o konflikcie i zespolach dw1
wZ 2 Budowa wiedzy społecznej teoria schematów
TEORIA NUEROHORMONALNA EW
zarzadcza teoria 3
Ruciński A Teoria Grafów 1, wyklad6
Społeczno pragmatyczna teoria uczenia sie słów
rozwojowka slajdy, Wyklad 5 Srednia doroslosc teoria czasowa
TEORIA KOLEJEK1
Ruciński A Teoria Grafów 1, wyklad1

więcej podobnych podstron