1. Charakterystyka i klasyfikacja cech 3. Charakterystyka i zastosowanie 4. Charakterystyka i zastosowanie 5. Charakterystyka i zastosowanie
statystycznych. Rodzaje badań klasycznych miar przeciętnych. pozycyjnych miar przeciętnych. bezwzględnych i względnych miar
Tendencja centralna w zbiorowości to wskazanie wartości badanej Przeciętne miary pozycyjne są to wartości cechy pewnych jednostek
statystycznych. zróżnicowania.
cechy w zbiorowości statystycznej, wokół której skupione są wartości zbiorowości statystycznej wyróżnionych ze względu na ich położenie w
Planując badanie należy dokonać wyboru tzw. cech Bezwzględne miary zróżnicowania czielimy na klasyczne i pozycyjne
cech wszystkich jednostek wchodzących w skład tej zbiorowości. tej zbiorowości. Przy ich wyznaczaniu dane liczbowe muszą być
statystycznych, które będą obserwowane. Cechami statystycznymi klasyczne
Tendencję centralną można określić wykorzystując miary tendencji uporządkowane niemalejąco lub nierosnąco. Do miar pozycyjnych
nazywamy właściwości, którymi odznaczają się jednostki wchodzące w
centralnej (inaczej miary przeciętne lub średnie). przeciętnych zaliczamy: kwartyle i dominantę. Odchylenie przeciętne (d ) jest to średnia arytmetyczna z
x
skład badanej zbiorowości.
Miary przeciętne charakteryzują zbiorowość statystyczną niezależnie Kwartylem, który ma największe znaczenie, jest kwartyl drugi, który bezwzględnych wartości różnic między poszczególnymi wartościami
Cechy zmienne przypisywane jednostkom danej zbiorowości
od różnic między poszczególnymi obserwacjami. nazywany jest medianą lub wartością środkową. cechy a średnią arytmetyczną. W przypadku danych o charakterze
możemy podzielić na mierzalne i niemierzalne. Cecha mierzalna daje
Miary przeciętne można podzielić na dwie zasadnicze grupy: Przez medianę należy rozumieć taką wartość cechy mierzalnej w szczegółowym odchylenie przeciętne obliczamy przy pomocy wzoru:
się wyrazić za pomocą jednostek miary(liczb), poszczególne warianty
Klasyczne miary przeciętne. uporządkowanym zbiorze ich wartości, poniżej i powyżej której znajduje
cechy niemierzalnej określane są za pomocą słów. Cechy mierzalne d =1/N *Ł|x
x i-x_|
Pozycyjne miary przeciętne. się jednakowa liczba jednostek zbiorowości statystycznej.
można podzielić na ciągłe i skokowe. Cechę nazwiemy ciągłą, jeśli Natomiast gdy podstawą obliczeń są dane zawarte w szeregu
Do klasycznych miar przeciętnych (obliczanych na podstawie cechy Metody wyznaczania mediany:
może przyjąć każdą wartość z określonego skończonego przedziału
rozdzielczym d obliczamy wg wzoru:
x
wszystkich jednostek badanej zbiorowości) zaliczamy średnią 1. Dane indywidualne (szereg szczegółowy) Gdy liczebność
liczbowego. Cechę nazwiemy skokową, jeżeli może ona przyjmować
o
arytmetyczną, średnią harmoniczną, średnią geometryczną i średnią
d =1/N *Ł|x -x_|*n
x i i
tylko niektóre wartości z określonego przedziału liczbowego.
kwadratową.
zbiorowości jest liczbą niepar mediana ma postać
Odchylenie przeciętne jest miarą mianowaną,. Ocena stopnia
W przypadku badań zbiorowości wielowymiarowych zmienne
Średnia arytmetyczna definiowana jest jako iloraz sumy wszystkich
zróżnicowania wartości cechy połączona powinna być z odniesieniem do
(cechy mierzalne) dzielimy na: stymulanty - te cechy, których wyższe
wartości cechy i liczby obserwacji (liczebności badanej zbiorowości). Gdy liczebność zbiorowości jest liczbą parzystą :
wielkości średniej arytmetycznej.
wartości pozwalają zakwalifikować daną jednostkę statystyczną jako
2
lepszą z punktu widzenia realizowanego badania; dominanty - cechy,
Wariancja (S ) definiowana jest jako średnia arytmetyczna
x
których wysokie wartości świadczą o niskiej pozycji jednostki w zbiorze.
kwadratów różnic poszczególnych wartości cechy jednostek zbiorowości
Przedmiotem badań statystycznych są określone zbiorowości
statystycznej od średniej arytmetycznej. W przypadku danych
Jeżeli średnia jest obliczana z danych zawartych w szeregu
statystyczne, które stanowią zbiór jednostek powiązanych ze sobą
2. Wyznaczanie Me z szeregu rozdzielczego. Przybliżoną wartość Me
rozdzielczym, wówczas ma ona postać:
logicznie. Rozróżnić możemy dwa rodzaje zbiorowości: generalną
z szeregu rozdzielczego można obliczyć ze wzoru:
szczegółowych:
(obejmuje wszystkie elementy będące przedmiotem badania) i próbną
gdzie k to liczba wyróżnionych przedziałów
(jest podzbiorem zbiorowości generalnej wybranym w określony
W przypadku szeregu rozdzielczego:
sposób).
klasowych, xi środek i-tego przedziału klasowego.
Badania całej zbiorowości generalnej są przeprowadzane
x0 dolna granica przedziału mediany, h0 rozpiętość przedziału, n0
Własności średniej arytmetycznej:
stosunkowo rzadko ze względu na możliwość zniszczenia w trakcie
-Suma wartości cechy X jest równa średniej arytmetycznej pomnożonej
liczebność przedziału mediany, N numer mediany obliczany ze
Me
badania jednostek zbiorowości generalnej, wysokie koszty i
czasochłonność, często nieskończoną liczbę elementów w zbiorowości
wzoru: N = N/2 gdy N parzyste
Me
przez ogólną liczebność. :
generalnej. Badanie obejmujące wszystkie elementy zbiorowości
(N+1)/2 gdy N nieparzyste
Odchylenie standardowe (S ) jest defin jako
x
generalnej nazywamy badaniem pełnym. Najczęściej stosowane są:
n skumulowana liczebność przedziału, który poprzedza przedział
-Suma odchyleń poszczególnych wartości cechy od średniej sk(-1)
-spis statystyczny;
Sx jest wielkością mianowaną a interpretowane powinno być łącznie ze
arytmetycznej jest równa 0. mediany. Mediana jest wielkością mianowaną. Jej wielkość nie zależy od
-rejestracje statystyczne;
średnią arytmetyczną. Gdy stanowi ono dużą część średniej
skrajnych wartości cechy. Stosowana może być zwłaszcza wtedy, gdy
-sprawozdawczość statystyczna.
arytmetycznej świadczy to o silnym zróżnicowaniu wartości cechy.
podstawą obliczeń jest szereg rozdzielczy o otwartych przedziałach
Badanie części zbiorowości generalnej wymaga pobrania próby w
klasowych, a więc wtedy gdy obliczenie średniej arytmetycznej jest z Pozycyjne miary zróżnicowania to rozstęp i odchylenie
sposób losowy bądz celowy. Na zbiorowość generalną można uogólniać lub
reguły niemożliwe. Mediana ma wtedy jednak wartość przybliżoną, tym ćwiartkowe.
wyniki z próby losowej. Badanie takie nazywamy badaniem częściowym.
dokładniejszą, im mniejsze są rozpiętości przedziałów klasowych. Rozstep(Obszar zmienności) R wyznaczany jest jako różnica między
x
Wyróżniamy 3 rodzaje tych badań:
-Suma kwadratów odchyleń poszczególnych wartości cechy od średniej
Kwartyl pierwszy jest to ta wartość cechy jednostki statystycznej, największą i najmniejszą wartością cechy:
-reprezentacyjne, które możemy uogólnić na zbiorowość generalną;
arytmetycznej jest wartością najmniejszą, tzn. suma takich kwadratów
która dzieli szereg w ten sposób, że ź jednostek ma wartość cechy od
-monograficzne, niekoniecznie losowe, dokładnie opisane, którego
przyjmuje minimum.
niej nie większą, a nie mniejszą.
nie można uogólniać;
-ankietowe, na dużej próbie, dość dokładne.
Q =x +h /n (N ) Miernik ten ma niewielką wartość poznawczą, gdyż uzależniony jest od
1 0 0 0 Q1-n
sk(-1)
Trzeci rodzaj badania statystycznego to szacunki interpolacyjne i skrajnych wartości cechy. Pozostałe wartości nie uczestniczą w
lub
Gdzie N = N/4 dla N parzystych
Q1
ekstrapolacyjne. Wyróżnić można 4 etapy badania statystycznego:
rachunku, a tym samym nie mają żadnego wpływu na uzyskany wynik.
1. Planowanie badania. 2. Obserwacja statystyczna. Miernik ten wykorzystywany jest głównie przy wstępnej analizie stopnia
(N+1)/4 dla N nieparzystych
-Średnia arytmetyczna jest wielkością mianowaną
3. Opracowanie zebranego materi. 4. Opis i wnioskowanie statystyczne.
zróżnicowania wartości cechy.
Obliczanie średniej arytmetycznej oparte jest na wszystkich Kwartyl trzeci jest natomiast tą wartością cechy jednostki
obserwacjach. Średnia arytmetyczna obliczana na podstawie szeregu statystycznej, która dzieli szereg w ten sposób, że jednostek Odchylenie ćwiartkowe Q definiowane jest jako połowa
x
rozdzielczego o przedziałach klasowych jest wielkością przybliżoną, a zbiorowości ma wartość cechy od niej nie większą, a ź nie mniejszą
2. Formy prezentacji zebranego materiału
wielkość przybliżenia zależy od zastosowanej metody grupowania
Q =x +h /n (N )
3 0 0 0 Q3-n
sk(-1) różnicy między kwartylem trzecim i pierwszym:
statystycznego. Charakterystyka tablicy danych statystycznych. Średniej arytmetycznej nie można obliczać w
Gdzie NQ1= 3N/4 dla N parzystych
przypadku szeregu rozdzielczego o otwartych przedziałach klasowych.
(3N+1)/4 dla N nieparzystych
statystycznej i symboli umownych
Niewskazane jest obliczanie średniej arytmetycznej gdy: Odchylenie ćwiartkowe jest wielkością mianowaną, a jej interpretacja
Dominanta (moda) jest to ta wartość cechy, która w zbiorowości
stosowanych w publikacjach zbiorowość badana jest nieliczna i występują w niej nietypowe wartości odbywać się powinna łącznie z medianą. Jeśli stanowi dużą część
występuje najliczniej i najczęściej. Przybliżoną wartość dominanty
cechy.;; zbiorowość badana jest niejednorodna z punktu widzenia mediany, to występuje silne zróżnicowanie cechy.
obliczyć można z szeregu rozdzielczego pod warunkiem, że spełnione są
statystycznych.
analizowanej cechy.;;Im bardziej zróżnicowane są poszczególne
Względne miary zróżnicowania
dwa warunki:
W wyniku obserwacji statystycznej otrzymujemy tzw. surowy materiał
wartości cechy, tym mniejsza jest wartość poznawcza średniej
W przypadku gdy porównujemy stopień zróżnicowania wartości cechy w
W szeregu rozdzielczym istnieje przedział o największej liczebności.
statystyczny. Materiał ten po dokładnej kontroli poddajemy grupowaniu.
arytmetycznej.
kilku zbiorowościach, w których średnie wartości cechy różnią się, a
Rozpiętość tego przedziału oraz rozpiętości przedziałów z nim
Prezentacji zebranego materiału możemy dokonać w formie:
Średnią harmoniczną należy stosować w przypadku, gdy wartości
także gdy badany stopień zróżnicowania w jednej zbiorowości dwóch
bezpośrednio sąsiadujących są jednakowe. (Krzywa liczebności w
-Prezentacji opisowej polega na włączaniu danych statystycznych
cechy podane są w formie odwrotności, tzn. gdy wartości jednej cechy
różnych cech obliczane powinny być współczynniki zmienności.
otoczeniu dominanty ma kształt funkcji kwadratowej).
do tekstu (opisu) o prezentowanym zjawisku. Prezentacja ta jest
są podane w przeliczeniu na stałą jednostkę innej cechy. Średnia ta
Współczynnik zmienności oparty na odchyleniu standardowym lub
Przy spełnieniu powyższych warunków przybliżoną wartość dominanty
stosowana tylko wówczas, gdy liczba danych jest niewielka. Przy
stosowana jest do obliczania przeciętnej prędkości pojazdów, ceny
na odchyleniu przeciętnym:
możemy obliczyć przy pomocy wzoru:
większej liczbie danych tekst staje się nieczytelny;
towarów, szybkości obrotów pieniężnych i przeciętnego czasu
-Prezentacji graficznej jest mniej dokładana niż prezentacja
niezbędnego do wykonania pewnych czynności.
tabelaryczna. Jednak graficzne przedstawianie danych statystycznych
Średnia harmoniczna jest odwrotnością średniej arytmetycznej z lub
pozwala na szybkie wyobrażenie sobie zdania na temat kształtowania
odwrotności cechy X, czyli:
się poziomu badanego zjawiska. Do najczęściej stosowanych metod
Współczynniki te informują jaki procent średniej stanowi odchylenie
graficznej prezentacji materiału statystycznego należą: metoda liniowa,
standardowe lub przeciętne. Jeżeli wartości współczynników zmienności
metoda powierzchniowa, prezentacja w układzie współrzędnych,
przekraczają 50% to oznacza to, że mamy do czynienia ze zbiorowością
metoda obrazkowa, metoda ilościowa, metoda wiedeńska i kartogramy;
lub względnie niejednorodną z punktu widzenia badanej cechy.
-Prezentacji tabelarycznej pozwala na podanie w bardzo
Współczynnik zmienności oparty na odchyleniu ćwiartkowym
przejrzystej, zrozumiałej, systematycznej i zwięzłej formie wielu
V =Qx/Me 100%
Qx
informacji, które w formie opisowej byłyby bardzo obszerne. Dlatego ta
Jeżeli wartości cechy powtarzają się wielokrotnie wówczas stosowana
Informuje jaki procent mediany stanowi Qx. Jest on stosowany wtedy,
forma jest najczęściej stosowana w publikacjach przedstawiających
jest średnia harmoniczna ważona
gdy przeciętny poziom cechy charakteryzowany jest za pomocą
dane statystyczne, np. w rocznikach statystycznych. Forma tabelaryczna
Średnia geometryczna trafniej niż średnia arytmetyczna opisuje
mediany.
jest wykorzystywana do prezentacji danych statystycznych
cechę gdy wartości tej cechy przedstawione są w postaci liczb
uporządkowanych według jednego lub kilku kryteriów. W ramach
względnych(ilorazy). Stosowana powinna być przede wszystkim wtedy,
tabelarycznej formy prezentacji materiału statystycznego wyróżnia się
gdy występują duże różnice pomiędzy obserwacjami, ponieważ jest 6. Miary asymetrii charakterystyka i
szeregi statystyczne oraz tablice statystyczne.
mniej wrażliwa na wartości nietypowe niż średnia arytmetyczna.
zastosowanie
Szeregiem statystycznym nazywamy ciąg wielkości statystycznych
W analizie struktury zbiorowości możemy określić czy rodzaj rozkładu
wzrastających lub malejących, uporządkowanych wg określonych cech.
zbiorowości jest symetryczny bądz wykazuje deformacje w postaci
Rozróżniamy następujące rodzaje szeregów:
wydluzenia jednego z ramion krzywej liczebności. Oznacza to, że szeregi
---szczegółowe---strukturalne z cechą jakościową----rozdzielcze z cechą
mogą być zbudowane symetrycznie lub asymetrycznie.
ilościową----kumulacyjne-----geograficzne----czasowe.
Średnia kwadratowa stosowana jest, gdy wyrazy w próbie
Współczynnik skośności to miara asymetrii równa różnicy między
Tablica statystyczna prezentuje daną zbiorowość z perspektywy
odpowiadają odchyleniom od zadanego wzorca (standardu). Wyrazy w
_
dwóch cech jednocześnie lub kilka zbiorowości wg 1 cechy.
takiej próbie są niektóre ujemne, dodatnie, a inne zerowe. Obliczanie
średnią arytmetyczna a dominantą.
Ws = x- D
W ich budowie można wyróżnić trzy elementy: tytuł, część właściwą
średniej kwadratowej sprowadza się do podniesienia do kwadratu
oraz część końcową, która obejmuje wskazanie zródła danych i Jeśli różnica ta jest większa od zera mamy do czynienia z asymetrią
wartości obserwacji w próbie lub środków przedziałów klasowych w
dodatkowe objaśnienia. Tytuł określa zbiorowość statystyczną, której dodatnią (prawostronną), a jeżeli różnica ta jest ujemna to mamy do
szeregach rozdzielczych. i ich przemnożenia przez częstości klasowe, a
dotyczą informacje zawarte w części właściwej, także zakres badań czynienia z asymetrią ujemną (lewostronną). Różnica miedzy średnią
następnie sumowaniu tych wielkości i wyznaczenia pierwiastka
zbiorowości, czyli cechy statystyczne objęte badaniem. Przy wypełnieniu arytmetyczną a dominantą informuje nas o kierunku zależności, lecz
kwadratowego
części właściwej należy przestrzegać zasady wypełniania wszystkich jest zależna od wielkości cechy, a przy tym nie nadaje sie do
pozycji zapisu. Część właściwa składa się z główki tablicy, boczku porównywania sił asymetrii w przypadku, gdy porównywane cechy
tablicy i danych. Tablica musi być także zaopatrzona w numer (z prawej wyrażone są w różnych jednostkach. Stosuje sie wtedy unormowany
strony u góry). współczynnik asymetrii, który wyraża sie wzorem:
Znaki umowne stosowane w tablicach statystycznych: )
- zjawisko nie występuje x - D
. Brak informacji lub wiarygodnych informacji W = S odchylenie standardowe D dominanta
s
0 zjawisko występuje, ale w ilościach mniejszych od tych, które
S
zostały wyrażone w tablicy.
Jeśli szereg jest symetryczny to współczynnik ten jest równy zero. Im
x w rubryce, która nie może być wypełniona ze względu na budowę
większą asymetrią charakteryzuje sie rozkład badanej cechy, tym
tablicy
większe wartości współczynnika, a znak informują nas o kierunku
! przy liczbach, które w danym wydawnictwie zmieniono w stosunku
asymetrii.
do poprzedniego.
iloraz momentu centralnego trzeciego rzędu i sześcianu
w tym oznacza, że nie podaje się wszystkich składników sumy.
odchylenia standardowego. Im większa wartość bezwzględna tego
miernika, tym większy stopień asymetrii.
(Q3 - Me) - (Me - Q1)
As =
(Q3 - Me) + (Me - Q1)
3
k _
1
- x) ni
"(xi
N
i=1
M =
s
2
k _
1
{ - x) ni }3
"(xi
N
i=1
Jeżeli z uzasadnionych powodów nie jest możliwe obliczenie
przeciętnych miar klasycznych, wówczas jako miarę asymetrii
zastosowanie znajduje wskaznik asymetrii oparty na kwantylach.
7. Metody pomiaru siły związku 9. Metoda szacowania parametrów 10. Rozkład i parametry zmiennej losowej 11. Rozkład i parametry zmiennej losowej
korelacyjnego dwóch cech w przypadku liniowej funkcji regresji i jej skokowej. Charakterystyka poznanych ciągłej. Charakterystyka poznanych
korelacji prostoliniowej. zastosowanie. Interpretacja rozkładów teoretycznych zmiennej rozkładów teoretycznych zmiennej
a) Współczynnik korelacji rang Spearmana R
współczynnika regresji b . losowej skokowej. losowej ciągłej.
Stosowany jest do pomiaru siły i kierunku zależności korelacyjnej 2 cech
Przy badaniu populacji generalnej równocześnie ze względu na dwie lub Zmienna losowa jest typu skokowego, jeżeli zbiór jej wartości jest Zmienną losową nazywamy ciągłą, jeżeli zbiór jej wartości jest
mierzalnych. Zastosowanie znajduje również w przypadku cech
więcej cech mierzalnych posługujemy się pojęciami regresji i korelacji. skończony lub przeliczalny (zbiór liczb naturalnych, całkowitych). nieprzeliczalny. Zmiennej losowej ciągłej nie można scharakteryzować
niemierzalnych, ale pod warunkiem, że wartości tych cech dadzą się
Oba te pojęcia dotyczą zależnośći między zmiennymi, przy czym Rozkładem zmiennej losowej skokowej X nazywa się prawdopodobień za pomocą funkcji rozkładu prawdopodob., ponieważ zbiór wartości tej
uporządkować (porangować). Miernik ten jest miarą unormowaną i
korelacja zajmuje się siłą tej zależności, a regresja jej kształtem. funkcji jest nieprzeliczalny. Dodatkowo dowodzi się, że jeśli X jest
tego,że zmienna ta przybiera wartości x (i = 1,2,3& ),co można
i
zawiera się zawsze w przedziale <-1,1>. Wartość bezwzględna R
Wyrażenie zależności między cechami badanymi za pomocą określonej zmienną losową ciągłą, to prawdopodobieństwo, że zmienna losowa
informuje o sile zależności korelacyjnej. Im moduł R bliższy zera, tym zapisać: P(X=x ) = p i=(1,2,3& ) ;;; Ł p = 1
i i i
funkcji matematycznej nazywać będziemy regresją. Po wyborze klasy przybierze tę wartość wynosi 0. Zmienną losową ciągłą można
słabsza korelacja. Bliskie jedynki wartości modułu R informują Drugą charakterystyką zmiennej losowej jest dystrybuanta.
funkcji na podstawie danych empirycznych musimy naszą funkcję jak scharakteryzować podając jej dystrybuantę.
natomiast, że między cechami występuje silna zależność korelacyjna. Funkcja F(X) = P(X
najlepiej dopasować do danych liczbowych ujętych na wykresie Dystrybuantą zmiennej losowej ciągłej X nazywać będziemy funkcję:
Znak R określa natomiast kierunek korelacji (R>0 to korelacja dodatnia, F(X) przyjmuje zawsze wartości z przedziału : <0,1>
punktowym.
F(X) = P(XR<0 to korelacja ujemna). Współczynnik korelacji rang obliczamy w Związek między rozkładem i dystrybuantą : załóżmy, że wartości
Jeżeli dystrybuanta F(X) ma pochodną w punkcie x, tzn. jeżeli istnieje
oparciu o wzór: zmiennej losowej X zostały uszeregowane w porządku rosnącym.:
granica ilorazu różnicowego:
n x1n-1 n 1 n+1
2
F(X) = P(X1+ 2+ 3+& + i i i
6 di
:
Parametry zmiennej losowej skokowej
gdzie n liczeb badanej zbiorowości
i =1
Metodą szacowania parametrów funkcji regresji jest tzw. klasyczna Podstawowymi parametrami zmiennej losowej skokowej są:
rs = 1- ;
To pochodna ta nazywa się gęstością prawdopodobieństwa zmienn
metoda najmniejszych kwadratów pozwalająca tak dobrać funkcję do wartość oczekiwana (wartość przeciętna, nadzieja matematyczna)
n(n2 -1)
danych empirycznych aby suma kwadratów odchyleń poszczególnych i wariancja (odchylenie standardowe). los.X. Gęstość prawdopodobień oznaczamy f(x) i f(x)= F (X)
wartości empirycznych od wartości funkcji regresji równała się mini... Istnieje również możliwość obliczenia dystrybuanty zmiennej losowej X
Wartość oczekiwana E(X)= Łx p
i i
d różnica i-tych rang cechy x i y
i
Dla takiej postaci funkcji regresji warunek najmniejszych kwadratów to: jeżeli znamy jej funkcję gęstości:
Rangą wartości cechy nazywamy numer miejsca, na którym znajdzie się Wariancja D2(X) = E(X E(X))2
Jest to funkcja dwóch zmiennych a i b. Osiąga ekstremum dla warunku x
N
ta wartość po uporządkowaniu niemalejąco wszystkich wartości cechy. N
koniecznego:
2
Jeżeli wartości cechy powtarzają się to każda z nich otrzymuje taką F(X) = (x)dx
D2(X)= - E(X ))2 pi lub D2(X)= pi -[E(X )]2 ,
"(xi "xi +"f
samą rangę, którą jest średnia arytmetyczna z numerów miejsc jakie
i =1
Przekształcamy ten układ do postaci 2 równań o 2 i=1 -"
zajęłyby te wartości cechy po uporządkowaniu niemalejąco wszystkich
niewiadomych a i b: Funkcja gęstości zmiennej losowej X ma nast. Własności:
wartości cechy. Współczynnik korelacji rang stosowany powinien być w
Odchylenie standardowe D(X) =
D2 ( X )
---jest nieujemna
przypadku zbiorowości niezbyt licznych (n<40). Współczynnik ten nie
---jest ciągła z wyjątkie co najwyżej skończonej liczby punktów
Rozkłady zmiennej losowej skokowej:
jest miarą zbyt precyzyjną, bo obliczany jest w oparciu nie o
nieciągłości
Rozkład dwupunktowy powiemy, że zmienna losowa X ma rozkład
rzeczywiste wartości cech, ale w oparciu o ich rangi.
"
dwupunktowy jeżeli z dodatnimi prawdopodobieństwami przyjmuje
b) Współczynnik korelacji liniowej Pearsona stosowany jest do
pomiaru siły i kierunku zależności korelacyjnej prostoliniowej. Jest on tylko dwie wartości x i x . Funkcja rozkładu prawdopodobieństwa tej ---
1 2
+"f (x)dx = 1
definiowany jako iloraz kowariancji z cech i iloczynu odchyleń
zmiennej losowej określona jest więc następującoP(X=x ) = p,
1
-"
standardowych tych cech. Oznaczać będziemy go symbolem r P(X=x )=1-p niekiedy dla wygody przyjmuje się, że x =1 i x =0.
yx 2 1 2 Parametry zmiennej losowej ciągłej
cov(x, y) Przy czym x =1 nazywamy sukcesem a x =0 porażką. Wówczas "
1 2 "
r = gdzie
P(X=1)=p P(X=0)=1-p=q
E(X ) = xf (x)dx ;;; D2 (X ) = ( - E(X ))2 f (x)dx
s(x) * s( y) +" +"x
Rozkład zmiennej losowej X określonej powyższymi wzorami nosi nazwę
-"
-"
n rozkładu zero-jedynkowego.
- -
1 "
cov(x, y) = - x)( yi - y) 2
"(x Parametry rozkładu E(X) = p ;;; D2(X) = pq ;;; D(X) =
i pq D2 ( X ) = x2 f (x)dx - (E( X ))2 ;;;
D(x) = D (x)
+"
n
i=1
-"
Współczynnik korelacji liniowej jest miarą unormowaną i zawiera się w Układ ten nazywamy układem równań normalnych. W wyniku jego X~Z-J(p, pq ) - Zmienna losowa X ma rozkładu zero-jedynkowy o
Rozkład normalny (Gaussa) Mówimy , że zmienna losowa X ma
przedziale <-1,1>. O sile zależności korelacyjnej informuje wartość rozwiązania otrzymujemy współczynniki a i b, a tym samym równanie
rozkład normalny z parametrami i , co zapisujemy
> 0
wartości oczekiwanej p i odchyleniu standardowym pq
linii regresji:
bezwzględna r . Bliskie zera wartości r świadczą o słabej korelacji
yx yx
Rozkład dwumianowy(Bernoulliego) X ~ N (, ) , jeśli jej funkcja gęstości jest określona
bądz o jej braku. W przypadku gdy |r | jest bliski 1 oznacza to, że
yx
między cechami występuje bardzo silna korelacja prostoliniowa. W Niech będzie dana zmienna losowa X, taka, że X= X +X + & .X ,
1 2 N
-(x-)2
szczególności kiedy |r |=1 oznacza to tzw. korelację doskonałą. gdzie X ,X & .,X są zmiennymi losowymi, które mają rozkład
yx 1 2, N 1 2
2
wzorem : , dla x"(-";+")
Znak współczynnika korelacji liniowej informuje o kierunku zależności zerojedynkowy o wartości oczekiwanej p. Wynika stąd, że zmienna f (x) = * e
Parametr b nazywany współczynnikiem regresji, wyraża o ile przeciętnie losowa X przyjmuje wartości 0,1,2& n. Tak zdefiniowana zmienna
(r >0 oznacza korelację dodatnią, r <0 oznacza korelację 2Ą
yx yx
zmieni się zmienna zależna y gdy zmienna niezależna x wzrośnie o losowa ma rozkład nazywany rozkładem dwumianowym. Funkcja
2 2
ujemną). Miara ta jest miarą symetryczną, tzn. r =r . jednostkę. Jeżeli miedzy dwoma cechami występuje współzależność rozkładu prawdopodobieństwa tej zmiennej losowej wyraża się wzorem:
yx xy
gdzie : E(x) = ;;
D (x) =
wówczas możemy wyznaczyć drugie równanie linii regresji
k
^ P(X=k)= , k , przy czym Reguła 3 sigm:
" (0, n)
Cn pk qn-k
8. Metody badania siły zależności
x = A + By
;
P( - < X < +) = 0,6826 P( - 2 < X < + 2 ) = 0,9545
korelacyjnej dwóch cech w przypadku n
Jeżeli znamy dwa ramiona linii regresji wówczas istnieje możliwość
P( X = k) = 1
korelacji krzywoliniowej oraz w obliczenia współczynnika korelacji liniowej: "
P( - 3 < X < + 3 ) = 0,9973
k =0
przypadku cech niemierzalnych. r = sgn b "bB
Jest ona wykorzystywana w badaniach empirycznych w celu eliminacji
Dystrybuanta zmiennej losowej, która ma rozkład dwumianowy
^ _ _
obserwacji nietypowych, nie przystających do pozostałych, co do
których istnieją przypuszczenia , że pochodzą z innej zbiorowości. Za
2 y = ryx Sy/Sx (x x ) + y k
określona jest wzorem: F(X)=P(Xwątpliwe uznaje się takie obserwacje , których wartość różni się od
1/ N " y2(xi)ni. - y "Cn
Równanie linii regresji wykorzystać można do sporządzania prognoz, tj.
średniej o więcej niż 3 odchylenia standardowe.
yx = k określenia wielkości cechy y przy danym x. każda prognoza obarczona
2
Rozkład normalny standaryzowany to rozkład normalny z
jest błędem, którego wielkość można oszacować obliczając odchylenie Parametry rozkładu dwumianowego
1/ N y2 jn. j - y
"
standardowe resztowe: wartością oczekiwaną = 0 i odchyleniem standardowym .
=1
E(X)=np ;;; D(X)= oraz X~D(np, )
npq npq
a) Stosunek korelacji stosowany jest do badania siły zależności
yx
Każdy rozkład normalny X : N (, ) może być transformowany
korelacyjnej 2 cech, z których co najmniej jedna musi być cechą W praktyce mamy do czynienia z rozkładem dwumianowy przy
mierzalną, może być stosowany bez względu na charakter zależności. losowaniu zwrotnym elementów ze zbiorowości ograniczonej lub przy
do rozkładu normalnego Z : N(0,1) poprzez procedurę standaryzacji
Wymaga, by badana zbiorowość była liczna, a zebrane informacje losowaniu bezzwrotnym ze zbiorowości nieograniczonej, nieskończonej
zmiennej X do Z. Czasami zamiast Z stosuje się literę U ( unormowana )
pogrupowane w tablicy korelacyjnej. Ogólnie można powiedzieć, że jeżeli wynik pojedynczego losowania jest zmienną losową o rozkładzie
Yi oznacza empiryczne wartości cechy y
stosunek korelacji jest pierwiastkiem kwadratowym z ilorazu wariancji zero-jedynkowym. X -
objaśnionej i wariancji całkowitej, czyli Miernik ten przyjmuje zawsze Yi z daszkiem to teoretyczne wartości y obliczane na podstawie Własności rozkładu dwumianowego: Zmienna los standaryzowana wyraża się wzorem :
Z =
wartości z przedziału <0,1>. Im bliższa jedności jest jego wartość, tym równania linii regresji zapisanego powyżej. 1.Jest on rozkładem sumy n-niezależnych zmiennych losowych z
których każda ma rozkład zero-jedynkowym.
silniejszy jest związek korelacyjny 2 cech. W szczególności gdy =1 Procedura standaryzacji ma swoje uzasadnienie w tym, że tylko rozkład
yx
2.Jeśli p=q rozkład jest symetryczny, jeśli p różne od q to rozkład jest
normalny standaryzowany jest stablicowany. Najczęściej korzysta się z
oznacza to, że między cechami występuje zależność funkcyjna. Bliskie
asymetryczny.
tablic dystrybuanty .
zera wartości oznaczają natomiast bardzo słabą korelację albo jej Rozkład Poissona
yx
2
Niech zmienna losowa X ma rozkład dwumianowy. Załóżmy że przy n Rozkład chi kwadrat )
(
brak. Miernik ten jest niesymetryczny, tzn. yx`"xy. Miernik ten
dążącym do nieskończoności p zmienia się w ten sposób, że np =m
wykorzystywany może być również do badania charakteru zależności
Zakładając , że X , X , ..., X są niezależnymi zmiennymi losowymi
gdzie m jest pewną stałą. Można wówczas wykazać, że 1 2 k
korelacyjnej. Jeżeli |ryx|=yx wówczas stwierdzamy, że między o rozkładzie normalnym o parametrach i , zmienna
= 0
= 1
mk , k
badanymi cechami występuje zależność korelacyjna prostoliniowa. lim P( X = k) = e-k P(X = k) = Cn pkqn-k
k
n"
k!
Stosunek korelacji można wyrazić za pomocą wzoru: 2 2
2
losowa określona w sposób następujący : = X
Rozkład zmiennej losowej X określony powyższym wzorem nazywany
" i
jest rozkładem Poissona. Wzór ten zachodzi dla n dążącego do i=1
2
nieskończoności(praktycznie dla dużych wart. n) ale przy ustalonym m i
1/ N " y2 (xi)ni. - y 2
zmienna ta ma rozkład o k stopniach swobody
yx = dużym n, e musi być małe: p<0,1 ; n>30, q=1-p
2
1/ N y2 jn. j - y Wart. oczekiwana:E(X)=m Odchylenie standardowe:D(X)=
m Zmienna losowa o rozkładzie chi-kwadrat przyjmuje wartości dodatnie,
"
a jej rozkład zależy od liczby stopni swobody k . Dla małych wartości k
jest to rozkład silnie asymetryczny, w miarę wzrostu k asymetria jest
b) Współczynnik kontyngencji C Pearsona Miara ta stosowana jest
coraz mniejsza. Liczbę stopni swobody k wyznaczamy najczęściej w
do pomiaru siły zależności między dwiema cechami niemierzalnymi. Jest
sposób następujący :k=n-1 lub k=n-r-1,gdzie :
obliczana przy pomocy wzoru:
n liczebność próby
r liczba szacowanych parametrów z próby
2
2 - Npij)2
Parametry rozkładu :
C = gdzie N- liczebność badanej zbiorowości a 2 =
" "(nij Npij
2 + N
2
2
E( ) = k D2( ) = 2k
D( ) = 2k
;; ;;
Współczynnik ten zawiera się w przedziale <0,1). Jeżeli wartość C jest
2
bliska jedności wówczas stwierdzamy silną zależność między badanymi Wraz ze wzrostem k ( powyżej 30 ) rozkład przechodzi w rozkład
cechami, natomiast bliskie zera wartości cech oznaczają bardzo słabą
asymptotycznie normalny o tych samych parametrach
zależność bądz jej brak.
2 2
c) Współczynnik korelacji rang Spearmana R
i .
E( ) = k D2 ( ) = 2k
Stosowany jest do pomiaru siły i kierunku zależności korelacyjnej 2 cech
mierzalnych. Zastosowanie znajduje również w przypadku cech Rozkład t Studenta Jest to rozkład stosowany głównie do małych
niemierzalnych, ale pod warunkiem, że wartości tych cech dadzą się prób. Rozkład t Studenta jest rozkładem symetrycznym względem
uporządkować (porangować). Miernik ten jest miarą unormowaną i prostej x=0, a jego kształt jest bardzo zbliżony do rozkładu normalnego
zawiera się zawsze w przedziale <-1,1>. Wartość bezwzględna R
standaryzowanego (jest nieco bardziej spłaszczony ). Jeżeli Z :N(0;1)
informuje o sile zależności korelacyjnej. Im moduł R bliższy zera, tym
2 2
słabsza korelacja. Bliskie jedynki wartości modułu R informują
i są niezależnymi zmiennymi
: (k; 2k )
natomiast, że między cechami występuje silna zależność korelacyjna.
Znak R określa natomiast kierunek korelacji (R>0 to korelacja dodatnia,
Z
R<0 to korelacja ujemna). Współczynnik korelacji rang obliczamy w T = k
losowymi , to zmienna ma rozkład t- Studenta o k
2
oparciu o wzór:
n stopniach swobody .
2
Parametry rozkładu t Studenta:
6 i
"d
E(t)=0 dla k>=2
gdzie n liczebność badanej zbiorowości
i=1
rs =1 - k
2 k e" 3
D (T ) = dla
n(n2 -1)
k - 2
di różnica i-tych rang cechy x i y
Rangą wartości cechy nazywamy numer miejsca, na którym znajdzie się
k
dla
ta wartość po uporządkowaniu niemalejąco wszystkich wartości cechy. k e" 3
D(t) =
Jeżeli wartości cechy powtarzają się to każda z nich otrzymuje taką
k - 2
samą rangę, którą jest średnia arytmetyczna z numerów miejsc jakie
zajęłyby te wartości cechy po uporządkowaniu niemalejąco wszystkich
Dla k >30 zmienna o rozkładzie t- Studenta ma rozkład zbliżony do
wartości cechy.
rozkładu normalnego standaryzowanego [ N : ( 0 , 1 ) ]
Współczynnik korelacji rang stosowany powinien być w przypadku
zbiorowości niezbyt licznych (n<40). Współczynnik ten nie jest miarą
Rozkład F Snedecora
zbyt precyzyjną, bo obliczany jest w oparciu nie o rzeczywiste wartości
cech, ale w oparciu o ich rangi. Jeżeli zmienne i są zmiennymi niezależnymi i mają rozkłady
Y1 Y2
2
o i stopniach swobody , to zmienna losowa Fk k2 ma
k1 k2
1
Y1 / k1
Fk k2 =
rozkład F Snedecora : 1
Y2 / k2
gdzie i są stopniami swobody .
k1 k2
parametry rozkładu F Snedecora
k2
E(F ) = dla
k2 > 2
k2 - 2
2
2k2 (k1 + k2 - 2)
2
D (F ) = dla k2 > 4
2
k1 (k2 - 2) (k2 - 4)
12. Estymatory i ich podstawowe 14. Niezbędna liczba pomiarów przy 16. Weryfikacja hipotez o równości dwóch 17. Testy normalności przy dużej i małej
własności. Estymacja przedziałowa szacowaniu przedziałowym średniej i średnich próbie.
W zależności od posiadanych o porównywanych populacjach informacji Wyróżnia się dwie podstawowe grupy hipotez statystycznych
wskaznika struktury. wskaznika struktury
wyróżniamy trzy modele. 1) Hipotezy głoszące, że rozpatrywana zmienna losowa ma
Jednym z głównych zagadnień statystyki matematycznej jest Szacując metodą przedziałową parametr , budujemy dla niego
Model I. Badamy dwie populacje generalne mające rozkłady normalne określony typ rozkładu oraz
szacowanie wartości parametrów rozkładu populacji generalnej na przedział ufności w oparciu o rozkład estymatora, przy założeniu
N(m1,1) i N(m2,2). Odchylenia standardowe tych populacji są znane. 2) Hipotezy formułujące przypuszczenie, że dwie badane
podstawie próby pobranej z tej populacji. Szacowania możemy dokonać posiadanych wyników próby o ustalonej z góry liczebności n. Otrzymany
W oparciu o wyniki dwu niezależnych prób, odpowiednio o zbiorowości mają ten sam rozkład
w dwóch postaciach: przedział ma pewną długość 2d, a połowa długości tego przedziału
liczebnościach n1 i n2, wylosowanych z tych populacji należy sprawdzić Spośród hipotez należących do pierwszej grupy wyróżnić można
1) nieznaną wartość parametru możemy oszacować podając jedną ufności (d) jest miarą maksymalnego błędu szacunku. Aby uzyskać z
hipotezę H0: m1=m2, wobec hipotezy alternatywnej H1: m1`"m2, gdzie hipotezę o normalności rozkładu danej zmiennej losowej. Jednym z
liczbę odpowiadającą przypuszczalnej wartości parametru; w tym góry założoną dokładność szacunku można dobrać dostateczną
m1 i m2 to odpowiednio wartość średnia w pierwszej i drugiej testów statystycznych, który może być stosowany do weryfikacji takiej
przypadku mówimy o tzw. estymacji punktowej; liczebność próby. Dla dwóch najczęściej szacownych parametrów
zbiorowości. Sprawdzianem hipotezy H0 jest następująca statystyka: hipotezy, jest test zgodności 2. Test ten może być skonstruowany tylko,
2) nieznaną wartość parametru możemy oszacować podając przedział, populacji, a mianowicie wartości średniej m oraz wskaznika struktury p,
gdy wyniki próby liczącej co najmniej kilkadziesiąt elementów są
w który mieści się prawdziwa wartość parametru. Mówimy wówczas o można otrzymać wzory na minimalną liczebność próby potrzebną do
pogrupowane w szereg rozdzielczy. Należy pamiętać, że klasy na jakie
tzw. estymacji przedziałowej. oszacowania tych parametrów z żądaną z góry dokładnością. W
x1 - x2
gdzie x1 i x2 to średnie obliczone dzieli się wyniki próby w teście zgodności 2, nie powinny być zbyt mało
zależności od posiadanych informacji, niezbędną liczebność próby w
Załóżmy, że dystrybuanta F(x) charakteryzuje rozkład populacji
U =
na podstawie prób z pobranych liczne (co najmniej 8 elementów w każdym z przedziałów). Załóżmy, że
losowaniu niezależnym można ustalić według wzorów w następujących
2 2
generalnej, a niech oznacza nieznany parametr tej populacji. Niech odpowiednio z pierwszej i drugiej populacja generalna ma dowolny rozkład o dystrybuancie F(x). Z
modelach: 1
2
zbiorowości populacji tej wylosowano niezależnie dużą próbę (n co najmniej
x , x ,& ,x będzie n-elementową próbą pobraną z tej populacji.
1 2 n +
Model I: populacja generalna ma rozkład normalny N(m,) bądz
kilkadziesiąt elementów), której wyniki podzielono na r przedziałów
Statystykę T będącą funkcją zmiennych x , x ,& ,x (funkcją próby) zbliżony do normalnego, wariancja 2 jest znana, szacowanym n1 n2
n 1 2 n
klasowych o liczebnościach n w każdym przedziale, przy czym
i
parametrem jest wartość średnia populacji m. Przy ustalonym
T = T(x , x ,& ,x ), służącą do oszacowania parametru , nazywać
n 1 2 n
współczynniku ufności 1-ą żądamy, by maksymalny błąd szacunku nie
będziemy estymatorem. Jej wartość t = t(x , x ,& ,x ) n = . Otrzymaliśmy w ten sposób rozkład empiryczny. Na
n 1 2 n
Następnie, przy ustalonym poziomie istotności ą, z tablic dystrybuant "ni
przekroczył d. Niezbędną do uzyskania tego celu liczebność próby n
odpowiadającą realizacji próby x , x ,& ,x nazywamy oceną
1 2 n
rozkładu normalnego odczytujemy wartość krytyczną uą, która spełnia podstawie wyników tej próby należy sprawdzić hipotezę H , którą
0
oblicza się wtedy ze wzoru:
parametru. Estymator jest więc zmienną losową zaś jego ocena jest
zależność: P(|U|e"uą)=ą i U~N(0,1). W kolejnym kroku zapisujemy symbolicznie H : F(x) " &! gdzie F(x) jest
0
konkretną liczbą odpowiadającą danej realizacji próby. Pojęcie 2
porównujemy wartość krytyczną i wartość sprawdzianu. Jeśli zachodzi dystrybuantą badanej zmiennej, a
uą 2 Gdzie uą jest wartością zmiennej normalnej
estymatora można sformułować też nieco inaczej: estymatorem
n = &! jest klasą dystrybuant normalnych
N(0,1) odczytanej z tablicy dystrybuant rozkładu nierówność |u|e"uą, wówczas na poziomie istotności ą hipotezę H0
parametru nazywamy funkcję T = T(x , x ,& ,x ), która ma tę
n 1 2 n
1
d2 normalnego w oparciu o relację P(ćłUćłd" uą)=1-ą należy odrzucić na korzyść hipotezy alternatywnej, co oznacza, że Hipoteza alternatywna ma postać: H : F(x) " &!
własność, że prawdopodobieństwo zdarzenia T H" jest tym bliższe 1
n
m1`"m2. Jeżeli |u|1 0
im większa jest liczebność próby. Model II: populacja generalna ma rozkład N(m,), przy czym
odrzucenia hipotezy H0. Uwaga: dla hipotezy alternatywnej H1:m1>m2
Sprawdzianem tej hipotezy jest statystyka 2 wyrażona wzorem:
Jeżeli szacujemy określony parametr, to istnieje możliwość posługiwania
stosujemy test z prawostronnym obszarem krytycznym, tzn hipotezę H0
wariancja 2 jest nieznana, ale znamy wartość statystyki s^2,
2
się różnymi estymatorami. Jeśli np. szacowanym parametrem jest r
odrzucamy gdy zachodzi nierówność Ue"uą, a dla U2
uzyskanej z małej próby o liczebności n . Zakładamy, że szacunek
0
średnia w zbiorowości generalnej, to podstawą tego szacunku mogą być
brak jest podstaw do jej odrzucenia. Inaczej wyznaczamy też wartość u = gdzie:
"
będzie przeprowadzany przy współczynniku ufności 1-ą. Niezbędną
takie estymatory, jak: średnia arytmetyczna, mediana, dominanta,
npi
liczebność próby, jaką należy wylosować, by z maksymalnym błędem ą: odczytujemy ją na podstawie zależności P(Ue"uą)=ą. i=1
średnia geometryczna itp.
Model II. Badamy dwie populacje generalne mające rozkłady
szacunku d zbudować przedział ufności dla średniej, obliczany jest ze
Cechy dobrego estymatora: n liczebność próby
normalne N(m1,1) i N(m2,2),przy czym wartości 1 i 2 są nieznane
wzoru:
---- Zgodność estymator T parametru jest zgodny jeżeli ciąg różnic n
n i liczba elementów próby należących do i-tego przedziału klasowego
ale wiadomo, że 1=2. na podstawie wyników dwu małych prób
'"
{ T -} jest przy n dążącym do nieskończoności stochastycznie 2 p prawdopodobieństwo, że badana zmienna losowa przyjmie wartość
n odpowiednio o liczebnościach n1 i n2, wylosowanych niezależnie z tych i
'"
2
1 należącą do i-tego przedziału klasowego
s2 = n0 - _ populacji, należy zweryfikować hipotezę H0: m1=m2, wobec hipotezy
tą , gdzie
[P(
zbieżny do 0, tzn. Gdy: - < ) = 1] dla
s
lim T n " alternatywnej H1: m1`"m2, gdzie m1 i m2 to odpowiednio wartość np liczebność teoretyczna, czyli taka liczebność, jaka powinna
n = "( i
x x)2
i
n"
>0
0 średnia w pierwszej i drugiej zbiorowości. Sprawdzianem hipotezy H0 znajdować się w i-tym przedziale, gdyby hipote H była prawdziwa
0
d2 n -1 i=1
Własność ta oznacza, że w miarę jak rośnie liczebność próby,
jest wtedy statystyka W kolejnym kroku określamy wartość poziomu istotności, czyli
prawdopodobieństwo przekroczenia dowolnie małej różnicy (co do
jest wariancją z próby wstępnej, tą jest wartością zmiennej t Studenta prawdopodobieństwa popełnienia błędu pierwszego rodzaju, następnie
wartości bezwzględnej) między estymatorem Tn a parametrem 2
odczytanej z tablicy tego rozkładu w oparciu o relację P(|t|d"tą)=1-ą
z tablic rozkładu 2 odczytujemy wartość krytyczną ą w oparciu o
x1 - x2
zmierza do 0. estymatory spełniające powyższy warunek nazywamy
i dla n stopni swobody. Jeżeli obliczona liczebność próby właściwej t =
0-1
estymatorami zgodnymi. Stosując taki estymator unikamy przy dużych 2
2 2 następującą zależność: P(2 e" ą )=ą gdzie
próbach popełnienia dużego błędu. n spełnia nierówność nd"n to liczebność n0 próby wstępnej jest n1s1 + n2s2 1 1
0 ł ł
ł + ł
---- Nieobciążoność powiemy, że estymator T jest nieobciążonym 2 ~ 2 o r-k-1 stopniach swobody
n
wystarczająca. Jeżeli n>n , to należy dolosować do właściwej próby
0 ł
n1 + n2 - 2 n1 n21 ł
estymatorem parametru , jeżeli E(T ) = Jeśli przy pomocy ł łł r liczba przedziałów klasowych
n
jeszcze n-n elementów.
0
k liczba szacowanych parametrów
nieobciążonego estymatora szacujemy parametr , to w prawdzie w
Model III: populacja generalna ma rozkład dwupunktowy z
Jeżeli między wartością krytyczną a wartością sprawdzianu zachodzi
poszczególnych przypadkach uzyskane oceny mogą się różnić od Wartość sprawdzianu porównujemy z wartością krytyczną tą, którą
parametrem p (tzn. wskaznik struktury w populacji generalnej wynosi
2
wartości parametru , jednak w dużej serii dokonywania takich ocen odczytujemy z tablic rozkładu t Studenta dla założonego z góry poziomu
nierówność: 2 e" ą wówczas na poziomie istotności ą
p). Przy współczynniku ufności 1-ą chcemy tak oszacować parametr p,
istotności ą i dla (n1+n2-2) stopni swobody, tak aby spełniona była
ich średnia będzie równa . Posługiwanie się estymatorem
aby maksymalny błąd szacunku tego wskaznika struktury nie
stwierdzamy, że hipotezę sprawdzaną należy odrzucić na korzyść
zależność P(|t|e"tą)=ą. Nierówność |t|e"tą określa dwustronny
nieobciążonym zabezpiecza nas przed systematycznymi błędami w
przekroczył liczby d. 2
obszar krytyczny testu, tzn. jeśli zachodzi nierówność |t|e"tą to hipotezę hipotezy alternatywnej. W przypadku, gdy 2 d" ą
ocenie. Różnicę E(T ) - nazywamy obciążeniem estymatora. ---- Jeżeli znamy spodziewany rząd wielkości p, to niezbędną wielkość
n
H0 odrzucamy, zaś dla |t|2 stwierdzamy, że na poziomie istotności ą brak jest podstaw do
---- Efektywność powiemy, że estymator T parametru jest
n
uą pq
odrzucenia tej hipotezy. Podobnie jak w modelu I, gdy hipoteza
estymatorem najefektywniejszym, jeżeli wśród estymatorów próby ustalamy według wzoru: n = , odrzucenia hipotezy sprawdzanej H
0.
alternatywna ma postać H1:m1>m2 stosujemy prawostronny obszar
nieobciążonych posiada najmniejszą wariancję. Testem stosowanym do sprawdzania normalności rozkładu populacji
d2
krytyczny, tzn hipotezę H0 odrzucamy, gdy zachodzi te"tą, a wartość tą
generalnej na podstawie małej próby jest test Shapiro-Wilka.
---- Dostatecznosc (wystarczalność) estymator T parametru jest
n
gdzie p jest spodziewanym rzędem wielkości szacowanego wskaznika
odczytujemy na podstawie zależności P(te"tą)=ą ! P(|t|e"tą)=2ą Sposób przeprowadzania tego testu jest następujący: z badanej
dostateczny, jeżeli zawiera wszystkie informacje, jakie na temat
struktury (wyrażonym jako ułamek właściwy), q=1-p, zaś uą wartością
Uwaga. Jeśli sprawdzimy, że dla badanych populacji 1`"2, wówczas zbiorowości losujemy próbę i na jej podstawie weryfikujemy hipotezę
parametru występują w próbie i żaden inny estymator nie może dać
odczytaną jak w modelu I.
stosujemy modyfikację Cohrana-Koxa. Sprawdzian hipotezy H0 ma
dodatkowych informacji o szacowanym parametrze. H : F(x) = F (x) gdzie
0 0
---- Jeżeli nie znamy rzędu wielkości szacowanego wskaznika struktury
postać:
Przedział ufności dla wskaznika struktury p otrzymujemy z
F(x) jest dystrybuantą rozkładu badanej zmiennej
p, to przyjmując za iloczyn pq jego największą wartość ź otrzymujemy
odpowiedniego rozkładu estymatora. Najlepszym estymatorem jest
2 F (x) jest dystrybuantą rozkładu normalnego
0
wskaznik struktury z próby m/n, gdzie m oznacza liczbę elementów
Hipoteza alternatywna ma postać:
x1 - x2
wyróżnionych znalezionych w losowej próbie o liczebności n.
następujący wzór na liczebność próby: n = 4uą
t = H : F(x) `" F (x) lub postać równoważną:
1 0
Model: Populacja generalna ma rozkład dwupunktowy z parametrem p d2
2 2
Z populacji losujemy niezależnie dużą próbę o liczebności (n>100). H :~ H
1 0
Jeżeli prawdziwa wartość p spełnia nierówność p`"1/2, to obliczona ł ł
s1 s2
Wtedy przedział ufności dla parametru = p jest określony wzorem: Sprawdzianem tej hipotezy jest statystyka
wielkość próby powyższym wzorem jest za duża (tzn. stosując tak ł ł
+
2
ł ł
ńł ł wielką próbę otrzymujemy maksymalny błąd szacunku mniejszy niż
m m m m
ł1- ł ł1- ł
n1 n21 łł n łł łł
ł śł
ł ł ł ł ł ł ł łł
założona wartość d)
m n n m n n ł łł 2 ł
ł łł ł łł
Pł - < p < + = 1-ą
ł (x( - x(i )śł
uą uą żł
A wartość krytyczną tą odczytujemy w oparciu o relację P(|t|e"tą)=ą,
"an-i+1 n-i+1) )
n n n n ł śł
ł ł
15. Estymacja przedziałowa mierników gdzie t~ Studenta o i =1
ł śł gdzie
ł ł
ół ł ł ł
zróżnicowania. W =
2 2 n
2
uą W badaniach statystycznych ze względu na cechę mierzalną do s1 + s2 łł
wielkość, którą odczytujemy z tablic dystrybuant rozkładu ł ł
ł łśł (xi - x)
(n1 + n2 ł 4 4 ł stopniach swobody
gdzie najczęściej szacowanych parametrów obok średniej należą wariancja 2 ł - 2)ł 1 + "
2 s1 + s2 ł i=1
normaln w oparciu o zależność
lub odchylenie standardowe badanej cechy. Najczęściej używanymi ł łł
ł
estymatorami wariancji 2 populacji generalnej są statystyki określone
an-i+1 wielkość stablicowana
P(ćłUćłd" uą)=1-ą i U~N(0,1)
wzorami:
Model III. Badamy dwie populacje generalne mające rozkłady
x i-ta wartość cechy dla wartości cech uporządkowa niemalejąca..
(i)
2
'"
n _ n _ normalne lub inne byle o skończonych wariancjach 12 i 22, które są
13. Estymacja przedziałowa średniej Następnie, przy określonym poziomie istotności ą oraz przy danej
1
2
nieznane. Na podstawie wyników dwu dużych prób (n1 i n2 co najmniej
wielkości próby n, odczytujemy z odpowiedniej tablicy wartości
s = - oraz
kryteria wyboru określonego przedziału "( s = n 1-1"( - x)2
x x)2 x
i i kilkadziesiąt) sprawdzamy hipotezę H0: m1=m2, wobec hipotezy
krytycznych dla testu Shapiro-Wilka wartość Wą.
Jeśli obliczona wartość
i=1
i=1
ufności. n alternatywnej H1: m1`"m2, gdzie m1 i m2 to odpowiednio wartość
statystyki i wartość krytyczna spełniają nierówność W e"Wą
to na
średnia w pierwszej i drugiej zbiorowości. Sprawdzianem hipotezy H0
Szacując wartość nieznanego parametru, konstruujemy na podstawie natomiast estymatorami odchylenia standardowego są najczęściej
poziomie istotności ą stwierdzamy, że brak jest podstaw do odrzucenia
jest wtedy statystyka
losowej próby przedział ufności, w którym znajduje się nieznana dla nas '"
statystyki s i . hipotezy H o normalności rozkładu zbiorowości generalnej. Jeżeli zaś
0
s
wartość szacowanego parametru. Nie mamy jednak pewności, że
zachodzi nierówność: W to hipotezę należy odrzucić na korzyść
Model I: populacja generalna ma rozkład normalny N(m,) o x1 - x2
utworzony przez nas przedział zawiera wartość szacowanego
U = hipotezy alternatywnej.
parametru, możemy tylko ustalić wiarygodność tego faktu z pewnym nieznanych parametrach m i . Z populacji tej losujemy niezależnie do
2 2
próby n elementów (liczebność nie musi być duża, n<30), na
prawdopodobieństwem, zwanym współczynnikiem ufności. Najlepszym s1 s2
'" +
estymatorem średniej wartości m populacji generalnej jest średnia
podstawie próby obliczamy s lub . Przedział ufności przyjmuje
s
n1 n2
18. Charakterystyka i zastosowanie
arytmetyczna z próby. Ma ona wszystkie cechy dobrego
wówczas postać:
x
Obszar krytyczny budujemy w analogiczny sposób jak w modelu I,
poznanych testów serii.
2 2
estymatora (zgodność, nieobciążoność, efektywność, dostateczność).
ńł ł analogicznie odczytujemy też wartość krytyczną uą.
ns ns
testy serii uzywa sie dla sprawdzenia hipotezy, że dwie populacje mają
2
Budując przedział ufności dla średniej w zbiorowości generalnej
Pł < < = 1 - ą
żł ten sam rozkład. Testy nieparametryczne mają mniejsza moc od testów
możemy napotkać trzy możliwości:
c2 c1 ł
parametrycznych, ale górują nad nimi prostotą budowy i rachunków.
ół
Model I: Populacja generalna ma rozkład N(m,), przy czym jest
Serią nazywamy każdy podciąg złożony z kolejnych elementów
lub postać równoważną:
wielkością znaną. Szacowanym parametrem jest = m, gdzie
jednego rodzaju utworzony w ciągu uporządkowanych w dowolny
m oznacza średnią w zbiorowości generalnej. Z populacji 2 2
'" '"
ńł ł sposób elementów dwu rodzajów. Gdy elementy danego ciągu są
generalnej wylosowano niezależnie próbę o liczebności n
(n
ł -1) s (n -1) s ł
2 losowe, to długość i ilość serii są zmiennymi losowymi.
elementów. Wówczas przedział ufności dla średniej m populacji Pł < < = 1-ą gdzie
żł
Model I.
otrzymuje się ze wzoru: c2 c1 ł
ł Dana jest populacja generalna o dowolnym rozkładzie. Z populacji tej
ół ł
pobrano w pewien określony sposób próbę n elementów. Należy
P{x - < m < x + } = 1- ą , gdzie
uą uą c i c są wartościami zmiennej 2 wyznaczonym z tablicy rozkładu 2 sprawdzić hipotezę, że jest to próba losowa. Test istotności dla tej
1 2
x
n n
dla n-1 stopni swobody oraz współczynnika ufności 1-ą w taki sposób, hipotezy jest następujący. Z uporządkowanego wg kolejności pobierania
oznacza obliczoną z wyników x próby średnią arytmetyczną by spełnione były relacje: elementów do próby ciągu wyników próby obliczamy medianę z próby.
i
P(2c1)=1-1/2ą, P(2>=c2)=1/2ą
Każdemu wynikowi próby x w tym uporządkowanym chronologicznie
i
znane odchylenie standardowe
Przy tych samych założeniach można wyznaczyć przedział ufności dla
ciągu przypisujemy symbol a jeśli x Me.
i
1-ą współczynnik ufności, który określa precyzję szacunku odchylenia standardowego pierwiastkując otrzymane krańce przedziału
Wynik xi=Me można odrzucić. Otrzymujemy w ten sposób ciąg złożony
ufności dla wariancji. Przedział ufności dla odchylenia standardowego
uą wielkość, którą odczytujemy z tablic dystrybuant rozkładu z symboli a i b. W ciągu tym otrzymujemy określoną liczbę serii. Przy
2
normalnego w oparciu o zależność ńł ł założeniu prawdziwości hipotezy o losowości próby liczba serii k ma
ns2 ns ł
ma postać:
Pł < < = 1 - ą znany i stablicowany rozkład zależny od n i n liczebności elementów
1 2
P(ćłUćłd" uą)=1-ą i U~N(0,1) ł żł
c2 c1 ł
ł a i b. Tablice rozkładu liczby serii podają taką wartość ką że
ół ł
Model II: Zbiorowość generalna ma rozkład N(m,), gdzie
P(kd" ką)=ą. W oparciu o ten rozkład budujemy dwustronny obszar
Model II: populacja generalna ma rozkład N(m,) lub zbliżony do
nieznana jest zarówno wartość m, jak i odchylenie standardowe w
krytyczny dla testu losowości w taki sposób, że dla przyjętego poziomu
normalnego o nieznanych parametrach m i . Z populacji losujemy
zbiorowości. Ze zbiorowości tej losujemy niezależnie próbę (zazwyczaj o
dużą próbę n-elementową (n co najmniej kilkadziesiąt), na podstawie istotności ą odczytujemy z tablic takie dwie wartości krytyczne k i k ,
1 2
małej liczebności, często nawet mniejszej od 10), na podstawie
próby obliczamy s (odchylenie standardowe z próby). Przedział ufności
aby zachodziły relacje: P(k d" k )=1/2ą i P(k d" k )=1-1/2ą
1 2
tej próby wyliczamy i s (odchylenie standardowe), korzystając ze dla odchylenia standardowego jest określony wzorem:
x
Jeżeli zajdzie jedna z nierówności kd"k lub k e"k , to hipotezę o
1 2
wzorów dla szeregu szczegółowego. Przedział ufności dla średniej m ńł ł
losowości próby należy odrzucić(otrzymaliśmy zbyt małą lub zbyt dużą
ł ł
zbiorowości generalnej ma wówczas postać:
s s ł liczbę serii). Natomiast gdy zajdzie nierówność k < k 1 2
Pł < < = 1 - ą gdzie
ł żł
s s podstaw do odrzucenia hipotezy o losowości próby.
uą
P{x - < m < x + } = 1-ą ł1 + uą 1 - ł
Model II.
tą tą
ł ł
n -1 n -1 ół 2n 2n ł Dane są dwie populacje generalne o dowolnych rozkładach badanej
lub wg wzoru równoważnego: cechy. Z populacji tych wylosowano dwie próby o liczebnościach
uą jest wartością zmiennej normalnej N(0,1) odczytanej z tablicy
'" '" odpowiednio n i n . Na podstawie wyników tych prób należy
1 2
dystrybuant rozkł. normalnego w oparciu o relacj P(ćłUćłd" uą)=1-ą.
zweryfikować hipotezę, że rozkłady obu populacji nie różnią się, czyli
s s
hipotezę H : dwie próby pochodzą z jednej populacji.
P{x - < m < x + } = 1- ą 0
tą tą
Test istotności dla tej hipotezy, oparty na rozkładzie liczby serii, jest
n n
następujący. Wyniki obu prób ustawiamy w jeden ciąg wg rosnących
wartości. Oznaczamy elementy próby z jednej populacji za pomocą
n
'"
1
symbolu a, a z drugiej za pomocą symbolu b. Odczytujemy z
gdzie
s = - x)2
"(xi niemalejącego ciągu liczbę serii k. Obszar krytyczny budujemy
n -1
i=1 lewostronnie w taki sposób, ze z rozkładu liczby serii otrzymujemy dla
odpowiednich n i n oraz dla ustalonego z góry poziomu istotności ą
1 2
tą
wartość zmiennej t -Studenta odczytana z tablicy tego rozkładu dla
taką wartość krytyczną ką by P(kd" ką)=ą. Jeżeli otrzymamy liczbę
n-1 stopni swobody w taki sposób, by spełniona była relacja:
serii k z danego ciągu, która spełnia nierówność kd" ką , to hipotezę H
0
P(|t|< tą) = 1-ą
odrzucamy, tzn. dwie próby różnią się istotnie. W przeciwnym wypadku
Model III: Populacja generalna ma dowolny rozkład o średniej m i
nie ma podstaw do odrzucenia hipotezy, że rozkłady obu populacji są
skończonej wariancji 2 (nieznanej). Aby można było oszacować
takie same.
parametr m, pobieramy niezależnie dużą próbę, wyniki najczęściej
grupujemy w szereg rozdzielczy i na jego podstawie wyliczamy oraz
x
odchylenie standardowe s. Przedział ufności dla średniej m w populacji
generalnej przyjmuje wtedy postać:
s s
P{x - < m < x + } = 1-ą
uą uą
n n
Wartość uą
odczytujemy w analogiczny sposób, jak w modelu I.
19.Testy istotności dla współczynnika 21.Rodzaje szeregów czasowych i metody 22. Charakterystyka i zastosowanie 24. Metoda wyodrębniania wpływu
korelacji liniowej i dla współczynnika ich analizy. agregatowych indeksów wartości, ilości i czynnika sezonowego. Podać przykłady
Analizę dynamiki zjawisk masowych przeprowadza się na podstawie
regresji. cen. występowania sezonowości zjawisk.
szeregów czasowych (dynamicznych, chronologicznych).
Model I Test istotności dla współczynnika korelacji Indeksy zespołowe (agregatowe) pozwalają analizować zmiany wartości Zmiany zjawisk zależą w pewnym stopniu od zmiany przyczyn o
Szeregiem czasowym nazywamy ciąg wartości badanego zjawiska
Dwuwymiarowy rozkład badanych cech X i Y w populacji generalnej jest , cen oraz ilości zbioru (grupy produktów,artykułów ) które nie są charakterze sezonowym. Sezonowość obserwowana jest nie w skali
obserwowanego w kolejnych jednostkach czasu. W szeregach
normalny lub zbliżony do normalnego. Z populacji tej wylosowano jednorodne, czyli ich poszczególne składniki nie są sumowalne. roku a w podokresach roku. Wyodrębnienie tego czynnika jest ważne
czasowych zmienną niezależną jest czas, natomiast zmienną zależną
niekoniecznie dużą próbę n-elementową. Na podstawie wyników tej przy dokonywaniu wszelkiego rodzaju prognoz.
wartości liczbowe badanego zjawiska: p ,p
o 1- ceny jednostkowe pewnego towaru odpowiednio w okresie
próby należy sprawdzić hipotezę, ze zmienne X i Y nie są skorelowane, Wyróżnić można 2 metody wyodrębnian wpływu czynnika sezonowego:
Zmienna niezależna może być ujmowana różnie, w zależności od celu podstawowym i w okresie badanym
---- metoda mechaniczna - oparta jest na obliczen średnich ruchomych
tzn. hipotezę H0 : = 0 wobec hipot alternatywnej H1 : `" 0 badania i właściwości zjawisk masowych. Zjawiska zmieniające się
q , q -----metoda analityczna polega na wykorzystaniu przy obliczaniu tzw.
0 1- ilości towaru w okresie podstawowym i badanym
wolno są ujmowane w pewnych ściśle określonych momentach. Szeregi
Obliczamy z próby r zgodnie z wzorem : wskazników sezonowości równania linii trendu.
zbudowane w ten sposób noszą nazwę szeregów czasowych
p q
1 1 Przyjmijmy, że podstawą naszych obliczeń będą informacje dotyczące
n
momentów. Szeregi czasowe zawierające informacje o rozmiarach
ńł i = i = ;;I
p q w- agregatowy indeks wartości
wielkości zjawiska w pewnych podokresach określonego przedziału
- x)( yi - y) zjawiska w pewnych dłuższych lub krótszych okresach (np.
p q
"(xi
ł czasowego. Załóżmy, że równanie wyznaczonej linii trendu ma postać:
0 0
półrocze, kwartał) nazywamy szeregami czasowymi okresów.
i=1
ł
n
Przeciętny poziom zjawisk przedstawionych w postaci szeregów n
w = a + bt
n n
ł
czasowych okresów przy założeniu, że przyjęte przedziały czasowe są
* *
" p q " p q
- x)2 Wówczas wskazniki sezonowości wyznaczane są przy pomocy wzoru:
ł "(xi "( yi - y)2 równe oblicza się za pomocą średniej arytmetycznej. 1i 1i 1 1
i=1 i=1
ł
i =1 i =1 Do obliczania średniego poziomu zjawisk przedstawionych w formie
I = lub prostszy zapis I = yi(t)
w w
n
ryx = n "
ł
r
szeregów czasowych momentów wykorzystuje się średnią
t
* 2
ł - x)( yi - y)nij chronologiczną. Oblicza się ją wg wzoru: " p q " Oi = ; i = 1, 2, ..., d
& & " p q
"(xi 0i 0i
0 o
wi(t)
i=1
ł i=1 "
i =1 1 1
t
y1 + ... + yn-1 + yn
ł
n r Gdzie I agregatowy indeks wartości badanego zespołu artykułów;
w
2 2
ł ych = yi(t) wi (t)
& - x)2 ni" &
" "
"(xi "( yi - y)2 n" j Łq p suma wartości badanego zespołu w okresie badanym; Gdzie i oznaczają odpowiednio sumy
1 1
n -1
ł
i=1 i =1 t t
ół
Łq0p0 suma wartości badanego zespołu w okresie podstawowym.
gdzie: y , y , & , y oznaczają wielkość badanego zjawiska w
1 2 n wartości empirycznych i teoretycznych dla okresów jednoimiennych.
Operowanie jedynie indeksem wartości jest niewystarczające, gdyż nie
& &
xi, y - średnie poszczegól przedziałów klasowych zmiennych X i Y kolejnych momentach. Rozwój zjawisk przedstawiony za pomocą d liczba podokresów wyróżnionych w roku
j
wiemy, który z czynników (ceny lub ilości) miał większy wpływ na
szeregów czasowych może być właściwie oceniony wówczas, gdy d
stwierdzony wzrost lub spadek wartości produkcji. Zachodzi zatem
nij - liczebność dla poszczególnej kratki tablicy poszczególne wyrazy szeregów czasowych są wielkościami
2
konieczność obliczenia dodatkowych indeksów, które informowałyby, co Jeżeli `" d , to obliczamy tzw. skorygowane wskazniki
"Oi
jednorodnymi i porównywalnymi.
było przyczyną wzrostu lub spadku wartości produkcji. Indeksy te noszą
i=1
ni",n" j - liczebności brzegowe tablicy korelacyjnej Porównywalność danych statystycznych przedstawionych w formie
nazwę agregatowych indeksów cen i agregatowych indeksów ilości.
szeregów czasowych jest możliwa, gdy spełnione są określone
d
Jeśli założymy we wzorze indeksów wartości, że ceny porównywanych
Sprawdzianem tej hipotezy jest statystyka t postaci:
warunki:
R =
wyrobów w porównywanych latach nie zmieniały się i były takie jak w
d
Zjawiska przedstawione w szeregach czasowych powinny być wyrażone
ryx sezonowości wg wzoru: 2
Oi = Oi " R
okresie podstawowym, wówczas otrzymamy agregatowy indeks ilości o
w tych samych jednostkach miar; Szeregi czasowe okresów mogą być
2
t = n - 2 n "Oi
porównywane z szeregami czasowymi okresów, a szeregi czasowe
2
i=1
1- ryx momentów z szeregami czasowymi momentów, przy czym muszą one *
" p q
0 1 Wpływ badań sezonowych wyrażony w wielkościach absolutnych
dotyczyć tych samych momentów lub okresów; Badane w czasie
i=1
Statystyka ta ma przy założeniu prawdziwości hipotezy H0 rozkład obliczamy wg wzoru:
zjawiska powinny dotyczyć tego samego obszaru terytorialnego; formule Laspeyresa: I =
L q
n
t-Studenta z n-2 stopniami swobody. Z tablicy rozkładu t Studenta dla d
W szeregach dynamicznych okresów przedziały czasowe powinny być
ł ł
*
ustalonego z góry poziomu istotności ą i dla n-2 stopni swobody p q
jednakowe. "
gi (t) = Oi y - y , ł (t) = 0ł
0 0 "gi
Proste metody badania zmian szeregu dynamicznego i=1
ł i=1 łł
odczytujemy wartość krytyczną tą tak, by P( t e" tą )=ą
1. Przyrosty absolutne - Odejmowanie dwóch wielkości liczbowych
Gdyby natomiast przyjąć założenie,że w porównywanych latach ceny
daje w wyniku dodatni lub ujemny przyrost absolutny. Przyrosty
jednostkowe towarów nie zmieniały się i były takie jak w okresie y - średnia okresowa wielkość danego zjawiska
a) Jeżeli t e" tą , to hipotezę H0 o braku korelacji między absolutne mogą być obliczane w stosunku do jednego okresu
podstawowym, wówczas otrzymamy agregatowy indeks ilości
(momentu) przyrosty absolutne o podstawie stałej (jednopodstawowe)
n
* np. gdy wskaznik sezonowości dla I kwartału
O1 = 0,926
zmiennymi należy odrzucić, tzn. że między tymi zmiennymi istnieje
lub też okresu stale zmieniającego się przyrosty absolutne o podstawie
zależność korelacyjna. *
zmiennej (łańcuchowe). Przyrosty absolutne informują o tym, o ile " p q oznacza, że w każdym pierwszym kwartale w badanym okresie wielkość
1 1
jednostek wzrósł lub zmalał poziom badanego zjawiska w okresie sprzedaży towaru była niższa o 7,4% od średniej kwartalnej wielkości
i=1
W przypadku nierówności t < tą stwierdzamy, że brak jest
Paaschego: Iq=
(momencie) badanym w porównaniu z okresem przyjętym za podstawę. p sprzedaży towaru w wyniku oddziaływania czynnika sezonowego.
n
2. Przyrosty względne - Przyrostem względnym nazywamy iloraz
podstaw do odrzucenia hipotezy sprawdzanej H0 , że zmienne X i Y są *
przyrostów absolutnych zjawiska do jego poziomu w okresie " p q
1 0
(momencie) przyjętym za podstawę do porównań. Przyrosty względne
nieskorelowane. Gdy hipoteza alternatywna precyzuje znak i=1
podobnie jak absolutne mogą być jednopodstawowe lub łańcuchowe.
Jeżeli założymy, że w formule indeksu wartości ilości towarów w
współczynnika korelacji, tzn. gdy jest H1 : < 0 lub H1 :
Informują o tym, o ile wyższy lub niższy jest poziom badanego zjawiska
porównywanych okresach nie zmieniały się, wówczas otrzymamy
w danym okresie w stosunku do okresu bezpośrednio poprzedzającego
agregatowy indeks cen. Gdy założymy, że w porównywanych okresach
> 0 , wówczas w tym teście korzystamy z obszaru krytycznego
(przyrosty względne łańcuchowe) lub w porównaniu z okresem
ilości towarów nie zmieniały się i były takie jak w okresie badanym,
przyjętym za podstawę (przyrosty względne jednopodstawowe).
odpowiednio lewostronnego lub prawostronnego. wówczas otrzymamy agregatowy indeks cen o formule Laspeyresa:
Przyrosty względne określane są mianem wskazników tempa wzrostu.
Test istotności dla współczynnika regresji liniowej
n
Wskazniki dynamiki (indeksy) - Indeksem nazywamy każdą liczbę
W analizie regresji sprawdzana jest często hipoteza dotycząca istotności
względną powstałą przez podzielenie wielkości danego zjawiska w *
otrzymanego z próby współczynnika regresji liniowej. " p q
1 0
okresie badanym (sprawozdawczym) przez wielkość tego zjawiska w
Dwuwymiarowy rozkład badanych dwóch cech X, Y w populacji
i=1
okresie podstawowym (bazowym). Jeżeli poziom zjawiska w okresie I =
generalnej jest normalny lub zbliżony do normalnego. Z populacji tej L p
n
wylosowano do próby n elementów i otrzymano wyniki (momencie) badanym oznaczamy symbolem y , a w okresie
1
*
(momencie) podstawowym symbolem y0 to wzór na indeks przyjmuje
(x , y ) (i=1,2,..., n). Na podstawie wyników tej próby należy " p q
i i
0 0
i=1
sprawdzić hipotezę, że współczynnik regresji liniowej funkcji regresji postać: i = y1 : y0 Indeks jest wielkością niemianowaną i może
0
Jeśli założymy, że w porównywanych okresach ilości towarów nie
y=ą+ x w populacji ma określoną wartość, tj. hipotezę:
0
być wyrażony w ułamkach lub w procentach. Jeżeli indeks przyjmuje
zmieniały się i były takie jak w okresie badanym, wówczas otrzymamy
H : = 0 wobec hipotezy alternatywnej H1 : `" 0 wartość z przedziału 0 < i < 1, to świadczy to o spadku poziomu
0
agregatowy indeks cen o formule Paaschego:
zjawiska w badanym okresie w stosunku do okresu podstawowego.
Jeżeli współczynnik regresji okaże się istotnie różny od 0, wówczas n
Wartość większa od 1 (lub od 100%) świadczy o wzroście poziomu
funkcja regresji może być wykorzystywana do sporządzania prognoz.
*
zjawiska w okresie badanym w stosunku do okresu podstawowego. p q
"
Jeśli zaś współczynnik regresji z próby nie okaże się istotnie różny od 0,
1 1
Wartość indeksu równa 1 świadczy o tym, że poziom zjawiska w
i=1
to oznacza, że funkcja regresji w zbiorowości może być stała, co
I =
okresach badanym i podstawowym są takie same. p p
n
wskazuje na brak zależności między badanymi zmiennymi.
W zależności od przyjętej podstawy wyróżniamy indeksy
Na podstawie wylosowanej próby, wykorzystując metodę najmniejszych
*
" p q
jednopodstawowe lub łańcuchowe.
0 1
kwadratów, wyznaczamy równanie linii regresji postaci w = a + bx i=1
Ciąg indeksów o podstawie stałej zapisujemy następująco:
Agregatowe indeksy cen i ilości obliczone wg formuł standaryzacyjnych
; następnie obliczamy wartość sprawdzianu, który ma postać:
y1 y2 yn-1 yn
Laspeyresa i Paaschego dla tego samego zespołu artykułów zwykle
, ,...., ,
różnią się między sobą. Przyjmuje się, że jeżeli układ wyjściowy
b - 0 n 2 y1 y1 y1 y1
t = informacji na to pozwala, wskazane jest obliczenie indeksów wg
"( xi - x)
Ciąg indeksów łańcuchowym (oparty na zasadzie odnoszenia poziomu
Sr i =1 obydwu formuł standaryzacyjnych.
badanego zjawiska z okresu badanego do poziomu tego zjawiska w z
Między indeksami zachodzą tzw. równości indeksowe,
okresu bezpośrednio poprzedzającego) zapisujemy następująco:
n
wykorzystywane do obliczania indeksów tzw. metodą pośrednią:
1
2
y2 y3 yn-1 yn
gdzie Sr = yi - w)
"(
, ,...., ,
I = I I
w L q*p p
n - 2
i=1 y1 y2 yn-2 yn-1
Wartości sprawdzianu porównujemy następnie z wartością krytyczną
I = I I
Do oceny tempa zmian zjawiska w pewnym okresie czasu w p q*L p
wykorzystywany jest miernik nazywany średnim okresowym
tą , którą przy określonym poziomie istotności ą i (n-2) stopniach
tempem zmian zjawiska, definiowany jako średnia geometryczna z
swobody odczytujemy z tablic wartości krytycznych rozkładu t-Studenta.
indeksów łańcuchowych, które dla danego okresu mogą być obliczone.
Jeżeli spełniona jest zależność t e" tą , wówczas hipotezę H
0 23. Metody wyodrębniania głównej
yn
G= yg = i2i3i4i...i = n-1
tendencji rozwojowej zjawisk oraz
odrzucamy na korzyść hipotezy alternatywnej, tzn. `" 0 . n-1 n
y1
1 2 3 n-1 wpływu czynnika przypadkowego.
Gdy hipoteza alternatywna jest sformułowana w postaci :
H0 Model zmian w czasie
H1 : < 0 , to odrzucam na korzyść , gdy t d" tą n - liczba okresów ;; Do interpretacji wykorzystujemy (G-1)100%
H1
yt = f (t) + q(t) + z(t)
H1 : > 0 , to H0 odrzucam na korzyść , gdy t e" tą
H1
f(t)-trend (tendencja rozwojowa)
q(t)-wahania okresowe (sezonowe)
20. Test niezależności chi- kwadrat.
z(t)-wahania przypadkowe (losowe)
Metoda pomiaru siły zależności
Identyfikacji trendu możemy dokonać dwiema metodami:
1. metoda mechaniczna- polega na zastępowaniu danych
korelacyjnej w przypadku cech
empirycznych (z kolejnych okresów) średnimi ruchomymi z okresu
niemierzalnych.
badanego i kilku okresów przyległych. Dzięki zastosowaniu średnich
test niezależności chi- kwadrat- za pomocą tego testu możemy
ruchomych eliminuje się wartości przypadkowe i otrzymuje się wartości
zweryfikować hipotezę że dwie badane cechy są niezależne.
będące wynikiem działania czynników głównych.
Hipotezę sprawdzaną H formułujemy:
0 2. metoda analityczna- polega na wyznaczaniu równania linii w taki
0 i i i i
H :P(X=x , Y=y ) = P(X=x )* P(Y=y sposób aby linia ta była w najlepszym stopniu dopasowana do danych
empirycznych. W przypadku gdy podstawę naszych badań stanowi
Hipotezę alternatywną H1 formułujemy: H1:~ H0
szereg czasowy , możemy sporządzić jego wykres na płaszczyznie. W
W celu zweryfikowania prawdziwości tej hipotezy z badanej zbiorowości
niektórych przypadkach punkty na płaszczyznie skupione są wokół
losujemy dużą próbę a jej wyniki grupujemy w postaci tzw. tablicy
pewnej prostej. Istnieje możliwość znalezienia równania tej linii, która
r s
nazywana jest linią trendu. W celu wyznaczenia linii trendu, czyli
(nij - npij )2
2
równania prostej najlepiej dopasowanej do danych empirycznych,
niezależności. =
""
stosuje się metodę najmniejszych kwadratów. Przyjmijmy, że
npij
i =1 j =1
poszukiwana linia ma równanie: y^ = a +bt
Wartość tego sprawdzianu porównujemy z wartością krytyczną ż2ą
Spośród wszystkich możliwych linii, które można by poprowadzić przez
którą przy danym poziomie istotności ą oraz dla (w-1)(k-1) stopni
punkty będące wykresem szeregu czasowego, najlepiej do tych
swobody odczytujemy z tablicy wartości krytycznych rozkładu ż2 w punktów dopasowana będzie ta linia, której równanie spełnia warunek:
2 2
oparciu o następującą zależność: P( e" ą ) = ą ., Ł(yi y^i)2 = min relacja ta oznacza, że suma kwadratów
różnic wartości empirycznych i teoretycznych zmiennej y osiągać musi
U2 ~ż2o (w-1)(k-1) st. swobody
N
minimum. F(a,b) = Ł (y )2 = min
i=1 i -a bt
i
Jeżeli spełniona jest nierówność (ż2e"ż2ą) wówczas na poziomie
Poszukujemy minimum funkcji F(a,b). Warunkiem koniecznym istnienia
istotności ą hipotezę sprawdzaną H odrzucamy na korzyść hipotezy
0
ekstremum tej funkcji jest:
alternatywnej, co oznacza że badane zmienne są zależne.
F/a =0 i F/b=0
Jeżeli(ż2<ż2ą) stwierdzamy, że brak jest podstaw do odrzucenia
rozpisując układ tych 2 równań otrzymujemy 2 równania o 2
hipotezy sprawdzanej H niewiadomych, które nazywamy układem równań normalnych:
0
Istnieje wiele metod pomiaru zależności korelacyjnej w przypadku cech N N
Ł y =a N + bŁ t
i=1 i i=1 i
niemierzalnych, np. współczynnik Youl a czy V Cramera, jednak
N N N 2
najwygodniejszy jest współczynnik kontyngencji C Pearsona, gdyż może
Ł y t = a Ł t +b Ł t
i=1 i i i=1 i i=1 i
być stosowany przy tablicach wielodzielnych dowolnej wielkości i
rozwiązaniem tego układu jest para liczb a i b, które są parametrami
dowolnej formy. Wartości tego miernika zawarte są w przedziale <0,1>
poszukiwanego równania linii trendu.
Bliskie 1 wartości C świadczą o silnej zależności.
Parametr b nazywamy współczynnikiem kątowym równania linii
Współczynnik C- Pearsona obliczany jest w oparciu o następujący wzór:
trendu. Informuje, jak średnio zmienia się wielkość zjawiska z okresu na
C= " ( ż2 /ż2+N)
okres. Równanie linii trendu wykorzystywane jest w praktyce do
sporządzania prognoz, czyli do przewidywania wielkości zjawiska w
r s
(nij - npij )2
2 przyszłości. Prognoza taka będzie miała sens jeśli w przyszłości
Gdzie =
"" charakter dotychczasowej tendencji rozwojowej zjawiska nie zmieni
npij
i =1 j =1 się. Na zmiany zjawiska wpływają czynniki losowe (przypadkowe), które
można wyodrębnić porównując rzeczywistą wartość badanej cechy y z
jej teoretyczną wartością skorygowaną o wahania sezonowe. Wielkość
błędu prognozy możemy ocenić za pomocą odchylenia standardowego
resztowego, obliczanego wg wzoru:
N
S = "{[Ł (y y^ )2]/N-2}
y i=1 i i
Wyszukiwarka
Podobne podstrony:
kzu pytania na egzamin opracowanie
Pytania na egzamin opracowane Romek
Pytania na egzamin opracowanie
Medycyna Katastrof pytania na egzamin (opracowane)
tematy do opracowania na egzamin z PC
opracowania na egzamin1
KJPS opracowanie na egzamin
03 ASK Opracowania na egzaminidA35
Opracowanie na egzamin z geodezji I, wesja 2(1)pdf
[ASK] Opracowanie zagadnień na egzamin w trakcie składania
Opracowanie Zagadnień na egzamin Mikroprocki
Kartografia opracowanie pytań na egzamin
Opracowanie na egzamin z fizyki, semestr I(1)
więcej podobnych podstron