Wnioskowanie statystyczne a statystyka opisowa
*statystyka opisowa- oparta jest na indukcji zupełnej, ukazuje metody gromadzenia, opracowania i prezentacji danych wraz z sumarycznym ich opisem przy wykorzystaniu właściwych narzędzi statystycznych
*statystyka matematyczna- oparta jest na indukcji niezupełnej
-teoria estymacji-metody estymacji umożliwiają szacunek nieznanych parametrów populacji na podstawie próby
-teoria weryfikacji hipotez stat.- pozwala na sprawdzanie hipotez o parametrach lub kształcie rozkładu.
*wnioskowanie statystyczne- jest procedurą podejmowania decyzji o parametrach i rozkładach w zbiorowości generalnej na podstawie wyników próby.
Podstawowymi kategoriami stosowanymi w procedurze wnioskowania stat. są zmienne losowe i ich rozkłady teoretyczne.
Zdarzeniami losowymi nazywamy takie wyniki poprzez realizację danego doświadczenia (procesu), które mogą w określonym zespole warunków wystąpić lub nie wystąpić. W doświadczeniach, których wynik jest zdarzeniem losowym wyróżniamy:
-zdarzenia złożone- składa się ze zdarzeń elementarnych, nie dających się określić za pomocą zdarzeń prostych, np. uzyskanie parzystej liczby oczek-składa się ono z trzech zdarzeń
Jeśli każdorazowa realizacja określonego doświadczenia daje w wyniku te samo zdarzenie A, to zdarzenie A nazywamy zdarzeniem pewnym.
Jeśli każdorazowa realizacja określanego doświadczenia nie daje zdarzenia A, to zdarzenie A nazywamy niemożliwym.
Jeśli zaś realizacja określonego doświadczenia niekiedy prowadzi do zdarzenia A, a niekiedy do zdarzenia A nie prowadzi to zdarzenia A nie prowadzi to zdarzenie A jest zdarzeniem losowym (przypadkowym). Zdarzenie losowe charakteryzuje się tym, że jego wynik nie może być ściśle określony przed realizacją.
Zdarzenia losowe to taka zmienna, która w wyniku doświadczenia przyjmuje określoną wartość znaną po zrealizowaniu tego doświadczenia, a nie dająca się przewidzieć przed tym doświadczeniem zmienna losowa może przyjmować wartość z pewnego przedziału liczb rzeczywistych i to z określonym prawdopodobieństwem P(x=xi)=pi
Prawdopodobieństwo pi można traktować jako funkcja wartości przyjmowanych przez zmienną losową pi=f(xi) n
Suma prawdopodobieństwa pi jest równa jedności ∑f(xi)=1
i=1
Zmienne losowe oznaczamy dużymi literami np. X,Y,Z, natomiast wartości przybierane przez zmienne losowe zwane realizacjami oznaczamy małymi literami np. x,y,z. Każde zadanie może być scharakteryzowane tylko jedną z możliwych wartości zmiennej losowej X.
Funkcje przyporządkowujące realizacją zmiennej losowej X odpowiadające im prawdopodobieństwo nazywamy funkcją prawdopodobieństwa.
Pojęciem związanym ze zmienną losową i jej rozkładem jest pojęcie dystrybuanty. Dystrybuantą zmiennej losowej x nazywamy funkcje F(x) zmiennej rzeczywistej x określonej wzorem F(xi)=P(X≤xi)
Właściwości dystrybuanty:
- przyjmuje wartości z przedziału od 0 do 1
- jest f. niemalejącą tzn. dla x1<x2 zawsze F(x1)≤F(x2)
- jest f. lewostronnie ciągłą
- F (-∞)=0 , F(+∞)=1
Rozkłady empiryczne i teoretyczne zmiennej losowej warunkują przeprowadzenie uogólnionego opisu zbiorowości statystycznej.
Rozkłady empiryczne pochodzą z obserwacji, ustawione są na podstawie konkretnych wielkości.
Rozkłady teoretyczne aproksymowane są za pomocą rozkładów probabilistycznych.
Rozkład zmiennej losowej może być przedstawiony za pomocą f.matematycznej formującej zależności pomiędzy wartością zmiennej Osowej a wartością lub prawdopodobieństwem jej wystąpienia.
Parametry rozkładu zmiennej losowej x (najważniejsze)
- wartość oczekiwana (matematyczna)-średnia arytmetyczna rozkładu zmiennej losowej X w zbiorowości generalnej.
- wariancja oraz odchylenie standardowe.
Zmienna losowa x jest odpowiednikiem używanego w statystyce opisowej pojęcia cechy (zmiennej), przy czym w odniesieniu do zmiennej losowej poszczególnym jej wartością odpowiadają określone prawdopodobieństwa realizacji.
Zmienna losowa skokowa to taka zmienna, która ma przeliczony lub skończony zbiór wartości np. liczba dzieci w rodzinie.
Zmienna losowa ciągła to taka zmienna , która przyjmuje dowolne wartości liczbowe z określonego przedziału, np. wzrost, wiek.
Podstawowe rozkłady :
*zmienna losowa skokowa
-rozkład zerojedynkowy (50 na 50)
-rozkład dwumianowy (Bernoulliego)
-rozkład Poissona
*zmienna losowa ciągła]-rozkład normalny Gaussa-Laplace’a
Rozkład zerojedynkowy jest rezultatem takiego doświadczenia w wyniku którego, określone zdarzenie A wystąpi lub nie wystąpi. Zdarzeniem elementarnym, realizującym zdarzenie A jest liczba 1 a zdarzeniom elementarnym nie realizującym zdarzenia A jest liczba 0 . Z rozkładem zerojedynkowym mamy do czynienia np. przy jednorazowym rzucie monetą : P(x=1)=1/2 ; P(x=0)=1/2
Rozkład dwumianowy Bernoulliego- korzystamy z niego wówczas, gdy chcemy określić prawdopodobieństwo wystąpienia K razy określonego zdarzenia w n niezależnych doświadczeniach przy danym prawdopodobieństwie p : P(x=k)=[ n! / k! ( n- k) !] pk q n-k
Jeśli p=q rozkład symetryczny
p≠q rozkład asymetryczny : asymetria + p<q
asymetria – p>q
p=q i n → ∞ rozkład przekształca się w rozkład normalny
Podstawowe parametry
- wartość oczekiwania E(x)=np.
- wariancja σ2(x)=npy
- odchylenie standardowe σ(x) = √npq
Rozkład Poissona – jest szczególnym przypadkiem rozkładu dwumianowego, wykorzystuje się go wówczas, gdy :
- liczba doświadczeń dąży do nieskończoności (n→∞)
- prawdopodobieństwo p maleje do 0 (p→0)
- liczony np= λ jest wielkością stała (λ >0)
P(x=K) λⁿ ∙℮‾λ / k!
Gdzie :
e=2,1718 -podstawa logarytmu normalnego
λ=np - stały parametr rozkładu
k=n - liczba realizacji elementów wyróżnionych w n doświadczeniach
Rozkład normalny Gaussa-Laplace’a- zmienna losowa ciągłą x ma rozkład normalny, jeśli jej funkcja gęstości prawdopodobieństwa wyraża się wzorem :
1 - (x-M)2
F(x)= σ √2π * e 2 σ2
Gdzie
M=M(x) - wartość oczekiwania
F(x) - funkcja gęstości rozkładu normalnego
σ = σ(x) -odchylenie standardowe
e= 2,1718 - podstawa logarytmu naturalnego
Wykresy krzywych normalnych mają właściwości:
- krzywa normalna jest krzywą w kształcie dzwonu
- funkcja f(x) ma jedno maksimum w pkt. x=M, maksimum to jest jednocześnie wartością oczekiwaną, medianą i dominantą rozkładu
- pole funkcji f(x) obejmuje wszystkie liczby rzeczywiste
- wewnątrz przedziału od n=6 do M=+5 krzywa jest wypukła
‗
X = D = Me
- ∞ ∞
Pole powierzchni pod krzywa normalną = 1 ‗
Wprowadza się zmienną standaryzowaną U, którą można zdefiniować U= x – m / σ
x -średnia arytmetyczna z próby
m -średnia z populacji generalnej
σ -odchylenie standardowe z populacji
S(x) -odchylenie z próby
ESTYMACJA – zasady estymacji
Estymacja –polega na tym, że podstawie niekompletnych danych pochodzących z próby wnioskuje się o wartościach liczbowych zbiory a otrzymane w ten sposób wnioski służą za podstawę do podejmowania decyzji (zwłaszcza dla ekonomistów)
Wyróżniamy estymację :
- punktową
- przedziałową
Stosując estymację punktową doliczamy pojedynczą liczbę dla każdego nieznanego parametru np.:
- estymatorem średniej arytmetycznej jest średnia arytmetyczna z próby
- estymatorem wariancji populacji jest wariancja z próby
Estymacja przedziałowa polega na zwanego przedziałem ufności, który z dużym prawdopodobieństwem obejmuje prawdziwe wartości parametrem
Właściwości dobrego estymatora
- nie obciążalność, gdy wartość oczekiwana estymatora jest równa parametrowi z próby
- zgodność z prawem wielkich liczb, oznacza prawdopodobieństwa że estymator jest zgodny i rośnie wraz ze wzrostem liczebności próby
- efektywność, oznacza że estymator powinien mieć jak najmniejsze odchylenie standardowe lub małą wariancję.
Przedział ufności dla średniej.
Model 1. – jeśli populacja generalna ma rozkład normalny N ze znanym odchyleniem standardowym σ i próba pochodząc z populacji jest liczną n> 30, to przedział ufności dla średniej m przy współczynniku ufności 1- ∂ ma postać P { x – itd.
Współczynnik ufności – przyjmuje się subiektywnie jako dowolnie duże, bliskie jednostki prawdopodobieństwo. Jest to miara zaufania do przeprowadzonego szacunku. Najczęściej przyjmuje się współczynnik ufności : 0,90; 0,95 bo pragniemy aby w 95 przypadkach na 100 estymowany parametr mieścił się w szacunkowym przedziale.
Długość przedziału ufności zależy od przyjętego współczynnika ufności, im większy jest przedział ufności tym większą mamy pewność, że średnia mieści się w podanych granicach, a to z kolei oznacza, że przeprowadzony szacunek jest mniej dokładny. Przyjmując natomiast wąski przedział ufności mamy mniejszą pewność, że średnia populacji generalnej mieści się w zakreślonych ramach a współczynnik ufności jest bardzo niski.
Model 2. jeśli populacja generalna ma rozkład normalny N(m,σ) przy czym nie znana jest ani średnia arytmetyczna ani odchylenie standardowe z populacji tej pobrano mała próbę (n<30) i przy tych założeniach wyznaczamy przedział ufności wg. wzoru:
Stopnie swobody – liczba nie zależnych obserwacji niezbędna do oszacowania nieznanego parametru populacji
Model 3. w przypadku gdy cecha x ma w populacji dowolny rozkład i nieznane jest odchylenie standardowe σ populacji, a próba pochodząca z tej populacji jest duża (n>30), to do wyznaczenia przedziału ufności dla średniej m przy współczynniku L można zastosować wzór :
2. Przedział ufności dla wskaźnika struktury.
W przypadku analizy statystycznej prowadzonej na cechę jakościową (niemierzalną) podstawowym parametrem populacji generalnej jest wskaźnik struktury(zwany też frakcją lub prawdopodobieństwem „sukcesu”) lub po pomnożeniu przez 100% elementów posiadających wyróżnioną cechę w zbiorowości
Wskaźnik struktury w populacji określający udział wyróżnionej części w całej populacji oznaczać będziemy symbolem p, zaś zaś jego estymatorem jest wskaźnik struktury z próby losowej m/n – liczba jednostek
m – liczba jednostek w próbie mającej wyróżnioną cechę
n – liczebność prób
gdzie
m/n – wskaźnik struktury z próby losowej
Ud – odczytujemy z tabeli
Jakość oszacowanego parametru p będzie wzrastać wraz ze wzrostem liczebności prób. Względną precyzję oszacowanej próby p wyznaczamy ze wzoru:
Wyznaczanie niezbędnej liczebności prób –
-minimalna liczebność prób przy estymacji (próby)
-średniej ze znanym odchyleniem standardowym
-( w tym przykładzie nie znamy liczebności prób.
Minimalna liczebność próby, niezbędną do oszacowania wartości średniej m na poziomie ufności 1-L, z max błędem szacunku nie przekraczającym d, ze wzoru
n= Ud2 * σ / d2
gdzie
σ - odchylenie standardowe populacji
Ud2 – wartość zmiennej losowej w standaryzowanym rozkładzie normalnym, odczytywane z tablic rozkładu normalnego
d - dopuszczalny, ustalony z góry maksymalny błąd szacunku średniej m.
- jeśli n nie jest liczbą całkowitą to zaokrąglamy w górę , np. 15,02=16,00
- jeśli wariancja populacji jest nieznana ale znana jest wariancja (odchylenie standardowe d2) uzyskana z małej wstępnej próby o liczebności , wówczas minimalną liczebność próby potrzebną do oszacowania średniej m można określić ze wzoru n=td2 * S(x)2 / d2
Gdzie
S(x)2 -wartość zmiennej losowej t –studenta odchylone z tabeli rozkładu dla no-1 stopni swobody oraz współczynnika ufności 1-L
d - dopuszczalny, ustalony z góry maksymalny błąd szacunku średniej m.
- jeśli obliczana liczebność prób n spełnia nierówność n ≤no to liczebność próby wstępnej jest wystarczająca
- jeśli natomiast n > no to należy dolosować do właściwej próby jeszcze n-no elementów.
Minimalna liczebność próby przy szacunku frakcji ze znaną wielkością frakcji-
W przypadku, gdy możliwe jest przeprowadzenie badania wstępnego (pilotażowego) to minimalna liczebność próby, która gwarantuje żądaną precyzję przy szacowaniu wskaźnika struktury p, przy założonym maksymalnym błędzie szacunku d wyznaczamy ze wzoru :
-gdy nieznany rzędu wielkości szacowanego wskaźnika struktury, to obliczamy go ze wzoru: