Statystyka pytania

Dlaczego statystyka matematyczna ma różne zastosowanie w różnych dziedzinach działalności praktycznej i naukowej?

Statystyka służy do w miarę wiarygodnego wnioskowania o prawidłowościach zjawisk na podstawie reprezentatywnych danych z empirycznych obserwacji tych zmiennych z różnych dziedzin.

Możemy wyciągać wnioski z danych zbieranych w zjawiskach masowych, biologicznych, technologicznych i zastosować metody statystyczne do planowania czynnikowych zjawisk technologicznych oraz ilustrować metody na rzeczywistych przykładach z badań naukowych. Statystyka modeluje nam pewne zjawiska deterministyczno - losowe; zwiększamy wiarygodność wniosków. Przydatna tam gdzie wnioskujemy z danych.

Działy badawcze (naukowcy)opis nieznanych prawidłowości
Można wnioskować z danych o pogodzie.

Czym zajmuje się statystyka matematyczna i dlaczego ma zastosowanie w badaniach experymentalnych?

Modelowanie matematycznych zjawisk badawczych, empirycznych
Zasadami wnioskowania o prawidłowości zjawisk przy użyciu rachunku prawdopodobieństwa na podstawie danych obserwacyjnych

Ułatwia prace badawcze i obiektywne wnioskowanie z danych.

Jakie znaczenie mają zmienne losowe w statystyce matematycznej?

Opis wniosków zjawisk masowych, które z natury rzeczy nie są w pełni kontrolowane.

Zmienna losowa - niekontrolowana wielkość, której wartość pojawia się poza naszą wolą z określonym prawdopodobieństwem. Zmienna losowa powstaje w wyniku przyporządkowania każdemu zdarzeniu elementarnemu liczby rzeczywistej. Rozróżniamy:

Zmienne jakościowe (np. kategorie surowca do sprzedaży)
Zmienne ilościowe, skokowe (np. liczba bakterii w próbce surowca)
Zmienne ilościowe, ciągłe (np. zaw. wit. C w mrożonce)

Sposoby wnioskowania statystycznego

Związane z analizą regresji. Wnioskowanie odbywa się 1 z 2grup metod:

Estymacja, szacowanie parametrów rozkładów prawdopodobieństw zmiennych losowych w populacji
Stawianie i weryfikacja hipotez statystycznych.

Czym różnią się metody statystyczne spośród wszystkich metod analizy danych?

Pobieranie próby losowo
Metody oparte na rachunku prawdopodobieństwa - wnioskowanie z danych zbieranych w empirycznych badaniach zjawisk masowych.
Dane reprezentatywne, na których opierają się pewne prawidłowości zjawisk w sposób fragmentaryczny.
Dane obarczone efektami przyczyn losowych
Trzeba wykonać dużą liczbę doświadczeń z różnymi czynnikami i w różnych warunkach
Wnioski i prawa wyprowadzono z analizy danych
Prawidłowość tych wniosków jest tylko kwestią prawdopodobieństwa-bardzo dużego (0,95), ale nie pewności.

Do czego służy analiza regresji wielokrotnej?

Służy do statystycznego badania zależności przyczynowo-skutkowej, do oceny wpływu, jaki mają n zmienne przyczynowe, ilościowe X na zmienną skutkową, cechę Y.

Analiza regresji wielokrotnej jest oparta na funkcji regresji, która jest funkcją wielu zmiennych. Zmienne przyczynowe są od siebie zależne.

Cel analizy regresjiczy wszystkie uwzględnione zmienne faktycznie wpływają na analizie i w jaki sposób.

Analizę regresji dzielimy na 2 etapy:

Estymacja parametrów
Weryfikacja cząstkowych hipotez

W analizie tej weryfikuje się następującą hipotezęHo:b₁=….b_k=0.Wszystkie cząstkowe współczynniki regresji=0

Gdy Ho prawdziwa - funkcja regresji stała, zmienna X nie ma wpływu na funkcję

Gdy Ho odrzucamy - minimum 1 ze zmiennych przyczynowych wpływa na funkcję.

Dane obserwacyjne są podstawą do zastosowania metody najmniejszych kwadratów.

Współczynnik determinacji R² - oszacowanie regresji, wykazuje struktury całkowitej zmienności.

Przyjmuje wartość przedziału (0,1),im bliższe 1,tym w większym stopniu zmienność zależy od zależności X od Y.

Współczynnik determinacji prostej określa 0-100% wyjaśnionej zmienności zmiennej zależnej Y przez liniowy model regresji prostej. Jest to miarą zależności zmiennych losowych X i Y. Jeżeli funkcja regresji jest liniowa, to współczynnik determinacji = kwadratowi współczynnika korelacji.

Podać 2 przykłady problemów, w których może być zastosowana analiza liniowej regresji wielokrotnej.

Xi - liczba zmiennych przyczynowych niezależnych

Y- zmienna zależna skutkowa

Ilość skrobi (X₁), oleju (X₂), temp. wytwarzania (X₃)gęstość majonezy (Y)
Ilość koncentratu(X₁), ilość papryki (X₂), stężenie CO₂ (X₃)gęstość ketchupu(Y)
Czas(X₁), temp. przechowywania (X₂), stężenie CO₂(X₃) ubytek s.m.(Y)

Funkcja: E(Y/ X₁…X_k)=m_y(X₁…X_k)=_o+₁X₁+_kX_k

Podać 2 przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana metoda analizy regresji wielokrotnej.

Regresja - związek ukierunkowany

Zależność średniej masy jaj od masy nioski i ilość jaj zniesionych rocznie.
Zależność zawartości skrobi w ziemniakach od pola i rodzaju użytego nawozu.

Przykład prób naukowo-badawczych, w których można zastosować analizę regresji prostej.

Służy do oceny zależności przyczynowo-skutkowej między 1 zmienną przyczynową i 2 zmienną skutkową. 2 zmienne mają charakter losowy oraz ilościowy.

Ocena zależności- zmienny skład tłuszczu w mleku =Y. Zmienna przyczynowa (ilościowa)-odmiana bydła =X
Dawka nawożenia azotem =X. Twardość ziarna pszenicy =Y
Ocena zależności między czasem zbioru truskawek, a momentem rozpoczęcia technologii ( np.5h), 1 zmienna, to czas zbioru, a 2 zmienna, to T, transport, metody składowania.
Ilość skrobi w dżemie-1 zmienna, zawartość cukru-2 zmienna.

Napisać ogólną postać liniowej regresji wielokrotnej, dla 4 zmiennych przyczynowych.

E(Y/X₁, X₂, X₃, X₄)= b_o+b₁X₁+b₂X₂+b₃X₃+b₄X₄

b_o - stała regresji

bi - cząstkowy współczynnik regresji, jest miarą wpływu każdej zmiennej przyczynowej na zmienną skutkową. Wartość współczynnika regresji mówi o ile zmieni się Y, jeżeli X1zwiększymy o jednostkę.

Czym się zajmuje doświadczalnictwo?

Jest to dziedzina interdyscyplinarna, obejmująca przede wszystkim problemy czysto statystyczne. Jest często traktowane jako gałąź statystyki matematycznej (np. nauki przyrodnicze).

Przedmiotem zainteresowań doświadczalnictwa są:

Statystyczne planowanie doświadczeń w różnych warunkach przyrodniczych oraz sposób poza doświadczalnego pozyskiwania danych o przyczynach i przebiegu zjawisk doświadczalnych.
Sprawdzanie oryginalnych metod statystycznych oraz dokonanie upowszechnienia ich zastosowania w analizie i interpretacja wyników doświadczalnych i innych danych reprezentatywnych dla badanej prawidłowości

Klasyczny rozwój doświadczalnictwa został skierowany na opracowywanie coraz lepszych metod umożliwiających badanie wpływu czynników z minimalnym błędem losowym.

Co to jest próba reprezentatywna?

Losowe pobranie z populacji jednostek doświadczalnych dla każdego poziomu badanego czynnika i zaobserwowanie na tych jednostkach wartości rozważanej cechy ilościowej.

Co to jest jednostka doświadczalna i hipoteza?

Jednostka doświadczalna - element rzeczywisty doświadczenia czynnikowego, do którego odnosimy zastosowanie danego poziomu czynnika i obserwację reagującej na ten poziom cechy ilościowej.

Przykład:

Partia surowca dostarczonego przez konkretnego dostawcę
Próbka surowca pobrana ze składu badanej tuszki
Próbka produktu końcowego wyprodukowanego wg danej technologii.

Hipoteza - rozpatrując pewną populację generalną, której rozkład i parametry nie są znane, każde przypuszczenie określające ten rozkład lub jego parametry będziemy nazywali hipotezą statystyczną. Hipoteza statystyczna może się odnosić do kilku populacji generalnych. Hipoteza traktuje, że średnia zmiennej losowej w rozkładzie normalnym jest jakąś rozsądną liczbą.

Do czego służy analiza wariancji, przykłady zastosowania?

Wariancja - Miara rozrzutu, mówi o rozproszeniu wszystkich wartości zmiennej losowej wokół wartości średniej (jak bardzo od niej odbiegają).

Do obserwowania analizy danych z obserwacji pewnej zmiennej, planowanych, kontrolowanych, doświadczenia czynnikowego. Za jej pomocą można zweryfikować hipotezy zerowe. Opracowana przez Fishera, wymaga formalnego traktowania wyników doświadczeń czynnikowych. Traktowanie wyrażone jest w postaci równania - liniowego modelu ANOVA. Model ten traktuje każdą obserwację doświadczenia czynnikowego jako realizację zmiennej losowej o rozkładzie normalnym z jednakową wariancją σ² określająca zmienna losową cechy przy danym poziomie czynnika. Umożliwia opracowanie danych statystycznych z doświadczeń czynnikowych.

Wnioskowanie - czy dany czynnik wpływa różnicująco na średnią wartość naszej zmiennej.

Model liniowy analizy wariancji dla wyników doświadczenia jednoczynnikowego uzyskanych w układzie losowym, ma postać: y_ij=m_i+e_ij ; i=1, 2, …a; j=1, 2, …n

Przykłady:

Przyczyna A-stopień wstępnego odwodnienia owoców; Przyczyna B - sposób suszenia owoców; Zmienna - cechy jakościowe produktu
Czynnik A -metoda peklowania szynki; Czynnik B -sposoby peklowania; Cechy Y - cechy jakościowe, np. zawartość białka, soku.

0x08 graphic

Kiedy stosujemy układ całkowicie losowy, a kiedy układ losowanych bloków?

Układ całkowicie losowy - gdy jednostki doświadczalne są jednorodne (nie podlegają zmienności systematycznej warunków badanego zjawiska-warunków wegetacji roślin, chowu zwierząt). W doświadczeniu 1no czynnikowym liczba wszystkich jednostek wynosi a_n (poziomów - liczba poziomów czynnika, n- liczba powtórzeń). Układ polega na rozmieszczeniu wszystkich jednostek w doświadczeniu w sposób całkowicie losowy na obszarze doświadczalnym. W doświadczeniach technologicznych układ całkowicie losowy polega na wyborze i przygotowaniu jednostek doświadczalnych oraz poddaniu ich działaniu poziomów czynnika w taki sposób, aby został wykluczony błąd systematyczny (jednostki doświadczalne mogą być obciążone błędem systematycznym, gdy występują efekty brzegowe).

Losowanych bloków - stosuje się, gdy niejednorodność jednostek doświadczalnych wynika z występowania 1nokierunkowej zmienności systematycznej warunków wegetacji. Tu zmienność występuje zarówno na polu jak i w innych sytuacjach doświadczalnych. Zadaniem jest eliminacja wpływu zmienności systematycznej warunków doświadczenia na badaną cechę. Układ losowych bloków jest najprostszym układem blokowym, który pozwala eliminować efekty niejednorodności na badaną cechę. Polega on na takim grupowaniu jednostek w bloki, aby między blokami zaistniało zróżnicowanie systematyczne warunków (ujawniła się niejednorodność), zaś w obrębie bloków zmienność warunków na jednostkach była losowa.

Bloki - jednostki doświadczalne pogrupowane w zbiory, w każdym bloku jest a jednostek, każda jest losowo prezypożądkowana innemu poziomowi badanego czynnika.

Wyjaśnić zasady metody najmniejszych kwadratów, stosowanej w statystyce matematycznej.

Estymatorem Θ. wg najmniejszych □ parametru Θ, jest funkcja Θ = g(X₁,X₂…Xn), dla której zachodzi warunek E{(0.-0)²}=min., przy czym wartość oczekiwaną oblicza się wg wszystkich dopuszczalnych wartości różnic

Θ.-Θ przy przyjętym a priori ich rozkładzie. Powyższy warunek można sformułować za pomocą funkcji strat i za pomocą funkcji ryzyka. Wyznaczyć minimum w metodzie najmniejszych □ może być sformułowane jako minimum funkcji ryzyka R(Θ){[R(0)=E{(σ)}] przy kwadratowej funkcji strat. Polega na znalezieniu sumy najmniejszych kwadratów odchyleń standardowych znalezienie funkcji najdokładniej opisujących uzyskane wyniki.

CHOLESTEROL Suma kwadratowych odchyleń jest tak dopasowana by była jak najmniejsza. Średnie odchylenia zmiennej zależności (od regresji) są wynikiem działania zmiennych.

Do czego służy analiza korelacji?

Do badanie współzależności między 2 zmiennym losowymi o rozkładach normalnych. Polega na charakterystyce związku liniowego za pomocą współczynnika korelacji. Współczynnik korelacji prostej jest miarą kierunku (+/-) i stopnia ścisłości związku liniowego między zmiennymi losowymi X i Y.

Korelacja słaba - taka gdzie jest duża rozbieżność, punkty są rozproszone.

0x08 graphic
Korelacja silna - zmienna ściśle współzależna.

0x08 graphic
Korelacja dodatnia - jedno rośnie i drugie rośnie.

Korelacja ujemna - jedno rośnie, a drugie maleje.

Zmienna deterministyczna - kontrolowana.

Zmienna losowa - niekontrolowana.

Przykłady:

Zależność między czasem nauki do egzaminy (X), a oceną z egzaminu (Y).
Masa jabłka w kg (X), a zawartość s.m.(Y)
Zawartość s.m.w bulwach ziemniaka (X), a zawartość skrobi(Y)

Badanie współzależności zmiennych

0x08 graphic

Związek liniowy Nie ma związku Obserwacje rozmyte Układ wskazuje na

między zmiennymi Brak istotnej współzależności korelację „+”

* * * * *

* ** * * * * * * * * * * *

0x08 graphic
* *

0x08 graphic

Analizę korelacji prostych można stosować tam, gdzie są zmienne losowe, a rozkład ich jest bliski normalnemu.

Współczynnik korelacji prostej jest miara kierunku i stopnia ścisłości związku liniowego miedzy losowymi zmiennymi X i Y.

Co to jest współczynnik ufności?

Mierzy stopień zaufania do poprawności wnioskówprawdopodobieństwo poprawnego wniosku. Prawdopodobieństwo, z jakim przedział ufności jakiegoś parametru pokrywa nieznana wartość parametru.

1- jest bliski 1 (0,9; 0,95; 0,99). Im wyższy współczynnik ufności, tym szerszy przedział ufności i mniejsza dokładność estymacji.

Przedział ufności - aby dokonać estymacji z jakimś przyjętym z góry dodatnim prawdopodobieństwem, należy w przestrzeni parametrów wyznaczyć pewien obszar, będzie to przedział ufności. Granice przedziału ufności są zmienne od próby do próby oraz 1- jest prawdopodobieństwem pokrycia przez przedział szacowanego parametru. Konstruując przedział ufności przy danym stałym poziomie ufności możemy sądzić, że dla ok. 100 (1-) % przypadków uzyskamy przedziały zawierające szacowany parametr.

Co to jest poziom istotności?

 - prawdopodobieństwo odrzucenia prawdy, prawdziwej H, dobrze gdy jest jak najmniejsze. Ryzyko błędu I rodzaju, że przedział ufności nie zawiera szacowanego parametru. Określa max ryzyko błędu, jakie badacz jest w stanie zaakceptować. Wybór wartości  zależy od badacza, natury problemu i od tego, jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się =0,05; =0,01. Im niższe , tym niższa precyzja oceny, a większy przedział ufności.

Co to jest test statystyczny i moc testu statystycznego?

Test statystyczny - pewne narzędzie, postępowanie służące sformułowaniu wniosku o hipotezie. Służy do testowania hipotezy, do rozstrzygania o prawdziwości lub nie.

Hipoteza statystyczna - model matematyczny hipotezy merytorycznej.

Jeśli nie odrzucamy, nie stwierdzona zależności między badaną cechą a poziomem tego czynnika.

Moc testu - Zezwala na określenie kryterium wyboru procedury testowej przy weryfikacji hipotezy statystycznej. Test może być słaby lub mocny:

Słaby - gdy istnieje duż szansa na to, że nie odrzucimy hipotezy zerowej, mimo jej nieprawdziwości.
Mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą hipotezę zerową.

Do czego używamy test t-Studenta, 2 przykłady

Sprawdzenie hipotezy o różnicy dwóch populacji generalnych, o rozkładach normalnych

0x08 graphic

0x08 graphic
X₁~N (_ σ_^)

X₂~N (_ σ_^)

Sprawdzenie, że średnia populacja równa się z góry przyjętej liczbie _ (_=0, najczęściej)

Postawmy hipotezę Ho:  _, taką hipotezę sprawdza się zazwyczaj w badaniach przyrostu pewnych populacji w czasie,

np.przyrost masy zwierząt od hodowli t₁, do hodowli t₂

Założenie X₁~N( σ^)

Stawiamy hipotezę Ho:  _ i określamy poziom istotności 

Wyznaczamy statystykę t_emp = x.-_/Sx.

Rozkład t-Studenta ~Normalny, zależy od liczby stopni swobody, liczebności prób.

Jaka jest różnica między hipotezami parametrycznymi, a nieparametrycznymi?

H. parametrycznymi nazywamy hipotezy dotyczące takich parametrów populacji generalnej (jednej lub kilku), jak średnie, wariancja, wskaźnik struktury oraz parametrów populacji wielocechowych.

H. nieparametryczne, to hipotezy przy których stosuje się testy hipotez dotyczących rozkładów bez precyzowania lub bez parametrów. Rozróżniamy tu:

Hipotetyczny rozkład populacji generalnej jest przez hipotezę całkowicie określony
Hipoteza dotyczy tego rozkładu, ale parametry należy szacować z próby
Hipoteza dotyczy zgodności rozkładów dwóch lub kilku populacji generalnych
Hipoteza dotyczy niezależności elementów próby

Czym zajmuje się dział statystyki zwany estymacją?

Estymacja parametrów - opiera się na estymacji parametrów rozkładu normalnego, punktowy estymator daje oszacowanie w postaci 1 liczby.

Estymacja przedziałowa - tu stosujemy przedział ufności.

Zajmuje się oszacowaniem parametrów statystycznych (pewna charakterystyka zmiennej losowej

np.x € N (m,σ²) - parametry zmiennej losowej. Estymacja parametrów próby generalnej na podstawie elementów próby. Ocena rozkładu populacji wg danych z próby, przez szacowanie jej parametrów, pozwala na rozwiązywanie matematycznych problemów analizy, porównań i przewidywań wyników procesów masowych.

Przykład: Ocena mleka dostarczonego

Mamy jednostkowe dostawy do pewnej mleczarni - dostawcy stanowią pewna zbiorowość, interesuje nas zawartość tłuszczu zmienna X.

Ocena średniej zawartości tłuszczu - bierzemy daną reprezentatywną i na tej podstawie szacujemy średnią arytmetyczną. Błąd standardowy średniej arytmetycznej Sx.=√s²/n.

Założenie: n= 50, liczba dostawców obserwowanych

x.= 3,25%, zawartość tłuszczu w mleku

Sx.= 0,15%

Średnią populacją szacujemy z próby 50 elementów, z przeciętnym błędem pomiaru 0,15%. Jest to dość dokładny pomiar. Średnia zawarta jest bliska 3, a raczej >3.

Własności estymatorów

Estymator - przybliżenie pewnej wartości, wartość średnia z próby. Estymatorem danego parametru populacji nazywamy określoną funkcję elementów próby g (x₁, x₂, …x_n), spełniającą pewne kryteria optymalności. Postać estymatora zależy od tych elementów.

Dobry estymator zapewnia otrzymanie wyników z prób zbliżonych do rzeczywistości.

Nieobciażoność - przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony = wartość szacowanego parametru. Wtedy odchylenia + i - nawzajem się niwelują ( nie maja tendencyjnego charakteru). Obciążenie estymatora - różnica miedzy wartością oczekiwaną rozkładu estymatora, a wartością szacowanego parametru jest zależna funkcyjnie od estymatora.
Zależność - jeśli T_n jest zgodny, to jest asymptotycznie nie obciążony, twierdzenie odwrotne jest nieprawdziwe. Jeśli T_n jest nieobciążony i jego wariancja spełnia zależność Lim D²(T_n)=0, n∞, to T_njest estymatorem zgodnym.
Asymptotyczna nieobciążoność - estymator nazywamy asymptotycznie nie obciążonym, jeżeli obciążenie estymatora dąży do 0, przy rosnącej liczebności próby. Każdy estymator nie obciążony jest estymatorem asymptotycznie nie obciążonym.
Zgodność - estymator jest zbieżny, gdy jest stachostycznie zbieżny do szacowanego parametru. Wtedy przez zwiększenie liczebności próby uzyskuje się coraz większe prawdopodobieństwo, że estymator będzie przyjmował wartości coraz bliższe wartości parametru ryzyko popełnienia dużego błędu jest niewielkie.
Efektywność - dla najbardziej efektywnego estymatora =1, 0<e<1. Estymator najefektywniejszy ma najmniejszą wariancję.
Dostateczność (wystarczalność) - dostateczny, gdy zawiera wszystkie informacje na temat parametru, jakie występują w próbie i żaden inny estymator nie może dać dodatkowych informacji. Estymator ten nie zawsze istnieje.

Jakie właściwości powinien mieć dobry estymator dla parametrów rozkładu zmiennej losowej?

Nieobciążony - wartość oczekiwana wartości średniej powinna dać średnią arytmetyczną
Zgodny - różnica dąży do 0
Efektywny - im niższa wariancja, tym estymator powinien być bardziej efektywny.
Dostateczny
Zależny

Definicja błędu I i II rodzaju przy testowaniu hipotezy za pomocą testu statystycznego.

I. Rodzaju = poziom istotności testu = moc testu. Odrzucenie prawdziwej hipotezy, przy czym prawdopodobieństwo popełnienia błędu I rodzaju jest nazywane poziomem istotności.

II. Rodzaju polega na przyjęciu hipotezy zerowej, która jest fałszywa. Prawdopodobieństwo popełnienia błędu II, oznaczamy symbolem 

Do czego służą procedury porównań wielokrotnych i które z nich są preferowane?

Porównania wielokrotne - problem wyznaczania grup jednorodnych. Grupy jednorodne i podzbiór

(m_i1, m_i2,…m_im) zbioru wszystkich średnich obiektowych {m₁, m₂,…m_n}, tak, że m₁= m₂=…=m_n oraz żadne z pozostałych średnich nie jest równe m_i1.

3 rodzaje procedur porównań wielokrotnych:

Jednoczesne przedziały ufności (Tukey, Scheffego)
Testy wielokrotne (Ducana, Neumana -Keulsa)
Metody analizy skupień (Carsterna, Colińskiego)

Każda procedura umożliwia uzyskanie podziału prawdziwych średnich obiektowych na grupy jednorodne opierając się tylko na ocenach tych średnich z próby (wyników doświadczenia). Procedura ta ma dawać podziały najbliższe rzeczywistym podziałom na grupy jednorodne.

Służą do badań szczegółowych, umożliwiają uzyskanie podziału prawdziwości średnich obiektowych na grupy jednorodne opierając się tylko na ocenach tych średnich z próby. Powinny dawać podziały najbliższe rzeczywistym podziałom na grupy jednorodne.

Najczęściej stosowane w doświadczalnictwie - grupy porównań wielokrotnych:Ducana (najprostsze), Tukeya, Newmana (najlepsze). Wszystkie są rozwinięciem procedury opracowanej przez Fishera, a opartej na teście

t-Studenta.

Kryterium skuteczności - prawdopodobieństwo dokonywania prawidłowego -zg.z rzeczywistością podziału na grupy jednorodne.

Jak posługujemy się regresją krokową?

Badanie zależności wpływu zmiennych X₁, X₂, …X_i na cechę Y:

Wykorzystujemy 2 opcje Backward i Forward

Y X₁, X₂,X₃- wybieramy zmienną która ma wpływ na Y

(Y,X₁) (X₂,X₃) - z pozostałych wybieramy tą która najlepiej pasuje do Y,X₁

(Y,X₁,X₂) X₃- jeśli X₃ pasuje do Y,X₁,X₂, to dołączamy, jeśli nie, to usuwamy.

Doświadczenie czynnikowe

Wykonanie pewnego zjawiska w warunkach kontrolowanych oraz obserwowanie tego zjawiska pod wpływem poziomów badanego czynnika lub wielu czynników.

Przykład:

nawóz azotowy zbóż (czynnik) wpływa na twardość ziarna, zawartość białka.

Test istotności - test skonstruowany w ten sposób, że pomijamy problem błędu II, a jedynie ustalamy poziom istotności, czyli prawdopodobieństwo błędu I rodzaju.

Charakterystyka liczb zmiennych:

Średnia (wartość oczekiwana, czasem nie jest realizowana) - jest średnią z nieskończenie wielu możliwych realizacji zmiennych losowych, można ją oszacować na podstawie danych eksperymentalnych.

Średnia arytmetyczna z wyników arytmetycznych jest oszacowaniem średniej populacyjnej. Wartością oczekiwaną średniej arytmetycznej jest średnia populacji.

Błąd standardowy średniej z próby - miara szacowania dokładności średniej z populacji. Im mniejsza wariancja, tym dokładność szacowania rośnie.

Wariancja (zakres zmienności) zmiennej losowej, liczba charakteryzująca zmienność zbioru, jej wartość wokół wartości średniej. D²X - średni kwadrat odchyleń średniej wartości liczb.

Im większa liczebność próby, tym wariancja średniej arytmetycznej zmniejsza się.

Odchylenie standardowe (do oceny zmienności zmiennej) - pierwiastek z wariancji. Średnie odchylenie wartości zmiennej losowej od jej średniej. Liczba charakteryzująca rozrzut zbioru wokół średniej.

Elementy filozofii statystycznej

Czynnik - przyczyna

Cecha ilościowa - zmienna zależna obrazuje wyniki doświadczenia

Poziom czynnika (obiekt) - trzeba ustalić konkretne parametry

Doświadczenie - postępowanie zmierzające do zaistnienia pewnego zjawiska w warunkach kontrolowanych oraz zebranie danych o jego przebiegu i wynikach końcowych.

Jednostka doświadczalna - umówiony element materialny, ustalona liczba surowca. Nie są one identyczne.

Rozkład normalny - przekształcenie liniowe zmiennej o rozkładzie normalnym

Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń?

modeluje pewne zjawiska
pozwala modelować zjawiska deterministyczno - losowe
pozwala zwiększać wiarygodność wyników
daje kontrolowaną szansę poprawności wyników
możemy ja stosować gdy: chcemy badać 2 czynniki

wśród jednostek doświadczenia występuje zmienność systematyczna

Kiedy stosujemy analizę wariancji, regresji, korelacji

Analiza wariancji - do zbadania czy jest wpływ czynników i jak duży jest ten wpływ
Analiza regresji

Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi

zmienna X - przyczynowa (determnistyczna/losowa)

zmienna Y - skutkowa (losowa o rozkładzie normalnym

np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu

y - zawartość cukru w winogronach

wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.

np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu

Analiza korelacji - do badania współzależności między 2 losowymi zmiennymi ilościowymi

- obie zmienne mają rozkład normalny

- żadna ze zmiennych nie jest przyczyną drugiej

np: 1. Zależność między masą owoców w kg a zawartością suchej masy w %

2. Zależność miedzy zaw s.m a zawart skrobi w ziemniakach

Przykłady zastosowania analizy korelacji prostej:

- masa owoców w kg a zawartość s.m w %

- czas nauki na egzamin a wynik egzaminu

Dlaczego doświadczenia wieloczynnikowe są bardziej przydatne niż jednoczynnikowe?

- lepiej oddają istotę doświadczenia

- pozwalają na określenie jednoczesnego wpływu kilku czynników na daną zmienną

Zasada metody najmniejszych kwadratów

- podstawa teorii błędów pomiarów

- dokładniejsza nazwa: metoda minimum sumy kwadratów błędów

Metoda służy do szacowania parametrów strukturalnych funkcji regresji w postaci f(X)=α+βX=β₀+β. Zasada metody polega na znalezieniu takiej funkcji, dla której suma kwadratów odchyleń powinna być minimalna. Do oszacowania parametrów służą estymatory: estymator stałej regresji (α) i estymator współczynnika kierunkowego (β).

Zasada: wartością najbardziej prawdopodobną ( otrzymaną z tak samo dokładnych pomiarów) jest taka wartość, której odchylenia od wyników, podniesione do kwadratu i zsumowane dają najmniejszą z możliwych wartość

Najbardziej prawdopodobną wartość z szeregu jednakowych dokładnych pomiarów jest ich wartość średnia

Przy pomiarach niejednakowo dokładnych najbardziej prawdopodobna wartość jest średnia ważona.

Dwa przykłady doświadczeń dwuczynnikowych w technologii żywności

Zawartość tłuszczu, ilość dodatków - jakość otrzymanej wędliny
Zawartość cukru, zawartość tłuszczu - kaloryczność produktu

Działy statystyki :

Estymacja parametrów rozkładu prawdopodobieństw zmiennej losowej X
Testowanie (weryfikacja) hipotez statystycznych

ad a) Szacowanie wartości nieznanych wart. rozkładu. Nieznana postać odróżnia estymację od weryfikacji hipotez.

Estymacja punktowa - szacowanie punktowe szukanego parametru rozkładu
Estymacja przedziałowa - szacowanie parametrów w populacji (oszacowanie pewnego przedziału wartości rozkładu)

ad b) obejmuje:

Hipotezę statystyczną (to każde przypuszczenie dotyczące rozkładu (rozkładów) prawdopodobieństwa badanej zmiennej losowej (zmiennych losowych))
Test statystyczny (pewne narzędzie, postępowanie służące sformułowaniu wniosku o hipotezie. Służy do testowania hipotezy, do rozstrzygania o prawdziwości lub nie)
Poziom istotności testu

Co to jest estymator parametru zmiennej losowej, jakie powinien posiadac właściwości?

Estymator - konkretna wartość uzyskana z próby - ocena wartości szukanego parametru ( w estymacji prostej)

Określona funkcja elementów próby g(x1,x2,xn) spełniająca pewne kryteria optymalności

estymator średniej u (średnia arytmetyczna)
estymator wariancji δ²
estymator odchylenia standardowego δ δ = S = pierwiastek z δ²

Właściwości dobrego estymatora:

Nieobciążalność - nie popełnia błędu statystycznego) wart. oczekiwana = wart. parametru
Zgodność
Efektywność (dokładny)
Dostateczność
Dokładność ( najmniejsza średnia wartość błędu)

Poziom istotności, moc testu statystycznego

Poziom istotności - liczba α ε (0,1) będąca max dopuszczalnym przez eksperymentatora prawdopodobieństwem popełnienia błędów I rodzaju

Określa max ryzyko błędu jakie badacz jest w stanie zaobserwować

- najczęściej oznaczamy symbolem „d”

- d = 0,1 ; 0, 05; 0,01; 0,001

- jeżeli d się zmniejsza to przedział się rozszerza i precyzja oceny spada.

Moc testu statystycznego -prawdopodobieństwo nie odrzucenia hipotezy alternatywnej H₁ gdy jest ona w rzeczywistości prawdziwa

- test mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą H₀

- test słaby - istnieje duża szansa na to, że nie odrzucamy H₀ pomimo jej fałszywości

Moc testu statystycznego pozwala na określenie kryterium wyboru procedury testowej przy weryfikacji H₀

Do czego służy analiza korelacji i analiza wariancji?

Analiza korelacji:

Jest metodą statystyczną (jedną z najstarszych) pozwalającą na zbadanie związku pomiędzy dwiema zmiennymi ilościowymi ciągłymi, przy założeniu, że obie zmienne są losowe i mają rozkład normalny. Powinniśmy unikać stosowania analizy korelacji, gdy zmienne są nieciągłe. Wyznaczamy współczynnik korelacji r, który jest oszacowaniem ζ. Na podstawie współczynnika korelacji obliczonego z danych można sformułować 2 rodzaje wniosków: *nie stwierdzono korelacji między zmiennymi, *stwierdzono korelację między zmiennymi

Współczynnik ujemny - korelacja jest ujemna - jedna zmienna rośnie a druga ma skłonność o malejących wartości,
Współczynnik dodatni - korelacja jest dodatnia - związek proporcjonalny, jedna zmienna rośnie, druga wykazuje tendencje do rosnących wartości.

Im wartość bezwzględna r jest bliższa 0 tym słabsza korelacja, im bliższa 1 tym silniejsza korelacja.

Analiza wariancji.

Jest to metoda statystyczna odrębna od analizy korelacji. Tą metodę statystyczną stworzył angielski badacz Fisher na początku lat 20. XX w na użytek badań eksperymentalnych. Analiza wariancji służy do oceny wpływu poziomu badanego czynnika na zmienna o rozkładzie normalnym. Badamy wpływ czynników na wartość pewnej zmiennej (nawet kilku), bo istnieje zmienność losowa w każdym doświadczeniu (jest nieuchronna).

Do czego służy analiza regresji?

Analiza regresji - jest narzędziem do badania mechanizmu powiązań między zmiennymi. Przyporządkowując wartości zmiennej przyczynowej X średnie wartości zmiennej skutkowej Y otrzymujemy funkcję. Jeżeli ta funkcja jest liniowa to mówimy o liniowej funkcji regresji.

W przypadku, gdy zmienna skutkowa Y zależy od dużej liczby zmiennych przyczynowych X i powstała z takiego przyporządkowania funkcja jest funkcją liniową, to mówimy o analizie regresji wielokrotnej (liniowej). Na podstawie danych eksperymentalnych i k zmiennych można określić, które zmienne przyczynowe wpływają na zmienną skutkową Y i jeżeli wpływają to z jaką siłą.

Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy wariancji

Jednoczynnikowa - czy rodzaj opakowania wpływa na trwałość mleka.
Wieloczynnikowa - rodzaj środka konserwującego oraz stężenie tego środka a trwałość produktu.

Zawartość wit.C w warzywach w zależności od sposobu uprawy.
Zawartość wody w zależności o rodzaju chłodni (warunków przechowywania).
Ubytek suchej masy w zależności od sposobu przechowywania warzyw

Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy korelacji.

Zawartość suchej masy i zawartość skrobi w bulwach ziemniaków.
Zawartość wit.C i zawartość suchej masy w owocach papryki

Długość przedziału ufności dla średniej rozkładu normalnego - od czego i w jaki sposób zależy?

Zależy od wielkości próby n, im n większe tym przedział jest bardziej zawężony. Zależy również od przyjętej wartości α, im α większe tym przedział bardziej zawężony.
(1 - α) współczynnik ufności. Prawdopodobieństwo, że rzeczywista wartość parametru β w populacji znajduje się w wyraźnym przedziale ufności
Większy przedział, gdy większa wartość współczynnika ufności (a więc mniejsza dokładność estymacji przedziałowej) tym samym większe prawdopodobieństwo popełnienia błędu.
Przedział ufności - przedział z dużym prawdopodobieństwem wystąpienia w nim prawdziwej wartości parametru.

Dwa przykłady, w których może być zastosowana analiza liniowej regresji prostej.

Liczba prosiąt a wiek świni.
Wielkość plonu a wielkość nawożenia azotem

Czym wyróżniają się metody statystyczne spośród innych metod analizy danych?

Każde wnioskowanie na podstawie próby
Próby są wybierane losowo
Statystyka opiera się na rachunku prawdopodobieństwa
Wnioski - z danych zbieranych w empirycznych badaniach zjawisk
Dane są reprezentatywne
Opis określonych prawidłowości zjawisk w sposób fragmentaryczny
Dane są obciążone efektami przyczyn losowych
Inne metody nie wykorzystują prób do wnioskowania

Podać nazwy znanych testów statystycznych i wskazać hipotezy statystyczne (w formie symboli i znaczenia merytorycznego), które mogą być sprawdzone przy ich pomocy.

Test t-Studenta. Służy do porównania średniej z próby wzglądem zakładanej średniej populacji. Mogą być testowane za jego pomocą hipotezy:

*H₀: m=m₀;

*Hipotezy alternatywne: a)H₁: m≠m₀b)H_1: m>m₀c)H₁: m<m₀ dla jednej populacji.

Test t-Studenta może być też wykorzystany do porównania dwóch populacji (dwóch rozkładów normalnych). Służy do porównania średnich obu populacji: *H₀: m₁=m_{2; *}H₁: m₁≠m₂

Test f-Fischera wzór służy do porównania wariancji z różnych populacji

*H_i: m₁=m₂=……=m_a

Do porównania poszczególnych średnich między sobą stosujemy test t-Studenta

*H_0ii': m_i≠m_i'dla i,i'= 1,2,…..,a; i<i'

Test chi kwadrat służy do testowania hipotezy o typie rozkładu, np. czy dana zmienna ma rozkład normalny. *Ho= n_i^t= np_i

Czym zajmuje się statystyka matematyczna?

Statystyka matematyczna zajmuje się modelowaniem matematycznych zjawisk badawczych i empirycznych oraz wnioskowaniem z danych reprezentatywnych zbieranych w empirycznych badaniach zjawisk masowych.

Co to jest poziom ufności?

Poziom ufności (1- α) jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej znajduje się w obszarze dopuszczalnym. Jest to liczba przedziału (0;1), najczęściej przyjmuje wartości 0,95; 0,99.

Poziom ufności - stopień prawdopodobieństwa, iż wynik badania zarejestrowany w próbie, jest zgodny ze stanem faktycznym w całej badanej zbiorowości (populacji).

Do czego służy test statystyczny?

Weryfikacji hipotezy, wnioskowanie o H₀ na podstawie danych, które prowadzi do 1 z 2 wniosków: H₀ odrzucamy odpowiednie wnioski i H₀ nie odrzucamy i uznajemy je za prawdziwe.

Co to jest moc testu?

Prawdopodobieństwo odrzucenia hipotezy stat. w sytuacji, gdy jest ona fałszywa, czyli prawdopod. nie popełnienia błędu 2 rodzaju (1-B)=P

Od czego zależy moc testu?

Od liczebności próby im > tym moc >. H₀=uoX-N(u,b2) im u jest dalsze tym test jest mocniejszy. Wariancji jej wartości.

Analiza wariancji.

Porównanie wartości oczekiwanej wielu populacji, gdzie obserwowane są cechy o rozkładzie normalnym, a dokładnie do weryfikacji hipotezy H₀=µ₁=µ₂=...µ_k

µ_i dla i=1,...,k - oznacza wartość oczekiwaną w tej populacji np. porównanie przeciętnych plonów pszenicy pewnych odmian. Dzięki weryfikacji tej hipotezy możemy uzyskać odp. na pytanie istnienia związku między cechą jakościową, który posłuży do podziału na populacje a badaną cechę ilościową. Stosuje się w doświadczalnictwie, badanie różnych czynników na określoną cechę.

Analiza regresji.

Służy 1 do sprawdzenia, czy istnieje zależność między dwiema cechami ilościowymi jak i 2 do podania opisu ilościowego zależności, np. badając zależność między dawką nawozu a efektywnością nawożenia łąk. X - dawka N deterministyczna Y - efektywność E (Y/X=x) = B₀+ B₁x oszacowanie B₁ i B₀ opis ilościowy zależności; Weryfikacja H₀:B₁=0 - stwierdzenie zależności. Czyli analiza regresji opisuje zależność średniej wartości zmiennej Y od wartości zmiennej niezależnej X.

Analiza korelacji.

Badanie istnienia związku między (wł. jego siły) prostoliniowego pomiaru dwiema zmiennymi losowymi o normalnych rozkładach prawdopodobieństwa np. zależność między wzrostem i ciężarem człowieka, zawartością białka i tłuszczu w mleku. Zmienne losowe ciągłe. Analiza korelacji pozwala wykazać bądź nie istnienie związku między X i Y.

Estymacja parametru rozkładu prawdopodobieństwa.

Szacowanie na podstawie próby nieznanych wartości parametru rozkładu prawdopodobieństwa, np. X-wzrost X-N (u,b²) estymator u na podstawie próby jest X=u - estymator nieobciążony

Własności dobrego estymatora.

nieobciążony - wart. oczekiwana estymatora = wart. parametru szacowanego, estymator jest też zmienną losową
zgodność - z im większej próby wyznaczymy estymator tym będzie bardziej zgodny z rzeczywistym u.
efektywność - losowy błąd estymatora najmniejsza wariancja najefektywniejszy estymator

Przedział ufności.

Wyznaczony na podstawie próby zakres liczbowy pokrywający z góry zadanym prawdopodobieństwem (znanym poziomem istotności) szacowaną nieznaną wartość parametru *dystrybuanta określa P(X<x)F(x) Formalnie jest to całka z funkcji gęstości par. X na podstawie (-nieskończoności, x).

Rozkład empiryczny cechy.

Podstawą do jakichkolwiek analiz statystycznych badanej cechy jest określenie tzw. empirycznego rozkładu cechy. Polega ono na uporządkowanym, uszeregowanym rosnąco wartościom, przyjmowanym przez tę cechę odpowiednio zdefiniowanych częstości ich występowania.

Podać definicję i opisać właściwości funkcji rozkładu zmiennej losowej oraz dystrybuanty.

Funkcje rozkładu zmiennej losowej: przyporządkowuje wartościom tej zmiennej losowej wartości prawdopodobieństw, z jakimi one występują, suma tych prawd. równa się 1. Własności D=R; f=<0;1> jest ograniczona. Zmienna losowa X jest typu skokowego, jeśli może przyjmować skończoną lub nieskończoną, ale przeliczoną liczbę wartości. Zmienna losowa X jest typu ciągłego, jeśli możliwe wartości należą do przedziału ze zbioru liczb rzeczywistych.

F. dystrybuanty: przyporządkowuje wartościom zmiennej losowej wartości prawdopodobieństwa tego ze wartości zmiennej losowej. Przyjmuje wartość nie większą od wartości argumentu, własność jest ograniczona 0<=F(x)

Co to jest standaryzowany układ normalny i jak przeprowadza się proces standaryzacji?

Jest to rozkład normalny, który uległ przekształceniu a po którym ma parametr E(U)=o; DZ(U)=1. Jego dystrybuanta jest stablicowana. Standaryzacja jest to przekształcenie, którego celem może być prowadzenie różnych rozkładów zmiennej o różnym przeciętnym poziomie i stopniu zróżnicowania dla porównywalności. Standaryzację przeprowadza się w następujący sposób: od wartości zmiennej odejmuje się jej wartość oczekiwaną i otrzymaną różnicę dzieli się przez odchylenie standardowe.

Jakie testy są używane do weryfikacji hipotezy H₀=µ₁=µ₂ i jakie są kryteria wyboru?

- test T-studenta, jeżeli populacja ma rozkład normalny o nieznanych parametrach;

- test U, jeżeli populacja generalna ma dowolny rozkład o nie znanych parametrach (duża próba) lub gdy populacja generalna ma rozkład normalny o nieznanym u, ale znanym δ (mała próba).

Co to jest hipoteza? Omów rodzaje weryfikowanych hipotez.

Przez hipotezę statystyczną rozumie się dowolne przypuszczenie, co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Prawdziwość tego przypuszczenia jest oceniana na podstawie wyników próby losowej. Do weryfikacji hipotez służą testy istotności. Postać tych testów a w szczególności statystyk będących sprawdzianami Ho zależy od tego, jakiego parametru dotyczy hipoteza oraz jakimi informacjami o populacji generalnej dysponujemy.

Jakie czynniki i w jaki sposób wpływają na długość przedziału ufności dla wartości oczekiwanej?

Zależy od poziomu istotności α, odchylenia standardowego δ i liczebności próby N. Od α i δ zależy wprost proporcjonalnie, czyli wraz ze wzrostem parametru rośnie długość przedziału ufności, od N zależy odwrotnie proporcjonalnie ze wzrostem liczebności maleje długość przedziału. D_t=2µ_αS/√N

Omówić dowolnie wybrany rozkład zmiennej losowej skokowej, przedstawić na wykresie.

f(x), F(x)

Zmienna losowa przyjmuje dwie wartości 1, 2 każda z wartości przyjmuje z prawdopodobieństwem ½.

Od czego zależy wartość i położenie obszaru krytycznego?

Wielkość od wielkości wartości krytycznej (U_α_),a odchylenie od wielkości poziomu istotności α, im większe α tym mniejszy obszar krytyczny. Położenie od stosowanego testu zgodności, np. przy rozkładzie normalnym jest dwustronny, a przy rozkładzie χ prawostronny. Położenie zależy też od rodzaju weryfikowanej hipotezy - lewostronnej, prawostronnej i obustronnej.

Wypisz hipotezy, które można weryfikować testem T-studenta. Jakie założenia należy przyjąć o populacjach generalnych?

Ho: µ = µ₀ - populacja ma rozkład normalny o nieznanych parametrach, mała próba

Ho: µ₁= µ₂ - mała próba, wariancje jednakowe

Podać cechy dobrego estymatora.

Nieobciążony - przy wielokrotnym losowaniu próby średnie z wartości przyjmowanych przez estymator nieobciążony równa jest wartości szacowanego parametru;
Efektywny - najefektywniejszy jest ten, który ma najmniejszą wariancję;
Dostateczny (wystarczający) - jeżeli do jego konstrukcji użyto wszystkie elementy próby;
Zgodny - jeśli wraz ze wzrostem wartości próby wartość estymatora jest bliższa wartości estymowanego parametru. Jeżeli dla każdego ε > 0 lim P{<θ_α z daszkiem - θ>≤ε}=1 to θ jest estymatorem zgodnym. Jeżeli rozpatrujemy próby (n > rośnie) Es zgodny - jego wartość pokrywa się z wartością nieznaną.

Jaka jest interpretacja współczynnika korelacji i regresji jakie wartości mogą przyjmować te parametry?

Współczynnik korelacji określa siłę zależności między zmiennymi. Współczynnik regresji mówi o ile wzrośnie zmiana zależności, jeżeli zmienna niezależna zmieni się o 1.

xy∈(-1,1)

Jeżeli rozkład ma częstość empiryczną sukcesu w dużych próbach, jakie są parametry tego rozkładu?

Ma rozkład normalny o parametrach: μ - wartość oczekiwana i σ - odchylenie standardowe.

Omówić definicję prawdopodobieństwa.

klasyczna - prawdopodobieństwo zdarzenia A jest to stosunek zdarzeń sprzyjających temu zdarzeniu, do ilości wszystkich zdarzeń elementarnych.
aksjomatyczna - niech Ω będzie daną przestrzenią zdarzeń elementarnych. Jeżeli każdemu zdarzeniu A przestrzeni Ω zostanie przyporządkowana dokładnie jedna liczba P(A) spełniająca warunki P(A)≥0; P(Ω)=1 dla każdej pary wyłączających się zdarzeń A,B P(AB)=P(A)+P(B) to mówimy, że na zdarzeniach przestrzeni Ω zostało określone prawdopodobieństwo zdarzenia A, warunki nazywamy aksjomatami
statystyczna - jeżeli przy wielorakiej realizacji doświadczeń w wyniku których może wystąpić zdarzenie A, częstość tego zdarzenia wyraża wyraźnie prawidłowość, oscyluje wokół pewnej nieznanej liczby, jeżeli wahania częstotliwości przejawiają tendencję malejącą w miarę wzrostu liczby doświadczeń, to liczba P nazywa się prawdopodobieństwem zdarzenia A.

Cechy rozkładu normalnego.

Symetryczny względem prostej x=µ; osiąga jedno maximum w punkcie, ma dwa punkty przecięcia dla x=µ - σ i µ + σ; EX=µ=H₀. Dowód na jego symetryczność jest określony do zera dla x do +∞ i -∞. Przekształcenie standaryzacja prowadzi do powstania innego rozkładu normalnego.

O czym informują kwantyle i mediany w próbie?

Kwantyle dzielą uporządkowaną rosnąco zbiorowość na 4 części liczące po 25% obserwacji środkowej. Dla zmiennej losowej ciągłej mediana dzieli pole pod wykresem na dwie równe części.

Co to jest obszar krytyczny, od czego zależy jego wielkość i położenie pod krzywą rozkładu statystyki testowej?

Jest to taki obszar przestrzeni próby, że jeśli wynik prób znajduje się w tym obszarze to sprawdzoną hipotezę zerową odrzucamy, jeśli natomiast wynik próby znajduje się poza tym obszarem to hipotezę H₀ przyjmujemy (nie odrzucamy).

Podaj interpretację parametru współzmienności zmiennej losowej, dwuwymiarowej.

Współczynnik determinacji exy mówi nam, w jakiej części wartości jednej zmiennej jest zdeterminowana wartość drugiej zmiennej.

Współczynnik regresji βxy mówi o ile wzrośnie zmiana zależności, jeżeli zmienna niezależna zmieni się o 1.

Co można powiedzieć o zmiennej w próbie, jeśli wszystkie miary przyjmują tę samą wartość?

Jeżeli wszystkie miary przyjmują tę samą wartość to znaczy, że brak jest zróżnicowania w próbie, czyli wszystkie wartości cechy są jednakowe.

Dlaczego w testach istotności nie przyjmujemy H₀?

W testach istotności uwzględnia się tylko prawdopodobieństwo α popełnienia błędu 1 rodzaju. Pomija się przyjęcie hipotezy fałszywej(błędu II rodzaju β) nie mówi się o przyjęciu tej hipotezy, ale o tym, że wyniki danej próby nie dają podstaw do jej odrzucenia. Jeżeli wynik znajduje się na obszarze krytycznym odrzuca się H₀, a prawdziwa jest H₁, bo w pewnych testach możliwe jest określenie prawdopodobieństwa β popełnienia błędu II rodzaju. Można, zatem w pewnych przypadkach, po określeniu obszaru krytycznego dla wartości α wyznaczyć prawdopodobieństwo takiego błędu.

Rozkład normalny.

Określony jest przez swoje parametry: μ i σ; funkcja jest zbieżna do 0 dla -∞; +∞; podlega prawu trzech sigm; symetryczny względem prostej przechodzącej przez μ; funkcja rozkładu posiada jedno maximum lokalne μ₀, które pokrywa się z wartością oczekiwaną (EX); każdy rozkład normalny X : N (μ,σ) można sprowadzić do postaci tzw. standaryzowanego rozkładu normalnego, którego funkcja gęstości i dystrybuanta została stablicowana (μ=0 σ=1)⇒ N(0,1); wykresem funkcji gęstości rozkładu normalnego jest krzywa Grensa symetryczna względem prostej o równaniu x=μ z dwoma punktami przegięcia μ-σ i μ+σ

Podać interpretację parametrów współzależności zmiennej losowej.

Kowariancja cos(xy) - moment centralny II rzędu jest równa zeru, jeśli zmienne x, y niezależne - wartość liczbowa jest nieistotna

C_XY= E_XY- E_X- E_Y

Jeśli jest różna od zera, jest zależność; kiedy jej wartość jest dodatnia to jedna zmienna wpływa na drugą pozytywnie, (jeśli I rośnie to II też); kiedy jest ujemna: jedna wpływa na drugą i jej wzrost powoduje malenie II i na odwrót.

Współczynnik korelacji δ_xy: przyjmuje wartość z przedziału <-1,1>; jest ujemna, kiedy korelacja δ_xy=cos(x,y)/D_XD_Y; określa natężenie zależności między dwiema zmiennymi lub jej brak; im bliżej -1 lub 1, tym większe natężenie zależności; kiedy równe 0, to brak zależności.

Jak zmienia się długość przedziału ufności dla prawdopodobieństwa sukcesu, gdy liczebność próby wzrośnie o...?

Kiedy n (liczebność próby) rośnie, to długość przedziału maleje o tyle samo.

Jaki rozkład ma średnia arytmetyczna próby? Czy jej rozkład zależy od rozkładu cechy w populacji?

W pewnej próbie δ=0,5 a stosunki korelacji są równe 0,7 i 0,8 (e=x,y) jak można zinterpretować ich wartość?

δ=0,5 - zależności pozytywne i słabe; e_xy=0,7 i e_xy=0,8 zmienna X i Y wpływają na siebie nieznacznie (słabo).

weryfikalne - zerowe

nie weryfikalne - alternatywne

Zmienna losowa

Funkcja, która przyporządkowuje wartości liczbowe zdarzeniom elementarnym, X_i:P_i; X-wartości zmiennej losowej, i-kolejność, P-prawdopodobieństwo wystąpienia. Funkcja rozkładu prawdopodobieństw - przypisanie p kolejnym zmiennym losowym - rozkład zmiennej losowej.

Zmienna losowa skokowa

Cechy jakościowe, zbiór przeliczalny (skończony lub nie)

Zmienna losowa ciągła

Cechy ilościowe, zbiór liczb rzeczywistych

Wartość oczekiwana

Mówi, czego możemy się spodziewać po danym rozkładzie; moment zwykły I - rzędu m₁=EX, m₁=∑x₁p₁. Odchylenie standardowe - rzeczywiste odchylenia od wartości oczekiwanej.

Rozkład Bernoulliego

Zmienna losowa ma rozkład dwumianowy, jeśli przyjmuje wartości k = 0,1,2...n z prawdopodobieństwem określonym wzorem. Parametrem tego rozkładu jest n - liczba doświadczeń, p - prawdopodobieństwo sukcesu. Rezultatem doświadczenia może być A - sukces lub A' - porażka. Doświadczenie to powtarzamy wielokrotnie (n) tak, że prawdopodobieństwo sukcesu pozostaje w pojedynczych próbach stałe i równe p. Liczba zaobserwowanych sukcesów to k=0,1,2,...,n EX - np. D²X - np.(1-p)

H₀ o niezależności

Dotyczy dwóch cech w jednej próbie, kiedy między zmiennymi jest brak zależności.

Ho o zgodności

Zmienna ma rozkład zgodny z określonym rozkładem teoretycznym. Wtedy Ho: x - rozkład normalny, Bernouliego, Possona. Zmienna ma jednakowy rozkład w dwóch populacjach. Wtedy Ho; X_α ma rozkład jak X. Do weryfikacji używa się testu tylko χ² I - rozkład empiryczny, II - rozkład teoretyczny (zakładamy, że H₀ jest prawdziwe). Test χ² o niezależności.

Test χ² o zgodności. Próba z jednej populacji musi być dwuwymiarowa. Przy odrzuceniu hipotezy - dwie zmienne mogą być zależne istotne lub wysokoistotne.

Do czego służą testy statystyczne?

Służą do weryfikacji hipotez, czyli do wnioskowania o postawionej hipotezie statystycznej (H₀) na podstawie danych, które prowadzą do jednego z dwóch wniosków:

Wniosek H₀ kwestionujemy, czyli odrzucamy
H₀ nie odrzucamy a tym samym uznajemy za prawdziwe.

Jakie dwa rodzaje błędów grożą przy weryfikacji hipotezy?

Jeśli H₀ odrzucamy, jesteśmy narażeni na błąd I - go rodzaju polegający na odrzuceniu hipotezy prawdziwej wyrażony przez α poziom istotności
Jeśli H₀ nie odrzucamy, narażeni jesteśmy na błąd II - go rodzaju, który polega na nie odrzuceniu hipotezy fałszywej

Próba reprezentatywna - zdefiniować i podać przykłady

To próba spełniająca następujące warunki:

- elementy populacji są pobierane do próby w sposób losowy

- próba musi być dostatecznie liczna

Próba jest reprezentatywna, gdy jej struktura ze względu na interesujące nas cech statystyczne jest zbliżona do struktury populacji, z której ona pochodzi. Czyli wnioski wyciągnięte z próby można uogólnić na całą populację

- wymyślcie sobie przykłady

Do czego używamy testu t-studenta, 2 przykłady

- test t-studenta służy do testowania hipotez dotyczących średniej przy założeniu, że rozkład zmiennej w populacji jest normalny

Przykłady:…

Dlaczego i po co używamy metod statystycznych?

Omówić α i (1-β)

- Alfa - poziom istotności (prawdopodobieństwo błędu pierwszego rodzaju- odrzucenie hipotezy 0, gdy jest ona prawdziwa): przyjmuje wartość dowolną, ale nie powinien być większy od 0,05

- (1- beta) - moc testu - jest to prawdopodobieństwo odrzucenia hipotezy fałszywej

Cechy estymatora punktowego

- estymator punktowy to parametr określony (oszacowany) na podstawie statystyk w n elementowej próbie

- cechy:

Metoda najmniejszych kwadratów-opisać

Regresja wielokrotna - 2 przykłady

- analiza regresji wielokrotnej służy do badania ilościowej zależności między zmiennymi przyczynowymi (Xi) a średnią zmiennej skutkowej (Y)

- np. badanie zależności mleczności krów od rodzaju paszy i masy krów, itp.

Czym zajmuje się doświadczalnictwo?

Zajmuje się dwoma podstawowymi zagadnieniami:

Statystycznym planowaniem doświadczeń w różnych warunkach przyrodniczych oraz pozadoświadczalnym pozyskiwaniem danych reprezentatywnych o przyczynach i przebiegu zjawisk przyrodniczych, rolniczych itp.
Opracowaniem oryginalnych metod statystycznych oraz doskonaleniem i upowszechnianiem ich zastosowań w analizie i interpretacji wyników doświadczalnych i innych danych reprezentatywnych dla badanej prawidłowości

Do czego służą procedury porównań wielokrotnych? Jakie z nich są preferowane?

Do stwierdzenia, który z poziomów czynnika wpływa na cechę inaczej niż pozostałe, czyli które średnie obiektowe są odpowiedzialne za odrzucenie hipotezy H₀ (o równości średnich m₁=m₂=...=m_i) i które ze średnich można uznać za jednakowe

Preferowane: Tuckeya, Duncana, Newmana- Kuelsa

Do czego służy analiza regresji wielokrotnej

odp. w pytaniu 7

Jak posługujemy się regresją krokową?

- stosujemy do wybrania najbardziej dopasowanego równania regresji wielokrotnej

- usuwamy z modelu krokowo te czynniki, których wartość temp. Jest najbliższa 0

- wybieramy model, dla którego wartość poprawionego współczynnika determinacji jest największa (to równanie regresji najlepiej opisuje zależność cech Y od czynników Xi)

Czym różnią się metody statystyczne spośród wszystkich metod analizy danych?

Podać definicje błędu I i II rodzaju przy testowaniu hipotezy

Błąd I rodzaju - alfa - to prawdopodobieństwo przyjęcia fałszywej hipotezy zerowej- nie powinno być większe od 0,05
Błąd II rodzaju - beta - to prawdopodobieństwo nie odrzucenia hipotezy fałszywej - nieznana wartość. Beta tym mniejsze im liczniejsza próba

Do czego służy analiza wariancji

- służy do zbadania wpływu źródeł zmienności na cech Y

- uwzględnia matematyczny podział obserwowanej na jednostkach doświadczalnych zmienności cechy Y na składowe odpowiadające wyodrębnionym w doświadczeniu przyczynom, zwanym źródłami zmienność

Napisać ogólną postać liniowej funkcji regresji wielokrotnej dla 4 zmiennych przyczynowych

Y= β₀+β₁X¹+β₂X²+β₃X³+β₄X⁴ - dla populacji

y= b₀+b₁x¹+b₂x²+b₃x³+b₄x⁴ - dla próby

Podać 2 przykłady zastosowań analizy korelacji

- to metoda statystyczna pozwalająca na zbadanie współzależności pomiędzy zmiennymi (obie zmienne o rozkładzie normalnym lub bliskim normalnemu)

- np. związek między wzrostem człowieka w populacji a długością jego nogi

Podać 2 przykłady zastosowań liniowej regresji prostej

Analiza regresji wielokrotnej służy do badania ilościowej zależności między zmienną przyczynową (X) a średnią zmiennej skutkowej (Y)

- np. badanie zależności mleczności krów od rodzaju paszy

Kiedy stosujemy układ całkowicie losowy, a kiedy losowanych bloków?

Układ całkowicie losowy - stosujemy, kiedy jednostki doświadczalne są jednorodne, czyli nie podlegają zmienności systematycznej warunków badanego zjawiska (np. warunki wegetacji- nasłonecznienie) wszystkie jednostki an w doświadczeniu są rozmieszczone w sposób całkowicie losowy na obszarze doświadczalnym np.: fitotron
Układ losowanych bloków - stosujemy, gdy niejednorodność jednostek doświadczalnych wynika z występowania jednokierunkowej zmienności systematycznej np. warunków wegetacji- występuje na polu( zmienność glebowa) Polega na takim ugrupowaniu a jednostek doświadczalnych w bloki, aby pomiędzy blokami zaistniało zróżnicowanie systematyczne warunków, zaś w obrębie bloków zmienność warunków była losowa.

1.Podaj postać funkcji testowej dla weryfikacji hipotezy Ho:p1=p2. Wyjaśnij symbole.

2.Podaj postać funkcji testowej dla weryfikacji hipotezy Ho:p=p0

3.podaj postać funkcji testowej dla weryfikacji hipotezy Ho:m1=m2

4.podaj postac funkcji testowej dla weryfikacji hipotezy Ho:m=m0

5.podaj postać funkcji testowej dla weryfikacji hipotezy

6.Co to jest test statystyczny, przykład, do czego jest wykorzystywany

7.Na podstawie badań otrzymano przedział ufności dla różnicy dwu średnich postaci(2,25;2,45) Czy można uznać, że średnie różnią się i dlaczego.

8.Jak zmieni sie długość przedziału oszacowania średniej populacji jeśli zwiększymy poziom istotności

9.Jak zmieni sie długość przedziału średniej populacji jeśli zwiększymy poziom ufności

10.Jakim testem można zweryfikować hipotezę równości wariancji w dwóch populacjach

11.Co to jest tablica asocjacji?

12.Jakim testem- podaj postać i warunki jakie powinny być spełnione przy weryfikacji Ho:m1=m2. Podaj postać funkcji testowej.

13.Estymatory punktowe i przedziałowe- przykłady

14.Prawo 3 sigm.

15.Co to jest indeks jednopodstawowy?

16.Miarą rozrzutu wartości zmiennej losowej wokół jaj wartości oczekiwanej jest:

17.jaka jest różnica miedzy zmienna skokowa , a ciągłą. podaj przykłady

18 Jaki rozkład ma średnia arytmetyczna z 10-elementowej próby z populacji o rozkładzie N(10,4) =

19.Co to jest przyrost względny łancuchowy

20.Co to jest próba reprezentatywna?

21.Co to jest poziom ufności i poziom istotności?

22.Jakim testem można zweryfikowac hipotezę Ho:m=m0

23.blad 1 i 2 rodzaju

24. Jak zmieni się przedział ufności dla średniej, jeśli zwiększymy liczebność próby?

25.Co to jest wsplczynnik korelacji

26.Co to jest tablica kontyngencji i jakie ma zastosowanie?\

27. Jakie warunki muszą być spełnione, by można było stosować test t-Studenta do weryfikacji H0: m1=m2?

28.co to jest przyrost absolutny łańcuchowy

29.Co to jest przyrost względny jednodnopodstawowy

30.Co to jest próba losowa?

31.Jak zmieni sie długość przedziału ufności dla średniej, jeśli zmniejszy sie liczebności próby

32.Co to jest współczynnik determinacji

Odpowiedzi:

1. 3.

0x01 graphic

4.

2. 0x01 graphic
5.

6.Test statystyczny-funkcja służąca weryfikacji hipotezy, sprawdzenia przypuszczeń wysuniętych w stosunku do parametrów lub rozkładu populacji generalnej.

7.Średnie się różnią Ponieważ w przedziale ufności nie zawiera się 0

8.to poziom ufności się zmieniejszy i prawdopodobieństwo sie zmniejszy

9.to zmniejszy się poziom istotności i zwiększy prawdopodobieństwo

(im większa liczebności próby tym mniejszy przedział ufności)

10.rozklad F Fishera

0x01 graphic

11.

12.t Studenta Wariancje sa jednakowe dla obu populacji, musi być rozkład normalny, i nie wiemy jakie sa parametry dla obu populacji.

13.Estymacja punktowa: przyjmujemy ze wartość dla próby jest taka sama jak dla całej populacji przykład: Średnia arytmetyczna

Estymacja przedziałowa: to wyznaczenie przedziału , który z określonym prawdopo. będzie zawierał nieznaną wartość szacowanego parametru populacji

Przykład

0x01 graphic

14.Prawo sigm:

0x01 graphic

15.wartosci odnoszą sie do wartości z roku podstawowego

16.wariancja,odchylenie standardowe i przeciętne, rozstęp , współczynnik zmienności

17.Skokowa-przyjmuje określone wartości Zbiór wartość jest przeliczalny i skończony np liczba dzieci na wycieczce

Ciągła przyjmuje wartości z pewnego przedziału. Zbiór jest nieprzeliczalny i nieskończony. Przykład: Wzrost, waga

18. 0x01 graphic

19.Przyrost absolutny podzielony przez wielkość zjawiska z okresu poprzedniego

20.To taka próba która oddaje cechy populacji, pod względem badanej cechy odzwierciedla populacje

21.Poziom ufności to prawdopodobieństwo z jakim przedział ufności zawiera szacowana wartość 1-α

Poziom istotności to prawdopodobieństwo z jakim przedział ufności nie zawiera szacowanej wartości. Czyli prawdopodobieństwo z jakim przedział nie jest właściwy.

22.t Studenta

0x01 graphic

23.

24.Poziom ufności zmniejszy sie

25Wspolczynnik korelacji - określa poziom zależności miedzy jedna cecha a druga. Przyjmuje wartość od -1 do 1

26 przedstawia zestawienie dwóch wartości jakościowych bądź ujakościowionych

Przykład test niezależności
Ukazuje niezależność 2 cech jakościowych lub ujakosciowinonych

27.Rozkałd normalny, Wariancje musza być równe, parametry tych populacji musza byc nieznane

28.Roznica miedzy wartością z roku badanego a wartością roku poprzedniego

29. Jest to różnica miedzy wartością w roku badanym a wartości w roku podstawowym podzielona przez wartość roku podstawowego

30.Tzn ze została otrzymana w wyniku losowania prostego

31.Przedzial zwiększy sie

32.Wspolczynnik determinacji-to poziom jaki zmiana jednej cechy wpływa na zmianę drugiej cechy zawiera sie w przedziale od 0 do 1

Pytania ze statystyki na I pierwszym terminie, jaki się odbył dla studentów 5 roku dnia 14.06.2007:

Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń?
Czym się kierujemy przy wyborze stosowania analizy korelacji oraz wariancji?
Test statystyczny i jego moc
Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy wariancji (dokładnie opisać próbę, całe zdarzenie)
Przykłady stosowania analizy trójczynnikowej w technologii żywności
Kiedy stosujemy układ całkowicie losowy , a kiedy losowanych bloków (podać po przykładzie)

Pytania 21.06.2007 (dla 3 roku WTŻ)

Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń?
Co to jest test statystyczny i dlaczego powinien być mocny?
Dlaczego lepsza jest analiza wieloczynnikowa niż jednoczynnikowa?
Dwa przykłady problemów naukowo badawczych z zastosowaniem analizy wariancji (dokładnie opisać próbę, całe zdarzenie)
2 Przykłady stosowania analizy trójczynnikowej w technologii żywności
2 Przykłady analizy regresji i analizy korelacji.

Inne:

Czym zajmuje się doświadczalnictwo?
Do czego służą procedury porównań wielokrotnych? Jakie z nich są preferowane?
Do czego służą analiza regresji wielokrotnej?
Jak posługujemy się regresją krokową?
Czym wyróżniają się metody statystyczne spośród wszystkich metod analizy danych?
Podać dwa przykłady problemów naukowo badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana metoda regresji.
Jakie właściwości powinien mieć dobry estymator dla parametru rozkładu zmiennej losowej?
Co to jest poziom istotności i moc testu statystycznego?
Podać definicję błędu I oraz błędu II rodzaju przy testowaniu hipotezy za pomocą testu istotności.
Do czego służy analiza wariancji?
Napisać ogólną postać liniowej funkcji regresji wielokrotnej dla 4 zmiennych przyczynowych.
Podać dwa przykłady zastosowań analizy liniowej regresji wielokrotnej.
Podać 2 przykłady zastosowań analizy korelacji.
Podać dwa przykłady zastosowań liniowej regresji prostej.
Kiedy stosujemy układ całkowicie losowy, a kiedy losowanych bloków?
Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń czynnikowych i innych badań empirycznych na podstawie wyników z tych badań?

Pytania z 2004

Kiedy stosujemy układ całkowicie losowy a kiedy układ losowanych bloków?
Podać dwa przykłady problemów naukowo-badawczych wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza regresji wielokrotnej.
Podać dwa przykłady doświadczeń trójczynnikowych z technologii żywności.
Co to jest poziom istotności i moc testu statystycznego?
Kiedy stosujemy analizę wariancji a kiedy analizę regresji?
Co to jest estymator parametru zmiennej losowej w populacji i jakie własności powinien on posiadać?

Pytania z Rolnictwa z dn 3.02.2005

Próba reprezentatywna - zdefiniować i podać przykłady.
Do czego używamy testu t-studenta? Podać 2 przykłady.
Dlaczego i po co używamy metod statystycznych?
Omówić α i (1-β).
Cechy estymatora punktowego.
Metoda najmniejszych kwadratów - opisać.
Regresja wielokrotna - 2 przykłady.

Pytania z Rolnictwa z wcześniejszych lat:

Omówić definicje prawdopodobieństwa.
Dlaczego w testach istotności nie wolno przyjmować H zerowej?
Omówić cechy charakteryzujące rozkład normalny.
O czym informują kwantyle i mediana w próbie, jeśli 95% przedział ufności dla prawdopodobieństwa sukcesu ma końce równe 0,2 i 0,4 to, jakie końce będzie miał przedział ufności dla tego parametru przy α=0.01?
O czym mówią twierdzenia graniczne?
Co to jest obszar krytyczny, od czego zależy jego wielkość i położenie pod krzywą rozkładu statystyki testowej?
Jaka jest różnica między regresją I i II rodzaju zmiennej losowej dwuwymiarowej?
Weryfikując H₀: p=p₀ przy dwustronnej hipotezie alternatywnej otrzymano u emp.=1,83. Dla jakiego najmniejszego poziomu istotności można w tych warunkach odrzucić Ho.
Omówić cechy, którymi powinien charakteryzować się estymator.
Podać interpretacje parametrów, współzmienności zmiennej losowej dwuwymiarowej.
Co można powiedzieć o zmienności w próbie, jeśli wszystkie miary rozrzutu przyjmują te samą wartość?
Jaki rozkład ma częstość empiryczna sukcesu w dużych próbach?
Omówić zasady i cele procesu standaryzacji zmiennej losowej.
Jakie czynniki wpływają na dł. przedział ufności dla wartości oczekiwanej?
Jakie testy używane są do weryfikacji Ho μ=μo i jakie są kryteria wyboru?
Jaka jest interpretacja współczynników regresji i korelacji w próbie i w jaki sposób sprawdza się ich istotność?

Podać definicje i opisać właściwości funkcji rozkładu zmiennej losowej oraz dystrybuanty
Co to jest standaryzowany rozkład normalny i jak przeprowadza się proces standaryzacji?
O czym informuje współczynnik asymetrii cechy w próbie?
Omówić rodzaje weryfikowanych hipotez.
W pewnej próbie o liczebności 11 szt. Obliczono średnią arytmetyczną i medianę. Oba parametry mogą być estymatorami średniej populacji. Który z nich jest lepszy i dlaczego?
Na czym polega zależność stochastyczna a na czym korelacyjna zmiennych losowych?
Jaki rozkład ma średnia arytmetyczna z próby?. Czy rozkład średniej zależy od rozkładu cechy w populacji?
Jaki rozkład normalny nazywamy standaryzowanym? Czy można i w jaki sposób standaryzować inne rozkłady?
Co to jest hipoteza? Podać 2 przykłady weryfikowalnych i nie weryfikowalnych hipotez.
Jak zmieni się długość przedziału ufności dla prawdopodobieństwa sukcesu, gdy liczebność próby wzrośnie o 21%?
Co to jest prawdopodobieństwo całkowite zdarzenia A? Przy wyjaśnieniu posłużyć się przykładem.
Jaka jest różnica między hipotezami parametrycznymi i nieparametrycznymi? Podać przykłady.
Omów 2 wybrane rozkłady zmiennych losowych skokowych.
Omówić cechy charakterystyczne rozkładu normalnego.
Wyjaśnić pojęcie prawdopodobieństwa.

Pytania z WTŻ - też niektóre powtórzyły się na Rolnictwie

Czym zajmuje się doświadczalnictwo?
Do czego służą procedury porównań wielokrotnych? Jakie z nich są preferowane?
Do czego służy analiza regresji wielokrotnej?
Jak posługujemy się regresją krokową?
Czym różnią się metody statystyczne spośród wszystkich metod analizy danych?
Podać po 2 przykłady problemów naukowo - badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana metoda regresji.
Jakie własności powinien mieć dobry estymator dla parametru rozkładu zmiennej losowej?
Co to jest poziom istotności i moc testu statystycznego?
Podać definicje błędu I i II rodzaju przy testowaniu hipotezy.
Do czego służy analiza wariancji?
Napisać ogólną postać liniowej funkcji regresji, wielokrotnej dla 4 zmiennych przyczynowych.
Podać 2 przykłady zastosowań analizy regresji wielokrotnej.
Podać 2 przykłady zastosowań analizy korelacji.
Podać 2 przykłady zastosowań liniowej regresji prostej.
Kiedy stosujemy układ całkowicie losowy, a kiedy losowanych bloków?
Na podstawie danych dla próby reprezentatywnej 50 pól produkcyjnych otrzymano następującą ocenę funkcji regresji między plonem ziemniaków w dt/ha(X), a zawartością suchej masy w bulwach w % (Y): Ê(Y/X)=34.5- 0.05x; R²=68.5%; błąd standardowy, współczynnik regresji = 0.08. Czy ta zależność jest istotna? Zinterpretować uzyskane wyniki.

Dlaczego statystyka matematyczna ma zastosowanie w planowaniu doświadczeń czynnikowych i innych badań empirycznych oraz wnioskowania na podstawie wyników z tych badań?

Statystyka służy do w miarę wiarygodnego wnioskowania o prawidłowościach zjawisk na podstawie reprezentatywnych danych z empirycznych obserwacji tych zmiennych z różnych dziedzin.

Działy badawcze (naukowcy)opis nieznanych prawidłowości
Można wnioskować z danych o pogodzie.

Inaczej

modeluje pewne zjawiska
pozwala modelować zjawiska deterministyczno - losowe
pozwala zwiększać wiarygodność wyników
daje kontrolowaną szansę poprawności wyników
możemy ja stosować gdy: chcemy badać 2 czynniki

wśród jednostek doświadczenia występuje zmienność systematyczna

Kiedy stosujemy analizę wariancji, a kiedy analizę regresji przy opracowaniu danych i wnioskowaniu?

Analiza wariancji - do zbadania czy jest wpływ czynników i jak duży jest ten wpływ
Analiza regresji
Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi

zmienna X - przyczynowa (determnistyczna/losowa)

zmienna Y - skutkowa (losowa o rozkładzie normalnym

np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu

y - zawartość cukru w winogronach

wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.

np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu

Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza korelacji prostej.

Dlaczego doświadczenia wieloczynnikowe są bardziej przydatne w badaniach naukowych, niż jednoczynnikowe?

- lepiej oddają istotę doświadczenia

- pozwalają na określenie jednoczesnego wpływu kilku czynników na daną zmienną

Wyjaśnij zasadę metody najmniejszych kwadratów stosowanej w analizie regresji.

- podstawa teorii błędów pomiarów

- dokładniejsza nazwa: metoda minimum sumy kwadratów błędów

CHOLESTEROL Suma kwadratowych odchyleń jest tak dopasowana by była jak najmniejsza. Średnie odchylenia zmiennej zależności (od regresji) są wynikiem działania zmiennych.

Podać dwa przykłady doświadczeń dwuczynnikowych technologii żywności.

Zawartość tłuszczu, ilość dodatków - jakość otrzymanej wędliny
Zawartość cukru, zawartość tłuszczu - kaloryczność produktu

Wymienić dwa główne działy statystyki matematycznej i podać, co one obejmują.

Estymacja parametrów rozkładu prawdopodobieństw zmiennej losowej X
Testowanie (weryfikacja) hipotez statystycznych

ad a) Szacowanie wartości nieznanych wart. rozkładu. Nieznana postać odróżnia estymację od weryfikacji hipotez.

Estymacja punktowa - szacowanie punktowe szukanego parametru rozkładu
Estymacja przedziałowa - szacowanie parametrów w populacji (oszacowanie pewnego przedziału wartości rozkładu)

ad b) obejmuje:

Hipotezę statystyczną (to każde przypuszczenie dotyczące rozkładu (rozkładów) prawdopodobieństwa badanej zmiennej losowej (zmiennych losowych))
Test statystyczny (pewne narzędzie, postępowanie służące sformułowaniu wniosku o hipotezie. Służy do testowania hipotezy, do rozstrzygania o prawdziwości lub nie)
Poziom istotności testu

Co to jest estymator parametru zmiennej losowej w populacji i jakie własności powinien on posiadać?

Dobry estymator zapewnia otrzymanie wyników z prób zbliżonych do rzeczywistości.

Nieobciażoność - przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony = wartość szacowanego parametru. Wtedy odchylenia + i - nawzajem się niwelują (nie maja tendencyjnego charakteru). Obciążenie estymatora - różnica miedzy wartością oczekiwaną rozkładu estymatora, a wartością szacowanego parametru jest zależna funkcyjnie od estymatora. E(Ǿ)=0
Zależność - jeśli T_n jest zgodny, to jest asymptotycznie nie obciążony, twierdzenie odwrotne jest nieprawdziwe. Jeśli T_n jest nieobciążony i jego wariancja spełnia zależność Lim D²(T_n)=0, n∞, to T_njest estymatorem zgodnym.
Asymptotyczna nieobciążoność - estymator nazywamy asymptotycznie nie obciążonym, jeżeli obciążenie estymatora dąży do 0, przy rosnącej liczebności próby. Każdy estymator nie obciążony jest estymatorem asymptotycznie nie obciążonym.
Zgodność - estymator jest zbieżny, gdy jest stachostycznie zbieżny do szacowanego parametru. Wtedy przez zwiększenie liczebności próby uzyskuje się coraz większe prawdopodobieństwo, że estymator będzie przyjmował wartości coraz bliższe wartości parametru ryzyko popełnienia dużego błędu jest niewielkie.
Efektywność (dokładność) - dla najbardziej efektywnego estymatora =1, 0<e<1. Estymator najefektywniejszy ma najmniejszą wariancję D²(Ǿ)=min
Dostateczność (wystarczalność) - dostateczny, gdy zawiera wszystkie informacje na temat parametru, jakie występują w próbie i żaden inny estymator nie może dać dodatkowych informacji. Estymator ten nie zawsze istnieje.

Co to jest poziom istotności i moc testu statystycznego?

Moc testu - Zezwala na określenie kryterium wyboru procedury testowej przy weryfikacji hipotezy statystycznej. Test może być słaby lub mocny:

Słaby - gdy istnieje duż szansa na to, że nie odrzucimy hipotezy zerowej, mimo jej nieprawdziwości.
Mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą hipotezę zerową.

Do czego służy analiza korelacji i analiza wariancji?

Analiza korelacji

Do badania współzależności między 2 zmiennym losowymi o rozkładach normalnych. Polega na charakterystyce związku liniowego za pomocą współczynnika korelacji. Współczynnik korelacji prostej jest miarą kierunku (+/-) i stopnia ścisłości związku liniowego między zmiennymi losowymi X i Y.

Korelacja słaba - taka gdzie jest duża rozbieżność, punkty są rozproszone.

0x08 graphic
Korelacja silna - zmienna ściśle współzależna.

0x08 graphic
Korelacja dodatnia - jedno rośnie i drugie rośnie.

Korelacja ujemna - jedno rośnie, a drugie maleje.

Zmienna deterministyczna - kontrolowana.

Zmienna losowa - niekontrolowana.

Przykłady:

Zależność między czasem nauki do egzaminy (X), a oceną z egzaminu (Y).
Masa jabłka w kg (X), a zawartość s.m.(Y)
Zawartość s.m.w bulwach ziemniaka (X), a zawartość skrobi(Y)

Badanie współzależności zmiennych

0x08 graphic

Związek liniowy Nie ma związku Obserwacje rozmyte Układ wskazuje na

między zmiennymi Brak istotnej współzależności korelację „+”

* * * * *

* ** * * * * * * * * * * *

0x08 graphic
* *

0x08 graphic

Analizę korelacji prostych można stosować tam, gdzie są zmienne losowe, a rozkład ich jest bliski normalnemu.

Współczynnik korelacji prostej jest miara kierunku i stopnia ścisłości związku liniowego miedzy losowymi zmiennymi X i Y.

Wariancja - Miara rozrzutu, mówi o rozproszeniu wszystkich wartości zmiennej losowej wokół wartości średniej (jak bardzo od niej odbiegają).

Wnioskowanie - czy dany czynnik wpływa różnicująco na średnią wartość naszej zmiennej.

Model liniowy analizy wariancji dla wyników doświadczenia jednoczynnikowego uzyskanych w układzie losowym, ma postać: y_ij=m_i+e_ij ; i=1, 2, …a; j=1, 2, …n

Przykłady:

Przyczyna A-stopień wstępnego odwodnienia owoców; Przyczyna B - sposób suszenia owoców; Zmienna - cechy jakościowe produktu

Czynnik A -metoda peklowania szynki; Czynnik B -sposoby peklowania; Cechy Y - cechy jakościowe, np. zawartość białka, soku

Inaczej

Analiza wariancji - do zbadania czy jest wpływ czynników i jak duży jest ten wpływ
Analiza korelacji - do badania współzależności między 2 losowymi zmiennymi ilościowymi

- obie zmienne mają rozkład normalny

- żadna ze zmiennych nie jest przyczyną drugiej

np: 1. Zależność między masą owoców w kg a zawartością suchej masy w %

2. Zależność miedzy zaw s.m a zawart skrobi w ziemniakach

0x08 graphic

Inaczej

Analiza korelacji:

Współczynnik ujemny - korelacja jest ujemna - jedna zmienna rośnie a druga ma skłonność o malejących wartości,
Współczynnik dodatni - korelacja jest dodatnia - związek proporcjonalny, jedna zmienna rośnie, druga wykazuje tendencje do rosnących wartości.

Im wartość bezwzględna r jest bliższa 0 tym słabsza korelacja, im bliższa 1 tym silniejsza korelacja.

Analiza wariancji.

Do czego służy analiza regresji?

Analiza regresji

Prostej - do badania zależności przyczynowo - skutkowej między dwoma zmiennymi ilościowymi

zmienna X - przyczynowa (determnistyczna/losowa)

zmienna Y - skutkowa (losowa o rozkładzie normalnym

np. x - średnia temperatura w ostatnim okresie dojrzewania winogron w jednym miesiącu

y - zawartość cukru w winogronach

wielokrotnej - do badania zależności przyczynowo - skutkowej między przyczynowymi zmiennymi ilościowymi a zmienną skutkową.

np. ilość skrobi, ilość tłuszczu, temp. procesu - gęstość majonezu

Inaczej:

W przypadku, gdy zmienna skutkowa Y zależy od dużej liczby zmiennych przyczynowych X i powstała z takiego przyporządkowania funkcja jest funkcją liniową, to mówimy o analizie regresji wielokrotnej (liniowej). Na podstawie danych eksperymentalnych i k zmiennych można określić, które zmienne przyczynowe wpływają na zmienną skutkową Y i jeżeli wpływają to z jaką siłą.

Zobrazować obszar dopuszczalny i dwustronny obszar krytyczny przy testowaniu hipotezy H₀:m₁=m₂ za pomocą testu t-Studenta.

Obszar krytyczny - jest to taki obszar przestrzeni próby, że jeśli wynik prób znajduje się w tym obszarze to sprawdzoną hipotezę zerową odrzucamy, jeśli natomiast wynik próby znajduje się poza tym obszarem to hipotezę H₀ przyjmujemy (nie odrzucamy).

Wielkość obszaru zależy od wielkości wartości krytycznej (U_α_),a odchylenie od wielkości poziomu istotności α, im większe α tym mniejszy obszar krytyczny. Położenie od stosowanego testu zgodności, np. przy rozkładzie normalnym jest dwustronny, a przy rozkładzie χ prawostronny. Położenie zależy też od rodzaju weryfikowanej hipotezy - lewostronnej, prawostronnej i obustronnej.

0x08 graphic
0x01 graphic

Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z towaroznawstwa, w których może być zastosowana analiza wariancji.

Jednoczynnikowa - czy rodzaj opakowania wpływa na trwałość mleka.
Wieloczynnikowa - rodzaj środka konserwującego oraz stężenie tego środka a trwałość produktu.

Zawartość wit.C w warzywach w zależności od sposobu uprawy.
Zawartość wody w zależności o rodzaju chłodni (warunków przechowywania).
Ubytek suchej masy w zależności od sposobu przechowywania warzyw

Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z towaroznawstwa, w których może być zastosowana analiza korelacji.

Zawartość suchej masy i zawartość skrobi w bulwach ziemniaków.
Zawartość wit.C i zawartość suchej masy w owocach papryki

Od czego i w jaki sposób zależy długość przedziału ufności dla średniej rozkładu normalnego?

Zależy od wielkości próby n, im n większe tym przedział jest bardziej zawężony. Zależy również od przyjętej wartości α, im α większe tym przedział bardziej zawężony.
(1 - α) poziom ufności. Prawdopodobieństwo, że rzeczywista wartość parametru β w populacji znajduje się w wyraźnym przedziale ufności
Większy przedział, gdy większa wartość współczynnika ufności (a więc mniejsza dokładność estymacji przedziałowej) tym samym większe prawdopodobieństwo popełnienia błędu.
Przedział ufności - przedział z dużym prawdopodobieństwem wystąpienia w nim prawdziwej wartości parametru.

Podać dwa przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana analiza liniowej regresji prostej.

Liczba prosiąt a wiek świni.
Wielkość plonu a wielkość nawożenia azotem

Czym wyróżniają się metody statystyczne spośród wszystkich metod analizy danych?

Każde wnioskowanie na podstawie próby

Pobieranie próby losowo
Metody oparte na rachunku prawdopodobieństwa
Wnioskowanie z danych zbieranych w empirycznych badaniach zjawisk masowych.
Inne metody nie wykorzystują prób do wnioskowania
Dane są reprezentatywne,
Opis określonych prawidłowości zjawisk w sposób fragmentaryczny
Dane obarczone efektami przyczyn losowych
Trzeba wykonać dużą liczbę doświadczeń z różnymi czynnikami i w różnych warunkach
Wnioski i prawa wyprowadzono z analizy danych
Prawidłowość tych wniosków jest tylko kwestią prawdopodobieństwa-bardzo dużego (0,95), ale nie pewności.

Podać nazwy znanych testów statystycznych i wskazać hipotezy statystyczne (w formie symboli i znaczenia merytorycznego), które mogą być sprawdzane przy ich pomocy.

Test t-Studenta. Służy do porównania średniej z próby wzglądem zakładanej średniej populacji. Mogą być testowane za jego pomocą hipotezy:

*H₀: m=m₀;

*Hipotezy alternatywne: a)H₁: m≠m₀b)H_1: m>m₀c)H₁: m<m₀ dla jednej populacji.

Test f-Fischera wzór służy do porównania wariancji z różnych populacji

*H_i: m₁=m₂=……=m_a

Do porównania poszczególnych średnich między sobą stosujemy test t-Studenta

*H_0ii': m_i≠m_i'dla i,i'= 1,2,…..,a; i<i'

Test chi kwadrat służy do testowania hipotezy o typie rozkładu, np. czy dana zmienna ma rozkład normalny. *Ho= n_i^t= np_i

Czym zajmuje się statystyka matematyczna?

Co to jest poziom ufności?

Poziom ufności (1- α) jest to prawdopodobieństwo, że nieznana wartość zmiennej losowej znajduje się w obszarze dopuszczalnym. Jest to liczba przedziału (0;1), najczęściej przyjmuje wartości 0,95; 0,99.

Poziom ufności - stopień prawdopodobieństwa, iż wynik badania zarejestrowany w próbie, jest zgodny ze stanem faktycznym w całej badanej zbiorowości (populacji).

To co podkreślone-taką odpowiedź Mądry podawał na wykładzie.

Wszystkie kropki przy parametrach oznaczają daszki, ew.przy x- wartość średnią.

Mądry powiedział, że na egzaminie nie trzeba przy takim pytaniu pisać przykładu, podał go „tak sobie”, ale kto wie…

Wszystkie kropki przy parametrach oznaczają daszki, ew.przy x- wartość średnią.

Statystyka - opracowane pytania 1

- 1 -

Analiza wariancji - analiza zmiennej;

Analiza korelacji - analiza współzależności między 2 zmiennymi

Metoda najmniejszych kwadratów - kryterium w teorii statystyki matematycznej. Pozwala na otrzymanie określonych algorytmów z danych cząstkowych na obliczenie współczynnika regresji

Informuje jak zmienia się cecha w zależności od drugiej (jej natężenie kierunek zmian +/-).

Postawimy H₀: _ _, przy poziomie istotności ,

Jeżeli |t_emp|>t_Ho odrzucamy (różnica miedzy średnimi jest istotna)

Jeżeli |t_emp|<t_Ho nie odrzucamy

(weryfikując hipotezę musimy sformułować hipotezę alternatywną, która jest uznana za prawdziwą, gdy odrzucimy Ho)

Metoda najmniejszych kwadratów - kryterium w teorii statystyki matematycznej. Pozwala na otrzymanie określonych algorytmów z danych cząstkowych na obliczenie współczynnika regresji

Informuje jak zmienia się cecha w zależności od drugiej (jej natężenie kierunek zmian +/-).

Analiza wariancji - analiza zmiennej;

Analiza korelacji - analiza współzależności między 2 zmiennymi

1-α

½ α

-t_vα

Obszar krytyczny

Obszar dopuszczalny

Obszar krytyczny

Gęstość