Dlaczego statystyka matematyczna ma różne zastosowanie w różnych dziedzinach działalności praktycznej i naukowej?
Statystyka służy do w miarę wiarygodnego wnioskowania o prawidłowościach zjawisk na podstawie reprezentatywnych danych z empirycznych obserwacji tych zmiennych z różnych dziedzin.
Możemy wyciągać wnioski z danych zbieranych w zjawiskach masowych, biologicznych, technologicznych i zastosować metody statystyczne do planowania czynnikowych zjawisk technologicznych oraz ilustrować metody na rzeczywistych przykładach z badań naukowych. Statystyka modeluje nam pewne zjawiska deterministyczno - losowe; zwiększamy wiarygodność wniosków. Przydatna tam gdzie wnioskujemy z danych.
Działy badawcze (naukowcy)opis nieznanych prawidłowości
Można wnioskować z danych o pogodzie.
Czym zajmuje się statystyka matematyczna i dlaczego ma zastosowanie w badaniach experymentalnych?
Modelowanie matematycznych zjawisk badawczych, empirycznych
Zasadami wnioskowania o prawidłowości zjawisk przy użyciu rachunku prawdopodobieństwa na podstawie danych obserwacyjnych
Ułatwia prace badawcze i obiektywne wnioskowanie z danych.
Jakie znaczenie mają zmienne losowe w statystyce matematycznej?
Opis wniosków zjawisk masowych, które z natury rzeczy nie są w pełni kontrolowane.
Zmienna losowa - niekontrolowana wielkość, której wartość pojawia się poza naszą wolą z określonym prawdopodobieństwem. Zmienna losowa powstaje w wyniku przyporządkowania każdemu zdarzeniu elementarnemu liczby rzeczywistej. Rozróżniamy:
Zmienne jakościowe (np. kategorie surowca do sprzedaży)
Zmienne ilościowe, skokowe (np. liczba bakterii w próbce surowca)
Zmienne ilościowe, ciągłe (np. zaw. wit. C w mrożonce)
Sposoby wnioskowania statystycznego
Związane z analizą regresji. Wnioskowanie odbywa się 1 z 2grup metod:
Estymacja, szacowanie parametrów rozkładów prawdopodobieństw zmiennych losowych w populacji
Stawianie i weryfikacja hipotez statystycznych.
Czym różnią się metody statystyczne spośród wszystkich metod analizy danych?
Pobieranie próby losowo
Metody oparte na rachunku prawdopodobieństwa - wnioskowanie z danych zbieranych w empirycznych badaniach zjawisk masowych.
Dane reprezentatywne, na których opierają się pewne prawidłowości zjawisk w sposób fragmentaryczny.
Dane obarczone efektami przyczyn losowych
Trzeba wykonać dużą liczbę doświadczeń z różnymi czynnikami i w różnych warunkach
Wnioski i prawa wyprowadzono z analizy danych
Prawidłowość tych wniosków jest tylko kwestią prawdopodobieństwa-bardzo dużego (0,95), ale nie pewności.
Do czego służy analiza regresji wielokrotnej?
Służy do statystycznego badania zależności przyczynowo-skutkowej, do oceny wpływu, jaki mają n zmienne przyczynowe, ilościowe X na zmienną skutkową, cechę Y.
Analiza regresji wielokrotnej jest oparta na funkcji regresji, która jest funkcją wielu zmiennych. Zmienne przyczynowe są od siebie zależne.
Cel analizy regresjiczy wszystkie uwzględnione zmienne faktycznie wpływają na analizie i w jaki sposób.
Analizę regresji dzielimy na 2 etapy:
Estymacja parametrów
Weryfikacja cząstkowych hipotez
W analizie tej weryfikuje się następującą hipotezęHo:b1=….bk=0.Wszystkie cząstkowe współczynniki regresji=0
Gdy Ho prawdziwa - funkcja regresji stała, zmienna X nie ma wpływu na funkcję
Gdy Ho odrzucamy - minimum 1 ze zmiennych przyczynowych wpływa na funkcję.
Dane obserwacyjne są podstawą do zastosowania metody najmniejszych kwadratów.
Współczynnik determinacji R2 - oszacowanie regresji, wykazuje struktury całkowitej zmienności.
Przyjmuje wartość przedziału (0,1),im bliższe 1,tym w większym stopniu zmienność zależy od zależności X od Y.
Współczynnik determinacji prostej określa 0-100% wyjaśnionej zmienności zmiennej zależnej Y przez liniowy model regresji prostej. Jest to miarą zależności zmiennych losowych X i Y. Jeżeli funkcja regresji jest liniowa, to współczynnik determinacji = kwadratowi współczynnika korelacji.
Podać 2 przykłady problemów, w których może być zastosowana analiza liniowej regresji wielokrotnej.
Xi - liczba zmiennych przyczynowych niezależnych
Y- zmienna zależna skutkowa
Ilość skrobi (X1), oleju (X2), temp. wytwarzania (X3)gęstość majonezy (Y)
Ilość koncentratu(X1), ilość papryki (X2), stężenie CO2 (X3)gęstość ketchupu(Y)
Czas(X1), temp. przechowywania (X2), stężenie CO2(X3) ubytek s.m.(Y)
Funkcja: E(Y/ X1…Xk)=my(X1…Xk)=o+1X1+kXk
Podać 2 przykłady problemów naukowo-badawczych, wdrożeniowych lub praktycznych z technologii żywności, w których może być zastosowana metoda analizy regresji wielokrotnej.
Regresja - związek ukierunkowany
Zależność średniej masy jaj od masy nioski i ilość jaj zniesionych rocznie.
Zależność zawartości skrobi w ziemniakach od pola i rodzaju użytego nawozu.
Przykład prób naukowo-badawczych, w których można zastosować analizę regresji prostej.
Służy do oceny zależności przyczynowo-skutkowej między 1 zmienną przyczynową i 2 zmienną skutkową. 2 zmienne mają charakter losowy oraz ilościowy.
Ocena zależności- zmienny skład tłuszczu w mleku =Y. Zmienna przyczynowa (ilościowa)-odmiana bydła =X
Dawka nawożenia azotem =X. Twardość ziarna pszenicy =Y
Ocena zależności między czasem zbioru truskawek, a momentem rozpoczęcia technologii ( np.5h), 1 zmienna, to czas zbioru, a 2 zmienna, to T, transport, metody składowania.
Ilość skrobi w dżemie-1 zmienna, zawartość cukru-2 zmienna.
Napisać ogólną postać liniowej regresji wielokrotnej, dla 4 zmiennych przyczynowych.
E(Y/X1, X2, X3, X4)= bo+b1X1+b2X2+b3X3+b4X4
bo - stała regresji
bi - cząstkowy współczynnik regresji, jest miarą wpływu każdej zmiennej przyczynowej na zmienną skutkową. Wartość współczynnika regresji mówi o ile zmieni się Y, jeżeli X1zwiększymy o jednostkę.
Czym się zajmuje doświadczalnictwo?
Jest to dziedzina interdyscyplinarna, obejmująca przede wszystkim problemy czysto statystyczne. Jest często traktowane jako gałąź statystyki matematycznej (np. nauki przyrodnicze).
Przedmiotem zainteresowań doświadczalnictwa są:
Statystyczne planowanie doświadczeń w różnych warunkach przyrodniczych oraz sposób poza doświadczalnego pozyskiwania danych o przyczynach i przebiegu zjawisk doświadczalnych.
Sprawdzanie oryginalnych metod statystycznych oraz dokonanie upowszechnienia ich zastosowania w analizie i interpretacja wyników doświadczalnych i innych danych reprezentatywnych dla badanej prawidłowości
Klasyczny rozwój doświadczalnictwa został skierowany na opracowywanie coraz lepszych metod umożliwiających badanie wpływu czynników z minimalnym błędem losowym.
Co to jest próba reprezentatywna?
Losowe pobranie z populacji jednostek doświadczalnych dla każdego poziomu badanego czynnika i zaobserwowanie na tych jednostkach wartości rozważanej cechy ilościowej.
Co to jest jednostka doświadczalna i hipoteza?
Jednostka doświadczalna - element rzeczywisty doświadczenia czynnikowego, do którego odnosimy zastosowanie danego poziomu czynnika i obserwację reagującej na ten poziom cechy ilościowej.
Przykład:
Partia surowca dostarczonego przez konkretnego dostawcę
Próbka surowca pobrana ze składu badanej tuszki
Próbka produktu końcowego wyprodukowanego wg danej technologii.
Hipoteza - rozpatrując pewną populację generalną, której rozkład i parametry nie są znane, każde przypuszczenie określające ten rozkład lub jego parametry będziemy nazywali hipotezą statystyczną. Hipoteza statystyczna może się odnosić do kilku populacji generalnych. Hipoteza traktuje, że średnia zmiennej losowej w rozkładzie normalnym jest jakąś rozsądną liczbą.
Do czego służy analiza wariancji, przykłady zastosowania?
Wariancja - Miara rozrzutu, mówi o rozproszeniu wszystkich wartości zmiennej losowej wokół wartości średniej (jak bardzo od niej odbiegają).
Do obserwowania analizy danych z obserwacji pewnej zmiennej, planowanych, kontrolowanych, doświadczenia czynnikowego. Za jej pomocą można zweryfikować hipotezy zerowe. Opracowana przez Fishera, wymaga formalnego traktowania wyników doświadczeń czynnikowych. Traktowanie wyrażone jest w postaci równania - liniowego modelu ANOVA. Model ten traktuje każdą obserwację doświadczenia czynnikowego jako realizację zmiennej losowej o rozkładzie normalnym z jednakową wariancją σ2 określająca zmienna losową cechy przy danym poziomie czynnika. Umożliwia opracowanie danych statystycznych z doświadczeń czynnikowych.
Wnioskowanie - czy dany czynnik wpływa różnicująco na średnią wartość naszej zmiennej.
Model liniowy analizy wariancji dla wyników doświadczenia jednoczynnikowego uzyskanych w układzie losowym, ma postać: yij=mi+eij ; i=1, 2, …a; j=1, 2, …n
Przykłady:
Przyczyna A-stopień wstępnego odwodnienia owoców; Przyczyna B - sposób suszenia owoców; Zmienna - cechy jakościowe produktu
Czynnik A -metoda peklowania szynki; Czynnik B -sposoby peklowania; Cechy Y - cechy jakościowe, np. zawartość białka, soku.
Kiedy stosujemy układ całkowicie losowy, a kiedy układ losowanych bloków?
Układ całkowicie losowy - gdy jednostki doświadczalne są jednorodne (nie podlegają zmienności systematycznej warunków badanego zjawiska-warunków wegetacji roślin, chowu zwierząt). W doświadczeniu 1no czynnikowym liczba wszystkich jednostek wynosi an (poziomów - liczba poziomów czynnika, n- liczba powtórzeń). Układ polega na rozmieszczeniu wszystkich jednostek w doświadczeniu w sposób całkowicie losowy na obszarze doświadczalnym. W doświadczeniach technologicznych układ całkowicie losowy polega na wyborze i przygotowaniu jednostek doświadczalnych oraz poddaniu ich działaniu poziomów czynnika w taki sposób, aby został wykluczony błąd systematyczny (jednostki doświadczalne mogą być obciążone błędem systematycznym, gdy występują efekty brzegowe).
Losowanych bloków - stosuje się, gdy niejednorodność jednostek doświadczalnych wynika z występowania 1nokierunkowej zmienności systematycznej warunków wegetacji. Tu zmienność występuje zarówno na polu jak i w innych sytuacjach doświadczalnych. Zadaniem jest eliminacja wpływu zmienności systematycznej warunków doświadczenia na badaną cechę. Układ losowych bloków jest najprostszym układem blokowym, który pozwala eliminować efekty niejednorodności na badaną cechę. Polega on na takim grupowaniu jednostek w bloki, aby między blokami zaistniało zróżnicowanie systematyczne warunków (ujawniła się niejednorodność), zaś w obrębie bloków zmienność warunków na jednostkach była losowa.
Bloki - jednostki doświadczalne pogrupowane w zbiory, w każdym bloku jest a jednostek, każda jest losowo prezypożądkowana innemu poziomowi badanego czynnika.
Wyjaśnić zasady metody najmniejszych kwadratów, stosowanej w statystyce matematycznej.
Estymatorem Θ. wg najmniejszych □ parametru Θ, jest funkcja Θ = g(X1,X2…Xn), dla której zachodzi warunek E{(0.-0)2}=min., przy czym wartość oczekiwaną oblicza się wg wszystkich dopuszczalnych wartości różnic
Θ.-Θ przy przyjętym a priori ich rozkładzie. Powyższy warunek można sformułować za pomocą funkcji strat i za pomocą funkcji ryzyka. Wyznaczyć minimum w metodzie najmniejszych □ może być sformułowane jako minimum funkcji ryzyka R(Θ){[R(0)=E{(σ)}] przy kwadratowej funkcji strat. Polega na znalezieniu sumy najmniejszych kwadratów odchyleń standardowych znalezienie funkcji najdokładniej opisujących uzyskane wyniki.
CHOLESTEROL Suma kwadratowych odchyleń jest tak dopasowana by była jak najmniejsza. Średnie odchylenia zmiennej zależności (od regresji) są wynikiem działania zmiennych.
Do czego służy analiza korelacji?
Do badanie współzależności między 2 zmiennym losowymi o rozkładach normalnych. Polega na charakterystyce związku liniowego za pomocą współczynnika korelacji. Współczynnik korelacji prostej jest miarą kierunku (+/-) i stopnia ścisłości związku liniowego między zmiennymi losowymi X i Y.
Korelacja słaba - taka gdzie jest duża rozbieżność, punkty są rozproszone.
Korelacja silna - zmienna ściśle współzależna.
Korelacja dodatnia - jedno rośnie i drugie rośnie.
Korelacja ujemna - jedno rośnie, a drugie maleje.
Zmienna deterministyczna - kontrolowana.
Zmienna losowa - niekontrolowana.
Przykłady:
Zależność między czasem nauki do egzaminy (X), a oceną z egzaminu (Y).
Masa jabłka w kg (X), a zawartość s.m.(Y)
Zawartość s.m.w bulwach ziemniaka (X), a zawartość skrobi(Y)
Badanie współzależności zmiennych
Związek liniowy Nie ma związku Obserwacje rozmyte Układ wskazuje na
między zmiennymi Brak istotnej współzależności korelację „+”
*
* * * * *
* * * * *
* ** * * * * * * * * * * *
* *
Analizę korelacji prostych można stosować tam, gdzie są zmienne losowe, a rozkład ich jest bliski normalnemu.
Współczynnik korelacji prostej jest miara kierunku i stopnia ścisłości związku liniowego miedzy losowymi zmiennymi X i Y.
Co to jest współczynnik ufności?
Mierzy stopień zaufania do poprawności wnioskówprawdopodobieństwo poprawnego wniosku. Prawdopodobieństwo, z jakim przedział ufności jakiegoś parametru pokrywa nieznana wartość parametru.
1- jest bliski 1 (0,9; 0,95; 0,99). Im wyższy współczynnik ufności, tym szerszy przedział ufności i mniejsza dokładność estymacji.
Przedział ufności - aby dokonać estymacji z jakimś przyjętym z góry dodatnim prawdopodobieństwem, należy w przestrzeni parametrów wyznaczyć pewien obszar, będzie to przedział ufności. Granice przedziału ufności są zmienne od próby do próby oraz 1- jest prawdopodobieństwem pokrycia przez przedział szacowanego parametru. Konstruując przedział ufności przy danym stałym poziomie ufności możemy sądzić, że dla ok. 100 (1-) % przypadków uzyskamy przedziały zawierające szacowany parametr.
Co to jest poziom istotności?
- prawdopodobieństwo odrzucenia prawdy, prawdziwej H, dobrze gdy jest jak najmniejsze. Ryzyko błędu I rodzaju, że przedział ufności nie zawiera szacowanego parametru. Określa max ryzyko błędu, jakie badacz jest w stanie zaakceptować. Wybór wartości zależy od badacza, natury problemu i od tego, jak dokładnie chce on weryfikować swoje hipotezy, najczęściej przyjmuje się =0,05; =0,01. Im niższe , tym niższa precyzja oceny, a większy przedział ufności.
Co to jest test statystyczny i moc testu statystycznego?
Test statystyczny - pewne narzędzie, postępowanie służące sformułowaniu wniosku o hipotezie. Służy do testowania hipotezy, do rozstrzygania o prawdziwości lub nie.
Hipoteza statystyczna - model matematyczny hipotezy merytorycznej.
Jeśli nie odrzucamy, nie stwierdzona zależności między badaną cechą a poziomem tego czynnika.
Moc testu - Zezwala na określenie kryterium wyboru procedury testowej przy weryfikacji hipotezy statystycznej. Test może być słaby lub mocny:
Słaby - gdy istnieje duż szansa na to, że nie odrzucimy hipotezy zerowej, mimo jej nieprawdziwości.
Mocny - w większości przypadków jesteśmy w stanie odrzucić fałszywą hipotezę zerową.
Do czego używamy test t-Studenta, 2 przykłady
Sprawdzenie hipotezy o różnicy dwóch populacji generalnych, o rozkładach normalnych
X1~N ( σ)
X2~N ( σ)
Sprawdzenie, że średnia populacja równa się z góry przyjętej liczbie (=0, najczęściej)
Postawmy hipotezę Ho: , taką hipotezę sprawdza się zazwyczaj w badaniach przyrostu pewnych populacji w czasie,
np.przyrost masy zwierząt od hodowli t1, do hodowli t2
Założenie X1~N( σ)
Stawiamy hipotezę Ho: i określamy poziom istotności
Wyznaczamy statystykę temp = x.-/Sx.
Rozkład t-Studenta ~Normalny, zależy od liczby stopni swobody, liczebności prób.
Jaka jest różnica między hipotezami parametrycznymi, a nieparametrycznymi?
H. parametrycznymi nazywamy hipotezy dotyczące takich parametrów populacji generalnej (jednej lub kilku), jak średnie, wariancja, wskaźnik struktury oraz parametrów populacji wielocechowych.
H. nieparametryczne, to hipotezy przy których stosuje się testy hipotez dotyczących rozkładów bez precyzowania lub bez parametrów. Rozróżniamy tu:
Hipotetyczny rozkład populacji generalnej jest przez hipotezę całkowicie określony
Hipoteza dotyczy tego rozkładu, ale parametry należy szacować z próby
Hipoteza dotyczy zgodności rozkładów dwóch lub kilku populacji generalnych
Hipoteza dotyczy niezależności elementów próby
Czym zajmuje się dział statystyki zwany estymacją?
Estymacja parametrów - opiera się na estymacji parametrów rozkładu normalnego, punktowy estymator daje oszacowanie w postaci 1 liczby.
Estymacja przedziałowa - tu stosujemy przedział ufności.
Zajmuje się oszacowaniem parametrów statystycznych (pewna charakterystyka zmiennej losowej
np.x € N (m,σ2) - parametry zmiennej losowej. Estymacja parametrów próby generalnej na podstawie elementów próby. Ocena rozkładu populacji wg danych z próby, przez szacowanie jej parametrów, pozwala na rozwiązywanie matematycznych problemów analizy, porównań i przewidywań wyników procesów masowych.
Przykład: Ocena mleka dostarczonego
Mamy jednostkowe dostawy do pewnej mleczarni - dostawcy stanowią pewna zbiorowość, interesuje nas zawartość tłuszczu zmienna X.
Ocena średniej zawartości tłuszczu - bierzemy daną reprezentatywną i na tej podstawie szacujemy średnią arytmetyczną. Błąd standardowy średniej arytmetycznej Sx.=√s2/n.
Założenie: n= 50, liczba dostawców obserwowanych
x.= 3,25%, zawartość tłuszczu w mleku
Sx.= 0,15%
Średnią populacją szacujemy z próby 50 elementów, z przeciętnym błędem pomiaru 0,15%. Jest to dość dokładny pomiar. Średnia zawarta jest bliska 3, a raczej >3.
Własności estymatorów
Estymator - przybliżenie pewnej wartości, wartość średnia z próby. Estymatorem danego parametru populacji nazywamy określoną funkcję elementów próby g (x1, x2, …xn), spełniającą pewne kryteria optymalności. Postać estymatora zależy od tych elementów.
Dobry estymator zapewnia otrzymanie wyników z prób zbliżonych do rzeczywistości.
Nieobciażoność - przy wielokrotnym losowaniu próby średnia z wartości przyjmowanych przez estymator nieobciążony = wartość szacowanego parametru. Wtedy odchylenia + i - nawzajem się niwelują ( nie maja tendencyjnego charakteru). Obciążenie estymatora - różnica miedzy wartością oczekiwaną rozkładu estymatora, a wartością szacowanego parametru jest zależna funkcyjnie od estymatora.
Zależność - jeśli Tn jest zgodny, to jest asymptotycznie nie obciążony, twierdzenie odwrotne jest nieprawdziwe. Jeśli Tn jest nieobciążony i jego wariancja spełnia zależność Lim D2(Tn)=0, n∞, to Tn jest estymatorem zgodnym.
Asymptotyczna nieobciążoność - estymator nazywamy asymptotycznie nie obciążonym, jeżeli obciążenie estymatora dąży do 0, przy rosnącej liczebności próby. Każdy estymator nie obciążony jest estymatorem asymptotycznie nie obciążonym.
Zgodność - estymator jest zbieżny, gdy jest stachostycznie zbieżny do szacowanego parametru. Wtedy przez zwiększenie liczebności próby uzyskuje się coraz większe prawdopodobieństwo, że estymator będzie przyjmował wartości coraz bliższe wartości parametru ryzyko popełnienia dużego błędu jest niewielkie.
Efektywność - dla najbardziej efektywnego estymatora =1, 0<e<1. Estymator najefektywniejszy ma najmniejszą wariancję.
Dostateczność (wystarczalność) - dostateczny, gdy zawiera wszystkie informacje na temat parametru, jakie występują w próbie i żaden inny estymator nie może dać dodatkowych informacji. Estymator ten nie zawsze istnieje.
Jakie właściwości powinien mieć dobry estymator dla parametrów rozkładu zmiennej losowej?
Nieobciążony - wartość oczekiwana wartości średniej powinna dać średnią arytmetyczną
Zgodny - różnica dąży do 0
Efektywny - im niższa wariancja, tym estymator powinien być bardziej efektywny.
Dostateczny
Zależny
Definicja błędu I i II rodzaju przy testowaniu hipotezy za pomocą testu statystycznego.
I. Rodzaju = poziom istotności testu = moc testu. Odrzucenie prawdziwej hipotezy, przy czym prawdopodobieństwo popełnienia błędu I rodzaju jest nazywane poziomem istotności.
II. Rodzaju polega na przyjęciu hipotezy zerowej, która jest fałszywa. Prawdopodobieństwo popełnienia błędu II, oznaczamy symbolem
Do czego służą procedury porównań wielokrotnych i które z nich są preferowane?
Porównania wielokrotne - problem wyznaczania grup jednorodnych. Grupy jednorodne i podzbiór
(mi1, mi2,…mim) zbioru wszystkich średnich obiektowych {m1, m2,…mn}, tak, że m1= m2=…=mn oraz żadne z pozostałych średnich nie jest równe mi1.
3 rodzaje procedur porównań wielokrotnych:
Jednoczesne przedziały ufności (Tukey, Scheffego)
Testy wielokrotne (Ducana, Neumana -Keulsa)
Metody analizy skupień (Carsterna, Colińskiego)
Każda procedura umożliwia uzyskanie podziału prawdziwych średnich obiektowych na grupy jednorodne opierając się tylko na ocenach tych średnich z próby (wyników doświadczenia). Procedura ta ma dawać podziały najbliższe rzeczywistym podziałom na grupy jednorodne.
Służą do badań szczegółowych, umożliwiają uzyskanie podziału prawdziwości średnich obiektowych na grupy jednorodne opierając się tylko na ocenach tych średnich z próby. Powinny dawać podziały najbliższe rzeczywistym podziałom na grupy jednorodne.
Najczęściej stosowane w doświadczalnictwie - grupy porównań wielokrotnych:Ducana (najprostsze), Tukeya, Newmana (najlepsze). Wszystkie są rozwinięciem procedury opracowanej przez Fishera, a opartej na teście
t-Studenta.
Kryterium skuteczności - prawdopodobieństwo dokonywania prawidłowego -zg.z rzeczywistością podziału na grupy jednorodne.
Jak posługujemy się regresją krokową?
Badanie zależności wpływu zmiennych X1, X2, …Xi na cechę Y:
Wykorzystujemy 2 opcje Backward i Forward
Y X1, X2,X3 - wybieramy zmienną która ma wpływ na Y
(Y,X1) (X2,X3) - z pozostałych wybieramy tą która najlepiej pasuje do Y,X1
(Y,X1,X2) X3 - jeśli X3 pasuje do Y,X1,X2, to dołączamy, jeśli nie, to usuwamy.
Doświadczenie czynnikowe
Wykonanie pewnego zjawiska w warunkach kontrolowanych oraz obserwowanie tego zjawiska pod wpływem poziomów badanego czynnika lub wielu czynników.
Przykład:
nawóz azotowy zbóż (czynnik) wpływa na twardość ziarna, zawartość białka.
Test istotności - test skonstruowany w ten sposób, że pomijamy problem błędu II, a jedynie ustalamy poziom istotności, czyli prawdopodobieństwo błędu I rodzaju.
Charakterystyka liczb zmiennych:
Średnia (wartość oczekiwana, czasem nie jest realizowana) - jest średnią z nieskończenie wielu możliwych realizacji zmiennych losowych, można ją oszacować na podstawie danych eksperymentalnych.
Średnia arytmetyczna z wyników arytmetycznych jest oszacowaniem średniej populacyjnej. Wartością oczekiwaną średniej arytmetycznej jest średnia populacji.
Błąd standardowy średniej z próby - miara szacowania dokładności średniej z populacji. Im mniejsza wariancja, tym dokładność szacowania rośnie.
Wariancja (zakres zmienności) zmiennej losowej, liczba charakteryzująca zmienność zbioru, jej wartość wokół wartości średniej. D2X - średni kwadrat odchyleń średniej wartości liczb.
Im większa liczebność próby, tym wariancja średniej arytmetycznej zmniejsza się.
Odchylenie standardowe (do oceny zmienności zmiennej) - pierwiastek z wariancji. Średnie odchylenie wartości zmiennej losowej od jej średniej. Liczba charakteryzująca rozrzut zbioru wokół średniej.
Elementy filozofii statystycznej
Czynnik - przyczyna
Cecha ilościowa - zmienna zależna obrazuje wyniki doświadczenia
Poziom czynnika (obiekt) - trzeba ustalić konkretne parametry
Doświadczenie - postępowanie zmierzające do zaistnienia pewnego zjawiska w warunkach kontrolowanych oraz zebranie danych o jego przebiegu i wynikach końcowych.
Jednostka doświadczalna - umówiony element materialny, ustalona liczba surowca. Nie są one identyczne.
Rozkład normalny - przekształcenie liniowe zmiennej o rozkładzie normalnym
To co podkreślone-taką odpowiedź Mądry podawał na wykładzie.
Wszystkie kropki przy parametrach oznaczają daszki, ew.przy x- wartość średnią.
Mądry powiedział, że na egzaminie nie trzeba przy takim pytaniu pisać przykładu, podał go „tak sobie”, ale kto wie…
Statystyka - opracowane pytania 1
- 3 -
Analiza wariancji - analiza zmiennej;
Analiza korelacji - analiza współzależności między 2 zmiennymi
Metoda najmniejszych kwadratów - kryterium w teorii statystyki matematycznej. Pozwala na otrzymanie określonych algorytmów z danych cząstkowych na obliczenie współczynnika regresji
Informuje jak zmienia się cecha w zależności od drugiej (jej natężenie kierunek zmian +/-).
Postawimy H0: , przy poziomie istotności ,
Jeżeli |temp|>tHo odrzucamy (różnica miedzy średnimi jest istotna)
Jeżeli |temp|<tHo nie odrzucamy
(weryfikując hipotezę musimy sformułować hipotezę alternatywną, która jest uznana za prawdziwą, gdy odrzucimy Ho)