ZAGADNIENIA Z MATEMATYKI
1.Hipoteza badawcza
Zdanie twierdzące, dotyczące przewidywanego wyniku eksperymentu, przeprowadzanego aby odpowiedzieć na pytanie badawcze
5. Czym zajmuje się statystyka?
Zajmuję się ona pozyskiwaniem, prezentacją i analizą danych dotyczących danego zjawiska.
służy do oszacowania nieznanego momentu lub wprost nieznanego parametru zmiennej losowej. Posługuje się eksperymentem do potwierdzania swoich teorii. Statystyka zajmuje się badaniem zjawisk masowych, co pozwala na poznanie natury zjawiska (cechy) i praw nim rządzących. Celem badania statystycznego jest najczęściej poznanie rozkładu danej cechy i oszacowanie charakterystyk tego rozkładu.
6. Rodzaje zmiennych eksperym,entalnych: zmienne ciągłe i zmienne dyskretne
Zmienne ciągłe Jeżeli X jest zmienną losową typu ciągłego zdefiniowaną na przestrzeni probabilistycznej , to wartość oczekiwaną zmiennej losowej X definiuje się jako całkę
Niech X będzie zmienną losową typu dyskretnego. Wartością oczekiwaną nazywa się sumę iloczynów wartości tej zmiennej losowej oraz prawdopodobieństw, z jakimi są one przyjmowane.
Formalnie, jeżeli dyskretna zmienna losowa X przyjmuje wartości z prawdopodobieństwami wynoszącymi odpowiednio , to wartość oczekiwana zmiennej losowej X wyraża się wzorem
.
7.Populacja próba
Populacja jest to zbiór wszystkich elementów podlegającym badaniu statystycznemu. Natomiast próba jest grupa losowo wybranych elementów z populacji
8. Rozkład normalny a rozkład t
Rozkład normalny
Rozkład normalny nazywany też rozkładem Gaussa lub krzywą dzwonową jest jednym z najważniejszych rozkładów w statystyce.
Wielokrotne powtarzanie tego samego pomiaru daje wyniki porozrzucane wokół tej samej wartości
Jeśli l pomiarów zbliży się do nieskończoności wtedy te wartośći stają się ciągłe a krzywą nazywamy krzywą rozkładu Gaussa
Rozkład normalny można opisać poprzez
Momenty
Kumulanty
Funkcje charakterystyczne
Funkcje gęstośći
Funkcje tworzące momenty
Funkcje tworzące kumulanty
Dystrubanta
Rozkład normalny jest popularny ponieważ:
Jeśli jakaś wielkość jest sumą lub średnią bardzo wielu drobnych losowych czynników, to niezależnie od rozkładu każdego z tych czynników, jej rozkład będzie zbliżony do normalnego.
Wiele metod „po cichu” zakłada rozkład normalny pomiarów
Rozkład t –rozkład studenta
Jest to ciągły rozkład prawdopodobieństwa stosowany często w statystyce w procedurach testowania hipotez i przy ocenie błędów pomiarów. Używa się go przy małej ilości pomiarów, gdy znana jest wariancja. Nieznane natomiast jest odchylenie standardowe w populacji.
W przeciwieństwie do rozkładu t Studenta, kształt rozkładu normalnego nie zależy od stopni swobody. Im mniejsza jest liczba stopni swobody, tym większa jest różnica między rozkładem normalnym a t Studenta i odwrotnie.
10.zmienna standaryzowana i zmienna centrowana
Zmienna standaryzowana
x - zmienna standaryzowana
σ - odchylenie standardowe populacji
μ - średnia z populacji.
W wyniku standaryzacji
wartość średnia =0
odchylenie standardowe =1
zmienna centrowa
Centrowanie danych jest transformacja liniowa (translacja), aby wartości średnie wszystkich zmiennych pokrywały się z początkiem układu współrzędnych jest typową operacją na danych przeznaczonych do analizy podobieństwa.
Centrowanie dokonujemy odejmując od poszczególnych wartości x wartość średnią dla j-tej zmiennej
11.Miary opisujące położenie rozkładu :
Średnia- jest to środek ciężkości danego zbioru (grupie danych)
Mediana – wartość leżąca w środku całej grupy danych
Modalna- wartość pojawiająca się najczęściej w grupie danych
12. Miary opisujące rozrzut wyników: odchylenie standardowe i wariancja
Odchylenie standardowe
$$\sigma = \sqrt{\frac{\sum_{i = 1}^{n}\left( x_{i} - x_{sr} \right)^{2}}{n - 1}}$$
Wariancja
$$\sigma^{2} = \frac{\left( x_{i} - x_{sr} \right)^{2}}{n - 1}$$
Ani odchylenie standardowe ani wariancja nie mają jednostek
Własności matematyczne wariancji
im większa zmienność tym większa jest wariancja
wariancja nie jest w tych samych jednostkach co parament
wariancja jest wielkością addytywną
13. Prawdopodobieństwo podstawowe aksjomaty
P(A) jest w przedziale [0,1]
Dla zdań pewnych P(A) =1
Dla zdań niemożliwych P(A)=0
Dla zdań połączonych (powinni eń być znaczek sumy)
P( A1 A2 A3… A4) =P(A1)+P(A2)+P(A3)+…+P(A3)
14.Poziom istotności a poziom ufnośći
Poziom ufności jest to prawdopodobieństwo 1-α związane z przedziałem ufnośći. Często wyrażony w procentach. Np. jeżeli p=95% to oznacza to, że istnieje 95% prawdopodobieństwo, że nasz wynik będzie się znajdował w przedziale domkniętym ograniczonym niepewnością rozszerzoną pomiaru.
Poziom istotności- jest to maksymalne prawdopodobieństwo popełnienia błędu I rodzaju. Określa tym samym maksymalne ryzyko błędu, jakie badacz jest skłonny zaakceptować.
15. Błąd I rodzaju
Błąd polegający na odrzuceniu hipotezy zerowej chociaż jest ona prawdziwa. Oszacowane prawdopodobieństwo występowania błędu I rodzaju jest poziomem istotnośći
17. Idea testowanie hipotez
Testowanie hipotez oznacza sprawdzanie słuszności danej hipotezy (np. czy ilość składnika w tabletkach różni się statystycznie na poziomie 5% od ilości podanej na opakowaniu)
Kroki testowanie hipotezy
Ustalenie hipotezy zerowej(H0) i hipotezy alternatywnej (H1)
Ustalenie poziomu istotności
Ustalenie przedziału ufności (ustalenie obszaru krytycznego testu)
Obliczanie statystyki na podstawie próby (np. czy dana wartośc znajduję się w przedziale ufności itp.)
Przyjmowanie lub odrzucanie hipotezy zerowej
18.Hipoteza zerowa i hipoteza alternatywna
Hipoteza zerowa- jest to hipoteza jaka podlega weryfikacji. Zakłada ona, że różnica pomiędzy analizowanymi parametrami jest równa 0
Hipoteza alternatywna-hipoteza przeciwstawna do weryfikowanej. Różnica pomiędzy analizowanymi parametrami lub rozkładami jest różna od 0.
19. Test jednostronny i dwustronny
95%jednostronnego testu to jest to samo co 90% test dwustronny
Test jednostronny test dwustronny
20.Precyzja a dokładność metody analitycznej
Precyzja- oznacza jak bardzo otrzymane w toku analizy wyniki są zbliżone do siebie. Dokładność natomiast oznacza jak bardzo otrzymane przez nas wyniki są zbliżone do wartości rzeczywistej. (patrz ostatnie kolokwium z analitycznej)
Precyzja:
$$\left( \frac{\sigma}{\sqrt{n}} \right)$$
21. Przykłady porównania wartości eksperymentalnych z wartością deklarowaną
Badanie porcji leków. Wartość danego składnika leków nie może statystycznie się różnić od wartości podanej na opakowaniu.
Badania próbek wód mineralnych- czy wartość podana przez producenta różni się od rzeczywistej wartości poszczególnych składników
22. Idea porównywania wartości średnich i przykład zastosowania
Porównywanie wartości średnich zwane też ” Jednoczynnikową analizą wariancji” . Sprawdza się tak czy dane próbki należą do tych samych populacji wyników a różnica między wartościami średnimi jest tylko błędem losowym.
23.Porównywanie wariancji 2 grup pomiarów
W celu sprawdzenia tego, się test f (czy wariancje różnią się statystycznie od siebie)jeśli:
$$F = \frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}$$
W liczniku zawsze będzie większa wariancja
F > Fkrytycznego to wariancje różnią się statystycznie. (odrzuca się hipotezę zerową)
F< Fkrytycznego to wariancje nie różnią się statystycznie (przyjmuje się hipotezę zerową)
24.Zmienne zależne i zmienne niezależne
Zmienna zależna(zwana też zmienna objaśnienia) – zmienna której wartość są szacowane przez model statystyczny. Zmienne, które badacz chce wytłumaczyć
Zmienna niezależna (zmienna objaśniająca)- zmienna na postawie której oblicz się zmienną zależną.
zmienna niezależna jest przyczyną danych wartości zmiennej, a skutkiem są zmienne zależne,
które wyjaśniamy i poszukujemy ich.
25.Regresja jednoparametrowa i regresja wieloraka
Regresja wieloraka jest to ilościowe ujęcie związków pomiędzy wieloma zmiennymi niezależnymi a zmienną zależna.
Równanie regresji
y = b + a1x1 + a2x2 + a3x3 + ... + anxn
Regresja jednoparametrowa jest to ilościowe ujęcie pomiędzy zmienną niezależna a zmienną zależną
Równanie regresji
y = ax + b
Wyraz wolny
b = ysr − axsr
$$a = \frac{\sum_{i = 1}^{n}{\left( x_{i} - x_{sr} \right)\left( y_{i} - y_{sr} \right)}}{\left( x_{i} - x_{sr} \right)^{2}}$$
26. Miary oceny dopasowanie równań regresji do danych eksperymentalnych
Współczynnik determinacji R2
Informuje o tym, jaka część zmienności zmiennej objaśnianej (zależnej) została wyjaśniona przez model. Jest on więc miarą stopnia, w jakim model wyjaśnia kształtowanie się zmiennej objaśnianej.
- rzeczywista wartość zmiennej Y w momencie t,
- wartość teoretyczna zmiennej objaśnianej (na podstawie modelu),
- średnia arytmetyczna empirycznych wartości zmiennej objaśnianej.
Współczynnik zbieżności
określa, jaka część zmienności zmiennej objaśnianej nie została wyjaśniona przez model
,
27. Przykłady zastosowania modelu regresji jednoparametrowej w chemii
W spektrofotometrii, na podstawie równania regresji jednoparametrowej krzywej wzorcowej można ustalić jaka jest ilość badanego związku
28.Wyznaczanie współczynników regresji liniowej metodą najmniejszych kwadratów
y = ax + b
Współczynniki regresji liniowej są to a i b.
$$a = \frac{\sum_{i = 1}^{n}{\left( x_{i} - x_{sr} \right)\left( y_{i} - y_{sr} \right)}}{\left( x_{i} - x_{sr} \right)^{2}}$$
Wyraz wolny
b = ysr − axsr
29.Fundamentalne założenia metody najmniejszych kwadratów
Przyjmujemy następujące założenia dotyczące stosowalności MNK do szacowania wektora w modelu :
(Z1) zmienne objaśniające są nielosowe i nieskorelowane ze składnikiem losowym ,
(Z2) rz(x)=k+1n,
(Z3) E=0,
(Z4) , przy czym
30. Macierz odwrotna, wyznacznik macierzy, rząd macierzy
Macierz Odwrotna
Jeśli dla danej macierzy kwadratowej A istnieje macierzB spełniająca równanie
A * B = B * A = J
To macierz B nazywamy macierzą odwrotną
Wyznacznik Macierzy
Każdej macierzy przyporządkowana jest jedna liczba zespolona lub rzeczywista, która zwana jest wyznacznikiem
Dla macierzy[a11] wyznacznik:
Det[a]=a11
Rząd macierzy
Rząd macierzy nazywamy najwyższy ze stopni tych minorów, które są różne od zera.
31.Obiekty odległe i ich wpływ na wyznaczanie współczynników regresji liniowej
W metodzie najmniejszych kwadratów odległe obiekty powodują, że wyznaczone równanie regresji liniowej może, nie mieć zbyt wiele wspólnego z rzeczywistą zależności pomiędzy zmiennymi. Jest to spowodowane tym, że model ten dostosowuje się do najbardziej oddalonych zmiennych ( w końcu suma różnicy kwadratów musi być jak najmniejsza), powodując tym samym duży błąd. Czyli współczynniki (jak i całe równanie regresji) będzie obarczone dużym błędem
32.Wizualizacja modelu, wizualizacja reszt modelu
Reszty mają rozkład normalny, czyli jeżeli na wykresie e(y) reszty będą się układały w cos przypominające literę u to zależność jest liniowa. Jeśli nie to jest nieliniowa.
33.Model liniowy i model nieliniowy
Model liniowy to taki model wizualizacyjny, w którym możemy wyznaczyć linie trendu (regresje liniową), czyli wtedy, gdy współczynnik korelacji jest bliski 1 lub -1. Oprócz regresji liniowej może być także regresja wieloraka, ale są jej pewne ograniczenia:
- zmienne X są skorelowane
- liczba zmiennych niezależnych jest większa niż liczba próbek
Model nieliniowy -???
34.Współczynnik korelacji Pearsona
$$r = \frac{\sum_{i = 1}^{n}{\left( x_{i} - x_{sr} \right)\left( y_{i} - y_{sr} \right)}}{\sqrt{\sum_{i = 1\ }^{n}{\left( \left( x_{i} - x_{sr} \right) \right)^{2}\text{\ \ }\sum_{i = 1}^{n}\left( y_{i} - y_{sr} \right)^{2}}}}$$
Własności:
Wartość współczynnika mieści się w przedziale [-1,1]
Gdy r=0 to ni ma korelacji
Gdy r=1 to istnieje dokładna liniowa zależność
Gdy r=-1 to istnieje dokładna ujemna liniowa zależność
Zastosowania:
35. Na czym polega planowanie eksperymentu
Eksperyment planuje się w celu :
Poznania jak wpływają poszczególne czynniki na układ
Modelowania zależności pomiędzy czynnikami a odpowiednimi układami
Efektywny dobór parametrów i warunków eksperymentu pozwala na przeprowadzenie optymalnej procedury przy jak najmniejszej liczbie powtórzeń.
36. Kroki planowania eksperymentu
Wybór czynników
Wybór zależności czynników danego eksperymentu (patrz rysunki z wykładu)
Wybór układu eksperymentalnego
Przeprowadzenie eksperymentu
Ustalenie wpływu czynników na eksperyment
Statystyczna interpretacja wyników
Wnioski
38.Plany kompletne
Używane są do badania zależności pomiędzy wynikiem eksperymentu i wartościami wpływającymi na ten wynik. . Najprostszym modelem, jaki może opisywać badaną zależność jest model liniowy będący wielomianem pierwszego stopnia postaci:
F(x1,x2,...,xk) = αo + α1x1 + α2x2 + … + αkxk
Gdzie F(x1,x2,...,xk) to odpowiedź wyznaczana w wyniku eksperymentu, αo – oszacowanie wyrazu wolnego, a α1 do αk to szacowane współczynniki regresji. Plany czynnikowe służą do szacowania współczynnika regresji równania.
39.Czynniki i poziomy czynników
Czynniki można podzielić na:
Jakościowe –mówią tylko, że dany czynnik ma lub nie ma wpływu na układ
Ilościowe - np. pH, stężenie modyfikatora(??)
Poziomy czynników
(??)Jak duży wpływ dany czynnik ma na układ.(??)
40.Efekt czynnika, wpływ kombinacji efektów
Efekt czynnika
$$efekt = \left( \sum_{}^{}{pozytywnych\ poziomow} - \sum_{}^{}{negatywnych\ poziomow} \right)2^{f - 1}$$
f- liczba czynników
IM WYŻSZY POZIOM CZYNNIKÓW TYM WYŻSZY WPŁYW CZYNNIKA
Wpływ kombinacji efektów
A | B | C | AB | AC | Y |
---|---|---|---|---|---|
+ | + | + | + | + | 1 |
+ | + | - | + | - | 2 |
+ | - | - | - | - | 3 |
- | + | + | - | - | 4 |
- | - | + | - | - | 5 |
- | - | - | - | - | 6 |
+ | - | + | - | + | 7 |
Czyli
Żeby było AB to musi być obecne i A i B
Żeby było AC to musi być i A i C
41. Optymalizacja jedno, wieloczynnikowa
Optymalizacja jednoczynnikowa eksperymentu
Przykładem takie optymalizacji jest dwuczynnikowy eksperyment ale optymalizujemy jedynie jeden czynnik w czasie. Po prostu optymalizacji podlega jedynie jeden czynnik
Rysunki z wykładu
Optymalizacja wieloczynnikowa
Przykładem takiej optymalizacji jest gdy mamy dwuczynnikowy eksperyment i optymalizujemy 2 czynniki w tym samym czasie. Równoczesna optymalizacja kilku czynników.
Rysunek z wykładu
42. Metoda optymalizacji „simpleks”
Jest to rodzaj krokowej optymalizacji. W tej metodzie pierwsze trzy eksperymenty decydują o kolejnych. Mając rozwiązanie bazowe sprawdzamy czy jest ono optymalne czy nie. Jeżeli dane rozwiązanie nie jest optymalne budujemy kolejne aż do momentu znalezienia rozwiązania optymalnego.
43.Funkcja optymalizacji, płaszczyzna odpowiedzi
Płaszczyzna odpowiedzi
Rysunki z wykładu (??)
Funkcja optymalizacji
Efektywny dobór parametrów i warunków eksperymentów pozwala na przeprowadzenie optymalnej procedury przy jak najmniejszej liczbie eksperymentów
y = f(x1, x2, x3…xn)
(x może być pH, temperatura, ilość modyfikatora)
45. ANOVA
Zwana także analizą wariancji. Jest to metoda statystyczna służącą do badania obserwacji, które zależą od jednego lub wielu działających równocześnie czynników. Za pomocą tej metody można wyjaśnić z jakim prawdopodobieństwem dany czynnik może mieć wpływ na różnice pomiędzy poszczególnymi obserwowanymi średnimi grupowymi. Czyli jaki wpływ ma dany czynnik na układ.
Można ją podzielić na:
Modele jednoczynnikowe- wpływ każdego czynnika jest rozpatrywany oddzielnie
Modele wieloczynnikowe – wpływ ro cnych czynników jest rozpatrywany łącznie