Wiadomości wstępne (Siegmund Brand Analiza danych. Metody statystyczne i obliczeniowe, W. Oktaba Elementy statystyki matematycznej i metodyka doświadczalnictwa)
Zagadnienia, którymi interesują się badacze tacy jak botanicy, biologowie, rolnicy, zootechnicy, mikrobiologowie itd., z natury rzeczy wymagają wykonania pewnej liczby doświadczeń. Doświadczenia te dają podstawę do wysnuwania ogólnych wniosków, które z kolei wymagać mogą dalszych głębszych i bardziej wnikliwych dociekań. Wykrywanie pewnych prawidłowości w przyrodzie, które jest celem badań przyrodników, wymaga na ogół wiele trudu i pracy. Proste, wstępne doświadczenia zazwyczaj poprzedzają badania zaawansowane. Wydaje się, ze najprostszym i najczęstszym problemem, który zajmuje eksperymentatora, jest porównanie średnich wyników uzyskanych z dwóch grup doświadczalnych. Tak więc rolnik może być zainteresowany porównaniem jakości nasion dwóch odmian koniczyny czerwonej, chemik - porównaniem zawartości nikotyny w dwóch próbkach pochodzących z różnych gatunków tytoniu, fizyk - porównaniem dokładności pomiarów dwóch linii spektralnych, zootechnik - porównaniem wpływu dwóch różnych pasz na przyrost wagi tuczników, biolog - porównaniem poziomu cukru we krwi królików dwóch ras itd.
Ponieważ w przyrodzie nie ma identyczności, więc wyniki uzyskane nawet w tych samych warunkach doświadczalnych różnią się między sobą. Stąd też średnie wyników dwóch grup eksperymentalnych uzyskanych w tych samych warunkach, będą na ogół różne. Badacza interesuje zagadnienie, czy różnice między obliczonymi średnimi można przypisać działaniu drobnych przyczyn niekontrolowanych w doświadczeniu, czy też odmiennemu działaniu kontrolowanego czynnika. Uzyskanie ściśle naukowej, obiektywnej odpowiedzi na to pytanie wykracza zazwyczaj poza zakres badań właściwych naukowcom wymienionych lub podobnych specjalności. Taką odpowiedź można otrzymać, korzystając z osiągnięć teorii statystyki matematycznej.
Statystyka matematyczna jest nauką badającą zmienność występującą w zjawiskach przyrody, a wyrażoną w liczbach. Korzysta z rachunku prawdopodobieństwa.
Rachunek prawdopodobieństwa zajmuje się wykrywaniem i badaniem prawidłowości zachodzących między zdarzeniami losowymi.
Zdarzenie losowe, to zdarzenie, którego rezultatu nie możemy przewidzieć mimo sprecyzowanych warunków, w których jest ono realizowane. Przykładami zdarzeń losowych mogą być: wynik rzutu monetą, wynik rzutu kostką do gry, ciężar plonu ziarna pszenicy zebranego z wazonu, przyrost na wadze tucznika w pewnym czasie, pomiar przyspieszenia ziemskiego.
Modele klasyfikacyjne (B. Żuk Biometria stosowana)
Populacja stanowi zbiór elementów jednorodnych w tym sensie, że różnice miedzy elementami są losowe. Każdej z rozpatrywanych prób przypisuje się jedną jednorodną hipotetyczną populację i sprawdza się czy te hipotetyczne populacje są identyczne. W populacji tego typu zaobserwowaną wartość xi cechy i-tego elementu można przedstawić modelem:
, 1.1.
gdzie μ oznacza wartość średnią populacji, a ei - wartość zmiennej losowej. Średnią μ można przyjąć jako wynik działania czynników wpływających na wszystkie elementy populacji, ei jako wynik działania czynników specyficznych dla i - tego elementu. Wartość μ nie jest zmienną losową, lecz wartością stałą, jednakową dla wszystkich elementów populacji. Jeżeli xi potraktujemy jako zmienną losową, to jej wartość oczekiwana będzie miała wartość μ. Z czego wynika, że wartość oczekiwana z ei równa się zero (E(ei)=0) Jeżeli przez σ2 oznaczymy wariancję xi, to z uwagi na to, że μ jest stałą, to
W naszych rozważaniach zakładamy, że zmienna losowa xi w populacji ma rozkład normalny N(μ σ2). Zatem i zmienna ei ma rozkład normalny N(0 σ2).
Oprócz czynników działających identycznie na wszystkie elementy populacji i czynników specyficznych działających na każdy jej element, w populacji mogą działać czynniki wpływające na grupy elementów np.: populacja krów rozmieszczona w kilku stadach. W każdym stadzie działają czynniki specyficzne dla danego stada, które powodują, że zwierzęta z jednego stada są bardziej podobne do siebie niż z różnych stad. Taka populacja nie jest jednorodna w takim sensie, jak przedstawiono powyżej i do opisu takiego stada nie można wykorzystać modelu 1.1. Należy zastosować model bardziej złożony 1.2.
1.2.
Gdzie xij oznacza wartość cechy j-tego elementu w i-tej grupie. μ jak w poprzednim modelu jest wartością średnią dla populacji, ai jest efektem grupy (stada) obrazującym wpływ czynników działających identycznie na wszystkie elementy (jednostki doświadczalne) w i-tej grupie eij jest wpływem czynników specyficznych dla j-tego elementu w i-tej grupie.
Na podstawie modelu można uporządkować (sklasyfikować) wartości rozpatrywanej cechy. Klasyfikacja na podstawie tego modelu będzie polegała na przyporządkowaniu numeru grupy i do odpowiedniej wartości x. Jak widać z tego przykładu model uwzględnia tylko jedno kryterium porządkujące (numer grupy). Dlatego taką klasyfikację nazywamy pojedynczą.
Populacja opisana modelem 1.2. jest najprostszym przykładem populacji niejednorodnej. Można sobie wyobrazić, że na populację będzie działało wiele czynników bardziej komplikujących jej strukturę. Dla każdej sytuacji trzeba stworzyć model opisujący tę strukturę. Wśród bardziej złożonych klasyfikacji wyróżniamy dwa podstawowe typy klasyfikacji: krzyżową i hierarchiczną.
Klasyfikacja krzyżowa - w populacji wyróżnia się działanie wielu czynników. Czynniki mogą działać niezależnie od siebie, ale również może wystąpić ich współdziałanie (interakcja). Jeżel wyróżnimy dwa czynniki działające niezależnie, to otrzymamy model klasyfikacji dwukierunkowej
1.3.
Gdzie x, μ, e oznaczają to samo co w poprzednim modelu. ai oznacza efekt czynnika typu A, bj oznacza efekt czynnika typu B. Często klasyfikację dwukierunkową oznacza się symbolem A x B. Jako przykład może posłużyć populacja bydła, w której oprócz podziału na stada (czynnik A) wprowadzimy podział na grupy ojcowskie (czynnik typu B). Do j-tej grupy ojcowskiej zaliczymy wszystkie osobniki pochodzące od ojca j. Potomstwo j-tego ojca może występować w różnych stadach i w jednym stadzie może występować wielu potomków j-tego ojca. Tak wiec klasyfikacja dwukierunkowa wprowadza podział populacji na grupy typu A (osobniki z tego samego stada), i na grupy typu B (potomstwo tego samego ojca). Tworzy jednocześnie podgrupy złożone z potomstwa danego ojca w danym stadzie.
Ilustracją klasyfikacji dwukierunkowej może być tablica prostokątna (rys 1.1.), której wiersze traktujemy jako grupy typu A, a kolumny jako grupy typu B. Na przecięciu i-tego wiersza i j-tej kolumny znajduje się podgrupa (i, j) złożona z potomków j-tego ojca w i-tym stadzie.
j i |
1 |
2 |
3 |
4 |
5 |
1 |
|
|
|
|
|
2 |
|
|
|
|
|
3 |
|
|
|
|
|
Rys. 1.1. Schemat klasyfikacji krzyżowej
Efekt czynnika typu A możemy potraktować jako zmienną losową, której realizacjami są konkretne wartości a1, a2, itd. Podobnie należy traktować oddziaływanie czynnika typu B. Zmienne losowe mogą być niezależne i wówczas łączny efekt oddziaływania czynników na podgrupę (i, j) będzie równy sumie ai + bj. W rozważanym wyżej przypadku na efekt stada składa się oddziaływanie czynników środowiskowych, jakie występują w danym stadzie (system żywienia, jakość pasz, obsługa - dobrostan). Na efekt ojca wpływ genów, które przekazał potomstwu.
Często jednak występuje sytuacja, gdy zmienne losowe będą zależne - działanie jednego czynnika będzie uzależnione od poziomu (wartości) drugiego czynnika (zmiennej losowej). Nawiązując do przytoczonego wyżej przykładu możemy sobie wyobrazić sytuację, w której genotyp jakiegoś ojca szczególnie dobrze „pasuje” do środowiska danego stada i łączny wpływ obu czynników na osobniki danej podgrupy stado-ojciec będzie inny niż wynikałby z sumy ai + bj Mówimy wówczas, że wystąpiło współdziałanie interakcja efektów. Z pewnych powodów wskazane jest, aby zmienne losowe będące elementami modelu opisującego osobnika (jednostki doświadczalnej) były niezależne, dlatego w przypadku wystąpienia interakcji model przedstawia się jak niżej 1.4
. 1.4.
Gdzie (ab)ij oznacza efekt interakcji czynników A i B w podgrupie (i, j).
Przykład 1.
W populacji bydła mlecznego o średniej wydajności mleka μ = 6800 kg występuje potomstwo trzech ojców rozmieszczone w trzech stadach. Genotyp pierwszego ojca warunkuje uzyskanie wydajności o 100 kg wyższej od średniej (b1 = 100), drugiego - wydajności równej średniej (b2 = 0), a trzeciego o 75 kg niższej od średniej (b3 = -75). Warunki środowiskowe pierwszego stada powodują wzrost wydajności krowy o 525 kg ponad średnią populacji (a1 = 525) drugiego powodują uzyskanie wydajności na poziomie średniej (a2 = 0), a trzeciego spadek o 475 kg (a3 = -475). Na rys. 1.2 przedstawiono średnie wydajności krów w poszczególnych podgrupach. W nawiasach zaznaczono efekty interakcyjne - odchylenia wydajności rzeczywistej od wartości wydajności, jaką uzyskałoby się przy sumujących się wpływach stad i ojców (bez interakcji). I tak przy braku interakcji potomstwo pierwszego ojca w pierwszym stadzie powinno uzyskać średnią wydajność 6800 + 525 + 100 = 7425 kg (rys.1.2.), a tymczasem uzyskało wydajność o 50 kg wyższą, czyli efekt interakcji wyniósł +50 kg (ab) = 50 (rys. 1.3).
Ojciec j Stado bj i ai |
1 100 |
2 0 |
3 -75 |
|
1 |
525 |
7425 |
7325 |
7250 |
2 |
0 |
6900 |
6800 |
6725 |
3 |
-475 |
6425 |
6325 |
6250 |
Rys. 1.2. Wyniki wydajności w podgrupach dla przypadku braku interakcji stado-ojciec
Ojciec j Stado bj i ai |
1 100 |
2 0 |
3 -75 |
|
1 |
525 |
7475 (+50) |
7350 (+25) |
7200 (-50) |
2 |
0 |
7000 (+10) |
6800 (0) |
6750 (25) |
3 |
-475 |
6390 (-35) |
6340 (+15) |
6275 (25) |
Rys. 1.3. Wyniki wydajności w podgrupach dla przypadku interakcji stado-ojciec
Gdy w populacji wyróżnia się trzy systematycznie działające czynniki A, B, C, to otrzymuje się klasyfikację trójkierunkową A x B x C,
W analogiczny sposób można tworzyć modele dla jeszcze bardziej złożonych klasyfikacji, uwzględniających większą liczbę czynników. Każdy dodatkowy czynnik zwiększa nieproporcjonalnie liczbę składników modelu, przede wszystkim ze względu na zwiększenie się liczby składników interakcyjnych. W klasyfikacji dwukierunkowej wystąpiła jedna interakcja, w trójkierunkowej 4, w czteroczynnikowej wystąpi aż 11 interakcji.
Klasyfikacja hierarchiczna. W populacjach drobiu typową jest sytuacja taka, że w każdym ze stad znajduje się potomstwo pewnej liczby ojców, przy czym potomstwo jednego ojca występuje tylko w jednym stadzie. Populacja taka ma strukturę hierarchiczną, gdyż dzieli się na grupy, a każda z grup na podgrupy. Taką strukturę przedstawia rys. 1.4, w której kolorowe pola oznaczają, że występują tam elementy populacji. Rys. 1.5. przedstawiono inny sposób ilustracji klasyfikacji hierarchicznej.
Model klasyfikacji hierarchicznej przedstawia równanie 1.5.
1.5.
Gdzie xijk oznacza obserwowaną wartość elementu k-tego w j-tej podgrupie B (np. ojcowskiej) i-tej grupy A (np. stada), μ oraz eijk jest wpływem czynników specyficznych dla k-tego elementu w j-tej podgrupie i-tej grupy. ai oznacza efekt i-tego czynnika typu A, bij - efekt j-tego czynnika typu B w i-tej grupie. Na oznaczanie klasyfikacji hierarchicznej dwustopniowej używa się symbolu B(A), co czytamy B w A.
B A |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
1 |
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
3 |
|
|
|
|
|
|
|
Rys. 1.4. Tabela przedstawiająca ideę klasyfikacji hierarchicznej
Każda podgrupa może się dzielić na pod-podgrupy, wynikające z wpływu czynnika C. W hodowli drobiu na przykład każdy samiec-ojciec jest kojarzony z wieloma samicami i po każdej z nich otrzymuje się pewną liczbe potomstwa. Taka grupa potomstwa jednej matki stanowić będzie pod-podgrupę w klasyfikacji hierarchicznej trójstopniowej - oczywiście, gdy samica jest kojarzona tylko z jednym samcem.
W modelu hierarchicznym nie występują składniki interakcyjne. Wynika to stąd, że czynnik stopnia niższego działa tylko w jednej grupie czynnika stopnia wyższego, nie ma możliwości stwierdzenia czy współdziałanie tych czynników występuje czy nie. Inaczej mówiąc składnik „wewnętrzny” np. bij w ostatnim modelu zawiera zarówno „czysty” wpływ czynnika B w podgrupie (i j), jak i ewentualną interakcję czynników A i B w tejże podgrupie: j-ty ojciec może szczególnie dobrze pasować do i-tego stada, lecz nie da się wykryć tego szczególnego dopasowania, ponieważ ojciec ten występuje tylko w tym stadzie.
W celu zmniejszenia sumy kwadratów dla błędu można porządkować jednostki grupując je w dwóch kierunkach, tworząc kwadrat łaciński. Doświadczenie obejmuje n jednostek doświadczalnych. Liczba jednostek musi być kwadratem liczby naturalnej k. Jednostki kwadratu łacińskiego będą tworzyły k kolumn i k wierszy. Badane obiekty również w liczbie k są przypisywane do jednostek w ten sposób, aby w każdym wierszu i w każdej kolumnie każdy obiekt pojawił się jeden raz. W modelu obserwacji takiego doświadczenia, poza efektami obiektów pojawią się efekty kolumn i wierszy. W analizie wariancji spowoduje to w porównaniu z układem blokowym pojawienie się dodatkowego źródła zmienności, które zmniejszy sumę kwadratów dla błędu. Zatem układ kwadratu łacińskiego daje szansę na skuteczniejszą eliminację niejednorodności jednostek doświadczalnych. Zaletą kwadratu łacińskiego jest również to, że wymaga stosunkowo niewielkiej liczby jednostek doświadczalnych, pozwalając jednocześnie na dużą precyzję wnioskowania.
Baza danych
Baza danych, to zbiór informacji zapisany (zebrany) z zastosowaniem reguł pozwalających na wyszukiwanie konkretnych informacji i przeprowadzanie takich operacji jak sortowanie (wg jednego lub więcej kryteriów) i filtrowanie (wg jednego lub więcej kryteriów). Przykładami baz danych mogą być: książka telefoniczna, słownik ortograficzny, katalog rzeczowy w bibliotece, encyklopedia, wykaz pracowników w przedsiębiorstwie, dziennik lekcyjny.
Bazy danych zapisane w komputerze wiele korzystnych właściwości:
- umożliwiają szybkie wyszukiwanie interesujących nas danych, łatwą modyfikację danych, łatwe powielanie i uaktualnianie bazy,
- umożliwiają łatwy przesył danych,
- pozwalają na wprowadzanie informacji tylko jeden raz z możliwością wielokrotnego wykorzystania,
- umożliwiają wybór standardu,
- zapobiegają niespójności danych,
- mają wbudowane mechanizmy zabezpieczania danych,
- pozwalają na łatwe tworzenie raportów, zestawień, analiz (funkcjonalność),
- są wielodostępne,
Dostęp do danych zapisanych w komputerowej bazie danych zapewniają programy (narzędzia). Takie programy nazywamy systemami zarządzania bazą danych. Oto przykładowe programy: MS ACCESS, dBSAE, MySQL.
Ze względu na sposób organizacji danych bazy dzielimy na: hierarchiczne, relacyjne, obiektowe i inne. Organizacja danych w hierarchicznej bazie jest podobna jak organizacja folderów (katalogów w systemach operacyjnych komputerów. W modelu relacyjnym dane gromadzone są w tabelach identyfikowanych przez ich nazwy. Tabela składa sie z wierszy - rekordów i kolumn - pól. Każdy wiersz zawiera informacje o jednym obiekcie. Relacyjna baza danych może mieć dowolną ilość tabel.
W realizacji tego tematu oparłem się na fragmencie autentycznej bazy danych zrealizowanej w programie EXCEL.
Informacje o strukturze bazy - rekord tytułowy, rekord, pole. W ramach ćwiczeń na tej bazie (plik DazaDanych.xls) wykonano następujące operacje:
- Sortowanie (menu: Dane → Sortuj) i tutaj sortowanie wg jednego lub wielu kryteriów.
- Filtrowanie danych (menu: Dane → Filtr → Autofiltr). Wybór z rozwijanego menu „niestandardowe” umożliwia filtrowanie tylko wg jednego kryterium).
- Zaawansowane filtrowanie danych (menu: Dane → Filtr → Filtrowanie zawansowane). Pozwala filtrować wg wielu kryteriów:
Jak to zrobić (tworzenie filtra)?
Dodaj kilka wierszy powyżej rekordu nagłówka istniejącej bazy (np. 4).
W pierwszym wierszu wpisz nazwę kolumny (kolumn) względem, której (których) chcesz filtrować dane.
W komórkach kolejnego wiersza wstaw kryteria (każde w oddzielnym polu), które muszą być spełnione, aby dane pojawiły się po operacji filtrowania (mogą to być symbole < >, znak = może występować tylko we formule). Kryteria możesz oddzielać znakiem dwukropka lub zaznaczać cały obszar z kryteriami.
Aby pokazać ponownie wszystkie rekordy bazy kliknij menu Dane → Filtr → Pokaż wszystko
Ćwiczenie 1.
Posortuj dane wg daty urodzenia w kolejności od najstarszej krowy.
Ćwiczenie 2.
Posortuj dane wg daty urodzenia i masy. Ewentualnie wybierz inne kryteria.
Ćwiczenie 3.
Korzystając z menu Dane → Filtr → Autofiltr, przećwicz kilka rodzajów filtru korzystając z meny rozwijanego.
Ćwiczenie 4.
Korzystając z menu Dane → Filtr → Filtr zaawansowany sformułuj warunek odfiltrowania krów, które urodziły się np. 1997 roku (pamiętaj, że nie możesz skorzystać ze znaku =).
Ćwiczenie 5.
Korzystając z menu Dane → Filtr → Filtr zaawansowany sformułuj waruneki odfiltrowania krów, które urodziły się np. 1997 i mają masę większą od 520 kg i mniejszą lub równą 550 kg.
Szereg rozdzielczy (Kala Statystyka dla przyrodników)
Aby uzyskać istotne informacje o rozkładzie prawdopodobieństwa badanej cechy wyniki obserwacji grupujemy w szereg rozdzielczy. Konstrukcja szeregu polega na podziale wartości badanej cechy na rozłączne przedziały - klasy, o jednakowych długościach i wyznaczeniu dla każdej klasy liczby obserwacji do niej należących. W celu zapewnienia jednoznaczności klasyfikowania obserwacji przyjmuje się zwykle, że klasy są przedziałami prawostronnie otwartymi i lewostronnie domkniętymi. Liczby obserwacji zaliczonych do poszczególnych klas nazywamy liczebnościami klasowymi, a ilorazy liczebności klasowych przez liczebność próby nazywamy częstościami. Liczba przedziałów klasowych powinna być zawarta pomiędzy 5 a 20
Chcąc ustalić długość pojedynczego przedziału klasowego, należy różnicę pomiędzy obserwacją największą i najmniejszą (R - rozstęp) podzielić przez liczbę klas. Tak uzyskaną liczbę należy dogodnie zaokrąglić w górę, by zapewnić sobie pokrycie ustaloną liczbą przedziałów całego zakresu zmienności obserwacji. Niezależnie od liczby klas i ich długości suma częstości klasowych będzie równa jedności. W ten sposób nad klasami szeregu rozdzielczego został określony rozkład prawdopodobieństwa, w którym prawdopodobieństwom odpowiadają częstości. Rozkład ten nazywa się empirycznym rozkładem prawdopodobieństwa.
Szereg rozdzielczy przedstawia się w postaci tabeli, histogramu lub wieloboku częstości. Jeżeli wykresy są przeskalowane tak, aby suma pól prostokątów w histogramie albo odpowiednie pole pod łamaną wieloboku było równe jedności, to spełniają warunki gęstości prawdopodobieństwa. Funkcję taką nazywamy empiryczną gęstością prawdopodobieństwa.