Elementy chemometrii
Chemometria – dziedzina chemii wykorzystującej matematykę, rachunek prawdopodobieństwa, statystykę, informatykę oraz teorię podejmowania decyzji do optymalizacji procedur eksperymentalnych w celu uzyskania maksymalnej ilości użytecznej informacji o obiekcie badan na podstawie analizy danych.
Specyfika danych chemometrycznych
x11… … x1j … … x1m
………………………. n<<m
xn1 … … xnj … … xnm
Etapy rozwiązywania problemów
- sformuowanie problemu
- planowanie problemu
- wykonanie problemu
- przechowywanie i kontrola wyników: eliminacja błędów grubych za pomocą np. analizy wizualnej
- wykonanie oparte na testach statystycznych
Obszary zastosowań technik chemometrycznych
Przedstawienie danych kolumny reprezentują zmienne
Wiersze – obiekty (próbki)
Analiza chemometryczna
- analiza czynników,
- konstruowanie modelu zależności
- analiza podobieństw
- analiza trendów czasowych
Planowanie doświadczeń
- na etapie planowania eksperymentu musimy wiedzieć jaką technika chemometryczną będziemy się posługiwać,
- do analizy podobieństw wystarczy jedna zmienna
- analiza czynnikowa wymaga n ≥ 3 oraz ilość obiektów/cech =3:1
- określenie optymalnej próby pomiarów: liczba pomiarów powinna być większa niż minimalna → 4 lub 5 < n < 10
Liczebność zbioru testowego około 10 % zbioru liczącego, ale nie mniej niż 5 obiektów
- wybór rozmieszczenia punktów pomiarowych
* kryterium zupełności
* kryterium proporcjonalności (częstość występowania obiektu w próbie generalnej)
Plan optymalny – to taki który przy danej liczbie punktów pomiarowych n zapewni największą wiarygodność uzyskanego rozwiązania.
Archiwizacja i kontrola danych:
Cel kontroli danych:
- wykrycie ewentualnych „błędów grubych”
- zmniejszenie ryzyka popełnienia nowych błędów na kolejnych etapach analizy chemometrycznej
- wykrycie pewnych relacji tkwiących w danych
- wskazanie na potrzebę wykonania dodatkowych operacji na danych, np. transformacji zmiennych.
Dokumentacja danych i wyników:
Brakujące dane:
- puste miejsca w tabeli
- w tabeli wpisujemy zero tylko wtedy, gdy jest to wartość rzeczywista mierzonej cechy.
Przyczyny braku danych:
- brak analizy zaplanowanej próbki,
- wykonanie oznaczeń tylko niektórych analitów (jeśli zmienna wykazuje 10 % braków to należy je usunąć)
- stężenie analitu poniżej granicy oznaczalności stosowanej techniki analitycznej
Kontrola danych:
- analiza pojedynczych zmiennych
- analiza relacji pomiędzy zmiennymi
- wieloparametrowa analiza rozkładu badanych obiektów
Kontrola danych:
- eliminowanie błędów grubych
- statystyczne wykrywanie obiektów różniące się istotnie od innych
- przetestowanie rozkładu zmiennych w celu uzyskania przesłanek do ewentualnej transformacji
- określenie jednorodności zbioru danych (potwierdzenie, że uzyskane dane należą do jednej populacji)
Analiza pojedynczej zmiennej
- wartość najmniejsza (min)
- wartość największa (max)
- stosunek min/max
- rozstęp rozkładu r = max – min
- środek rozkładu d = (max + min)/2
- wartość średnia
- mediana
- odchylenie standardowe (s)
- normalność rozkładu i indeks skośności rozkładu (q)
Badanie charakteru rozkładu zmiennej
- tworzenie histogramów
- liczba przedziałów histogramu k: n/4 ≥ k
- przedziały muszą mieć jednakową szerokość
- krańce przedziałów powinny być liczbami „okrągłymi”, np. 1,5 a nie 1,48
Relacje między zmiennymi:
- współczynnik korelacji liniowej (r)
Gdy r jest bliskie 0 to brak związku pomiędzy zmiennymi.
- współczynnik determinacji (r2) - jaki % jednej zmiennej jest określany przez drugą zmienną.
Transformacja zmiennych
Celem jest umożliwienie lub ułatwienie przeprowadzenia dalszych etapów analizy chemometrycznej. Gdy chcemy lub musimy doprowadzić rozkład zmiennej do rozkładu zbliżonego do rozkładu normalnego. Gdy dzięki transformacji chcemy uzyskać liniową zależność pomiędzy zmienną zależną i objaśniającą.
Normalizacja – procedura prowadząca do uzyskania rozkładu zmiennej zgodnego z rozkładem normalnym.
Autoskalowanie (standaryzacja) prowadzi do takiego przekształcenia danych, gdzie średnia równa jest 0, a odchylenie = 1, pozwala na analizę zmiennych o różnej naturze i różnym zakresie.
Centrowanie – wszystkie wartości średnie wszystkich zmiennych pokrywają się z początkiem układu współrzędnych.
Budowanie modeli
Ma na celu ustalenie zależności pomiędzy jedną zmienną zależną y ( lub wieloma zmiennymi y) i bardzo licznym zbiorem zmiennych objaśniających Xi.
Typy modeli:
- model w pełni określony, gdy znamy postać funkcji i wartości wszystkich występujących w niej parametrów
- model półempiryczny, gdy znana jest postać funkcji lecz dla danego obiektu brakuje informacji o jego parametrach
- model empiryczny, gdy nie znamy ani postaci funkcji ani jej parametrów.
Analiza podobieństw
- technika chemometryczna bazująca na pojęciu odległości obiektów lub zmiennych w przestrzeni wielowymiarowej
- obiekty uznajemy za podobne, jeśli są położone blisko siebie w wielowymiarowej przestrzeni zmiennych objaśniających.
Rodzaje podobieństw:
- podobieństwa obiektów ze względu na wartość cech
- podobieństwo cech przy opisie obiektów
Analiza taka może stanowić:
- niezbędny etap wstępnej obróbki danych
- źródło danych do poprawnej redukcji liczby zmiennych objaśniających
- podstawę optymalnej metody graficznej prezentacji danych
- samodzielny cel analizy chemometrycznej
Wizualizacja w składzie obiekty – cechy
Dane jednorodności zbioru obiektów
Analiza podobieństw
Opracowanie reguł przypisania obiektów do określonych grup
Techniki aglomeracji: algorytm odległości (odległość tangenowa, wektorowa,)
Analiza wiązkowa
Dendryty
Metoda głównych składowych (PCA)
Chemometryczna strategia przeznaczona do analizowania wielowymiarowych zbiorów wyników,
- prezentacja graficzna zależności wielowymiarowych
- redukcja wielowymiarowości problemu, przekształcenie J skorelowanych zmiennych wyjściowych w A głównych składowych (A<J)
- umożliwienie merytorycznej interpretacji uzyskanych wyników i zależności
Liczbę istotnych składowych można określić stosując następujące kryteria:
- kryterium poglądowości
- kryterium zasobu zmienności
- kryterium spadku wartości własnych
Przykłady zastosowań chemometrii
- identyfikacja źródeł pochodzenia amfetaminy (PCA)
- wieloparametrowa charakterystyka szczepów arylobakterii
- analiza win
- optymalizacja procedur