Przekład (fragmenty):
Robert Wiśniewski
Witamy ma stronie Xorus. Strona ta poświęcona jest m.in. różnym obliczeniom matematycznym.
W sekcjach Regression Tools i Statistical Tools można korzystać on-line z bardzo przydatnych oraz łatwych w stosowaniu narzędzi do analizy regresji i analizy statystycznej.
Euskal Herria
Basque Country
1. Narzędzia analizy regresji
W sekcji tej można wykonywać on-line wybrane analizy regresji lub dopasowanie danych.
Narzędzia analizy regresji pozwalają na dopasowanie funkcji do zestawu punktów danych w celu obliczenia parametrów tych funkcji, najlepiej przybliżających ich wartości. Moje zainteresowanie regresją związane jest z moją pasją w dziedzinie automatyzacji, w jakiej zajmuję się opracowywaniem zautomatyzowanego programu wyszukiwania odkryć naukowych, który na podstawie zestawu danych eksperymentalnych mógłby - w pewnych granicach - wykrywać ukryte reguły i prawa. W istocie rzeczy, współczesne metody dopasowania danych, modelowania danych lub aproksymacji spełniają podobne zadania na bardzo niskim poziomie przez korzystanie z analizy regresji nieliniowej niżej zestawionych funkcji:
1.1. Linear Regression (LR) - Regresja liniowa
Strona ta pozwala na pracę z regresją liniową, znaną również pod nazwą dopasowania modelu liniowego metodą najmniejszych kwadratów.
Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję liniową, która jest najlepiej dopasowana do zastawu punktów danych.
Kopiowanie i wklejanie
Do pokazanej poniżej tabeli, dane można kopiować i wklejać bezpośrednio z arkuszy kalkulacyjnych lub z plików danych stabelaryzowanych (np. CSV). Każdy znak, który nie jest częścią liczby, np. taki jak spacja, przecinek, tabulator ... , jest traktowany jako separator kolumn. Domyślnie, jako separator kolumn stosowany jest przecinek. Gdy korzystamy z przecinka jako znaku dziesiętnego, należy zaznaczyć poniższą opcję Alow Comma as Decimal Separator. Wykładnik można wstawiać za pomocą dużej litery E lub małej litery e tak jak to pokazuje poniższy przykład. Należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję liniową modelu: y = a⋅x + b.
Ręczne wstawianie danych
Gdy wolimy ręcznie wstawiać punkty danych, najpierw trzeba wyspecyfikować liczbę punktów danych w poniższym polu Enter the Number od Data Points, po czym wprowadzić dane jak w poniższym przykładzie:
Po wykonaniu obliczeń (po kliknięciu przycisku Calculate), zostaną wyświetlone wyniki analizy regresji Results zawierające postać modelu (w tym przypadku liniowego) z obliczonymi parametrami oraz współczynnik korelacji Correlation Coefficient r i resztową sumą kwadratów Residual Sum of Squares rss.
Obok tej tabeli wyświetlone są również wyniki w postaci wartości y obliczonych za pomocą równania regresji Calculated y oraz błędy dla każdego punktu Error.
1.2. Logarithmic Regression ( LnR) - Regresja logarytmiczna
Strona ta pozwala na pracę z regresją logarytmiczną, znaną również pod nazwą dopasowania modelu logarytmicznego metodą najmniejszych kwadratów.
Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję logarytmiczną, która jest najlepiej dopasowana do zastawu punktów danych.
Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję logarytmiczną modelu: y = a⋅ln(x) + b.
Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1.
1.3. Exponential Regression (ExpR) - Regresja wykladnicza
Strona ta pozwala na pracę z regresją wykładniczą, znaną również pod nazwą dopasowania modelu wykładniczego metodą najmniejszych kwadratów.
Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję wykładniczą, która jest najlepiej dopasowana do zastawu punktów danych.
Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję wykładniczą modelu: y = a⋅eb⋅x.
Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1.
1.4. Power Regression (PowR) - Regresja potęgowa
Strona ta pozwala na pracę z regresją potęgową, znaną również pod nazwą dopasowania modelu potęgowego metodą najmniejszych kwadratów.
Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję potęgową, która jest najlepiej dopasowana do zastawu punktów danych.
Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję potęgową modelu: y = a⋅xb.
Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1.
1.5. Polynomial Regression (PR) - Regresja wielomianowa
Strona ta pozwala na pracę z regresją wielomianową, znaną również pod nazwą dopasowania modelu wielomianowego metodą najmniejszych kwadratów.
Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję wielomianową, która jest najlepiej dopasowana do zastawu punktów danych.
Wynik nie musi być najlepszy, ale zwykle jest poprawny, a dokładniejsze obliczenia wprowadzają niewielkie zmiany. W tym przypadku należy w polu Select Polynomial Degrees wprowadzić wymagany stopień wielomianu.
Wybrany stopień wielomianu musi być co najmniej o jeden mniejszy od liczby punktów danych.
Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję wielomianową modelu: y = an⋅xn + an-1⋅xn-1 + ... + a2⋅x2 + a`1⋅x + a0.
Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1.
1.6. Multiple Linear Regression (MLR) - Wielokrotna regresja liniowa
Strona ta pozwala na pracę z wielokrotną regresją liniową wielu zmiennych, znaną również pod nazwą dopasowania modelu liniowego wielu zmiennych metodą najmniejszych kwadratów.
Dla zależności pomiędzy wieloma zmiennymi znajduje ona funkcję liniową, która jest najlepiej dopasowana do zastawu punktów danych.
Wynik nie musi być najlepszy, ale zwykle jest poprawny, a dokładniejsze obliczenia wprowadzają niewielkie zmiany.
Gdy liczba zmiennych jest równa liczbie punktów danych, uzyskuje się wynik w postaci hiperpowierzchni zawierającej wszystkie punkty danych.
Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać n+1 kolumn x1 ...xn oraz y aby wyznaczyć wielokrotną regresję liniową modelu: y = a1⋅x1 + ... + a2⋅x2 + ... + an-1⋅xn-1 + … + an⋅xn + b.
Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1. Tabela wprowadzania danych powinna mieć postać jak w poniższym przykładzie:
1.7. Multiple Polynomial Regression (MPR) - Wielokrotna regresja wielomianowa
Strona ta pozwala na pracę z wielokrotną regresją wielomianową wielu zmiennych, znaną również pod nazwą dopasowania modelu wielomianowego wielu zmiennych metodą najmniejszych kwadratów.
Dla zależności pomiędzy wieloma zmiennymi znajduje ona funkcję wielomianową, która jest najlepiej dopasowana do zastawu punktów danych.
Wynik nie musi być najlepszy, ale zwykle jest poprawny, a dokładniejsze obliczenia wprowadzają niewielkie zmiany. W tym przypadku należy w polu Select Polynomial Degrees wprowadzić wymagany stopień wielomianu.
Gdy liczba niewiadomych jest równa liczbie punktów danych, uzyskuje się wynik obliczany metodą interpolacji.
Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać n+1 kolumn x1 ...xn oraz y aby wyznaczyć wielomianową regresję wielokrotną modelu:
y = am1⋅x1m + ... + amn⋅xm + ... + a11⋅x1 + … + a1n⋅xn + b.
Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1. Tabela wprowadzania danych powinna mieć postać jak w poniższym przykładzie:
1.8. Nonlinear Regression (NLR) - Regresja nieliniowa
Strona ta pozwala na pracę z regresją nieliniową, znaną również pod nazwą dopasowania modelu nieliniowego metodą najmniejszych kwadratów. Z uwagi na to, że metody optymalizacji nieliniowej można stosować do dowolnych funkcji, w celu zależności między dwiema zmiennymi, wyszukiwane są funkcje, które najlepiej są dopasowane do zestawu punktów danych, wybierane z listy zawierającej ponad 100 różnych, najbardziej interesujących modeli nieliniowych, np. taki jak gaussowskie, sigmoidalne (esowate), ułamkowe (wymierne), sinusoidalne ... i wiele innych. Wyniki są wyświetlane w kolejności od modelu, dla którego uzyskano najmniejszą sumę kwadratów. Niestety, nie wybierane są wszystkie najlepsze modele na skutek problemów zbieżności w rozsądnym czasie wykonywania obliczeń iteracyjnych oraz innych problemów. Mimo tego, ten typ modeli NLR jest bardzo silnym narzędziem i może stanowić pierwszy etap automatyzacji procesu poszukiwania naukowego. Aby ograniczyć liczbę analizowanych modeli można wybrać liczbę ich parametrów:
UWAGA: Przy dużej liczbie punktów danych i parametrów, obliczenia mogą trwać kilka sekund.
Dane musza zawierać
Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję nieliniową modelu: y = f(x).
Poniżej przytoczono przykład wprowadzonych danych i wyświetlanych wyników:
2. Narzędzia analizy statystycznej
W sekcji tej można korzystać on-line z niektórych narzędzi statystycznych.
Na stronie statystyk opisowych (DS) można obliczać statystyki opisowe jednej zmiennej, w tym skośność, kurtozę, kwartyle, błędy standardowe, test normalności oraz przedziały ufności. Na stronie rozkładów prawdopodobieństwa (PD) można obliczać funkcje rozkładu prawdopodobieństwa najczęściej stosowanych rozkładów, takich jak zestawiono poniżej:
2.1. Descriptive Statistics (DS) - Statystyki opisowe
Strona ta pozwala na pracę ze statystykami opisowymi jednej zmiennej. Niezależnie od średniej arytmetycznej, mediany i wariancji, obliczane są również bezwzględne odchylenia od średniej, średnia geometryczna odchylenie standardowe, skośność, kurtoza, kwartyle, błędy standardowe, wyniki testu normalności Andersona-Darlinga oraz niektóre użyteczne przedziały ufności średniej arytmetycznej i odchylenia standardowego. Należy pamiętać, że gdy dane stanowią próbkę z populacji (co zwykle ma miejsce), wówczas przedziały ufności są obliczane przy założeniu, że rozkład jest normalny. W końcu można zauważyć że obok tabeli danych wyświetlana jest kolumna danych posortowanych.
Kopiowanie i wklejanie
Do pokazanej poniżej tabeli, dane można kopiować i wklejać bezpośrednio z arkuszy kalkulacyjnych lub z plików danych stabelaryzowanych (np. CSV). Gdy korzystamy z przecinka jako znaku dziesiętnego, należy zaznaczyć poniższą opcję Alow Comma as Decimal Separator. Wykładnik można wstawiać za pomocą dużej litery E lub małej litery e tak jak to pokazuje poniższy przykład. Należy pamiętać, że dane muszą zawierać jedną kolumnę, do której wstawiamy po jednej liczbie w wierszu aby uzyskać statystyki opisowe.
Ręczne wstawianie danych
Gdy wolimy ręcznie wstawiać punkty danych, najpierw trzeba wyspecyfikować liczbę punktów danych w poniższym polu Enter the Number od Data Points, po czym wprowadzić dane jak w poniższym przykładzie:
Po kliknięciu przycisku Calculate, zostają wyświetlone wyniki jak w poniższym przykładzie:
2.2. Probability Distributions (PD) - Rozkłady prawdopodobieństwa
Nie należy zapominać o tabelach ! Strona ta pozwala na pracę z dokładnymi wartościami funkcji statystycznych związanych z najczęściej stosowanymi rozkładami prawdopodobieństwa
Dla każdego z tych rozkładów można obliczać funkcję gęstości prawdopodobieństwa (PDF), funkcję masową prawdopodobieństwa (PMF), funkcję rozkładu skumulowanego (CDF), komplementarną funkcję rozkładu skumulowanego (CCDF), funkcję odwrotności rozkładu skumulowanego (CFD-1), oraz komplementarną funkcję odwrotności rozkładu skumulowanego (CCFD-1).
Funkcje odwrotności rozkładów zwracają wartości y, takie jak P(X ≤ y) = x w przypadku CDF -1, oraz P(X > y) = x w przypadku CCDF -1. Gdy rozkład jest dyskretny, zwracana jest w liczba całkowita y, spełniająca zależność P(X ≤ y - 1) < x ≤ P(X ≤ y) w przypadku CDF -1, oraz P(X > y) ≤ x < P(X > y - 1) w przypadku CCDF -1.
Obliczane są również wartość oczekiwana (średnia), wariancja, skośność i kurtoza.
Kilka uwag końcowych dla uniknięcia pomyłek
Rozpatrywany tu rozkład geometryczny Geometric odpowiada rozkładowi liczb niepowodzeń przed osiągnięciem pierwszego sukcesu (a nie rozkładowi liczby prób niezbędnych dla uzyskania sukcesu).
Podobnie, rozkład dwumianowy Binomial odpowiada rozkładowi liczb niepowodzeń przed osiągnięciem określonej liczby sukcesów (a nie rozkładowi liczby prób niezbędnych dla uzyskania określonej liczby sukcesów).
Dane wprowadza się w tabeli przez wybranie wymaganego rozkładu oraz wpisanie niezbędnych parametrów określonego rozkładu. W poniższej tabeli (przykład dla rozkładu normalnego) wprowadzamy wartość średnią μ, odchylenie standardowe σ oraz wartość x, dla której chcemy obliczyć wartość rozkładu:
Po kliknięciu przycisku Calculate, zostają wyświetlone wyniki jak w poniższym przykładzie:
Aby obliczać wartości odwrotnych funkcji rozkładu: Inverse Cumulative Distribution Function oraz Inverse Complementary Cumulative Distribution Function, musi być spełniony warunek: 0≤ x ≤ 1, przy czym przy wprowadzaniu danych przypadku należy stosować kropkę jako znak dziesiętny (zgodnie z notacją anglosaską). W przeciwnym razie, w odpowiednich wierszach wyników zostanie wyświetlony poniższy komunikat o błędzie:
- 1 -