HELP Xuru, ROZDZIAŁ 1

0x01 graphic

http://www.xuru.org/Index.asp

Przekład (fragmenty):

Robert Wiśniewski

Witamy ma stronie Xorus. Strona ta poświęcona jest m.in. różnym obliczeniom matematycznym.

0x01 graphic

W sekcjach Regression Tools i Statistical Tools można korzystać on-line z bardzo przydatnych oraz łatwych w stosowaniu narzędzi do analizy regresji i analizy statystycznej.

Euskal Herria 0x01 graphic
Basque Country

1. Narzędzia analizy regresji

W sekcji tej można wykonywać on-line wybrane analizy regresji lub dopasowanie danych.

Narzędzia analizy regresji pozwalają na dopasowanie funkcji do zestawu punktów danych w celu obliczenia parametrów tych funkcji, najlepiej przybliżających ich wartości. Moje zainteresowanie regresją związane jest z moją pasją w dziedzinie automatyzacji, w jakiej zajmuję się opracowywaniem zautomatyzowanego programu wyszukiwania odkryć naukowych, który na podstawie zestawu danych eksperymentalnych mógłby - w pewnych granicach - wykrywać ukryte reguły i prawa. W istocie rzeczy, współczesne metody dopasowania danych, modelowania danych lub aproksymacji spełniają podobne zadania na bardzo niskim poziomie przez korzystanie z analizy regresji nieliniowej niżej zestawionych funkcji:

0x01 graphic

1.1. Linear Regression (LR) - Regresja liniowa

Strona ta pozwala na pracę z regresją liniową, znaną również pod nazwą dopasowania modelu liniowego metodą najmniejszych kwadratów.

Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję liniową, która jest najlepiej dopasowana do zastawu punktów danych.

Kopiowanie i wklejanie

Do pokazanej poniżej tabeli, dane można kopiować i wklejać bezpośrednio z arkuszy kalkulacyjnych lub z plików danych stabelaryzowanych (np. CSV). Każdy znak, który nie jest częścią liczby, np. taki jak spacja, przecinek, tabulator ... , jest traktowany jako separator kolumn. Domyślnie, jako separator kolumn stosowany jest przecinek. Gdy korzystamy z przecinka jako znaku dziesiętnego, należy zaznaczyć poniższą opcję Alow Comma as Decimal Separator. Wykładnik można wstawiać za pomocą dużej litery E lub małej litery e tak jak to pokazuje poniższy przykład. Należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję liniową modelu: y = a⋅x + b.

0x01 graphic

Ręczne wstawianie danych

Gdy wolimy ręcznie wstawiać punkty danych, najpierw trzeba wyspecyfikować liczbę punktów danych w poniższym polu Enter the Number od Data Points, po czym wprowadzić dane jak w poniższym przykładzie:

0x01 graphic

Po wykonaniu obliczeń (po kliknięciu przycisku Calculate), zostaną wyświetlone wyniki analizy regresji Results zawierające postać modelu (w tym przypadku liniowego) z obliczonymi parametrami oraz współczynnik korelacji Correlation Coefficient r i resztową sumą kwadratów Residual Sum of Squares rss.

0x01 graphic

Obok tej tabeli wyświetlone są również wyniki w postaci wartości y obliczonych za pomocą równania regresji Calculated y oraz błędy dla każdego punktu Error.

1.2. Logarithmic Regression ( LnR) - Regresja logarytmiczna

Strona ta pozwala na pracę z regresją logarytmiczną, znaną również pod nazwą dopasowania modelu logarytmicznego metodą najmniejszych kwadratów.

Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję logarytmiczną, która jest najlepiej dopasowana do zastawu punktów danych.

Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję logarytmiczną modelu: y = a⋅ln(x) + b.

Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1.

1.3. Exponential Regression (ExpR) - Regresja wykladnicza

Strona ta pozwala na pracę z regresją wykładniczą, znaną również pod nazwą dopasowania modelu wykładniczego metodą najmniejszych kwadratów.

Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję wykładniczą, która jest najlepiej dopasowana do zastawu punktów danych.

Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję wykładniczą modelu: y = a⋅e^b^⋅^x.

Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1.

1.4. Power Regression (PowR) - Regresja potęgowa

Strona ta pozwala na pracę z regresją potęgową, znaną również pod nazwą dopasowania modelu potęgowego metodą najmniejszych kwadratów.

Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję potęgową, która jest najlepiej dopasowana do zastawu punktów danych.

Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję potęgową modelu: y = a⋅x^b.

Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1.

1.5. Polynomial Regression (PR) - Regresja wielomianowa

Strona ta pozwala na pracę z regresją wielomianową, znaną również pod nazwą dopasowania modelu wielomianowego metodą najmniejszych kwadratów.

Dla zależności pomiędzy dwiema zmiennymi znajduje ona funkcję wielomianową, która jest najlepiej dopasowana do zastawu punktów danych.

Wynik nie musi być najlepszy, ale zwykle jest poprawny, a dokładniejsze obliczenia wprowadzają niewielkie zmiany. W tym przypadku należy w polu Select Polynomial Degrees wprowadzić wymagany stopień wielomianu.

0x01 graphic

Wybrany stopień wielomianu musi być co najmniej o jeden mniejszy od liczby punktów danych.

Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję wielomianową modelu: y = a_n⋅xⁿ + a_n-1⋅x^n-1+ ... + a₂⋅x² + a_`1⋅x + a₀.

Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1.

1.6. Multiple Linear Regression (MLR) - Wielokrotna regresja liniowa

Strona ta pozwala na pracę z wielokrotną regresją liniową wielu zmiennych, znaną również pod nazwą dopasowania modelu liniowego wielu zmiennych metodą najmniejszych kwadratów.

Dla zależności pomiędzy wieloma zmiennymi znajduje ona funkcję liniową, która jest najlepiej dopasowana do zastawu punktów danych.

Wynik nie musi być najlepszy, ale zwykle jest poprawny, a dokładniejsze obliczenia wprowadzają niewielkie zmiany.

Gdy liczba zmiennych jest równa liczbie punktów danych, uzyskuje się wynik w postaci hiperpowierzchni zawierającej wszystkie punkty danych.

Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać n+1 kolumn x₁ ...x_n oraz y aby wyznaczyć wielokrotną regresję liniową modelu: y = a₁⋅x₁ + ... + a₂⋅x₂+ ... + a_n-1⋅x_n-1 + … + a_n⋅x_n + b.

Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1. Tabela wprowadzania danych powinna mieć postać jak w poniższym przykładzie:

0x01 graphic

1.7. Multiple Polynomial Regression (MPR) - Wielokrotna regresja wielomianowa

Strona ta pozwala na pracę z wielokrotną regresją wielomianową wielu zmiennych, znaną również pod nazwą dopasowania modelu wielomianowego wielu zmiennych metodą najmniejszych kwadratów.

Dla zależności pomiędzy wieloma zmiennymi znajduje ona funkcję wielomianową, która jest najlepiej dopasowana do zastawu punktów danych.

0x01 graphic

Gdy liczba niewiadomych jest równa liczbie punktów danych, uzyskuje się wynik obliczany metodą interpolacji.

Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać n+1 kolumn x₁ ...x_n oraz y aby wyznaczyć wielomianową regresję wielokrotną modelu:

y = a_m1⋅_x1^m + ... + a_mn⋅x^m+ ... + a₁₁⋅x₁ + … + a_1n⋅x_n + b.

Sposób wprowadzania danych wyświetlanie wyników są podobne jak w rozdziale 1.1. Tabela wprowadzania danych powinna mieć postać jak w poniższym przykładzie:

0x01 graphic

1.8. Nonlinear Regression (NLR) - Regresja nieliniowa

Strona ta pozwala na pracę z regresją nieliniową, znaną również pod nazwą dopasowania modelu nieliniowego metodą najmniejszych kwadratów. Z uwagi na to, że metody optymalizacji nieliniowej można stosować do dowolnych funkcji, w celu zależności między dwiema zmiennymi, wyszukiwane są funkcje, które najlepiej są dopasowane do zestawu punktów danych, wybierane z listy zawierającej ponad 100 różnych, najbardziej interesujących modeli nieliniowych, np. taki jak gaussowskie, sigmoidalne (esowate), ułamkowe (wymierne), sinusoidalne ... i wiele innych. Wyniki są wyświetlane w kolejności od modelu, dla którego uzyskano najmniejszą sumę kwadratów. Niestety, nie wybierane są wszystkie najlepsze modele na skutek problemów zbieżności w rozsądnym czasie wykonywania obliczeń iteracyjnych oraz innych problemów. Mimo tego, ten typ modeli NLR jest bardzo silnym narzędziem i może stanowić pierwszy etap automatyzacji procesu poszukiwania naukowego. Aby ograniczyć liczbę analizowanych modeli można wybrać liczbę ich parametrów:

0x01 graphic

0x01 graphic
UWAGA: Przy dużej liczbie punktów danych i parametrów, obliczenia mogą trwać kilka sekund.

Dane musza zawierać

Przy wprowadzaniu danych należy pamiętać, że dane muszą zawierać dwie kolumny x i y aby wyznaczyć regresję nieliniową modelu: y = f(x).

Poniżej przytoczono przykład wprowadzonych danych i wyświetlanych wyników:

0x01 graphic

2. Narzędzia analizy statystycznej

W sekcji tej można korzystać on-line z niektórych narzędzi statystycznych.

0x01 graphic

Na stronie statystyk opisowych (DS) można obliczać statystyki opisowe jednej zmiennej, w tym skośność, kurtozę, kwartyle, błędy standardowe, test normalności oraz przedziały ufności. Na stronie rozkładów prawdopodobieństwa (PD) można obliczać funkcje rozkładu prawdopodobieństwa najczęściej stosowanych rozkładów, takich jak zestawiono poniżej:

0x01 graphic

2.1. Descriptive Statistics (DS) - Statystyki opisowe

Strona ta pozwala na pracę ze statystykami opisowymi jednej zmiennej. Niezależnie od średniej arytmetycznej, mediany i wariancji, obliczane są również bezwzględne odchylenia od średniej, średnia geometryczna odchylenie standardowe, skośność, kurtoza, kwartyle, błędy standardowe, wyniki testu normalności Andersona-Darlinga oraz niektóre użyteczne przedziały ufności średniej arytmetycznej i odchylenia standardowego. Należy pamiętać, że gdy dane stanowią próbkę z populacji (co zwykle ma miejsce), wówczas przedziały ufności są obliczane przy założeniu, że rozkład jest normalny. W końcu można zauważyć że obok tabeli danych wyświetlana jest kolumna danych posortowanych.

Kopiowanie i wklejanie

Do pokazanej poniżej tabeli, dane można kopiować i wklejać bezpośrednio z arkuszy kalkulacyjnych lub z plików danych stabelaryzowanych (np. CSV). Gdy korzystamy z przecinka jako znaku dziesiętnego, należy zaznaczyć poniższą opcję Alow Comma as Decimal Separator. Wykładnik można wstawiać za pomocą dużej litery E lub małej litery e tak jak to pokazuje poniższy przykład. Należy pamiętać, że dane muszą zawierać jedną kolumnę, do której wstawiamy po jednej liczbie w wierszu aby uzyskać statystyki opisowe.

0x01 graphic

Ręczne wstawianie danych

0x01 graphic

Po kliknięciu przycisku Calculate, zostają wyświetlone wyniki jak w poniższym przykładzie:

0x01 graphic

2.2. Probability Distributions (PD) - Rozkłady prawdopodobieństwa

Nie należy zapominać o tabelach ! Strona ta pozwala na pracę z dokładnymi wartościami funkcji statystycznych związanych z najczęściej stosowanymi rozkładami prawdopodobieństwa

0x01 graphic

Dla każdego z tych rozkładów można obliczać funkcję gęstości prawdopodobieństwa (PDF), funkcję masową prawdopodobieństwa (PMF), funkcję rozkładu skumulowanego (CDF), komplementarną funkcję rozkładu skumulowanego (CCDF), funkcję odwrotności rozkładu skumulowanego (CFD^-1), oraz komplementarną funkcję odwrotności rozkładu skumulowanego (CCFD^-1).

Funkcje odwrotności rozkładów zwracają wartości y, takie jak P(X ≤ y) = x w przypadku CDF^-1, oraz P(X > y) = x w przypadku CCDF^-1. Gdy rozkład jest dyskretny, zwracana jest w liczba całkowita y, spełniająca zależność P(X ≤ y - 1) < x ≤ P(X ≤ y) w przypadku CDF^-1, oraz P(X > y) ≤ x < P(X > y - 1) w przypadku CCDF^-1.

Obliczane są również wartość oczekiwana (średnia), wariancja, skośność i kurtoza.

Kilka uwag końcowych dla uniknięcia pomyłek

Rozpatrywany tu rozkład geometryczny Geometric odpowiada rozkładowi liczb niepowodzeń przed osiągnięciem pierwszego sukcesu (a nie rozkładowi liczby prób niezbędnych dla uzyskania sukcesu).
Podobnie, rozkład dwumianowy Binomial odpowiada rozkładowi liczb niepowodzeń przed osiągnięciem określonej liczby sukcesów (a nie rozkładowi liczby prób niezbędnych dla uzyskania określonej liczby sukcesów).

Dane wprowadza się w tabeli przez wybranie wymaganego rozkładu oraz wpisanie niezbędnych parametrów określonego rozkładu. W poniższej tabeli (przykład dla rozkładu normalnego) wprowadzamy wartość średnią μ, odchylenie standardowe σ oraz wartość x, dla której chcemy obliczyć wartość rozkładu:

0x01 graphic

Po kliknięciu przycisku Calculate, zostają wyświetlone wyniki jak w poniższym przykładzie:

0x01 graphic

Aby obliczać wartości odwrotnych funkcji rozkładu: Inverse Cumulative Distribution Function oraz Inverse Complementary Cumulative Distribution Function, musi być spełniony warunek: 0≤ x ≤ 1, przy czym przy wprowadzaniu danych przypadku należy stosować kropkę jako znak dziesiętny (zgodnie z notacją anglosaską). W przeciwnym razie, w odpowiednich wierszach wyników zostanie wyświetlony poniższy komunikat o błędzie:

0x01 graphic

- 1 -

0x01 graphic

Wyszukiwarka