Celem naszej części projektu było policzenie dla dwóch przypadkowych wygenerowanych wartości z zakresu X, Y policzenie kowariancji, korelacji Pearsona oraz korelacji Spearmana.
Kowariancja jest to funkcja, która określa zależność liniową między zmiennymi losowymi X i Y, na podstawie definicji kowariancji:
,
gdzie E jest wartością oczekiwaną.
Korelacja Pearsona jest to funkcja, która określa poziom zależności liniowej między zmiennymi losowymi X i Y, na podstawie wzoru, korzystając z wcześniej napisanej funkcji na kowariancję- cov(X,Y):
,
gdzie σX i σY to odchylenie standardowe X i Y.
Natomiast współczynnik korelacji Spearmana jest funkcją, za pomocą której możliwe jest zmierzenie monotonicznej zależności statycznej między zmiennymi losowymi X i Y, na podstawie wzoru:
gdzie corr to klasyczny współczynnik korelacji, natomiast RX i RY to rangi zmiennej X i Y w próbie.
Po uruchomieniu stworzonego przez nas programu w środowkisku GUI otwiera się nowe okienko. Należy wybrać opcję „wczytaj x” oraz „wczytaj y”. Wartości z zakresu X, Y muszą być zapisane na dysku w formacie pliku tekstowego(*.txt), bądź arkuszu kalkulacyjnego (*.xls/*.xslx), w innym przypadku wyświetlany jest komunikat „zły format danych”. Użytkownik wybiera miejsce na dysku, gdzie znajdują się wcześniej zapisane wartości wektorów X i Y oraz zatwierdza wybór. Należy także pamiętać, by wektory zmiennych losowych X i Y były tych samych rozmiarów. Nastepnie należy kliknąć przycisk „oblicz” by po prawej stronie wyświetlonego okienka pojawiły się wartości ilustrujące zależność zmiennych losowych X, Y w przypadku kowariancji, korelacji Pearsona i korelacji Spearmana.
W przypadku kowariancji wyświetlona wartość może być dodatnia, ujemna, bądź wynosić zero.
Dodatnia wartość kowariancji cov(X,Y) > 0 oznacza, że zmienne X i Y są skorelowane dodatnio, to znaczy przy wzroście wartości X wartości Y na ogół także rosną, przy czym relacja ta ma charakter symetryczny względem zmiennych.
Ujemna wartość kowariancji cov(X,Y) < 0 będzie zatem oznaczała, że zmienne X i Y są skorelowane ujemnie, co oznacza, że przy wzroście X wartości Y na ogół maleją.
Natomiast gdy cov(X,Y) = 0 oznacza to, że zmienne X i Y są nieskorelowane, czyli przy wzroście X poziom wartości Y, generalnie biorąc nie zmienia się.
Niestety wadą kowariancji jako charakterystyki zależności jest to, że nie może określać stopnia intensywności zależności, jedynie występowanie takiej zależności i jej ogólny zarys.
Jeżeli podzielimy kowariancję przez standardowe odchylenia obu zmiennych, to otrzymamy miarę, która przyjmuje wartości z przedziału od –1 do 1, i informuje nas o sile liniowego związku między zmiennymi. Tą miarą jest właśnie współczynnik korelacji Pearsona.
Wartość współczynnika korelacji Pearsona mieści się w przedziale domkniętym [-1, 1]. Im większa jest jego wartość bezwzględna, tym silniejsza jest zależność liniowa między zmiennymi. Dodatni znak współczynnika korelacji wskazuje na istnienie współzależności pozytywnej (dodatniej), ujemny natomiast oznacza współzależność negatywną (ujemną). I tak przyjmuje się, że dla wartości od -0.5 do 0 dla współzależności negatywnej oraz dla wartości od 0 do 0.5 dla współzależności pozytywnej jest to korelacja słaba. Natomiast dla wartości wynoszących od -1 do -0.5 dla współzależności negatywnej oraz dla wartości od 0.5 do 1 dla współzależności pozytywnej jest to korelacja silna. Współzależność pozytywna oznacza, że zmienne losowe X i Y na ogół rosną, natomiast współzależność negatywna oznacza, że przy wzroście X wartości Y na ogół maleją i odwrotnie.
Niestety korelacja Pearsona jest podatna na obserwacje skrajne, a jej interpretacja jest oczywista tylko dla wielowymiarowego rozkładu normalnego. Dlatego też stosuje się korelację rang Spearmana, która może być używana jako odporna wersja klasycznego współczynnika korelacji Pearsona. Warto jednak zaznaczyć, że o ile korelacja Pearsona określa zależność liniową pomiędzy zmiennymi, to już korelacja rang Spearmana określa dowolną monotoniczną zależność pomiędzy zmiennymi. Dlatego też stosowanie korelacji Spearmana, jako odpornej wersji współczynniki korelacji Pearsona, jest uzasadnione w przypadku zakładanej liniowej zależności między zmiennymi w warunkach zanieczyszczenia próby obserwacjami odstającymi. Korelacja rangowa jest bowiem znacznie bardziej odporna na obserwacje skrajne.
Do policzenia współczynnika korelacji Spearmana potrzebne jest uporządkowanie wartości zmiennych losowych X i Y w porządku rosnącym, następnie każdej wartości przypisywana jest ranga równa pozycji danej wartości w rosnącym porządku, a w przypadku gdy dana wartość występuje wielokrotnie, każde z wystąpień ma przypisaną tę samą rangę równą średniej arytmetycznej pozycji w rosnącym porządku i dzięki takiemu uporządkowaniu zmiennych losowych X i Y za pomocą zwykłej korelacji obliczany jest współczynnik korelacji Spearmana .Korelacja rangowa Spearmana przyjmuje zawsze wartości z przedziału od -1 do 1. Im bardziej wartości oddalone są od zera, tym większa siła zależności między zmiennymi losowymi. Gdy każda zmienna jest ściśle rosnącą funkcją drugiej, występuje idealna zgodność rang i ich korelacja przyjmuje wartość 1. Natomiast gdy każda zmienna jest ściśle malejącą funkcją drugiej zmiennej, występuje maksymalna niezgodność rang i ich korelacja przyjmuje wartość -1.