Przedstawimy teraz sposób analizy innego typu danych ilościowych. Będziemy dla każdej badanej „jednostki” dysponowali obserwacjami dwóch zmiennych ilościowych x i y. Celem będzie zbadanie związku między tymi dwiema zmiennymi. Na przykład badając przyczyny nieregularnego wzrostu drzew na pewnej plantacji świerka Picea sitchensis można wybrać w sposób losowy pewną liczbę drzew, określić dokładnie ich wysokość (po uprzednim ścięciu), a następnie za pomocą analizy chemicznej wyznaczyć zawartość substancji odżywczych w igłach świeżych pędów. W takim badaniu jedną zmienną (np. zmienną y) będzie wysokość drzewa w metrach, a drugą zmienną (czyli x) zawartość azotu w igłach wyrażona w % azotu na jednostkę suchej masy. Przedstawiane poniżej metody pozwolą uzyskać pewne informacje o związku między dwiema zmiennymi, gdy rozkład jednej zmiennej (np. zmiennej y) związany jest z wartościami drugiej zmiennej (czyli *). Nie znaczy to, że jedna zmienna jest przyczyną drugiej, nie mówimy więc o związku przyczynowo-skutkowym. Na ogół jednak tak określamy zmienną x i zmienną y, żeby z ewentualną zależnością y = f(jr) móc w pewnych okolicznościach łączyć związek przyczynowo-skutkowy. W naszym przykładzie można by się dopatrywać zależności wysokości drzewa od poziomu zawartości substancji odżywczych w młodych pędach.
Badanie związku dwóch zmiennych ilościowych prowadzimy na ogół w celu:
— uzyskania liczbowych miar pewnych podstawowych cech związku,
— dostarczenia możliwości prognozowania (predykcji) wartości jednej ze zmiennych, gdy druga jest znana,
— stwierdzenia, czy obserwowany kierunek trendu jest istotny.
Wprowadzimy teraz pojęcie funkcji regresji. Załóżmy, że dysponujemy obserwacjami
zmiennych ,v i y dla dużej liczby jednostek. Interesuje nas, jakiej przeciętnej zmianie ulega y, gdy x przyjmuje różne wartości. Jeżeli będziemy rozpatrywać pewną konkretną wartość x, to odpowiadające temu x wartości y będą zmienną losową. Wartość oczekiwaną takiej zmiennej losowej warunkowej oznaczymy E(yl .v). Wartość oczekiwana E(yl ,x) zależy od .v. Zależność tę nazywamy funkcją regresji zmiennej y względem zmiennej x. Wykres zależności E(yl x) od x nazywany jest krzywą regresji.
138