Rozdział 6.
TRAFNOŚĆ: POMIAR I INTERPRETACJA♠
Kiedy zaczynasz się interesować zagadnieniem trafności?
rozważasz czy test przyda ci się do tego, co chcesz zrobić
czyli szukasz jego trafności teoretycznej - jakie funkcje psychologiczne mierzy dany test i czy te funkcje są tymi, o które ci chodzi
„walidacja testu do specyficznych lokalnych kryteriów”
po ludzku: testy robi się z tylu różnych powodów i wyciąga się na ich podstawie tyle wniosków, że trzeba sprawdzić czy dany test będzie trafny w tym, co MY chcemy zrobić (nawet jeśli istnieją dane o trafności, nawet wysokiej, lepiej sprawdzić ją samemu)
w tym rozdziale mówi się głównie o trafności na tym 2 etapie
WSPÓŁCZYNNIK TRAFNOŚCI I BŁĄD OSZACOWANIA
POMIAR ZALEŻNOŚCI
współczynnik trafności - korelacja między wynikiem testu a miarą kryterialną
w postaci pojedynczego wskaźnika liczbowego => dla każdego kryterium (dla każdej miary kryterialnej) podaje się osobno wskaźnik trafności
jego znaczenie przy badaniu konkretnej osoby pokazują tabele wartości oczekiwanych i wykresy wartości oczekiwanych (patrz: rozdz. 3.)
gdy zmienne: testowa i kryterialna są ciągłe (patrz: I rok studiów) - współczynnik korelacji wg momentu iloczynowego Pearsona; gdy są w innej postaci - inne rodzaje współczynników korelacji
CZYNNIKI WPŁYWAJĄCE NA WSPÓŁCZYNNIKI TRAFNOŚCI:
charakter grupy, na której określano współczynnik trafności
dany test może mierzyć co innego w zależności od tego, na kim jest robiony (wiek, płeć, poziom wykształcenia, zawód, itd.)
dlatego czasem dany test ma wysoką wartość prognostyczną dla danego kryterium w jednej populacji, a w drugiej jej nie ma albo jest trafny w obydwu populacjach, ale w odniesieniu do różnych kryteriów
gdy w obrębie danej populacji wyniki testu są bardzo zróżnicowane, to mogą też się znacznie różnić współczynniki trafności dla poszczególnych części zakresu wyników
heterogeniczność próby
im szerszy jest zakres wyników (przy niezmienności innych elementów), tym wyższa korelacja
dotyczy to również rzetelności
preselekcja
przykład: określamy trafność testu na grupie nowo przyjętych (=prawdopodobnie przeszli już jakąś selekcję) pracowników, których późniejsze wyniki w pracy będą kryterium
w tej grupie zostają odcięte dolne części rozkładu wyników testowych oraz miar kryterialnych
czego wynikiem jest zaniżenie współczynnika trafności (czyli jeśli kiedyś będzie się tym testem badało wszystkich kandydatów, to trafność będzie trochę wyższa)
upływ czasu
wraz z nim zmieniają się standardy selekcji
przykład: w ciągu 30 lat zmalały współczynniki korelacji między testami dla college'u i świadectwami ze szkoły średniej a przeciętną ocen z pierwszego roku spadły z 0,71 do 0,52
wyjaśnienie: coraz wyższe wymagania przy przyjmowaniu na studia ostatni rocznik był bardziej jednorodną grupą (patrz: heterogeniczność grupy) więc korelacja była niższa (ale dokładność prognozowania ocen prawie się nie zmieniła) = spadek wielkości współczynnika korelacji, ale nie trafności predyktorów
kształt zależności między wynikami testowymi a kryterialnymi
przy obliczaniu współczynnika korelacji Pearsona przyjmuje się, że zależność ta jest liniowa i jednakowa dla całego zakresu zmiennych i przeważnie jest to słuszne założenie
ale czasami zależność ta może być nieliniowa - przykład: do wykonywania zawodu K niezbędne jest pewne minimum umiejętności W, której dalszy wzrost może nie mieć już związku z sukcesem zawodowym
heteroscedastyczność - niejednakowa zmienność dla całego zakresu dwuzmiennowego rozkładu; przykład: wyniki są obrazowane przez linię prostą, ale czasem mogą się od niej odchylać, częściej w pobliżu górnego krańca skali (kształt rozkładu - wachlarz); współczynnik korelacji Pearsona zakłada homoscedastyczność (jednakową zmienność)
wniosek z tego, że analiza samego rozkładu dwuzmiennowego (jego kształtu) bywa wskazówką co do charakteru zależności między testem a kryterium
WIELKOŚĆ WSPÓŁCZYNNIKA TRAFNOŚCI
Nie ma jednej odpowiedzi na pytanie jak duży ma być współczynnik trafności (bo jego interpretacja musi uwzględniać dużo towarzyszących mu czynników)
musi być na tyle wysoki, aby osiągnąć istotność statystyczną - czyli trzeba być pewnym, że otrzymany na jakiejś próbie współczynnik trafności w całej populacji jest taki sam (albo że w populacji nie jest on równy zeru)
kiedy współczynnik trafności jest istotny statystycznie trzeba określić jego wielkość w kontekście konkretnych zastosowań testu, np. w przypadku przewidywania dokładnego wyniku jednostki w zakresie miary kryterialnej współczynnik trafności interpretuje się w kategoriach błędu standardowego oszacowania
błąd standardowy oszacowania (SEest standard error of estimation)- określa margines błędu, który należy brać pod uwagę przy przewidywaniu wyniku jednostki w zakresie kryterium, na skutek niedoskonałej trafności testu:
SEest = SDy
rxy2 - kwadrat współczynnika trafności
SDy - odchylenie standardowe wyników kryterialnych
przy doskonałej trafności (rxy=1,00) SEest =0 (badacz płacze ze szczęścia)
przy zerowej trafności (rxy=0) SEest= SDy (=> przewidywanie nie różni się od zgadywania)
formuła
oznacza, że SEest szacujemy w stosunku do błędu, który wystąpiłby przy zgadywaniu; przy trafności np. rxy=0,60 SEest=SDy
=> SEest=0,8 SDy, czyli przy zastosowaniu testu o trafności 0,6 błąd standardowy oszacowania wynosi 80% błędu, który wystąpiłby przy zgadywaniu, czyli stosując ten test możemy się wypowiadać z marginesem błędu mniejszym od tego w przypadku zgadywania o 20%
czyli nawet jak zastosujemy test o dość dużej trafności 0,8, to błąd szacowania i tak będzie dość duży, ale że głównym celem psychologii nie jest dokładne przewidywanie pozycji jednostki w rozkładzie zmiennej kryterialnej, tylko określenie, które osoby przekroczą jakiś próg minimalny, to można się rozluźnić
kolejne czyli: każdy test wykazujący choćby minimalną korelację z kryterium poprawia skuteczność przewidywania w stosunku do zgadywania
TRAFNOŚĆ TESTU I TEORIA DECYZJI
PODEJŚCIE PODSTAWOWE
przykład: 100 kandydatów robi test uzdolnień, a po jakimś czasie każdy z nich jest oceniany pod względem sukcesu zawodowego; korelacja między testem a sukcesem zawodowym: prawie 0,70
na str. 198 jest do tego rysunek - dwuzmiennowy rozkład wyników testowych i wskaźników sukcesu zawodowego [ułatwia zrozumienie, polecam], a na rysunku widzimy:
wynik graniczny w zakresie kryterium: akceptowalne minimum poziomu wykonania pracy zawodowej; osoby poniżej wyniku granicznego = porażka zawodowa (tu: 40 osób); osoby powyżej wyniku granicznego = sukces zawodowy (60 osób)
współczynnik selekcji - proporcja osób, które mają zostać przyjęte; tu równy 0,45 czyli spośród 100 kandydatów wybieramy 45 osób z najwyższymi wynikami w teście, czyli takich, które osiągnęły lub przekroczyły wynik graniczny w teście
błędne odrzucenia: 22 osoby, które nie osiągnęły wyniku granicznego w teście, ale osiągnęły i/lub przekroczyły wynik graniczny w zakresie kryterium zawodowego
trafne odrzucenia: 33 osoby, które nie osiągnęły wyniku granicznego ani w teście, ani w zakresie kryterium zawodowego
trafne akceptacje: 38 osób, które osiągnęły i/lub przekroczyły wynik graniczny w teście oraz w zakresie kryterium zawodowego
błędne akceptacje: 7 osób, które osiągnęły i/lub przekroczyły wynik graniczny w teście, ale nie w zakresie kryterium zawodowego
gdyby przyjąć wszystkich, sukces odniosłoby 60% z nich; gdyby wybrać mniej, ale bez testu (zgadywanie), proporcja sukcesów prawdopodobnie byłaby bliska 60%; wybierając na podstawie testu z współczynnikiem selekcji=0,45, mamy 84% sukcesów zawodowych (38/45=0,84)
selekcyjną skuteczność testu obniżają tylko błędy w przewidywaniu wiążące się z przekroczeniem linii granicznej, czyli powodujące zakwalifikowanie osób do niewłaściwej kategorii
przy określaniu wyniku granicznego w teście służącym selekcji trzeba zwrócić uwagę na procent sukcesów i procent porażek wśród wybranych ludzi
zwiększanie liczby trafnych akceptacji - poprzez zwiększenie wyniku granicznego w teście (czasem trzeba, np. lekarze - idealna sytuacja: wszyscy lekarze odnoszą sukces zawodowy - 100% trafnych akceptacji, błędne akceptacje nie mają prawa leczyć)
zmniejszanie liczby błędnych odrzuceń - poprzez obniżenie wyniku granicznego w teście
inne czynniki wpływające na wysokość wyniku granicznego w teście: dostępne zasoby pracowników, liczba wolnych miejsc pracy, itp.
istnieją również matematyczne procedury określania optymalnych wyników granicznych, dzięki którym można uwzględnić np. znaczenie błędnych odrzuceń i błędnych akceptacji
teoria decyzji statystycznych -procesu podejmowania decyzji wyrażony w postaci matematycznej, służy dokonywaniu jak najbardziej trafnych w danych okolicznościach decyzji, na podstawie dostępnych informacji
opracowana przez Walda w 1950 r.; wynikające z niej konsekwencje dla tworzenia i interpretacji testów psychologicznych przedstawili najlepiej Cronbach i Gleser (1965)
PRZEWIDYWANIE WYNIKÓW
służą temu m.in. tablice Taylora-Russella (1939), na podstawie których można określić czysty zysk w dokładności selekcji, który wynika z zastosowania testu [przykład tabeli na str. 201]
potrzebne dane: współczynnik trafności testu, współczynnik selekcji, proporcja podstawowa (=proporcja osób osiągających powodzenie zawodowe, a wybranych bez zastosowania testu)
zmiany wartości któregokolwiek z powyższych elementów może zmieniać prognostyczną skuteczność testu
tabele pokazują np. że w zależności od współczynnika selekcji zmienia się znaczenie trafności stosowanego testu (współczynnik 100% - nieważna trafność; współczynnik np. 5% - nawet mało trafny test zwiększa procent trafnie wybranych kandydatów znacząco)
trafność zyskana testu - przypisywany testowi przyrost trafności prognostycznej; ukazuje wkład konkretnego testu w dobór jednostek spełniających minimalne wymagania w zakresie kryterium
zależy ona od rodzaju grupy, na której jest szacowana - wkład testu trzeba określać na podstawie tego, co wnosi on do uprzednich procedur selekcyjnych (np. do informacji o przebiegu kariery zawodowej)
zależy również od proporcji podstawowej - tablice Taylora-Russella są w wersjach dla różnych proporcji podstawowych
w psychologii klinicznej proporcja podstawowa odnosi się do częstości występowania w populacji diagnozowanego stanu patologicznego,
czyli przy skrajnych proporcjach podstawowych (gdy coś występuje bardzo rzadko) zastosowanie testu do diagnozy może nic nie dać (co najwyżej zwiększyć liczbę osób zdrowych zakwalifikowanych jako patologiczne = błędne diagnozy pozytywne)
więc gdy rzadko występujący stan patologiczny musi być z jakichś powodów szybko zdiagnozowany, lepiej zastosować testy o umiarkowanej trafności, np.: najpierw badanie przesiewowe z wysoko ustawionym wynikiem granicznym; otrzymujemy mało błędnych diagnoz negatywnych, ale dużo błędnych pozytywnych, co niczemu nie szkodzi, bo te błędne pozytywne zostaną wykryte na następnym etapie intensywnych badań indywidualnych - to jest dobry sposób, gdy nie mamy możliwości przebadać indywidualnie wszystkich osób
ZWIĄZEK TRAFNOŚCI Z WYDAJNOŚCIĄ
W praktyce często chodzi o oszacowanie skutków zastosowania testu selekcyjnego ze względu na ogólną wydajność wybranych osób - jak mają się faktyczne osiągnięcia kryterialne (np. zawodowe) w zależności od zastosowania lub nie testu przy selekcji?
oczekiwany wzrost wydajności jest wprost proporcjonalny do trafności testu [patrz: tabela na str. 205]
przykład: oszczędności wynikające z zatrudniania programistów od tych z najlepszymi wynikami aż do wyczerpania miejsc - str. 205-206
POJĘCIE UŻYTECZNOŚCI W TEORII DECYZJI
Względna użyteczność oczekiwanych rezultatów - na ile każdy z nich oceniany jest jako korzystny lub niekorzystny
przeszkodą dla stosowania teorii decyzji jest między innymi brak adekwatnych systemów przypisywania uzyskiwanym rezultatom określonej wartości na jednolitej skali użyteczności
użyteczność można wyrażać np. w dolarach (decyzje w przemyśle), w wartościach społecznych i innych niewymiernych czynnikach (decyzje w edukacji), w indywidualnych preferencjach i wartościach (decyzje indywidualne; poradnictwo)
celem wyboru konkretnej strategii decyzyjnej jest maksymalizacja oczekiwanej użyteczności ze względu na wszystkie możliwe rezultaty
str. 209: schemat prostej strategii decyzyjnej tej samej, której dotyczy rysunek na str. 198
ogólna oczekiwana użyteczność (expected utility - UE) - użyteczność różnych rezultatów wyrażona na wspólnej skali; jest to różnica kosztów badania testowego i sumy iloczynów prawdopodobieństw każdego rezultatu i jego użyteczności, czyli:
EU = koszt przeprowadzenia testu - (prawdopodob.rezultatu1 x użyteczność.rezultatu1 + prawdopodob.rezultatu2 x użyteczność.rezultatu2 + prawdopodob.rezultatu3 x użyteczność.rezultatu3 + prawdopodob.rezultatu4 x użyteczność.rezultatu4) [naprawdę, bardzo się starałam w tym miejscu]
te rezultaty to błędne i trafne akceptacje i odrzucenia, o których była mowa nieco wyżej, ich użyteczności są podane na rys. na str. 209
dla danych z rysunku ze str. 198 będzie tak:
EU = 0,38 x 1,00 + 0,07 x (-1,00) + 0,38 x 0 + 0,22 x (-0,50) - 0,10 = +0,10
użycie niezbyt imponująco trafnego testu usprawiedliwiają niskie koszty jego przeprowadzenia, natomiast kosztowny test, aby opłacało się go przeprowadzić, powinien być bardziej trafny
EU można obliczać dla różnych punktów granicznych, testów lub baterii testów, decyzji strategicznych i wtedy je porównywać
STRATEGIE SEKWENCYJNE I POSTĘPOWANIE ADAPTACYJNE
Zwiększanie efektywności testu przez stosowanie bardziej złożonych strategii decyzyjnych (w których bierze się pod uwagę więcej parametrów).
użycie testów przy podejmowaniu kolejnych decyzji etapowych
rys. na str. 210
najpierw test przesiewowy o dwóch wynikach granicznych → 3 kategorie: „zaakceptować”, „niepewne”, „odrzucić” → badanie grupy „niepewne” drugim testem (zastosowanie bardziej złożonych technik) → 2 kategorie: „zaakceptować”, „odrzucić”
w przypadku diagnozy zaburzeń psychologicznych: po pierwszym etapie otrzymujemy 2 grupy („zaakceptować”, „odrzucić”), w drugim etapie badanie wszystkich z grupy pozytywnej
możliwość dostosowania sposobu postępowania do właściwości jednostki
np. stosowanie różnych procedur szkoleniowych dla pracowników różniących się poziomem uzdolnień
uwzględnia się tutaj interakcję między wynikiem w teście a zróżnicowanym postępowaniem (np. szkolenie asertywności dla jednych a dla innych szkolenie z technik negocjacyjnych), dzięki czemu zwiększa się proporcja sukcesów
ogólnie rzecz biorąc teoria decyzji zwraca uwagę na złożoność czynników określających wkład testu w danej sytuacji (znajomość samego współczynnika trafności nie wystarcza)
ZMIENNE POŚREDNICZĄCE
w klasycznym podejściu psychometrycznym zakłada się, że błędy przewidywania wynikają z właściwości testu (nie osoby) i że błędy te rozkładają się losowo między osobami
na podstawie teorii decyzji szuka się modeli predykcji obejmujących interakcję między osobami a testami (=> ten sam test w przypadku niektórych grup lub klas osób jest bardziej przydatny do przewidywania kryterium niż w przypadku innych)
to właśnie zmienne pośredniczące mogą zmieniać trafność testu (np. płeć, status społeczno - ekonomiczny, zainteresowania, motywacja)
motywacja: kandydaci mało zainteresowani pracą będą mieli prawdopodobnie gorsze osiągnięcia bez względu na wyniki w testach uzdolnień
różnice związane z płcią w możliwości przewidywania ocen szkolnych (dla kobiet korelacje między wynikami w testach uzdolnień a ocenami szkolnymi są wyższe, bo są one bardziej konformistyczne i skłonne do akceptowania wartości i standardów szkolnych, podczas gdy mężczyźni są bardziej zainteresowani aktywnością pozwalającą im rozwijać ich zainteresowania)
różnice związane z płcią są systematyczne, ale niewielkie, a wg nowszych badań stają się coraz mniejsze
dzisiejsza postawa względem zmiennych pośredniczących: o żadnej zmiennej nie można powiedzieć, że zmienia trafność testu, póki nie ma wyraźnego na to dowodu; z drugiej strony zmienne te pozwalają zrozumieć różnice indywidualne w zachowaniu
ŁĄCZENIE INFORMACJI POCHODZĄCYCH Z RÓŻNYCH TESTÓW
gdy kryterium jest złożone, a miara kryterialna zależy od wielu różnych cech, stosuje się kilka różnych testów
lepszy jest test jednorodny, mierzący jedną cechę, bo jego wyniki są bardziej jednoznaczne
więc stosuje się kilka jednorodnych testów, dotyczących różnych aspektów kryterium bateria testów
główny problem dotyczy tego jak łączyć wyniki tych testów, by podejmować decyzje dotyczące poszczególnych osób
w badaniu indywidualnych przypadków przeważnie nie poddaje się wyników dalszej analizie statystycznej, więc tego obszaru nie dotyczy ten podrozdział
służą temu: równanie regresji wielokrotnej i analiza profilowa
RÓWNANIE REGRESJI WIELOKROTNEJ
pozwala określić przewidywany wynik jednostki w zakresie kryterium na podstawie wyników uzyskanych w testach baterii
na str. 213 jest przykład, którego nie ma co tu wpisywać, lepiej to obejrzeć
wyniki testowe są wyrażone w staninach (o których mowa w rozdz. 3.)
żeby przewidzieć wyniki w kryterium dodaje się wyniki w poszczególnych testach pomnożone przez odpowiednie dla nich wagi, a do tej sumy iloczynów dodaje się jeszcze pewną stałą (w przykładzie jest to 1,35)
równanie regresji wielokrotnej jest oparte na korelacji każdego testu z kryterium oraz na interkorelacji między testami
waga testu jest wprost proporcjonalna do jego korelacji z kryterium i odwrotnie proporcjonalna do jego korelacji z innymi testami w baterii
czyli najwyższa waga przypada testom najbardziej trafnym i najmniej pokrywającym się z resztą baterii
testy mocno korelujące z innymi testami w baterii są niepotrzebnymi powtórzeniami
trafność baterii testów określa się poprzez obliczenie korelacji wielokrotnej (R) między kryterium a baterią, co ukazuje najwyższą wartość prognostyczną, jaką można uzyskać na podstawie danej baterii
optymalne wagi to te określone przez równanie regresji
są optymalne dla próby, na której je otrzymano, bo są one oceniane na podstawie współczynników korelacji, w których występują losowe błędy, które mogą się zmieniać z próby na próbę
dlatego baterię należy poddać na nowej próbie walidacji krzyżowej polegającej na korelowaniu przewidywanych wyników kryterialnych z rzeczywiście otrzymanymi wynikami
dobrze jest to robić zawsze, mimo że istnieją wzory na szacowanie wielkości obniżenia korelacji wielokrotnej
czasem można zwiększyć trafność prognostyczną baterii przez włączenie do niej testu o zerowej korelacji z kryterium, ale wysokiej korelacji z innym testem w baterii; działa on jako zmienna tłumiąca (eliminująca lub tłumiąca niepożądaną zmienność w innym teście - masło maślane)
zmienna tłumiąca ma ujemną wagę
należy ją stosować tylko wtedy, gdy nie można bezpośrednio poprawić jakiegoś testu
jej wpływ należy sprawdzać na każdej nowej próbie
ANALIZA PROFILOWA I WYNIKI GRANICZNE
analiza profilowa polega na ustaleniu minimalnego wyniku granicznego w każdym teście baterii
przy ścisłym trzymaniu się tej metody każda osoba, która uzyska w którymkolwiek teście baterii wynik poniżej minimalnego jest odrzucana
przy wyborze testów do baterii i określaniu w nich wyników granicznych można dobierać również testy z nieszczególnie wysokimi współczynnikami trafności, ale takie, które mierzą zdolności istotne ze względu na dane kryterium
czasem pracownicy mogą być tak jednorodną grupą pod względem kryterium, że korelacje między wynikami testowymi a kryterium mogą być nieistotne
jednak warto stosować tą metodę zamiast równania regresji, ponieważ to uniemożliwia kompensowanie się wyników (ktoś ma słabsze wyniki w jednym teście, ale wysokie wyniki w innym to ukryją - jeśli deficyt dotyczy umiejętności ważnej dla danej pracy, to wybrany kandydat poniesie porażkę)
dzięki określeniu jednej lub kilku umiejętności krytycznych dla danej pracy i ustaleniu tylko w testach je mierzących wyników granicznych (w pozostałych pozostawić faktyczne wyniki) można tego uniknąć
zależność między wynikiem testowym a wynikiem kryterialnym jest przeważnie liniowa, więc dobór na podstawie faktycznej wysokości wyników (w testach bez ustalonych wyników granicznych) powoduje zatrudnianie ludzi lepiej nadających się do danej pracy niż gdyby przyjąć wszystkich, którzy przekroczyli wyniki minimalne we wszystkich testach
ZASTOSOWANIE TESTÓW W DECYZJACH KLASYFIKACYJNYCH
ISTOTA KLASYFIKACJI
testów psychologicznych używa się do selekcji osób, ich rozlokowania lub klasyfikacji
selekcja: każda jednostka zostaje zaakceptowana lub odrzucona
lokowanie: nikt nie zostaje odrzucony, osoby przydziela się do grup tak, aby zmaksymalizować skutki terapii, szkolenia itp. na podstawie pojedynczego wyniku (gdy bateria testów - wynik złożony na podstawie pojedynczego równania regresji), czyli bierze się pod uwagę tylko jedno kryterium
klasyfikacja: nikt nie zostaje odrzucony, osoby przydziela się do grup tak, aby zmaksymalizować skutki terapii, szkolenia itp. na podstawie minimum dwóch kryteriów
klasyfikowaniem są np. doradztwo, diagnoza kliniczna
klasyfikacja wymaga złożonych predyktorów, których trafność jest określana osobno dla każdego kryterium, na podstawie którego ona się odbywa
dla poszczególnych kryteriów wykorzystuje się różne testy z baterii i różne są wagi przypisywane tym testom
czyli: mamy baterię 6 testów; testy 1, 4 i 6 mają wysokie wagi dla kryterium A, ale niskie lub zerowe dla kryterium B, dla którego wysokie wagi mają testy 2, 3 i 5, które z kolei nie na wiele się zdadzą w przypadku kryterium A
TRAFNOŚĆ RÓŻNICOWA
odnosząca się do poszczególnych kryteriów, jest ważna przy ocenianiu baterii testów stosowanej do celów klasyfikacyjnych, ponieważ baterię tą stosuje się do przewidywania różnic wyników danej osoby w zakresie 2 lub więcej kryteriów
testy w takiej baterii powinny wyraźnie różnić się swoimi współczynnikami trafności w odniesieniu do poszczególnych kryteriów
np. gdy mamy 2 kryteria, idealny test wysoko koreluje z jednym kryterium, a zerowo z drugim
testy inteligencji raczej nie nadają się do klasyfikacji ludzi (korelują z bardzo wieloma dziedzinami)
WIELOKROTNE FUNKCJE DYSKRYMINACYJNE
są alternatywnym sposobem podejmowania decyzji
wielokrotna funkcja dyskryminacyjna - procedura matematyczna pozwalająca ocenić stopień podobieństwa między wynikami jednostki w całym zbiorze testów a typowymi wynikami osób należących do pewnej kategorii (wykonujących dany zawód, uczących się wg określonego programu itp.)
osoba jest przypisywana do grupy, której wyniki najbardziej przypominają jej własne
wszyscy są traktowani jako osoby o takim samym statusie, a jedyną daną kryterialną jest przynależność do grupy
WFD używa się, gdy:
brak danych kryterialnych (jedyne co można zrobić, to określić przynależność osoby do grupy)
zależność między kryterium a zmienną, która ma je przewidywać (lub zmiennymi) jest nieliniowa (np. dana cecha jest pożądana tylko w pewnym przedziale swojego nasilenia)
stosowanie równania regresji i wielokrotnych funkcji dyskryminacyjnych często powoduje podejmowanie takich samych decyzji, ale nie zawsze
przeważnie lepsze efekty daje stosowanie równań regresji
MAKSYMALIZOWANIE WYKORZYSTANIA TALENTU
zastosowanie baterii testów pełniejsze wykorzystanie dostępnych zasobów ludzkich
decyzje klasyfikacyjne przydzielenie do każdej pracy osób wyżej wykwalifikowanych
gdy przydzielamy do określanych prac ludzi biorąc pod uwagę wymagane w każdej uzdolnienia, to większość osób osiąga poziom przeciętny lub lepszy niż cała grupa (każdy przewyższa innych w zakresie jakiejś umiejętności), a tak się dzieje w klasyfikacji
ANALIZY STATYSTYCZNE STRONNICZOŚCI TESTU
PROBLEM
przy opracowywaniu testów sprawiedliwych kulturowo nie zwraca się uwagi na to, aby testy miały wysoką trafność prognostyczną w stosunku do pewnego kryterium (bo gdy usiłuje się dobrać treści wspólne dla różnych kultur, można dobrać takie, które będą miały niewiele wspólnego z kryterium)
lepiej więc wybierać treści związane z kryterium, a później badać różnice między populacjami pod względem skuteczności zastosowania testu w określonym celu
w zależności od przeszłych doświadczeń osób badanych, współczynniki trafności, wagi w równaniu regresji i wyniki graniczne mogą się różnić
test będący próbką zachowań kryterialnych lub mierzący istotne umiejętności stanowiące ich warunek pozostanie równie trafny w różnych grupach (np. test w zakresie grabienia liści dla ogrodników z Chin, Nowej Zelandii i Danii)
stronniczość - stały lub systematyczny błąd (w przeciwieństwie do błędu losowego)
stronniczość wyrażana przez nachylenie linii regresji (dot. współczynników trafności) oraz przez przesunięcie linii regresji (dot. zależności między średnimi grupowymi w teście i w kryterium)
rysunek do obydwu przypadków - str. 226
STRONNICZOŚĆ WYRAŻANA PRZEZ NACHYLENIE LINII REGRESJI
gdy wyniki testowe i kryterialne są w postaci wystandaryzowanej z SD=1,00, nachylenie linii regresji jest równoznaczne z współczynnikiem korelacji
ze stronniczością wyrażoną nachyleniem linii regresji mamy do czynienia, gdy współczynnik trafności w dwóch grupach jest istotnie różny
inaczej nazywane: zróżnicowaną trafnością (bo różna trafność w różnych grupach) lub trafnością dla pojedynczej grupy (test trafny w jednej grupie, a w drugiej nie)
2 grupy mogą mieć różne średnie w teście, ale identyczne linie regresji dla zależności między wynikami testu i kryterium i wtedy brak stronniczości
częsty problem: mniejsza liczba badanych osób należących do mniejszości narodowej (np.), przez co ten sam współczynnik trafności jest istotny w próbie z przedstawicieli większości i nieistotny w próbie przedstawicieli mniejszości
dlatego lepiej w badaniach zróżnicowania trafności oceniać różnicę między dwoma współczynnikami trafności (zamiast testować istotność statystyczną dla każdego z nich)
konkluzja: interpretacja wyników testowych powinna uwzględniać pełną wiedzę na temat pośredniczącego wpływu zmiennych środowiskowych działających w indywidualnych przypadkach
STRONNICZOŚĆ WYRAŻANA PRZEZ PRZESUNIĘCIE LINII REGRESJI
stronniczość wyrażana przesunięciem linii regresji dotyczy sytuacji, gdy współczynniki trafności są takie same dla różnych grup
współczynnik przesunięcia (intercept) równania regresji - ukazuje punkt, w którym linia regresji przecina oś y, co informuje jednocześnie o jej przesunięciu względem osi x
test jest stronniczy, gdy w sposób systematyczny niedocenia lub przecenia wyniki kryterialne uzyskiwane przez konkretną grupę
gdy linie regresji mają to samo nachylenie, ale różne przesunięcia dla 2 grup, to znaczy, że ten sam wynik w grupie ma różne znaczenie prognostyczne dla tych grup
w takim przypadku opieranie się na teście z ustalonym wynikiem granicznym będzie dyskryminowało jedną grupę
jednak wg badań nad zastosowaniem testów przypadki stronniczości wyrażanej przez przesunięcie linii regresji raczej nie występują lub nawet prowadzą do niedoceniania grup większościowych
faworyzowanie grupy mniejszościowej ma miejsce, gdy 2 grupy różnią się pod względem jednej lub więcej dodatkowych zmiennych korelujących dodatnio z testem i z kryterium (można to zniwelować dodając do baterii więcej predyktorów)
the end
♠ Streszczenie to jest trochę przydługie, ale jest tu chyba wszystko, co było w rozdziale, w formie tak przystępnej jak się tylko dało. Lepsze to, niż 39 stron oryginału. Do książki radzę zajrzeć ze względu na rysunki, o których za każdym razem informuję. Miłego i owocnego czytania życzę;] Kaja Szarras
7