Testy dyskryminacyjne
– metoda i zastosowania
Kinga Wysieńska
Kinga Wysieńska
Testy dyskryminacyjne – metoda i zastosowania
Testy dyskryminacyjne, które stanowią przedmiot analizy w niniejszym opracowaniu,
odpowiadają na zapotrzebowanie badaczy, decydentów politycznych, ekspertów z dziedziny
polityk społecznych i prawników na obiektywne dane dotyczące skali i sfer występowania
nierównego traktowania. Testy jako procedura badawcza zostały bowiem opracowane specjalnie
po to, żeby móc za ich pomocą określić, czy i do jakiego stopnia nierówności w sferze objętej
testem są wynikiem dyskryminacji, a także w celu monitorowania efektywności prawa
antydyskryminacyjnego i polityk równościowych. Testy – prowadzone zarówno w celach
badawczych, jak i na potrzeby postępowań sądowych – służą jedynie sprawdzeniu, czy w
obszarze poddanym testowi doszło do przejawów dyskryminacji, nie mogą jednak być
wykorzystywane do formułowania uogólnień statystycznych na poziomie całych populacji ani
hipotez przyczynowych na temat źródeł nierównego traktowania. Zrozumienie istoty procedury
testowej jest fundamentalne dla właściwego skonstruowania testu oraz poprawnej interpretacji i
odpowiedniego zastosowania jego wyników.
W niniejszym opracowaniu koncentrujemy się na opisaniu procedury testu
dyskryminacyjnego jako rodzaju eksperymentu. Sama procedura bywa także nazywana testem
par, eksperymentem terenowym, testem audytowym (termin ten jest używany głównie w Stanach
Zjednoczonych) lub testem sytuacyjnym. Określenie „test sytuacyjny” jest najczęściej stosowane
w literaturze anglojęzycznej, ponieważ jednak w polskiej literaturze pojęcie to zostało wcześniej
zdefiniowane w wymiarze zarządzania zasobami ludzkimi – jako rodzaj testów
kompetencyjnych, w celu zachowania przejrzystości terminologicznej będziemy używać terminu
„test dyskryminacyjny”. Poniżej analizujemy charakterystyki testów prowadzonych w celach
naukowych i do postępowań sądowych. Rozważania metodologiczne są jednak osadzone w
wymiarze różnych teorii dyskryminacji i nierównego traktowania w naukach społecznych. Ich
przedstawienie jest niezbędne, aby właściwie zrealizować test i poprawnie zinterpretować jego
wyniki. Na końcu niniejszego opracowania przedstawiamy dwa przykłady testów
przeprowadzonych ostatnio w Polsce.
Błędne koło dyskryminacji
Dyskryminacja ze względu na płeć, narodowość, pochodzenie etniczne, kolor skóry
1
, wiek,
orientację seksualną, niepełnosprawność, religię, wyznanie lub światopogląd – mimo że jest
zakazana prawnie (w różnym zakresie w zależności od poszczególnych przesłanek
2
) – nadal
determinuje szanse życiowe i pozycję społeczno-ekonomiczną członków grup mniejszościowych
wyróżnionych na podstawie wymienionych cech. Badacze z zakresu nauk społecznych i
prawnych, dziennikarze, a także sami przedstawiciele grup mających tak zwane cechy prawnie
chronione (wymienione w przywoływanej ustawie o równym traktowaniu), dostarczają każdego
dnia wielu dowodów na to, że uprzedzenia, jakie utrzymują się wśród członków różnych grup
społecznych, i nierówne traktowanie przez osoby będące w danej sytuacji lub w danej sferze
relacji społecznych na pozycji władzy (a więc podejmujące decyzje), istotnie wpływają na
możliwości osiągania korzystnych wyników przez członków grup mniejszościowych.
Członkowie tych grup, ze względu na posiadane cechy, doświadczają różnych form wykluczenia,
w tym na rynku pracy i rynku mieszkaniowym, w edukacji, w dostępie do pomocy społecznej
czy do dóbr i usług
3
.
Procesy związane z dyskryminacją i wykluczeniem tworzą swoistą reakcję łańcuchową,
prowadzącą do pogłębiania nierówności oraz umacniania systemu i kultury akceptacji uprzedzeń
i dyskryminacji. Na przykład członkowie mniejszości romskiej w Polsce, którym odmawia się
zatrudnienia lub płaci niższe stawki, nie mają innego wyboru, niż wynajmować lub przebywać w
tanich mieszkaniach i lokalizacjach. Lokalizacje te są zazwyczaj postrzegane jako niebezpieczne
i patologiczne, co umacnia dystans społeczny i uprzedzenia wobec zamieszkujących je osób.
Dzieci z rodzin romskich – nieuczęszczające do przedszkoli i dorastające w warunkach gorszych
niż ich nieromscy rówieśnicy – są zatem już na starcie w gorszej pozycji, rozpoczynając szkolną
edukację. W szkole otrzymują niższe oceny, z kolei słaby poziom wykształcenia przekreśla ich
szanse na rynku pracy. Wykluczeni często nie wierzą w możliwość zmiany swojej sytuacji, czego
1
W dokumentach prawnych używa się zazwyczaj pojęcia „rasa”, które należy jednak uznać za kontrowersyjne. Większość
badaczy jest zgodna, że rasa stanowi raczej konstrukt społeczny niż biologiczny, a rozróżnianie „ras” jest oparte zazwyczaj na
pewnych zewnętrznych charakterystykach (kolor skóry, kształt oczu) i nie ma nic wspólnego z genetycznym zróżnicowaniem
populacji. Dlatego w niniejszym opracowaniu używamy terminu „kolor skóry”, odnosimy się bowiem do społecznego procesu
postrzegania różnic między jednostkami.
2
Ustawa z dnia 3 grudnia 2010 roku o wdrożeniu niektórych przepisów Unii Europejskiej w zakresie równego traktowania
(Dz.U. z 2010 r., Nr 254, poz. 1700).
3
Por. między innymi: Równe traktowanie w zatrudnieniu. Przepisy a rzeczywistość, red. K. Kędziora, K. Śmiszek, M. Zima,
Polskie Towarzystwo Prawa Antydyskryminacyjnego, Warszawa 2009; Sąsiedzi czy intruzi. O dyskryminacji cudzoziemców w
Polsce, red. W. Klaus, Stowarzyszenie Interwencji Prawnej, Warszawa 2010; A. Mikulska, Rasizm w Polsce. Raport z badań
wśród osób, które doświadczyły przemocy ze względu na swoje pochodzenie etniczne, rasowe lub narodowe, Helsińska Fundacja
Praw Człowieka, Warszawa 2010.
wynikiem może być ograniczenie wysiłków na rzecz integracji lub całkowite odrzucenie
systemu. W konsekwencji różne rodzaje nierówności wzajemnie się umacniają. Dyskryminacja
nieuchronnie prowadzi zatem do rozwarstwienia społeczno-ekonomicznego i spadku
wskaźników integracji społecznej, niekiedy wiąże się także z problemami społecznymi –
przestępczością czy uzależnieniami
4
. Opinia publiczna rzadko zdaje sobie sprawę z
rzeczywistych przyczyn tego stanu rzeczy i upatruje ich w niedostosowaniu określonych grup do
obowiązującego porządku społecznego albo w braku pożądanych charakterystyk, motywacji czy
umiejętności. Przytoczony przykład ilustruje tak zwane błędne koło dyskryminacji: pojawienie
się uprzedzeń i dyskryminacji determinuje powstanie obserwowalnych nierówności, które
następnie są interpretowane jako dowód na to, że określona cecha oznacza mniejsze zdolności
cenione w danym systemie społecznym, co w rezultacie umacnia początkowe stereotypy i
napędza zachowania dyskryminacyjne (rysunek 1). Proces legitymizacji nierównego traktowania
i uprzedzeń, a także wzajemnego umacniania się skutków dyskryminacji w różnych sferach, jest
trudny do przerwania z kilku powodów.
Po pierwsze, poszczególni aktorzy społeczni (jednostki, grupy, instytucje) mogą być
nieświadomi, że aktywnie uczestniczą w tym procesie, ponieważ nie mają wiedzy o daleko
idących konsekwencjach swoich decyzji, a także o tym, że ich przekonania często są oparte na
stereotypach, a nie na rzeczywistych, istotnych w danej sferze życia różnicach między
jednostkami. Na przykład pracodawcy często odrzucają formułowane wobec nich zarzuty o
bezpośrednią lub pośrednią dyskryminację
5
kobiet, przedstawiając swoje decyzje jako wynik
racjonalnych kalkulacji dotyczących produktywności kobiet i mężczyzn oraz tłumacząc, że
zasady są jednakowe dla wszystkich.
Rysunek 1. Błędne koło dyskryminacji
4
F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on
Discrimination on the Grounds of „Race” and Ethnic Origin, International Labour Organization, Geneva 1992; J. Young, The
Exclusive Society, Sage, London 1999; idem, Crime and Social Exclusion, [w:] The Oxford Handbook of Criminology, red. M.
Maguire, R. Morgan, R. Reiner, Oxford University Press, Oxford 2002, s. 457–490; A.D. Witte, R. Witt, Crime Causation:
Economic Theories, [w:] Encyclopedia of Crime and Justice, red. J. Dressler –
http://www.surrey.ac.uk/economics/files/apaperspdf/ECON%2003-00.pdf [dostęp: 25 stycznia 2012 roku]; F. Bovenkerk, Y.
Yesilgoz, Crime, Ethnicity and the Multicultural Administration of Justice, [w:] Cultural Criminology Unleashed, red. J. Ferrell,
K. Hayward, W. Morrison, M. Presdee, Glasshouse Press, London 2004.
5
Najprościej rzecz ujmując, z dyskryminacją bezpośrednią mamy do czynienia wtedy, gdy w danej sytuacji osoby podobne pod
względem istotnych cech traktujemy odmiennie, z kolei z dyskryminacją pośrednią mamy do czynienia wtedy, gdy w danej
sytuacji, która wymaga odmiennego traktowania osób należących do różnych grup, traktujemy je podobnie.
Źródło: Opracowanie własne.
Po drugie, osoby doświadczające nierównego traktowania, a w konsekwencji wykluczone,
rzadko są świadome, że mają do czynienia z dyskryminacją, lub wypierają ten fakt. Ofiary
dyskryminacji często tłumaczą nierówne traktowanie w kategoriach innych niż dyskryminacja,
udowadniając, że określone zachowanie było uzasadnione, było skutkiem istniejących procedur
czy regulacji, i (lub) obwiniają siebie
6
.
Badania wskazują, że w ten sposób starają się one
podtrzymać poczucie własnej wartości jako członków grupy mniejszościowej i mieć poczucie
posiadania przynajmniej minimalnej kontroli nad sytuacją społeczną. Na przykład cudzoziemiec
w Polsce może nie wiedzieć, że odmowa wpuszczenia do klubu nocnego jest formą
dyskryminacji, lub tłumaczyć to swoim nieodpowiednim ubiorem.
6
K.M. Ruggiero, D.M. Taylor, Why minority group members perceive or do not perceive the discrimination that confronts them:
the role of self-esteem and perceived control, „Journal of Personality and Social Psychology” 1997, t. 72, nr 2, s. 373–389.
Dyskryminacja i nierówne
traktowanie skutkują
obserwowalnymi
różnicami, m.in. w
zarobkach,
poziomie i
wynikach w edukacji,
jakości
życia
Nierówności są
postrzegane jako
wynik posiadania
danej cechy
Dyskryminacja ze
względu na daną cechę
zostaje
uprawomocniona
(legitymizacja
dyskryminacji)
Pojawiają się
uprzedzenia i
dyskryminacja.
Negatywne skutki dyskryminacji są coraz wyraźniej dostrzegane przez decydentów
politycznych i grupy większościowe, a idee równości i niedyskryminacji stają się powoli częścią
porządków prawnych oraz podstawą funkcjonowania państwa i społeczności lokalnych. Nie ma
jednak uniwersalnej koncepcji równości. Działania antydyskryminacyjne zmierzają zazwyczaj do
osiągania celów sformułowanych na podstawie jednej z następujących koncepcji:
• równości formalnej, która ma charakter czysto proceduralny i wymaga takiego samego
traktowania osób bez względu na cechy prawnie chronione,
• równości szans, która zakłada wyrównywanie pozycji wyjściowych (w założeniu
następnie powinna obowiązywać równość formalna),
• równości rezultatów, która ma charakter substancjalny i wymaga konstruowania polityk
społecznych skoncentrowanych na wskaźnikach integracji społecznej (dopuszcza ona na
przykład system kwot i parytetów).
Z największą akceptacją społeczną spotykają się działania i polityki zmierzające do
zapewnienia równości formalnej. Pojęcie równości szans, która – w opinii społecznej – polega na
prostej eliminacji arbitralnych przeszkód w integracji społecznej i mobilności pionowej, również
co do zasady nie wywołuje polemik. Najwięcej kontrowersji wzbudzają zwykle działania
określone jako wyrównywanie rezultatów (dyskryminacja pozytywna, działania afirmacyjne). Jak
jednak wskazują badacze, równość szans i równość rezultatów wiążą się z bardzo podobnymi
nakładami finansowymi, a opór wobec działań afirmacyjnych wynika najczęściej z niewiedzy lub
niezrozumienia procesów dyskryminacyjnych prowadzących do nierówności społecznych
7
. Jak
dotąd, to jednak prawne (formalne) sposoby przeciwdziałania dyskryminacji są najbardziej
rozpowszechnione, a między innymi w celu pomiaru ich efektywności w przeciwdziałaniu
dyskryminacji wypracowano specjalną procedurę badawczą, nazywaną testem
dyskryminacyjnym.
Testy dyskryminacyjne jako metoda eksperymentalna
Testy dyskryminacyjne – jako skuteczne narzędzie wykrywania i określania skali
dyskryminacji – były rozwijane równolegle w ośrodkach naukowych i instytucjach działających
na rzecz przestrzegania zasad równego traktowania. Pierwsze testy przeprowadzono niemal
równocześnie w latach sześćdziesiątych XX wieku zgodnie z metodologią opracowaną przez
7
Por. D.A. Strauss, The Illusory Distinction Between Equality of Opportunity and Equality of Result, „William and Mary Law
Review” 1992, t. 34, nr 171.
brytyjskich socjologów
8
i działaczy organizacji na rzecz przestrzegania zasad równego
traktowania na rynku mieszkaniowym w Stanach Zjednoczonych
9
. Należy jednak podkreślić, że
opracowane procedury planowania i prowadzenia testów nie są zróżnicowane w zależności od
tego, gdzie powstały, ale w zależności od tego, czy służą celom naukowo-badawczym, czy też
mają być wykorzystane w działaniach litygacyjnych.
Najogólniej rzecz biorąc, niezależnie od badawczego czy litygacyjnego charakteru
przeprowadzonych obserwacji, test dyskryminacyjny jest eksperymentem przeprowadzanym w
warunkach naturalnych. Testy dyskryminacyjne są ustrukturalizowaną procedurą badawczą,
która służy skonstruowaniu kontrolowanego układu, pozwalającego zbierać dane o zachowaniach
osób mających możliwość wykluczania (przez podejmowanie określonych działań) innych
aktorów społecznych
10
. Innymi słowy, jak w wypadku każdego układu eksperymentalnego,
organizator testu w sposób kontrolowany wprowadza i reguluje poziomy zmiennej niezależnej
(lub zmiennych niezależnych), a następnie dokonuje rejestracji (pomiaru) poziomu zmiennej
zależnej.
Kolejność działań, kontrola i bezpośredni pomiar zmiennej zależnej są tymi właściwościami,
które stanowią, że dana sytuacja staje się eksperymentalna. W eksperymencie poziomy zmiennej
niezależnej są z góry określone i wprowadzane do sytuacji, zanim zostanie rozpoczęty proces
gromadzenia informacji o poziomie zmiennej zależnej, badacz zaś ma możliwość takiej
ingerencji w sytuację, aby dokonywać zmian w poziomie zmiennych niezależnych. Badacz
tworzy więc taką sytuację, w której występują interesujące go różnice na danym poziomie (o
danej wielkości). Możliwość kreowania sytuacji dla testu sprawia, że dane zebrane tą metodą są
wysoce trafne i rzetelne. Nie opiera się bowiem testu na szukaniu i porównywaniu dwóch
sytuacji, które wydają się podobne, tylko na konstruowaniu przez badacza (organizatora testu)
dwóch sytuacji, które są takie same we wszystkich aspektach – z wyjątkiem poziomu zmiennej
niezależnej
11
.
W badaniach dyskryminacji zmienną niezależną stanowią różne poziomy cechy nominalnej,
jaką jest przesłanką dyskryminacji, lub cechy, którą podejrzewamy, że jest przyczyną
nierównego traktowania. Jeśli na przykład sformułowaliśmy hipotezę mówiącą o tym, że osoby
8
W. Daniel, Racial Discrimination in England, Penguin Books, Middlesex 1968; R. Jowell, P. Prescott-Clarke, Racial
Discrimination and white-collar workers in Britain, „Race” 1970, t. 11, s. 397–417.
9
J. Yinger, Testing for Discrimination in Housing and Related Markets, [w:] A National Report Card on Discrimination in
America, red. M. Fix, M.A. Turner, Urban Institute, Washington 1998.
10
M. Bendick Jr., A.P. Nunes, Bias in Hiring, „Journal of Social Issues” 2011 [w druku].
11
J. Sell, M. Webster, Metody eksperymentalne w strukturalnej psychologii społecznej [mps].
różnej płci mają odmienny dostęp do społecznie cenionych zasobów (pracy, mieszkania), to w
wypadku płci możemy wyróżnić dwa poziomy: poziom „kobieta” i poziom „mężczyzna”. Przy
rozpatrywaniu takiej przesłanki, jaką jest pochodzenie etniczne, przynależność do danej grupy
etnicznej staje się poziomem zmiennej niezależnej. Z kolei zmienną zależną są zachowania
wobec osób posiadających dany poziom cechy nominalnej, hipotetycznie uznanej za przesłankę
dyskryminacji. Test dyskryminacyjny polega zatem na skonstruowaniu sytuacji, w której osoba
badana (działająca w warunkach naturalnych – typowych dla testowanego rynku) podejmuje
decyzje dotyczące osób różniących się między sobą tylko pod względem danej cechy, nie będąc
świadoma, że jej zachowanie podlega systematycznej obserwacji. Dzięki temu testy pozwalają
wykryć dyskryminację, umożliwiają bowiem powiązanie odmiennego zachowania z daną
przesłanką dyskryminacji.
O trafności testu dyskryminacyjnego decyduje to, w jakim zakresie udało się wyizolować i
wprowadzić zmienną niezależną tak, aby było możliwe stwierdzenie, że zaobserwowane różnice
w zachowaniach współzmieniają się z jej poziomem. Procedura badawcza wymaga dobrania
ocenianych przypadków w taki sposób, żeby były one możliwie jak najbardziej podobne do
siebie pod względem cech istotnych w danej sferze życia – istotnych z punktu widzenia
racjonalnych aktorów dokonujących oceny. Przy czym przypadkami ocenianymi mogą być albo
rzeczywiste osoby (jak w badaniu klubów nocnych), albo specjalnie przygotowane informacje na
temat fikcyjnych kandydatów (jak w badaniu zachowań pracodawców). Co więcej, oceniane
przypadki powinny być także identyczne lub niemal identyczne ze względu na inne cechy
uwidocznione w badaniu, które mogą wpływać na decyzje oceniających.
Na przykład racjonalni i zorientowani na minimalizację kosztów pracodawcy podejmują
decyzję o zatrudnieniu i wynagrodzeniu pracowników ze względu na ich produktywność. Innymi
słowy, biorą pod uwagę wszystkie informacje, które wskazują na kompetencje, doświadczenie i
wykształcenie kandydatów do pracy. Dlatego w wypadku planowania testu w zatrudnieniu należy
zapewnić, aby prawdziwi lub fikcyjni kandydaci na dane stanowisko, w imieniu których są
wysyłane pisemne aplikacje lub którzy osobiście stawiają się u pracodawcy w ramach
eksperymentu, byli równoważni pod względem prezentowanego wykształcenia, doświadczenia,
umiejętności i osiągnięć. Ponadto – biorąc pod uwagę, że przekazywane pracodawcy nie tylko
informacje bezpośrednie (choćby o posiadaniu dyplomu), ale także pośrednie (jak sposób
wyrażania się) są postrzegane jako niosące treść związaną z ewentualną oceną produktywności
kandydata – testerzy nie mogą różnić się pod ich względem (czyli muszą się podobnie wyrażać, a
ich życiorysy muszą być napisane w sposób wskazujący te same kompetencje werbalne,
motywacje, zainteresowania). Z kolei w wypadku testów przeprowadzanych w dostępie do dóbr i
usług czy na rynku mieszkaniowym należy podczas konstruowania eksperymentu wyeliminować
wszystkie różnice, które są widoczne i mogłyby dawać uzasadnione podstawy odmiennego
traktowania. Jeśli na przykład test dotyczy dostępu do restauracji czy klubów nocnych, to testerzy
powinni być ubrani niemal identycznie (kolory, jakość ubrań, styl) i zachowywać się niemal
identycznie – zarówno werbalnie, jak i niewerbalnie. W testach dotyczących rynku
mieszkaniowego powinni ponadto prezentować ten sam poziom dochodów i możliwości
zarobkowych lub zbliżone referencje.
Aby zapewnić wysoką trafność testu, procedura eksperymentalna wymaga spełnienia
kryteriów konkurencyjności i wiarygodności testerów (osób lub sylwetek kandydatów do pracy,
klientów, osób chętnych do wynajmu albo kupna mieszkania). Kryterium konkurencyjności
oznacza, że testerzy (dobrane osoby lub skonstruowane sylwetki) powinni być co najmniej nie
gorsi niż „typowy” aplikujący na dane stanowisko (szukający mieszkania w danej dzielnicy,
odwiedzający kluby nocne). Zapewnienie konkurencyjności (atrakcyjności) testerów wymaga
zatem zebrania przed przystąpieniem do testu informacji o tym, jakie są cechy przeciętnego
aktora społecznego działającego na danym rynku czy w danej sferze życia. Zazwyczaj w testach
dyskryminacyjnych, chcąc zagwarantować odpowiednią stopę realizacji badania (response rate),
ale nie zaburzyć trafności testu, dobiera się testerów (konstruuje sylwetki) tak, żeby byli oni
nieco lepsi niż przeciętny kandydat (klient, najmujący). Z kolei kryterium wiarygodności
oznacza, że testerzy powinni być spójni i prawdopodobni każdy z osobna i jako para. Innymi
słowy, testerzy w parze (w parach) powinni posiadać cechy swoiste (różnicujące), które
zminimalizują ryzyko powzięcia przez badanych podejrzeń co do testowego charakteru sytuacji.
Opisane wyżej wymagania związane z osiąganiem wysokiej trafności testu można również
przedstawić w skrócie jako kryterium „3 x P”: testerzy powinni być podobni (pod względem
wszystkich cech istotnych z punktu widzenia przedmiotu transakcji na danym rynku),
podobający się (w takim zakresie, żeby być konkurencyjni, atrakcyjni na danym rynku) i
prawdopodobni (spójni w zachowaniach indywidualnych i wystarczająco różni w parze).
W wypadku eksperymentów laboratoryjnych przyjmuje się, że sytuacja powinna zawierać
wyłącznie te elementy, które są potrzebne do oszacowania poprawności przewidywań
teoretycznych. Dlatego w laboratorium eliminuje się czynniki, które mogłyby rozpraszać
uczestników eksperymentu lub ewentualnie dodatkowo modyfikować ich zachowania. Nawet
jednak w laboratorium mogą się pojawić elementy, których badacz nie przewidział. Dlatego
losowo przypisuje się uczestników eksperymentu do warunków eksperymentalnych
(definiowanych przez poziomy zmiennej niezależnej). Losowe przypisanie uczestników do
różnych warunków (grup) eksperymentalnych gwarantuje, że niezależnie od wystąpienia
nieprzewidzianych zakłóceń, jakie mogą wpływać na wyniki (związanych z indywidualnymi
cechami uczestników), rozłożą się one równo między wszystkimi warunkami. Wpływ tych cech
będzie stały i zostanie potraktowany jako szum (błąd losowy) w danych, podczas gdy
systematyczny efekt wywołany przez czynniki kontrolowane będzie obserwowalny na podstawie
różnic w wynikach między warunkami (grupami) eksperymentalnymi. Ponadto randomizacja –
oznaczająca, że każdy uczestnik eksperymentu ma takie samo (z góry znane)
prawdopodobieństwo trafienia do każdej z grup eksperymentalnych – gwarantuje również
równoważność tych grup. Innymi słowy, zapewnia, że przed rozpoczęciem badania osoby
znajdujące się w danej grupie nie różniły się systematycznie od osób w innej grupie.
Takie rozwiązanie jest jednak możliwe tylko wtedy, gdy mamy do czynienia z pomiarem
jednokrotnym (jedna osoba badana ma do czynienia tylko z jednym warunkiem
eksperymentalnym). Testy dyskryminacyjne są jednak skonstruowane na planie z pomiarem
powtarzanym. Plan z pomiarem powtarzanym charakteryzuje się tym, że poszczególne rodzaje
warunków eksperymentalnych stosuje się w tej samej grupie badanych, a więc wszystkich
pomiarów dokonuje się na tych samych osobach. W układzie eksperymentalnym
skonstruowanym na takim planie nie można losowo przypisać badanych do danego warunku (na
przykład losowo przypisać pracodawców do jednej dwóch grup: tej, do której będą aplikować
tylko kobiety, i tej, do której będą aplikować tylko mężczyźni, lub też podzielić wynajmujących
mieszkania na tych, do których zwrócą się testerzy czarni, i tych, do których udadzą się testerzy
biali). Taka konstrukcja eksperymentu nie pozwoliłaby na pomiar dyskryminacji rozumianej jako
wynik preferencji dla danej cechy, która zostaje wzięta pod uwagę przy podejmowaniu decyzji.
Aby więc móc określić, że zaobserwowane zachowanie – (nie)równe traktowanie – ma charakter
systematyczny (czyli dyskryminacyjny), nie jest zaś skutkiem przypadkowym (na przykład złego
humoru selekcjonera w klubie nocnym), testy dyskryminacyjne do celów litygacyjnych
wymagają powtórzenia testu jako takiego
12
, z kolei w testach do celów naukowych stosuje się
miarę tak zwanej dyskryminacji netto. Dyskryminacja netto to iloraz różnicy w traktowaniu
przedstawicieli grupy większościowej i mniejszościowej (od liczby przypadków, w których
członkowie grupy większościowej zostali potraktowani lepiej, odejmuje się liczbę przypadków,
w których członkowie grupy mniejszościowej zostali potraktowani lepiej
13
) do liczby wszystkich
uwzględnionych obserwacji. Miara ta opiera się na założeniu, że przypadkowe zakłócenia znoszą
się przy wyciąganiu różnicy, a ta liczba, która jest wynikiem odejmowania, pokazuje efekt
systematyczny, jeśli efekty losowe są symetryczne dla grupy większościowej i mniejszościowej
(czyli jeśli tyle samo przypadków wykluczenia osób z grupy większościowej i mniejszościowej
jest wynikiem czynników losowych)
14
.
Końcowym etapem badania eksperymentalnego jest analiza wyników i wyciąganie na ich
podstawie wniosków. W wypadku eksperymentów laboratoryjnych kwestia wnioskowania jest
stosunkowo prosta. Celem takich eksperymentów jest sprawdzenie hipotez wyprowadzonych z
danej teorii. Ponieważ randomizacja gwarantuje wysoką trafność wewnętrzną (eliminuje
systematyczny wpływ czynników innych niż zmienne niezależne), badacz musi jedynie
oszacować, czy różnice między przewidywaniem teoretycznym a wynikiem obserwacji mogą być
dziełem przypadku. Badacz nie określa, jak bardzo prawdopodobne jest wystąpienie danych
wyników eksperymentalnych w konkretnej populacji – innymi słowy, nie uogólnia wprost
wyników pomiaru na zbiorowość, z której pochodzą badani („społeczeństwo”) – określa jedynie,
jak dalece zaobserwowane różnice mogą być wyjaśnione wprowadzeniem różnych poziomów
zmiennych niezależnych. Problem „generalizacji na populację” (trafności zewnętrznej) jest zatem
w wypadku testów laboratoryjnych problemem związanym z zakresem stosowalności teorii
sprawdzanej w eksperymencie (czyli z tym, w jakim zakresie teoria ta znajduje zastosowanie w
różnych sytuacjach występujących w konkretnej populacji), nie ma zaś związku z uogólnianiem
statystycznym.
12
Powtórzenie obserwacji w wypadku testów przeprowadzanych do celów litygacyjnych jest ponadto niezbędne, aby wykazać, że
pomiar (test) był rzetelny. W naukach empirycznych kryterium rzetelności dotyczy stabilności zbioru obserwacji uzyskanych za
pomocą danego narzędzia pomiarowego w określonych, stałych warunkach, niezależnie od tego, kto zbiera te obserwacje, gdzie i
kiedy. W wypadku testów do celów sądowych jedynym sposobem udowodnienia, że test był rzetelny, jest przedstawienie
wyników tak zwanego pomiaru powtórzonego, co w tym ujęciu oznacza przedstawienie wyniku testu przeprowadzonego w
odpowiednim czasie i miejscu na tym samym badanym, ale przy użyciu innej pary testerów spełniających kryterium „3 x P”.
13
Wskaźniki nierównego traktowania są ustalane każdorazowo w zależności od obszaru objętego testem. Lepsze traktowanie
może stanowić zaproszenie na rozmowę kwalifikacyjną jednego testera przy niezaproszeniu drugiego (jeśli test dotyczy
pracodawców), zaoferowanie jednej z osób testujących niższej ceny za daną usługę przy utrzymaniu ceny dla drugiej (jeśli test
dotyczy rynku dóbr i usług).
14
F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on
Discrimination on the Grounds of „Race” and Ethnic Origin, op. cit.
W wypadku testów dyskryminacyjnych kwestia interpretacji wyników wygląda podobnie.
Ponieważ celem testu jest jedynie odrzucenie hipotezy zerowej
15
o tym, że dana przesłanka nie
ma związku z decyzjami podejmowanymi przez osoby badane, należy zmierzyć poziom trafności
wewnętrznej testu, a następnie obliczyć, czy zmierzona dyskryminacja netto pozwala uznać, że
wystąpił efekt systematyczny. Jak wcześniej wspomniano, trafność wewnętrzna testu zależy od
tego, w jakim stopniu udało się skonstruować taką sytuację, w której testerzy są równoważni pod
względem wszystkich charakterystyk statusu i innych cech mogących wpływać na decyzje
badanych – z wyjątkiem przesłanki dyskryminacji, której dotyczy pomiar. Istnieje bardzo prosty
sposób sprawdzenia, czy dobór par testerów zakończył się sukcesem. Poprawna konstrukcja testu
zakłada, że żaden z testerów (żadna z sylwetek) nie jest systematycznie preferowany w danej
parze z powodów innych niż przesłanka. Jeśli na przykład wykorzystano dwie pary testerów:
dwóch przedstawicieli grupy mniejszościowej i dwóch przedstawicieli grupy większościowej, to
istnieją cztery możliwe kombinacje par i każda para uczestniczy w 25% sytuacji testowych. Jeśli
nie ma efektu konkretnej pary, to każda z nich powinna wygenerować jedną czwartą obserwacji
interpretowanych jako dyskryminacja. Jeśli pojawia się istotna rozbieżność od tego
przewidywania, to znaczy, że test nie był trafny
16
. W sytuacji, kiedy test prowadzono z użyciem
życiorysów (tak zwany test korespondencyjny, o którym będzie jeszcze mowa), ewentualną
rozbieżność (jeśli użyto dwóch aplikacji) szacuje się za pomocą odchylenia standardowego dla
krzywej dwumianowej. Z kolei aby przyjąć, że analizowane dane nie pozwalają odrzucić
hipotezy o braku nierównego traktowania ze względu na daną przesłankę (czyli odrzucenie
hipotezy zerowej), trzeba określić z jakim prawdopodobieństwem dyskryminacja netto jest
istotnie różna od zera
17
.
Wśród badaczy dyskryminacji stosujących testy toczy się jednak dyskusja o tym, w jaki
sposób należy obliczać efekt dyskryminacji netto. Problem tkwi w definicji równego traktowania
i wygląda następująco – istnieją cztery możliwe wyniki dla danej pary testerów złożonej z
przedstawiciela grupy większościowej i mniejszościowej:
• obaj testerzy zostają zaproszeni na rozmowę kwalifikacyjną (dostają pracę, mają
możliwość wynajęcia mieszkania w tej samej cenie, zostają wpuszczeni do klubu nocnego),
15
Hipoteza zerowa to poddawana testowi statystycznemu hipoteza o braku różnic między parametrami dwóch lub więcej
populacji.
16
Ewentualną rozbieżność wykryje test Chi
2
.
17
Por. F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on
Discrimination on the Grounds of „Race” and Ethnic Origin, op. cit.; M. Wood, J. Hales, S. Purdon, T. Sejersen, O. Hayllar, A
test for racial discrimination in recruitment practice in British cities, Department for Work and Pensions, London 2009.
• obaj testerzy nie dostają pracy (oferty wynajmu, zgody na wejście do klubu),
• tester z grupy większościowej zostaje potraktowany lepiej,
• tester z grupy mniejszościowej zostaje potraktowany lepiej.
Różnica zdań badaczy dotyczy tego, w jaki sposób interpretować sytuację, kiedy żaden z
testerów nie odniesie sukcesu transakcyjnego na danym rynku. Część badaczy twierdzi, że
powinny być one włączane do ogólnej analizy jako obserwacje wskazujące na równe
traktowanie, podczas gdy większość naukowców nie włącza ich do obliczeń, wykluczając jako
nietrafne lub brakujące obserwacje. Dyskusja ta nie jest trywialna, ponieważ w zależności od
tego, czy włączymy te obserwacje do analizy, czy też je pominiemy, wartość dyskryminacji netto
będzie wyższa lub niższa, a co za tym idzie – jej efekt może się okazać statystycznie istotny lub
nieistotny. Z punktu widzenia istoty testu i kryteriów jego trafności zasadne jest jednak
nieuwzględnianie tych obserwacji w analizie statystycznej. Istnieje bowiem wiele powodów, dla
których obaj testerzy mogli być odrzuceni jako partnerzy danej transakcji (interakcji), niemające
związku z przesłanką dyskryminacji, na przykład poziom bezrobocia w wypadku rynku pracy lub
liczba klubów nocnych w wypadku rynku usług. Jeśli istnieje wysoki poziom bezrobocia, to
trudno traktować niską podaż pracy jako czynnik redukujący dyskryminację (zwiększający
proporcję sytuacji symetrycznego traktowania). Ponadto na symetryczne „negatywne”
traktowanie może mieć również wpływ jakość testerów lub życiorysów. Źle przygotowani
testerzy (źle przygotowane aplikacje) wygenerują zatem więcej „równego traktowania” niż
dobrze przygotowani testerzy (dobrze przygotowane aplikacje). Źle przygotowani testerzy (źle
przygotowane aplikacje) nie spełniają jednak kryteriów przyjętych do uznania testu za trafny,
cokolwiek więc zostało zmierzone przy ich pomocy, nie było to (nie)równe traktowanie
18
.
Na jakie pytania testy dyskryminacyjne nie mogą dać odpowiedzi?
Źródła dyskryminacji – koncepcje przyczynowe
Pierwsze pytanie, jakie często się pojawia w wypadku zaobserwowania przejawów
dyskryminacji, dotyczy przyczyn tego zjawiska. W naukach społecznych istnieje wiele
konkurencyjnych teorii wyjaśniających podłoże dyskryminacji i nietolerancji. Większość z nich
koncentruje się na opisywaniu i wyjaśnianiu mechanizmów prowadzących do świadomej
18
Por.: F. Bovenkerk, Testing Discrimination in Natural Experiments. A manual for International Comparative Research on
Discrimination on the Grounds of „Race” and Ethnic Origin, op. cit.; P. Riach, J. Rich, Field experiments of discrimination in the
market place, „The Economic Journal” 2002, nr 112, s. 480–518; M. Bursell, What’s in a name? A field experiment test for the
existence of ethnic discrimination in the hiring process, SULCIS Working Papers Series, Stockholm 2007.
(celowej) dyskryminacji bezpośredniej, część jednak wyjaśnia zjawisko ukrytych lub pośrednich
form dyskryminacji. Dla wielu z nich konstruktem centralnym jest pojęcie uprzedzenia jako
postawy (składającej się z negatywnych emocji wobec określonej grupy społecznej, stereotypu,
czyli pewnej uproszczonej wiedzy na temat przedmiotu postawy, oraz tendencji do określonego
zachowania). Przyczyny formowania się takich negatywnych postaw wobec grup
mniejszościowych mogą być różne, za najistotniejsze badacze uznają jednak procesy
kategoryzacji i tożsamości społecznej, dystans oraz konflikt społeczny.
Według teorii kategoryzacji i tożsamości społecznej, jednostki – aby zredukować liczbę
przetwarzanych informacji i (lub) podtrzymać pozytywną samoocenę – kategoryzują siebie i
innych na podstawie widocznych lub istotnych z indywidualnego punktu widzenia podobieństw i
różnic. Wynikiem kategoryzacji jest postrzeganie siebie jako jednostkę należącą do danej
kategorii lub grupy społecznej. Porównując następnie siebie z innymi, jednostki klasyfikują
osoby podobne jako należące do grupy własnej (in-group), a odmienne – jako należące do grupy
obcej (out-group), i zaczynają wyolbrzymiać podobieństwa osób zaklasyfikowanych jako grupa
własna oraz odmienność zaklasyfikowanych jako grupa obca. Uaktywnienie się określonych
kategorii klasyfikacji zależy od okoliczności i motywacji jednostek
19
.
Teorie dystansu społecznego wskazują z kolei nieznajomość przedstawicieli grup
mniejszościowych, brak relacji z nimi na określonych płaszczyznach i społeczną segregację osób
należących do odmiennych kategorii jako czynniki determinujące formowanie postaw
negatywnych. Przykładem takiej segregacji może być opisywana niżej segregacja zawodowa ze
względu na płeć. Istnienie takich kategorii społecznych, jak „kobieta” i „mężczyzna”, dla których
sformułowano określone oczekiwania co do „odpowiednich” aktywności, powoduje, że zadania
nie są definiowane jako neutralne płciowo, funkcjonuje także podział na stanowiska „kobiece” i
„męskie”. Utrzymywanie tego podziału powoduje z kolei wzmacnianie oczekiwań co do ról
płciowych i postawy niechętne lub wrogie wobec osób, które w pewien sposób starają się go
naruszyć lub działać niezgodnie z oczekiwaniami
20
. Podobnie ma się rzecz z kategoriami
etnicznymi. Członkowie odmiennych grup etnicznych mają tendencję do dobrowolnej segregacji,
na przykład pod względem miejsca zamieszkania, aby wchodzić w interakcje z osobami bliskimi
19
H. Tajfel, Differentiation between social groups: Studies in the social psychology of intergroup relations, Academic Press,
London 1978; H. Tajfel, J.C. Turner, The social identity theory of inter-group behavior, [w:] Psychology of Intergroup Relations,
red. S. Worchel, W.G. Austin, Burnham, Chicago 1986, s. 7–24.
20
G.A. Akerlof, R.E. Kranton, Economics and Identity, „The Quarterly Journal of Economics” 2000, nr 65, s. 715–753.
kulturowo. Segregacja ta nasila się następnie pod wpływem narastających stereotypów i
uprzedzeń wynikających z braku wzajemnego kontaktu.
Teorie konfliktu jako przyczynę kształtowania uprzedzeń traktują konkurencję o ograniczone
zasoby (na przykład pracę czy mieszkania). Istnieją liczne wyniki badań (zarówno korelacyjnych,
jak i eksperymentalnych), które ilustrują trafność tego wyjaśnienia. Ponadto w literaturze
przedmiotu można znaleźć opisy wielu rezultatów badań empirycznych, pokazujących społeczne
mechanizmy uczenia się i nabywania stereotypów czy uprzedzeń – uczestnictwo w danej kulturze
oznacza socjalizację do przekonań tej kultury na temat grupy własnej (in-group) i innych grup
(out-groups).
Bez względu na czynniki generujące uprzedzenia, istnieje związek między taką postawą a
zachowaniem dyskryminacyjnym. Związek ten nie ma jednak charakteru zależności liniowej.
Innymi słowy, uprzedzenia wpływają na tendencję do zachowania dyskryminującego, nie
przekładają się na nie jednak bezpośrednio i nie można na ich podstawie przewidywać
pojedynczych aktów dyskryminacji. Są osoby uprzedzone, które mimo to nie dyskryminują, i są
osoby nieuprzedzone, które dyskryminują. Relacja między negatywną postawą a zachowaniem
jest bowiem modyfikowana przez czynniki sytuacyjne i kulturowe, które wpływają na „koszt”
zachowania dyskryminacyjnego. Takimi czynnikami są na przykład poziom społecznej
akceptacji dla zachowań dyskryminacyjnych i przejawów nietolerancji lub ewentualne sankcje
prawne.
Różne przejawy zachowań dyskryminacyjnych nie muszą mieć zatem charakteru celowego,
wynikającego z uprzedzeń. Są one często wynikiem obojętności lub nieuświadamiania sobie
tego, jaki skutek wywołuje dana decyzja, określone zachowanie, konkretna procedura lub brak
działania (zaniechanie). Zwyczajowe praktyki lub bezrefleksyjnie powielane procedury
instytucjonalne przyczyniają się do nierównego traktowania w równie dużym stopniu jak
działania intencjonalne
21
. Pokazują to choćby wyniki badań na temat wiedzy pracodawców o
procedurach zatrudniania obcokrajowców lub osób niepełnosprawnych.
Dyskryminacja oparta na stereotypach (nie zaś na uprzedzeniach, takich jak rasizm, seksizm,
ageizm czy homofobia) jest często nazywana dyskryminacją statystyczną. Teorie dyskryminacji
statystycznej przyjmują, że osoby podejmujące różne decyzje działają racjonalnie i kierują się
informacjami na temat pewnych typowych charakterystyk danej grupy, działają bowiem w
21
T. Makkonen, Multiple, Compound and Intersectional Discrimination, Institute for Human Rights, Abo Akademi University,
Turku 2002.
sytuacji braku informacji lub niepełnych informacji i ograniczonego czasu na podjęcie decyzji.
Na przykład pracodawcy przedkładają pracowników pochodzących z określonej grupy
(mężczyzn) nad innych (kobiety), gdyż grupy te są zróżnicowane pod względem średniego
poziomu produktywności (mean model of statistical discrimination) lub wariancji w poziomie
produktywności (variance model of statistical discrimination). Ponieważ pracodawcy podejmują
decyzje w warunkach ryzyka (braku danych o indywidualnym poziomie produktywności
kandydata do pracy), zatrudniają osoby należące do grupy o wyższej średniej produktywności lub
niższej wariancji produktywności (przy założeniu, że określenie indywidualnej produktywności
jest kosztowne, a pracodawcy unikają ryzyka)
22
. Podobnie wyjaśniają dyskryminację teorie
statusowe, z tym, że upatrują one źródła nierównego traktowania w uproszczonych heurystykach
(błędach) o charakterze poznawczym (cognitive bias), nie zaś informacyjnym (informational
bias). Według tych teorii, pracodawcy, formułując oczekiwania zadaniowe wobec kandydatów,
odwołują się do powszechnie podzielanych przekonań kulturowych na temat relatywnych
kompetencji osób należących do określonych grup i preferują te osoby, co do których
oczekiwania są wyższe
23
.
Innym rodzajem dyskryminacji, również wynikającym z braku wiedzy, nie zaś z uprzedzeń,
jest tak zwana dyskryminacja społeczna (societal discrimination), która polega na opieraniu
swojej decyzji na przekonaniu, że inne osoby w otoczeniu jednostki mają określone preferencje i
oczekiwania. Przekonanie to (mimo braku osobistych postaw negatywnych wobec danej grupy)
powoduje podejmowanie decyzji krzywdzących przedstawicieli określonych grup (na przykład
„nie wynajmę mieszkania parze homoseksualnej, bo sąsiedzi będą niezadowoleni”).
W opozycji do przedstawionych wyżej wyjaśnień, nieupatrujących źródeł zróżnicowanych
wyników w uprzedzeniach, znajduje się teoria dyskryminacji opartej na preferencjach,
sformułowana przez Gary’ego S. Beckera
24
. Według tej koncepcji, na przykład pracodawcy
dyskryminują, ponieważ oni sami, zatrudnieni pracownicy albo konsumenci wyraźnie preferują
pracowników pochodzących z określonych grup. Teoria dyskryminacji opartej na preferencjach
opisuje mechanizm występowania zjawiska nierównego traktowania w krótkiej perspektywie, ale
nie jest w stanie wyjaśnić utrzymywania się oraz stabilności preferencji i dyskryminacji w
22
E. Phelps, The statistical theory of racism and sexism, „American Economic Review” 1972, t. 62, s. 659–661.
23
S.J. Correll, S. Benard, Biased Estimators? Comparing Status and Statistical Theories of Gender Discrimination, [w:] Social
Psychology of the Workplace, red. S. Thye, E. Lawler, Elsevier, Oxford 2006, s. 89–116.
24
G.S. Becker, The Economics of Discrimination, University of Chicago, Chicago 1957; M. Foschi, Double Standards of
Competence: Theory and Research, „Annual Review of Sociology” 2000, t. 26, s. 21–42; K.J. Arrow, What has economics to say
about racial discrimination, „Journal of Economic Perspectives” 1998, t. 12, s. 91–100.
dłuższym przedziale czasu (na rynku idealnym podejmowanie decyzji na podstawie cechy
niezwiązanej z produktywnością powinno prowadzić do nieefektywności, w konsekwencji zaś –
do wyeliminowania danego pracodawcy z rynku przez niedyskryminujących, czyli
efektywniejszych pracodawców).
Koncepcje przyczynowe a testy
Testy dyskryminacyjne nie są metodą pozwalającą odpowiedzieć na pytanie o przyczyny
(naturę) dyskryminacji, przede wszystkim dlatego, że – w odróżnieniu od eksperymentów
laboratoryjnych – nie zapewniają możliwości pełnej kontroli całego procesu, którego rezultatem
jest określone zachowanie. Nie wiemy na przykład, ile osób (i jakie były to osoby) ubiegało się o
to samo stanowisko lub starało się wynająć to samo mieszkanie co testerzy. Nie wiadomo zatem,
jakie dokładnie informacje zostały wzięte pod uwagę przez podejmujących decyzję. Nie sposób
również określić, jaki był poziom istotnych zmiennych wyjaśniających, na przykład jakie
standardy zostały uwzględnione przy ocenie aplikantów lub jaka jest treść stereotypów wśród
badanych osób. Mówiąc inaczej, testy dyskryminacyjne pozwalają stwierdzić, czy badani
dyskryminują, nie umożliwiają jednak ustalenia, dlaczego tak się dzieje. Sprawdzenie, który z
omówionych modeli przyczynowych najlepiej wyjaśnia i opisuje mechanizmy dyskryminacji w
określonych warunkach, wymagałoby skonstruowania wielu eksperymentów laboratoryjnych
testujących trafność konkurencyjnych hipotez wyprowadzonych z poszczególnych teorii lub
zgromadzenia szczegółowych danych empirycznych, między innymi na temat krańcowej
produktywności poszczególnych osób starających się o pracę lub preferencji decyzyjnych osób
wynajmujących mieszkania.
Nie oznacza to jednak, że testy nie dają podstaw formułowaniu hipotez na temat przyczyn
zaobserwowanego odmiennego traktowania. Biorąc pod uwagę, że testy systematycznie
wykazują dyskryminację w zatrudnieniu osób o niebiałym kolorze skóry i kobiet niezależnie od
ich doświadczeń, wykształcenia czy kompetencji kulturowych, twierdzenie o wyższej średniej
produktywności osób białych czy mężczyzn, stanowiące fundament decyzji pracodawców,
wydaje się nieuzasadnione (a zatem teoria dyskryminacji statystycznej raczej nie wyjaśnia
zaobserwowanych wyników). Spójność wyników testów prowadzonych w różnych obszarach
rynku pracy potwierdza raczej trafność koncepcji Gary’ego S. Beckera (uprzedzenia są podstawą
decyzji pracodawców) lub teorii dystansu społecznego George’a A. Akerlofa
25
(pracodawcy
preferują osoby podobne do nich pod względem społeczno-kulturowym, a podstawą tej
preferencji nie jest kalkulacja ekonomiczna, ale komfort społeczny). Hipotezy te wymagają
jednak dalszej weryfikacji empirycznej, gdyż – co warto jeszcze raz podkreślić – test
dyskryminacyjny nie jest metodą weryfikowania hipotez na temat mechanizmów dyskryminacji.
Dlatego, mimo że testy są uznanym sposobem na sprawdzenie efektywności podejmowanych
działań (w tym regulacji prawnych) zmierzających do redukcji dyskryminacji, to ich wyniki –
jeśli wskażą, że działania te są nieefektywne – nie mówią nic o tym, jakie rozwiązanie
alternatywne (w sensie wskazania przyczyn) byłoby lepsze.
Uogólnianie wyników testów
Wyniki testów dyskryminacyjnych powinny być traktowane tak, jak wyniki wszystkich
eksperymentów – jako podstawa przyjęcia lub odrzucenia sprawdzanej hipotezy. W wypadku
testów hipoteza dotyczy występowania albo niewystępowania dyskryminacji ze względu na
określoną przesłankę na konkretnym rynku lub w danej sferze. Znając wyniki testów, można
więc sformułować wniosek o istnieniu dyskryminacji, ustalić, jaka jest jej skala i czy konkretny
pracodawca (wynajmujący, klub) dyskryminuje, nie można jednak sformułować wniosków na
temat tego, ilu pracodawców (właścicieli) w danym kraju dyskryminuje, czy w jednym kraju jest
więcej dyskryminacji niż w innym i czy dyskryminacja w danej sferze albo ze względu na
określoną przesłankę jest wyższa czy niższa niż w innej sferze lub ze względu na inną
przesłankę. Podobnie ograniczone są możliwości porównywania zmian w poziomie
dyskryminacji w czasie. Tak jak absurdem byłoby na podstawie słynnego eksperymentu
Salomona Ascha
26
nad konformizmem wysuwać wniosek, że ludzie podają błędne odpowiedzi
pod wpływem innych osób w jednej trzeciej wszystkich sytuacji życiowych, tak samo
niedorzecznością byłoby twierdzić na podstawie wyników testów, że jedna trzecia pracodawców
w danym kraju dyskryminuje albo że co czwarty właściciel klubu nocnego nierówno traktuje
swoich klientów. Kilka czynników wpływa na niemożność bezpośredniego uogólnienia na całą
populację.
25
G.A. Akerlof, Social Distance and Social Decisions, „Econometrica” 1997, t. 65, nr 5, s. 1005–1027.
26
W eksperymencie Salomona Ascha uczestnicy badania mieli wskazać, który z przedstawionych trzech odcinków jest długością
najbardziej zbliżony do odcinka wzorcowego. Uczestnik podawał swoją odpowiedź po tym, jak podały ją inne osoby obecne
podczas badania (w rzeczywistości pomocnicy eksperymentatora), które wskazywały wyraźnie błędne odpowiedzi. Szerzej – por.
S.E. Asch, Opinions and social pressure, „Scientific American” 1955, t. 193, s. 31–35.
Po pierwsze, w wypadku eksperymentów uogólnienie dotyczy teorii, nie zaś obserwacji.
Innymi słowy, można stosować teoretyczne twierdzenia do wyjaśniania różnych zjawisk
spełniających warunki zakresowe teorii, ale nie sam wynik pomiaru. O ile zatem można przyjąć,
że skoro test wykazał istnienie nierównego traktowania ze względu na określoną przesłankę, to ta
cecha stanowi podstawę nierównego traktowania w danej sferze, o tyle jednak nie można
twierdzić, że stanowi ona podstawę działania określonego procenta pracodawców albo że jest w
określonym procencie prawdopodobne, że dana osoba zostanie nierówno potraktowana ze
względu na przynależność do grupy mniejszościowej.
Po drugie, dobór badanych (pracodawców w określonych zawodach, wynajmujących
mieszkania, klubów) nie ma charakteru losowego. Testerów lub aplikacje wysyła się w
odpowiedzi na pojawiające się oferty, nie zaś do losowo wybranej reprezentatywnej grupy
aktorów rynkowych. Sytuacja na danym rynku (stosunek popytu do podaży), typ zawodu,
standard mieszkania może więc zaważyć na wynikach i ich porównywalności w czasie. Aby móc
uogólnić wyniki przynajmniej na konkretny typ pracodawców (zawodów, wynajmujących,
klubów) w danym okresie, trzeba by przeprowadzić test na wszystkich członkach danej populacji
(zawodów, pracodawców, właścicieli) lub ich losowej próbie, przy czym braki w obserwacjach
musiałyby mieć charakter błędu losowego. Z kolei niemożność porównywania w przestrzeni,
czasie i między rynkami albo przesłankami dyskryminacji wynika z tego, że procedura testu
dyskryminacyjnego nie umożliwia kontrolowania zmiennych, o których wiemy, że korelują się z
poziomem dyskryminacji. W różnych krajach (albo nawet w tym samym regionie) rozmaite
mniejszości mają odmienne historie. Zmieniają się poziomy podaży i popytu. Inne zawody (inni
pracodawcy lub właściciele) są podmiotami badanymi w różnych testach.
Na jakie pytania testy dyskryminacyjne dają odpowiedź?
Ograniczenia procedury eksperymentalnej nie zmieniają tego, że jest wiele zalet stosowania
testów dyskryminacyjnych. Pozwalają one wyjaśnić przynajmniej części obserwowanych
nierówności w określonej sferze życia. Najczęściej bowiem oprócz pytań o to, co generuje
zachowania dyskryminacyjne, pojawiają się pytania o to, z jaką formą dyskryminacji mamy do
czynienia, na podstawie jakiej cechy dana osoba doświadczyła dyskryminacji i w jakiej sferze.
Wbrew pozorom, odpowiedź na te pytania nie jest oczywista. Na przykład dysproporcje na rynku
pracy (w zarobkach czy w strukturze zatrudnienia) mogą, ale nie muszą być wynikiem zachowań
dyskryminacyjnych ze strony zatrudniających. Tak samo nierówny dostęp do mieszkań może, ale
nie musi być wynikiem bezpośredniej dyskryminacji ze strony wynajmujących. Część badaczy
zwraca uwagę, że różnice w obserwowalnych wskaźnikach sytuacji różnych grup
demograficznych mogą być wynikiem rzeczywistych różnic między jednostkami, które z kolei są
determinowane poziomem i rodzajem wykształcenia, doświadczenia, kultury czy naturalnych
zdolności poznawczych. Te zaś mogą być rezultatem nierównego traktowania członków
konkretnej grupy nie w sferze, w jakiej zaobserwowaliśmy nierówność, ale w zupełnie innym
obszarze życia. Na przykład nierówna sytuacja na rynku pracy może być wynikiem nie tyle
dyskryminacji przez pracodawców osób należących do określonych kategorii społecznych
(przedstawicieli grup mniejszościowych), ile dyskryminacji w systemie edukacji, nierównego
traktowania w okresie dorastania czy wychowania.
Aby wykryć i określić zakres zjawiska nierównego traktowania w zatrudnieniu, zazwyczaj
dokonuje się obserwacji, pomiaru i porównania różnic w zarobkach między grupami (wage
differential) i (lub) różnic w uczestnictwie w rynku pracy (compositional differences). Te ostatnie
mogą być mierzone na różnych poziomach: po pierwsze, osoby pochodzące z różnych grup mogą
być w różnym stopniu obecne na rynku pracy, a zatem inny będzie poziom bezrobocia lub
(nie)aktywności zawodowej między grupami, po drugie, odmienne mogą być proporcje
przedstawicieli grup w określonych zawodach (inter-occupational segregation) albo na
określonych pozycjach w hierarchii służbowej (intra-occupational segregation/authority gap)
27
.
Różne sposoby pomiaru nierówności w zatrudnieniu muszą uwzględniać to, że obserwowalne
różnice na rynku pracy niekoniecznie wynikają z nierównego traktowania. Najczęściej stosowany
sposób pomiaru dyskryminacji – technika dekompozycji Alana Blindera i Ronalda Oaxaca
28
–
nie spełnia jednak w pełni tego warunku. W technice tej traktuje się różnice w zarobkach między
określonymi grupami jako zmienną zależną, a następnie wybiera zestaw zmiennych
niezależnych, które mogą wpływać na produktywność (na przykład wykształcenie i
doświadczenie zawodowe). Jeśli różnic w zarobkach między grupami nie można w pełni
wyjaśnić za pomocą wybranych zmiennych niezależnych, tę „niewyjaśnioną” część różnic w
zarobkach przypisuje się dyskryminacji. Główne ograniczenie tej techniki, jak zresztą większości
27
Por. B. Reskin, The Realities of Affirmative Action in Employment, American Sociological Association, Washington 1998; A.
Aguirre, D.V. Baker, Structured Inequality in the United States: Discussions on the Continuing Significance of the Race, Ethnicity
and Gender, Prentice Hall, Upper Saddle River 2000.
28
Por. R. Oaxaca, Male-Female Wage Differentials in Urban Labor Markets, „International Economic Review” 1973, t. 14, nr 3,
s. 693–709; A.S. Blinder, Wage Discrimination: Reduced Form and Structural Estimates, „Journal of Human Resources” 1973, t.
8, s. 436–455.
tak zwanych równań zarobków, polega na tym, że przyjęte zmienne wyjaśniające (niezależne)
mogą nie zawierać wszystkich czynników wpływających na produktywność. Innymi słowy,
pewna część niewyjaśnionej różnicy może wynikać nie tyle z dyskryminacji, ile z różnic w
wydajności nieuwzględnionych przez badacza. Podobny problem występuje w wypadku
wyjaśniania segregacji zawodowej. W mniejszym bowiem stopniu chodzi o stwierdzenie jej
występowania (jest wiele miar, których można użyć, na przykład zmodyfikowany współczynnik
Giniego lub indeks rozbieżności), w większym zaś – o powiązanie jej z dyskryminacją.
Oddzielenie wpływu dyskryminacji od indywidualnych preferencji, wykształcenia, presji
społecznej i innych czynników, jakie mogą wpływać na koncentrację mniejszości w określonych
zawodach, jest jednak trudne
29
.
Testy dyskryminacyjne pozwalają odizolować wpływ dyskryminacji od oddziaływania różnic
w produktywności w wypadku rynku pracy (a w wypadku innych rynków – od istotnych w nim
różnic, na przykład dochodu na rynku mieszkaniowym czy rynku dóbr i usług). Nie umożliwiają
co prawda odrzucenia hipotezy, że różnice w produktywności (lub innych cechach związanych z
określoną sferą) wyjaśniają przynajmniej część różnic w zarobkach lub innych wskaźnikach
sytuacji grupy mniejszościowej i większościowej, pozwalają jednak wykryć zachowania
dyskryminacyjne ze względu na daną cechę lub kombinację cech w testowanym obszarze.
Testy umożliwiają także obserwację różnych typów i form zachowań dyskryminacyjnych
wśród tych samych lub różnych aktorów, którzy mają wpływ na sytuację mniejszości w
konkretnym obszarze. Podczas gdy badania całych populacji dotyczą zazwyczaj jednego
wskaźnika nierówności – na przykład (w wypadku rynku mieszkaniowego) segregacji
mieszkaniowej, decyzji o przyznaniu kredytu hipotecznego czy przeciętnej wysokości czynszu –
to testy pozwalają sprawdzić, w jakim stopniu poszczególni aktorzy rynkowi nierówno traktują
osoby należące do grup prawnie chronionych (właściciele mieszkań, pośrednicy handlu
nieruchomościami czy agencje najmu) i jaką formę przyjmuje nierówne traktowanie.
Dyskryminacja może bowiem mieć charakter odebrania jakiejkolwiek szansy na transakcję
(opportunity denying – na przykład odmowa pokazania mieszkania) lub zmniejszenia szansy na
29
R.M. Blackburn, Measuring Occupational Segregation and Its Dimensions of Inequality and Difference, Social Science
Research Group Politics, Psychology, Sociology and International Studies, Cambridge University, Cambridge 2009.
transakcję (opportunity diminishing – na przykład zaoferowanie mniej korzystnych warunków
najmu)
30
.
Procedura testowa do pewnego stopnia umożliwia także określenie, w jakim obszarze i wśród
jakich aktorów rynkowych powinny być podjęte działania na rzecz przestrzegania prawa
dotyczącego równego traktowania. Jeśli bowiem test wykaże wysoki poziom dyskryminacji w
danych zawodach, na konkretnych stanowiskach czy w określonych sąsiedztwach lub
dyskryminację przez konkretnego pracodawcę czy właściciela klubu, to może to stanowić
podstawę skoncentrowania uwagi i działań zarówno badawczych, jak i interwencyjnych wśród
określonych typów pracodawców, wobec danego właściciela czy w konkretnej dzielnicy.
Testy dyskryminacyjne do celów badawczych i litygacyjnych
31
Jak już wspomniano, procedury testowe różnią się pod kilkoma względami w zależności od
tego, czy test jest przeprowadzany w celach poznawczych, czy też na potrzeby dowodzenia w
postępowaniach sądowych. Różnice te dotyczą głównie trzech elementów:
• testerów,
• rejestracji przebiegu testu,
• wyboru badanych
32
.
Testerzy
Istnieją trzy sposoby przeprowadzania testów dyskryminacyjnych – przy udziale osób
(aktorów lub ochotników), przez telefon i za pomocą pisemnych aplikacji. W wypadku badań
prowadzonych do celów naukowych – ze względu na stopień kontroli sytuacji eksperymentalnej,
jaki wiąże się z każdym ze sposobów – na tych rynkach, na których jest to możliwe, preferuje się
testy pisemne (nazywane testami korespondencyjnymi). Najmniej preferowane są testy z
udziałem prawdziwych osób. Z kolei w testach prowadzonych do celów prawnych jedyna
dopuszczalna ich forma wymaga udziału fizycznie istniejących testerów. Warunek ten wynika z
kwestii regulacji prawnych – musi istnieć realny poszkodowany (ofiara dyskryminacji) i (lub)
30
P. Riach, J. Rich, Field experiments of discrimination in the market place, op. cit.; J. Yinger, Testing for Discrimination in
Housing and Related Markets, op. cit.
31
O możliwościach wykorzystywania testów dyskryminacyjnych w postępowaniach sądowych – por. K. Wencel, Owoc zatrutego
drzewa?
Wyniki eksperymentów naturalnych jako dowód w sprawach o dyskryminację, [w:] Sąsiedzi czy Intruzi? O dyskryminacji
cudzoziemców w Polsce, op. cit.
32
R.V.O. Boggs, J.M. Sellers, M. Bendick, Use of Testing in Civil Rights Enforcement, [w:] Clear and Convincing Evidence.
Measurement of Discrimination in America, Urban Institute Press, Washington 1993.
fizyczny świadek nierównego traktowania. W wypadku testów do celów sądowych testerzy
występują bowiem albo jako powodowie, albo świadkowie dyskryminacji. Z tego powodu oprócz
takich cech, jak obiektywność, spostrzegawczość i dokładność, oczekiwanych także w badaniach
naukowych, testerzy muszą się ponadto charakteryzować nieposzlakowaną opinią, umiejętnością
formułowania precyzyjnych relacji dotyczących objętych testem zdarzeń, a także mieć chęć i
możliwość uczestniczenia w postępowaniu sądowym. Co więcej, oczekuje się również, że
testerzy nie będą w żaden sposób powiązani z ofiarą dyskryminacji ani uprzedzeni wobec
podmiotu badanego (jeśli test jest prowadzony, aby uprawdopodobnić powództwo osoby, która
twierdzi, że doświadczyła nierównego traktowania), ani że nie odniosą żadnej bezpośredniej
korzyści w związku z określonym wynikiem (jeśli test jest prowadzony po to, żeby określić, czy
dany podmiot przestrzega przepisów antydyskryminacyjnych)
33
.
We wszystkich rodzajach testów musi być spełnione kryterium „3 x P”, przy czym w testach
do celów litygacyjnych osoba należąca do grupy prawnie chronionej zazwyczaj jest nieco
bardziej konkurencyjna („atrakcyjna”) niż osoba należąca do grupy większościowej. Taka
praktyka została przyjęta, aby wzmocnić dowód świadczący o wystąpieniu zjawiska nierównego
traktowania. Z tego samego powodu osoba należąca do grupy mniejszościowej uczestniczy w
sytuacji testowej przed osobą z grupy kontrolnej (większościowej).
W testach do celów zarówno naukowych, jak i sądowych testerzy przechodzą intensywny
trening przygotowujący ich do sytuacji, w których będą uczestniczyć (na przykład rozmów
kwalifikacyjnych czy dotyczących wynajmu mieszkania). Trening taki obejmuje ćwiczenie
zachowań charakterystycznych dla danej interakcji, postrzeganie i rejestrowanie jej przebiegu
oraz radzenie sobie z różnego typu reakcjami osób badanych. Ponadto testerzy w danej parze
ćwiczą razem, aby upodobnić swoje zachowania i reakcje. W wypadku testów do celów
litygacyjnych testerzy są również informowani o możliwym przebiegu postępowania sądowego.
Rejestracja przebiegu testu
W testach do celów sądowych najważniejsza jest kompletność i ścisłość opisu przebiegu testu,
a także identyczność zachowań w obrębie pary. Podczas gdy w testach do celów naukowych
pewne działania są zestandaryzowane między wszystkimi parami testerów (na przykład to, ile
razy testerzy dzwonią do pracodawcy z pytaniem o wynik rozmowy kwalifikacyjnej), to w
33
Ibidem. Por. także: I. Rorive, Proving Discrimination Cases – the Role of Situation Testing, Migration Policy Group, Centre for
Equal Rights, Brussels 2009.
testach litygacyjnych testerzy powinni zachować się adekwatnie do konkretnej sytuacji testowej i
przede wszystkim spójnie w obrębie pary (na przykład w jednej parze testerzy mogą zadzwonić
do pracodawcy tylko raz, a w innej – trzy razy). Oznacza to potrzebę ściślejszej współpracy z
administratorem testu, który jest jedyną osobą posiadającą informacje na temat przebiegu sytuacji
testowej i działań osób w parze. Testerzy nie powinni mieć bowiem kontaktu ze sobą w trakcie
trwania testu, aby nie wpływać na ewentualny jego przebieg – na przykład przez referowanie
sobie emocji związanych z doświadczeniem interakcyjnym z osobą badaną.
Opis emocji, a także inne osobiste relacje dotyczące przebiegu sytuacji znajdą się z kolei w
protokole przebiegu testu, który w wypadku testów litygacyjnych ma charakter częściowo
ustrukturyzowany, a w wypadku badań naukowych – zazwyczaj w pełni ustrukturyzowany.
Wymagania dotyczące dowodów prezentowanych w sądzie determinują także ilość i dokładność
informacji zawartych w protokole przebiegu eksperymentu. Naukowców interesują przede
wszystkim kwestie dotyczące przyjętych w badaniu wskaźników nierównego traktowania
(wpuszczono do klubu – nie wpuszczono do klubu, pokazano mieszkanie – nie pokazano
mieszkania). Z kolei w trakcie postępowań sądowych istotny jest cały przebieg zdarzenia, użyte
słowa czy gesty, zadane pytania, długość trwania interakcji, dlatego organizator testu powinien
zadbać, żeby wszystkie te szczegóły zostały precyzyjnie opisane.
Wybór badanych
W testach do celów naukowych badani są dobierani spośród wszystkich aktorów
sygnalizujących chęć zawarcia transakcji na danym rynku (pracodawców ogłaszających
rekrutację, właścicieli mieszkań umieszczających ogłoszenia o chęci wynajmu lokali, osób
oferujących swoje usługi publicznie). Nie ma znaczenia, czy dany aktor był lub jest
podejrzewany o nierówne traktowanie. W wypadku testów prowadzonych do celów postępowań
sądowych badani nie są wybierani przypadkowo – powinno się nawet unikać testów
proaktywnych (czyli eksploracyjnych, wśród dowolnie dobranych badanych) ze względu na
możliwe oskarżenie o prowokację. Test, który ma służyć jako dowód w postępowaniu sądowym,
powinien być przeprowadzony tam, gdzie istnieje domniemanie dyskryminacji. Domniemanie to
może być wynikiem zgłoszenia się do organizatora testów osoby twierdzącej, że została
nierówno potraktowana, uprzednio odnotowanych zdarzeń dyskryminacyjnych w określonym
miejscu (przez daną osobę) lub innych faktów wskazujących na nierówne traktowanie
34
.
Przykłady testów
Dwa przedstawione poniżej testy zostały dobrane tak, aby stanowić ilustrację odmiennych
procedur konstruowania sytuacji eksperymentalnych do celów naukowych i do celów
litygacyjnych. Pierwszy z nich to pilotażowy test korespondencyjny mierzący dyskryminację w
zatrudnieniu, przeprowadzony przez badaczy Instytutu Spraw Publicznych. Drugi to test mający
na celu dokonanie pomiaru dyskryminacji w dostępie do klubów nocnych, przeprowadzony w
ramach tak zwanej nocy testów przez badaczy Instytutu Spraw Publicznych, Stowarzyszenia
Interwencji Prawnej oraz Forum na rzecz Różnorodności Społecznej.
Test korespondencyjny do celów naukowych
Test korespondencyjny polega na wysłaniu uprzednio przygotowanych aplikacji fikcyjnych
kandydatów w odpowiedzi na oferty pracy umieszczone przez autentycznych pracodawców, a
następnie na monitorowaniu liczby i rodzaju reakcji ze strony rekrutujących. Opisywana
procedura została zastosowana do pomiaru dyskryminacji w rekrutacji osób o statusie
cudzoziemca. Zmienna niezależna miała zatem dwa poziomy: Polak i cudzoziemiec. Poziom
zmiennej niezależnej został wprowadzony do sytuacji przez podanie na początku CV imienia,
nazwiska, miejsca i kraju urodzenia oraz – na końcu CV (pod formułką o zgodzie na
przetwarzanie danych osobowych w związku z rekrutacją) – informacji o posiadaniu prawa do
podejmowania legalnej pracy bez dodatkowych zezwoleń. Podanie tej ostatniej informacji było
niezbędne nie tylko po to, aby wprowadzić zmienną niezależną, ale także po to, żeby zapewnić
pracodawcę, że zatrudnienie cudzoziemca nie wiąże się w tym wypadku z dodatkowym kosztem
uzyskania zezwolenia na pracę, co stanowiłoby czynnik związany z ewentualną oceną
produktywności kandydatów.
Aby zapewnić wysoką trafność wewnętrzną testu, w następujący sposób zapewniono
spełnienie kryterium „3 x P”.
Podobieństwo. Kandydaci w każdej parze wysyłanych życiorysów byli w tym samym lub
niemal tym samym wieku (różnica wieku wynosiła mniej niż rok), mieli ukończone kierunki
34
I. Rorive, Proving Discrimination Cases – the Role of Situation Testing, op. cit.
studiów uznane za równoważne albo szkoły uznane za równoważne w wypadku stanowisk, na
których wyższe wykształcenie nie było wymagane. Obaj kandydaci mieli także tyle samo
miesięcy doświadczenia zawodowego u dwóch różnych pracodawców (aplikacje były wysyłane
tylko w odpowiedzi na ogłoszenia o pracę na stanowiskach niższego szczebla). Wszyscy
kandydaci posiadali prawo jazdy kategorii B, mówili płynnie w języku angielskim i byli podobni
pod względem dodatkowych umiejętności i odbytych szkoleń
35
. We wszystkich wysłanych
życiorysach identyczna była kolejność i liczba podanych informacji, różniły je tylko czcionki i
nagłówki. W każdym z CV przy nazwie aktualnego lub ostatniego pracodawcy pojawiała się
notatka, że referencje mogą być dostarczone na życzenie. Została ona dołączona po to, aby
zminimalizować ryzyko kontaktu między potencjalnym pracodawcą a firmą wymienioną w
życiorysie.
Prawdopodobieństwo. Cechą różnicującą kandydatów były ich zainteresowania, przy czym
zostały one przypisane kandydatom losowo, aby zminimalizować ewentualny systematyczny
efekt określonego zestawu zainteresowań. Ponadto doświadczenie zawodowe było zdobywane u
różnych pracodawców.
Identyczna struktura została zastosowana w listach motywacyjnych przygotowanych dla
aplikantów – w każdym liście nawiązano do cech lub umiejętności wymaganych przez
pracodawcę w ogłoszeniu oraz przedstawiono wizję rozwoju. Jeśli pracodawca prosił o podanie
oczekiwań finansowych, we wszystkich aplikacjach podawano ten sam poziom oczekiwanych
zarobków (poziom ten określano na podstawie informacji o średnich zarobkach na danym
stanowisku w tej branży i opinii ekspertów).
Podobanie się (konkurencyjność). Wszyscy kandydaci aplikowali na stanowiska
niewymagające specjalistycznego doświadczenia (było ono jedynie „mile widziane”), do
pewnego stopnia jednak je posiadali. Zawsze przynajmniej u jednego pracodawcy zakres
obowiązków lub wykonywane czynności pokrywały się z opisem stanowiska, na które były
wysyłane aplikacje. Wszyscy kandydaci ukończyli także szkoły lub uniwersytety plasujące się w
pierwszej piątce rankingu dla danego kierunku.
Ostatnim etapem przygotowania dokumentów aplikacyjnych było stworzenie fikcyjnych
tożsamości – nadanie kandydatom konkretnych imion i nazwisk, przypisanie adresów, numerów
35
Wszystkie użyte aplikacje zostały skonstruowane przy udziale specjalistów lub osób rekrutujących w danych zawodach i
poddane pretestowi. Por. K. Wysieńska, Nguyen, Serhij czy Piotr? Pilotażowe badanie audytowe dyskryminacji cudzoziemców w
rekrutacji, [w:] Sąsiedzi czy Intruzi? O dyskryminacji cudzoziemców w Polsce, op. cit.
telefonów i adresów e-mail oraz opracowanie gotowego zestawu dokumentów dla kandydatów z
danej pary. Preferowaną formą kontaktu, co było sygnalizowane w liście motywacyjnym, był
kontakt telefoniczny lub za pomocą poczty elektronicznej. Jako adresów użyto miejsc
zamieszkania trzech spośród badaczy zaangażowanych w projekt, które były tak samo oddalone
od centrum Warszawy – kryterium odległości wprowadzono dlatego, że niektórzy pracodawcy
uwzględniają czas dojazdu do pracy przy ocenie kandydatów (podobieństwo). W różnych
zawodach aplikantom przypisano odmienne imiona, nazwiska i miejsca urodzenia z
przygotowanej puli nazwisk. Rotacja imion i nazwisk między zawodami została wprowadzona,
aby wyeliminować ryzyko wykrycia, że osoba o identycznym nazwisku szuka pracy na różnych
stanowiskach lub w różnych zawodach (prawdopodobieństwo). Na koniec, według schematu
pozwalającego uniknąć efektu przypisania danej narodowości do konkretnej aplikacji i aby
wyeliminować efekt par, losowano życiorys dla aplikanta.
Do ostatecznej selekcji ogłoszeń zastosowano specjalną procedurę. Najpierw badacze
wyszukiwali adekwatne do danego zawodu i stanowiska oferty na trzech wybranych portalach
(Pracuj.pl, Gazetapraca.pl, Goldenline.pl). Następnie sprawdzali, czy ogłoszenie spełnia przyjęte
wcześniej warunki, to jest: (1) czy pochodzi bezpośrednio od pracodawcy, (2) czy dotyczy
zatrudnienia na umowę o pracę, (3) czy wystarczająca jest elektroniczna forma aplikacji, (4) czy
są wymagane jedynie dokumenty w języku polskim. Ogłoszenia, w których proszono o aplikacje
w języku angielskim, były odrzucane. Po pierwsze, pretestowane i poddane ocenie ekspertów
były wyłącznie aplikacje w języku polskim. Tłumaczenie dokumentów pociągałoby za sobą
konieczność sprawdzenia rzetelności takiego tłumaczenia. Po drugie, przy aplikowaniu w języku
angielskim pojawiłaby się kwestia precyzyjnego określenia poziomu znajomości języka
polskiego u cudzoziemca. Bez sprawdzenia efektu różnicy między przymiotnikami „native” a
„fluent” nie można by założyć równoważności kandydatur, a co za tym idzie – orzekać o
trafności testu.
Między 15 lipca a 13 września 2010 roku, mimo trwających wakacji, zespół badaczy
zaangażowanych w realizację projektu wybrał 194 ogłoszenia w pięciu branżach i wysłał 361
aplikacji (na 27 ofert, z różnych powodów, udało się wysłać tylko jedną aplikację).
W teście korespondencyjnym za wskaźnik nierównego traktowania (zmienną zależną)
przyjmuje się różnicę w liczbie zaproszeń na rozmowę kwalifikacyjną. Inne zachowania i
przejawy nierównego traktowania ze strony pracodawców również mogą być zaobserwowane w
trakcie trwania testu. Dlatego wszystkie reakcje ze strony potencjalnego pracodawcy wobec
kandydatów były rejestrowane i analizowane. Reakcje te obejmowały między innymi
potwierdzenia otrzymania aplikacji, telefony z zapytaniem o oczekiwania finansowe, próby
przeprowadzenia rozmowy kwalifikacyjnej przez telefon oraz listy z zadaniami do rozwiązania
przez aplikanta. Po odrzuceniu automatycznie generowanych potwierdzeń otrzymania aplikacji
pozostałe typy reakcji zostały zakwalifikowane jako reakcja pozytywna i włączone do ostatecznej
analizy danych. Z wyjątkiem automatycznie generowanych informacji o przyjęciu zgłoszenia, na
każdy inny kontakt ze strony pracodawcy odpowiadano telefonicznie lub przez e-mail, że
aplikacja jest już nieaktualna. Na 167 ogłoszeń, na które udało się wysłać zestaw dwóch
aplikacji, zarejestrowano łącznie 26 pozytywnych reakcji (16%). Liczba ważnych obserwacji nie
pozwoliła na przeprowadzenie analiz statystycznych, ale sam sposób przeprowadzenia testu
ilustruje, jakie działania muszą być podjęte, aby osiągnąć wysoką trafność.
Test z udziałem ochotników na potrzeby pomiaru efektywności przepisów antydyskryminacyjnych
W nocy z 5 na 6 marca 2011 roku w kilkunastu miastach europejskich pary ochotników
testowały przestrzeganie zakazu dyskryminacji ze względu na kolor skóry lub pochodzenie
etniczne w dostępie do klubów nocnych i restauracji (rynek usług). Testy sprawdzające zakres
nierównego traktowania w sferze „codziennych transakcji” mają długą tradycję w gronie badaczy
dyskryminacji. Dość wspomnieć testy prowadzone wśród sprzedawców samochodów (mierzono
poziom dyskryminacji ze względu na płeć i pochodzenie etniczne), kierowców taksówek
(mierzono poziom dyskryminacji ze względu na pochodzenie etniczne) czy selekcjonerów w
klubach nocnych (mierzono przede wszystkim poziom dyskryminacji ze względu na pochodzenie
etniczne, ale także inne uwidocznione cechy prawnie chronione). Rezultaty testów w wielu
wypadkach stały się podstawą postępowań sądowych, które doprowadziły do zmian w przepisach
ogólnych lub praktykach poszczególnych korporacji. Mimo że test przeprowadzony w ramach
ogólnoeuropejskiej akcji w 2011 roku miał przede wszystkim na celu podniesienie świadomości
na temat form dyskryminacji i testów jako takich, nie zaś wszczynanie postępowań sądowych,
dołożono wszelkich starań, aby był on trafny i przygotowany zgodnie z procedurą testów
prowadzonych do celów litygacyjnych.
Testerami w przeprowadzonym badaniu byli młodzi wykształceni mężczyźni o
nieposzlakowanej opinii – studenci lub wolontariusze w organizacjach pozarządowych. Wszyscy
ochotnicy uczestniczyli w dwóch spotkaniach szkoleniowych. W ich trakcie zostali
poinformowani, na czym będzie polegało ich zadanie i jak będzie wyglądał cały test.
Powiedziano im, że jego celem nie jest udowodnienie jakiejkolwiek z góry przyjętej tezy, i że
niezależnie od wyniku samo jego przeprowadzenie będzie sukcesem. Podczas spotkań
szkoleniowych przećwiczono zachowanie przy wejściu do klubu – co i jak mówić, co zrobić, gdy
selekcjoner odmówi wpuszczenia do klubu, jak się wycofać, jeśli osoba zostanie wpuszczona –
wszystko po to, aby ujednolicić werbalne i niewerbalne zachowania testerów. Testerzy otrzymali
również informację o konieczności sporządzenia protokołu po każdym zdarzeniu testowym
(każdej próbie wejścia do klubu). Dodatkowo zostali wyposażeni w dyktafony do rejestrowania
przebiegu interakcji. W trakcie spotkań ustalono, w co mają być ubrani ochotnicy w noc testu,
aby zapewnić jak największe podobieństwo między wszystkimi testerami. W celu
maksymalizacji podobieństwa między testerami do danej pary testowej
36
dobrano osoby zbliżone
pod względem wzrostu, budowy ciała i atrakcyjności fizycznej. Zapewnienie
prawdopodobieństwa testerów zostało osiągnięte przez rekrutację osób w „klubowym” wieku i
przez naturalne, ale nieistotne dla rynku usług różnice między ochotnikami. Konkurencyjność
testerów została osiągnięta za pomocą odpowiedniego ubioru.
Kluby nie zostały wybrane do badania losowo. Testerzy odwiedzili te lokale, na które
najczęściej – według informacji pochodzących od organizacji pozarządowych – skarżyli się
cudzoziemcy i osoby o niebiałym kolorze skóry. Test nie miał więc charakteru proaktywnego.
Ponadto, żeby zapewnić pełną obiektywność testu, ochotnicy byli pytani, czy kiedykolwiek mieli
problem ze wstępem do konkretnego klubu lub mają jakąś historię związaną z danym miejscem.
Jeśli odpowiedź była twierdząca, osoba ta była wysyłana do innego klubu.
Sam przebieg sytuacji testowej również był zaplanowany w taki sposób, aby osiągnąć wysoką
trafność. Pierwsi do lokalu próbowali wejść testerzy czarni, a dopiero w odległości od trzech do
pięciu osób w kolejce do „bramki” – testerzy biali. W trakcie oczekiwania w kolejce para testowa
nie komunikowała się w żaden sposób ze sobą. Kolejność testerów i odległość między nimi ma
znaczenie dla trafności testu, gdyż w wypadku zbyt dużego odstępu lub odwrotnej kolejności
mogłaby zajść istotna zmiana w sytuacji wewnątrz klubu (na przykład przepełnienie), co
mogłoby dać podstawy formułowania hipotezy alternatywnej wobec hipotezy dyskryminacji. Z
36
Para testowa składała się z czterech osób: dwóch osób białych i dwóch osób czarnych. Ponieważ przedmiotem testu w
Warszawie była dyskryminacja w dostępie do klubów ze względu na kolor skóry, istotne dla trafności testu było spełnienie
kryterium „3 x P” między parą białą i czarną. Wszystkie uwagi dotyczące sposobu konstrukcji testu dotyczą więc pary testowej,
nie zaś pary osób o tym samym kolorze skóry.
kolei zbyt mała odległość między parami mogłaby sprowokować próby formułowania hipotezy o
braku niezależności między obserwacjami (a więc braku czystego efektu koloru skóry). Mówiąc
inaczej, możliwe byłoby wtedy twierdzenie, że biali testerzy zredukowali szanse wejścia testerów
czarnych, a co za tym idzie – że nie zmierzono wpływu koloru skóry, tylko to, w jaki sposób
obecność podobnej pary białej wpłynęła na szansę wejścia pary czarnej. Przebieg sytuacji
testowych w wypadku każdej pary był obserwowany przez niezależnych obserwatorów
(przedstawicieli mediów, pełnomocnika prezydenta miasta stołecznego Warszawy do spraw
równego traktowania, przedstawicieli organizacji pozarządowych). Po zakończeniu
eksperymentu został sporządzony szczegółowy protokół o doświadczeniach każdej pary testowej.
W trakcie nocy testów w Warszawie odwiedzono osiem klubów, a w całej Europie – prawie
sto. We wszystkich miastach stwierdzono wypadki dyskryminacji. Zebrane w ten sposób dane
nie pozwalają jednak orzekać o tym, czy dyskryminacja w danym mieście jest wyższa czy niższa
niż w innym miejscu w Europie, z powodów, o których była mowa wcześniej – miasta
europejskie są różne, historie mniejszości i migrantów są różne, sytuacje testowe były do
pewnego stopnia różne (na przykład testerami byli przedstawiciele różnych grup etnicznych). Nie
można także na podstawie wyników nocy testów wysuwać wniosków na temat nietolerancji lub
dyskryminacji wśród Polaków czy Europejczyków – badanie nie było prowadzone na
reprezentatywnej próbie losowej. Możliwości uogólnienia i porównywania wyników nie są
jednak niezbędne, aby docenić funkcję testów – jeśli są trafne i rzetelne, pozwalają jednoznacznie
stwierdzić przejawy dyskryminacji.
Za treść publikacji odpowiada Instytutu Spraw Publicznych, poglądy w niej wyrażone nie
odzwierciedlają oficjalnego stanowiska Unii Europejskiej
Projekt: „Polskie Forum Integracyjne” jest współfinansowany ze środków
Europejskiego Funduszu na Rzecz Integracji Obywateli Państw Trzecich
oraz z budżetu państwa
Copyright by Fundacja Instytut Spraw Publicznych, Warszawa 2010. Przedruk materiałów Instytutu Spraw Publicznych
w całości lub części możliwy jest wyłącznie za zgodą Instytutu. Cytowanie oraz wykorzystanie danych
empirycznych dozwolone jest z podaniem źródła.
Instytut Spraw Publicznych
ul. Szpitalna 5 lok. 22, 00-031 Warszawa
tel. +48 022 556 42 99, fax +48 022 556 42 62
e- mail: isp@isp.org.pl
www.isp.org.pl