Ważność zewnętrzna - External validity

Trafność zewnętrzna to zasadność zastosowania wniosków z badania naukowego poza kontekstem tego badania. Innymi słowy, jest to stopień, w jakim wyniki badania można uogólnić na inne sytuacje, ludzi, bodźce i czasy. Natomiast trafność wewnętrzna to trafność wniosków wyciągniętych w kontekście konkretnego badania. Ponieważ wnioski ogólne są prawie zawsze celem badań, trafność zewnętrzna jest ważną właściwością każdego badania. Matematyczna analiza trafności zewnętrznej dotyczy ustalenia, czy uogólnianie w heterogenicznych populacjach jest wykonalne, oraz opracowania metod statystycznych i obliczeniowych, które dają prawidłowe uogólnienia.

Zagrożenia

„Zagrożenie dla wiarygodności zewnętrznej jest wyjaśnieniem, w jaki sposób możesz się mylić, dokonując uogólnień na podstawie wyników konkretnego badania”. W większości przypadków możliwość uogólnienia jest ograniczona, gdy efekt jednego czynnika (tj. zmiennej niezależnej ) zależy od innych czynników. Dlatego wszystkie zagrożenia dla trafności zewnętrznej można opisać jako interakcje statystyczne . Oto kilka przykładów:

  • Umiejętność przez traktowanie Interakcja: Próbka może mieć pewne cechy, które oddziałują ze zmienną niezależną, ograniczając możliwość uogólnienia. Na przykład, badania psychoterapii porównawczej często wykorzystują specyficzne próbki (np. ochotnicy, osoby w stanie głębokiej depresji, brak chorób współistniejących). Jeśli psychoterapia okaże się skuteczna dla tych badanych pacjentów, czy będzie również skuteczna dla osób niebędących ochotnikami, osób z lekką depresją lub pacjentów z innymi współistniejącymi zaburzeniami? W przeciwnym razie trafność zewnętrzna badania byłaby ograniczona.
  • Sytuacja przez interakcje z leczeniem: Wszystkie uwarunkowania sytuacyjne (np. warunki leczenia, czas, lokalizacja, oświetlenie, hałas, zastosowanie leczenia, badacz, czas, zakres i zakres pomiaru itp.) badania potencjalnie ograniczają możliwość uogólnienia.
  • Interakcje między testami wstępnymi a leczeniem: Jeśli związki przyczynowo-skutkowe można znaleźć tylko podczas testów wstępnych, ogranicza to również ogólność wyników. To czasami określa się mianem „uczulenia”, ponieważ wstępny test sprawia, że ​​ludzie stają się bardziej wrażliwi na manipulację leczeniem.

Zwróć uwagę, że trafność zewnętrzna badania jest ograniczona przez jego trafność wewnętrzną . Jeśli wnioskowanie przyczynowe dokonane w ramach badania jest nieważne, to uogólnienia tego wnioskowania na inne konteksty również będą nieważne.

Cook i Campbell dokonali zasadniczego rozróżnienia między uogólnianiem na pewną populację a uogólnianiem na podpopulacje zdefiniowane przez różne poziomy pewnego czynnika tła. Lynch argumentował, że prawie nigdy nie jest możliwe uogólnianie na sensowne populacje, chyba że jako migawkę historii, ale możliwe jest przetestowanie stopnia, w jakim wpływ jakiejś przyczyny na jakąś zmienną zależną uogólnia się w subpopulacjach, które różnią się pewnym czynnikiem tła. Wymaga to sprawdzenia, czy badany efekt leczenia jest moderowany przez interakcje z jednym lub większą liczbą czynników tła.

Rozbrajające groźby

Podczas gdy wyliczanie zagrożeń dla słuszności może pomóc badaczom uniknąć nieuzasadnionych uogólnień, wiele z tych zagrożeń można rozbroić lub zneutralizować w sposób systematyczny, aby umożliwić prawidłowe uogólnienie. W szczególności wyniki eksperymentów z jednej populacji można „ponownie przetworzyć” lub „ponownie skalibrować”, aby ominąć różnice między populacjami i uzyskać prawidłowe uogólnienia w drugiej populacji, w której nie można przeprowadzić eksperymentów. Pearl i Bareinboim podzielili problemy uogólniania na dwie kategorie: (1) te, które nadają się do ważnej rekalibracji, oraz (2) te, w których trafność zewnętrzna jest teoretycznie niemożliwa. Korzystając z rachunku różniczkowego opartego na grafach, wyprowadzili warunek konieczny i wystarczający dla wystąpienia problemu, aby umożliwić prawidłowe uogólnienie, oraz opracowali algorytmy, które automatycznie wytwarzają potrzebną ponowną kalibrację, gdy taka istnieje. Sprowadza to problem zewnętrznej trafności do ćwiczenia z teorii grafów i doprowadziło niektórych filozofów do wniosku, że problem został rozwiązany.

Ważnym wariant zewnętrznych zajmuje problemowych ważność z uprzedzeń selekcji , znany również jako próbkowania nastawienie -to znaczy stronniczość tworzone, gdy badania są prowadzone na zwierzętach z reprezentatywnych próbek przeznaczonych populacji. Na przykład, jeśli badanie kliniczne jest prowadzone na studentach college'u, badacz może chcieć wiedzieć, czy wyniki uogólniają się na całą populację, gdzie cechy takie jak wiek, wykształcenie i dochód różnią się znacznie od cech typowego studenta. Oparta na wykresach metoda Bareinboima i Pearla identyfikuje warunki, w których można obejść błąd doboru próby, a gdy te warunki są spełnione, metoda konstruuje bezstronny estymator średniego efektu przyczynowego w całej populacji. Główna różnica między uogólnianiem z niewłaściwie dobranych badań a uogólnianiem w różnych populacjach polega na tym, że rozbieżności między populacjami są zwykle spowodowane wcześniejszymi czynnikami, takimi jak wiek lub pochodzenie etniczne, podczas gdy błąd selekcji jest często spowodowany na przykład stanami po leczeniu, pacjenci rezygnujący z udziału w badaniu lub pacjenci wybrani na podstawie ciężkości urazu. Gdy selekcja jest regulowana czynnikami po leczeniu, wymagane są niekonwencjonalne metody ponownej kalibracji, aby zapewnić szacowanie wolne od błędów systematycznych, a metody te można łatwo uzyskać z wykresu problemu.

Przykłady

Jeśli wiek zostanie uznany za główny czynnik powodujący, że efekt leczenia będzie różny w zależności od osoby, wówczas różnice wieku między badanymi uczniami a populacją ogólną prowadziłyby do tendencyjnego oszacowania średniego efektu leczenia w tej populacji. Takie odchylenie można jednak skorygować za pomocą prostej procedury ponownego ważenia: Bierzemy specyficzny dla wieku efekt w subpopulacji uczniów i obliczamy jego średnią za pomocą rozkładu wieku w populacji ogólnej. Dałoby to nam obiektywną ocenę średniego efektu leczenia w populacji. Jeżeli, z drugiej strony, odpowiedni czynnik, który odróżnia badaną próbkę od populacji ogólnej, sam w sobie ma wpływ na leczenie, należy powołać się na inny schemat ponownego ważenia. Nazywając ten czynnik Z , ponownie uśredniamy wpływ Z- specyficzny X na Y w próbce eksperymentalnej, ale teraz ważymy go przez „efekt przyczynowy” X na Z . Innymi słowy, nowa waga jest proporcją jednostek osiągających poziom Z=z, gdy leczenie X=x zostało podane całej populacji. To prawdopodobieństwo interwencyjne, często pisane , można czasem oszacować na podstawie badań obserwacyjnych w populacji ogólnej.

Typowy przykład tego rodzaju występuje, gdy Z jest mediatorem między leczeniem a wynikiem. Na przykład leczenie może być lekiem obniżającym cholesterol, Z może być poziomem cholesterolu, a Y oczekiwaną długością życia. Tutaj na Z wpływa zarówno leczenie, jak i główny czynnik decydujący o wyniku, Y . Załóżmy, że osoby wybrane do badania eksperymentalnego mają zwykle wyższy poziom cholesterolu niż typowy dla populacji ogólnej. Aby oszacować średni wpływ leku na przeżycie w całej populacji, najpierw obliczamy z- specyficzny efekt leczenia w badaniu eksperymentalnym, a następnie uśredniamy go stosując jako funkcję wagową. Otrzymane oszacowanie będzie wolne od błędów, nawet jeśli Z i Y są pomieszane — to znaczy, gdy istnieje niezmierzony wspólny czynnik, który wpływa zarówno na Z, jak i Y .

Dokładne warunki zapewniające ważność tego i innych schematów ważenia są sformułowane w Bareinboim i Pearl, 2016 oraz Bareinboim i in., 2014.

Trafność zewnętrzna, wewnętrzna i ekologiczna

W wielu badaniach i projektach badawczych może istnieć kompromis między trafnością wewnętrzną a trafnością zewnętrzną: próby zwiększenia trafności wewnętrznej mogą również ograniczać możliwość uogólniania wyników i vice versa. Ta sytuacja skłoniła wielu badaczy do apelu o „ekologicznie uzasadnione” eksperymenty. Rozumieją przez to, że procedury eksperymentalne powinny przypominać warunki „rzeczywistego świata”. Krytykują brak zasadności ekologicznej w wielu badaniach laboratoryjnych, koncentrujących się na sztucznie kontrolowanych i ograniczonych środowiskach. Niektórzy badacze uważają, że trafność zewnętrzna i trafność ekologiczna są ściśle powiązane w tym sensie, że wnioskowanie przyczynowe oparte na ekologicznie uzasadnionych projektach badawczych często pozwala na wyższy stopień uogólnienia niż te uzyskane w sztucznie wytworzonym środowisku laboratoryjnym. Jednak ponownie odnosi się to do rozróżnienia między uogólnianiem na pewną populację (ściśle związane z obawami o trafność ekologiczną) a uogólnianiem na subpopulacje, które różnią się pewnym czynnikiem tła. Niektóre odkrycia poczynione w ekologicznie uzasadnionych warunkach badawczych mogą być trudne do uogólnienia, a niektóre odkrycia poczynione w ściśle kontrolowanych warunkach mogą twierdzić, że mają niemal powszechną ważność zewnętrzną. Zatem trafność zewnętrzna i ekologiczna są niezależne — badanie może mieć trafność zewnętrzną, ale nie ekologiczną i odwrotnie.

Badania jakościowe

W paradygmacie badań jakościowych trafność zewnętrzna zostaje zastąpiona pojęciem transferowalności. Transferowalność to zdolność wyników badań do przenoszenia do sytuacji o podobnych parametrach, populacjach i cechach.

W eksperymentach

Naukowcy często twierdzą, że eksperymenty mają ze swej natury niską wiarygodność zewnętrzną. Niektórzy twierdzą, że przy stosowaniu metody eksperymentalnej może wystąpić wiele wad. Dzięki uzyskaniu wystarczającej kontroli nad sytuacją, aby losowo przypisywać ludzi do warunków i wykluczyć skutki zmiennych zewnętrznych, sytuacja może stać się nieco sztuczna i odległa od prawdziwego życia.

W grę wchodzą dwa rodzaje generalizacji:

  1. Stopień, w jakim możemy uogólniać z sytuacji skonstruowanej przez eksperymentatora do sytuacji z życia wziętych ( uogólnianie w różnych sytuacjach ) oraz
  2. Stopień, w jakim możemy uogólniać z osób, które uczestniczyły w eksperymencie, na ludzi w ogóle ( uogólnianie na ludzi )

Jednak oba te rozważania odnoszą się do koncepcji Cooka i Campbella dotyczącej uogólniania na pewną populację docelową, a nie do prawdopodobnie bardziej centralnego zadania, jakim jest ocena możliwości uogólniania wyników eksperymentu w subpopulacjach, które różnią się od konkretnej badanej sytuacji i osób, które różnią się od respondentów. studiował w jakiś znaczący sposób.

Krytycy eksperymentów sugerują, że trafność zewnętrzną można poprawić, stosując ustawienia terenowe (lub przynajmniej realistyczne ustawienia laboratoryjne) oraz stosując prawdziwe próby prawdopodobieństwa respondentów. Jednakże, jeśli celem jest zrozumienie możliwości uogólniania w subpopulacjach różniących się czynnikami sytuacyjnymi lub osobistymi, środki te nie są skuteczne w zwiększaniu trafności zewnętrznej, która jest im powszechnie przypisywana. Jeśli istnieją interakcje związane z leczeniem czynnika X, o których badacz nie jest świadomy (co wydaje się prawdopodobne), te praktyki badawcze mogą maskować znaczny brak wiarygodności zewnętrznej. Dipboye i Flanagan, pisząc o psychologii przemysłowej i organizacyjnej, zauważają, że dowody są takie, że wyniki z jednego pola i jednego laboratorium są równie mało prawdopodobne, aby uogólnić je na drugie pole. Tak więc badania terenowe nie mają z natury wysokiej trafności zewnętrznej, a badania laboratoryjne nie są ze swej natury niskiej trafności zewnętrznej. W obu przypadkach zależy to od tego, czy konkretny badany efekt leczenia zmieni się wraz ze zmianami czynników tła, które są utrzymywane na stałym poziomie w tym badaniu. Jeśli czyjeś badanie jest „nierealistyczne” na poziomie jakiegoś czynnika tła, który nie wchodzi w interakcję z leczeniem, nie ma to wpływu na trafność zewnętrzną. Tylko jeśli eksperyment utrzymuje jakiś stały czynnik tła na nierealistycznym poziomie i jeśli zmienianie tego czynnika tła ujawniłoby silną interakcję Leczenie x czynnik tła, ważność zewnętrzna jest zagrożona.

Uogólnianie w różnych sytuacjach

Badania nad eksperymentami psychologicznymi podejmowane na uniwersytetach są często krytykowane za to, że prowadzone są w sztucznych sytuacjach i że nie można ich uogólniać na prawdziwe życie. Aby rozwiązać ten problem, psychologowie społeczni próbują zwiększyć uogólnialność swoich wyników, czyniąc swoje badania tak realistycznymi, jak to tylko możliwe. Jak wspomniano powyżej, ma to na celu uogólnienie na jakąś konkretną populację. Realizm per se nie pomaga w formułowaniu stwierdzeń na temat tego, czy wyniki uległyby zmianie, gdyby otoczenie było w jakiś sposób bardziej realistyczne lub gdyby uczestnicy badania zostali umieszczeni w innym realistycznym otoczeniu. Jeśli testowane jest tylko jedno ustawienie, nie można sformułować stwierdzeń dotyczących uogólniania dla różnych ustawień.

Jednak wielu autorów łączy ważność zewnętrzną z realizmem. Eksperyment może być realistyczny na więcej niż jeden sposób:

  1. Podobieństwo sytuacji eksperymentalnej do zdarzeń, które często zdarzają się w życiu codziennym — jasne jest, że wiele eksperymentów jest zdecydowanie nierealnych.
  2. W wielu eksperymentach ludzie znajdują się w sytuacjach, z którymi rzadko spotykaliby się w życiu codziennym.

Odnosi się to do stopnia, w jakim eksperyment jest podobny do rzeczywistych sytuacji, jako przyziemny realizm eksperymentu .

Ważniejsze jest upewnienie się, że badanie jest na wysokim poziomie realizmu psychologicznego — jak podobne procesy psychologiczne wywoływane w eksperymencie są podobne do procesów psychologicznych zachodzących w życiu codziennym.

Realizm psychologiczny wzrasta, gdy ludzie są pochłonięci prawdziwym wydarzeniem. Aby to osiągnąć, naukowcy czasami opowiadają uczestnikom historię przykrywkową — fałszywy opis celu badania. Jeśli jednak eksperymentatorzy mieliby powiedzieć uczestnikom o celu eksperymentu, to taka procedura byłaby mało realistyczna w psychice. W życiu codziennym nikt nie wie, kiedy wystąpią sytuacje kryzysowe, a ludzie nie mają czasu na planowanie reakcji na nie. Oznacza to, że rodzaje wyzwolonych procesów psychologicznych znacznie różniłyby się od tych występujących w przypadku rzeczywistego zagrożenia, zmniejszając realizm psychologiczny badania.

Ludzie nie zawsze wiedzą, dlaczego robią to, co robią lub co robią, dopóki to się nie stanie. Dlatego opisanie uczestnikom sytuacji eksperymentalnej, a następnie poproszenie ich o normalną odpowiedź, da odpowiedzi, które mogą nie pasować do zachowania osób, które faktycznie znajdują się w tej samej sytuacji. Nie możemy polegać na przewidywaniach ludzi na temat tego, co zrobiliby w hipotetycznej sytuacji; możemy dowiedzieć się, co naprawdę zrobią ludzie, gdy zbudujemy sytuację, która uruchamia te same procesy psychologiczne, które zachodzą w prawdziwym świecie.

Uogólnianie wśród ludzi

Psychologowie społeczni badają sposób, w jaki ludzie są ogólnie podatni na wpływy społeczne. Kilka eksperymentów udokumentowało interesujący, nieoczekiwany przykład wpływu społecznego, w którym sama wiedza o obecności innych zmniejsza prawdopodobieństwo, że ludzie pomogli.

Jedynym sposobem, aby mieć pewność, że wyniki eksperymentu odzwierciedlają zachowanie określonej populacji, jest upewnienie się, że uczestnicy są losowo wybierani z tej populacji. Próbki w eksperymentach nie mogą być wybierane losowo, tak jak w ankietach, ponieważ wybieranie losowych próbek do eksperymentów z zakresu psychologii społecznej jest niepraktyczne i kosztowne. Wystarczająco trudno jest przekonać losową próbkę ludzi, aby zgodzili się odpowiedzieć na kilka pytań przez telefon w ramach sondażu politycznego, a przeprowadzenie takich sondaży może kosztować tysiące dolarów. Co więcej, nawet jeśli ktoś w jakiś sposób był w stanie zrekrutować naprawdę losową próbkę, może wystąpić nieobserwowana niejednorodność w skutkach terapii eksperymentalnych... Leczenie może mieć pozytywny wpływ na niektóre podgrupy, ale negatywny na inne. Efekty pokazane w średnich wartościach leczenia mogą nie uogólniać się na żadną podgrupę.

Wielu badaczy zajmuje się tym problemem, badając podstawowe procesy psychologiczne, które czynią ludzi podatnymi na wpływy społeczne, zakładając, że procesy te są tak fundamentalne, że są powszechnie współdzielone. Niektóre procesy psychologii społecznej różnią się w różnych kulturach iw takich przypadkach należy badać różne grupy ludzi.

Replikacje

Ostatecznym testem zewnętrznej trafności eksperymentu jest replikacja — ponowne przeprowadzenie badania, na ogół z różnymi populacjami badanych lub w różnych warunkach. Naukowcy często stosują różne metody, aby sprawdzić, czy nadal uzyskują te same wyniki.

Kiedy przeprowadza się wiele badań jednego problemu, wyniki mogą się różnić. Kilka badań może znaleźć wpływ liczby osób postronnych na zachowania pomagające, podczas gdy kilka nie. Aby to zrozumieć, istnieje technika statystyczna zwana metaanalizą, która uśrednia wyniki dwóch lub więcej badań, aby sprawdzić, czy efekt zmiennej niezależnej jest wiarygodny. Metaanaliza zasadniczo mówi nam o prawdopodobieństwie, że wyniki wielu badań można przypisać przypadkowi lub zmiennej niezależnej. Jeśli okaże się, że zmienna niezależna ma wpływ tylko w jednym z 20 badań, metaanaliza powie, że to jedno badanie było wyjątkiem i że przeciętnie zmienna niezależna nie wpływa na zmienną zależną. Jeśli zmienna niezależna ma wpływ w większości badań, metaanaliza prawdopodobnie powie nam, że średnio wpływa ona na zmienną zależną.

Mogą istnieć wiarygodne zjawiska, które nie ograniczają się do laboratorium. Na przykład stwierdzono, że zwiększenie liczby osób postronnych hamuje zachowania pomocowe w przypadku wielu rodzajów ludzi, w tym dzieci, studentów uniwersytetów i przyszłych kaznodziejów; w Izraelu; w małych miasteczkach i dużych miastach w USA; w różnych miejscach, takich jak laboratoria psychologiczne, ulice miast i pociągi metra; oraz z różnymi rodzajami sytuacji awaryjnych, takich jak drgawki, potencjalne pożary, bójki i wypadki, a także z mniej poważnymi zdarzeniami, takimi jak przebicie opony. Wiele z tych replikacji zostało przeprowadzonych w rzeczywistych warunkach, w których ludzie nie mogli wiedzieć, że przeprowadzany jest eksperyment.

Podstawowy dylemat psychologa społecznego

Podczas przeprowadzania eksperymentów w psychologii niektórzy uważają, że zawsze istnieje kompromis między trafnością wewnętrzną i zewnętrzną —

  1. mieć wystarczającą kontrolę nad sytuacją, aby upewnić się, że żadne zewnętrzne zmienne nie wpływają na wyniki i losowo przypisywać ludzi do warunków, oraz
  2. zapewnienie, że wyniki można uogólnić na codzienne życie.

Niektórzy badacze uważają, że dobrym sposobem na zwiększenie trafności zewnętrznej jest przeprowadzanie eksperymentów terenowych . W eksperymencie terenowym zachowanie ludzi jest badane poza laboratorium, w jego naturalnym środowisku. Eksperyment terenowy ma identyczny projekt jak eksperyment laboratoryjny, z wyjątkiem tego, że jest przeprowadzany w warunkach rzeczywistych. Uczestnicy eksperymentu terenowego nie są świadomi, że zdarzenia, których doświadczają, są w rzeczywistości eksperymentem. Niektórzy twierdzą, że trafność zewnętrzna takiego eksperymentu jest wysoka, ponieważ odbywa się on w realnym świecie, z prawdziwymi ludźmi, którzy są bardziej zróżnicowani niż typowa próba studentów uniwersyteckich. Ponieważ jednak rzeczywiste ustawienia różnią się znacznie, wyniki w jednym rzeczywistym środowisku mogą, ale nie muszą, uogólniać się na inne rzeczywiste otoczenie.

W pojedynczym eksperymencie nie rejestruje się ani trafności wewnętrznej, ani zewnętrznej. Psychologowie społeczni wybierają najpierw trafność wewnętrzną, przeprowadzając eksperymenty laboratoryjne, w których ludzie są losowo przypisywani do różnych warunków, a wszystkie zmienne zewnętrzne są kontrolowane. Inni psychologowie społeczni wolą wiarygodność zewnętrzną od kontroli, prowadząc większość swoich badań w badaniach terenowych, a wielu robi jedno i drugie. Łącznie oba rodzaje badań spełniają wymagania idealnego eksperymentu. Dzięki replikacji badacze mogą badać dane pytanie badawcze z maksymalną trafnością wewnętrzną i zewnętrzną.

Zobacz też

Uwagi

  1. ^ Mitchell, M. i Jolley, J. (2001). Objaśnienie projektu badawczego (4 wydanie) Nowy Jork:Harcourt.
  2. ^ B c d Aronson E. Wilson TD Akert, RM, i Fehr, B. (2007). Psychologia społeczna. (4 wyd.). Toronto, ON: Edukacja Pearson.
  3. ^ a b Pearl, Judea; Bareinboim, Eliasz (2014). „Ważność zewnętrzna: Od Do -calculus do transportowania całej populacji”. Nauka statystyczna . 29 (4): 579–595. arXiv : 1503.01603 . doi : 10.1214/14-sts486 . S2CID  5586184 .
  4. ^ Trochim, William M. The Research Methods Knowledge Base, wydanie 2.
  5. ^ B c d e Lynch John (1982). „O zewnętrznej ważności eksperymentów w badaniach konsumenckich”. Czasopismo Badań Konsumenckich . 9 (3): 225–239. doi : 10.1086/208919 . JSTOR  2488619 .
  6. ^ B Cook Thomas D .; Campbell, Donald T. (1979). Quasi-eksperyment: Problemy z projektowaniem i analizą dla ustawień pola . Chicago: Wydawnictwo Rand McNally College. Numer ISBN 978-0395307908.
  7. ^ B Lynch John (1999). „Teoria i ważność zewnętrzna”. Czasopismo Akademii Nauk Marketingowych . 27 (3): 367–76. CiteSeerX  10.1.1.417.8073 . doi : 10.1177/0092070399273007 . S2CID  145357923 .
  8. ^ Perła, Judea (1995). „Diagramy przyczynowe do badań empirycznych” . Biometria . 82 (4): 669–710. doi : 10.1093/biomet/82.4.669 .
  9. ^ Bareinboim, Eliasz; Perła, Judea (2013). „Ogólny algorytm decydowania o przenośności wyników eksperymentalnych”. Dziennik Wnioskowania Przyczynowego . 1 (1): 107–134. arXiv : 1312.7485 . doi : 10.1515/jci-2012-0004 . S2CID  13325846 .
  10. ^ Marcellesi, Alexandre (grudzień 2015). „Ważność zewnętrzna: czy nadal istnieje problem?”. Filozofia nauki . 82 (5): 1308-1317. doi : 10.1086/684084 . S2CID  125072255 .
  11. ^ Perła, Judea (2015). Uogólnianie wyników eksperymentalnych . Dziennik wnioskowania przyczynowego . 3 (2). s. 259-266.
  12. ^ B Bareinboim Elias; Tian, ​​Jin; Perła, Judea (2014). Brodley, Carla E .; Kamień, Peter (red.). „Odzyskiwanie z błędu selekcji we wnioskowaniu przyczynowym i statystycznym”. Materiały z dwudziestej ósmej konferencji AAAI na temat sztucznej inteligencji : 2410-2416.
  13. ^ Perła, Judea; Glymour, Madelyn; Jewell, Mikołaj P. (2016). Wnioskowanie przyczynowe w statystyce: elementarz . Nowy Jork: Wiley.
  14. ^ B Bareinboim Elias; Perła, Judea (2016). „Wnioskowanie o przyczynach i problem fuzji danych” . Materiały Narodowej Akademii Nauk . 113 (27): 7345-7352. doi : 10.1073/pnas.1510507113 . PMC  4941504 . PMID  27382148 .
  15. ^ Campbell Donald T. (1957). „Czynniki istotne dla ważności eksperymentów w warunkach społecznych” . Biuletyn Psychologiczny . 54 (4): 297–312. doi : 10.1037/h0040950 . ISSN  1939-1455 . PMID  13465924 .
  16. ^ Lin, Hause; Werner, Kaitlyn M.; Inzlicht, Michael (2021.02.2016). „Obietnice i niebezpieczeństwa eksperymentów: problem wzajemnej ważności wewnętrznej” . Perspektywy nauk psychologicznych . 16 (4): 854–863. doi : 10.1177/1745691620974773 . ISSN  1745-6916 . PMID  33593177 . S2CID  231877717 .
  17. ^ Schram Artur (2005-06-01). „Sztuczność: napięcie między wewnętrzną i zewnętrzną ważnością w eksperymentach ekonomicznych” . Czasopismo Metodologii Ekonomicznej . 12 (2): 225–237. doi : 10.1080/13501780500086081 . ISSN  1350-178X . S2CID  145588503 .
  18. ^ Lincoln, YS; Guba, EG (1986). „Ale czy to rygorystyczne? Wiarygodność i autentyczność w ocenie naturalistycznej”. W Williams, DD (red.). Ocena naturalistyczna . Nowe kierunki oceny programu. 30 . San Francisco: Jossey-Bass. s. 73-84. Numer ISBN 0-87589-728-2.
  19. ^ B Dipboye Robert L .; Flanagan, Michael F. (1979). „Ustawienia badawcze w psychologii przemysłowej i organizacyjnej: czy wyniki w tej dziedzinie są bardziej uogólnione niż w laboratorium”. Psycholog amerykański . 34 (2): 141–150. doi : 10.1037/0003-066x.34.2.141 .
  20. ^ B Aronson E. i Carlsmith JM (1968). Eksperymentowanie w psychologii społecznej. W G. Lindzey i E. Aronson (red.), Podręcznik psychologii społecznej. (Tom 2, s. 1-79.) Reading, MA: Addison-Wesley.
  21. ^ Yarkoni, Tal (21.12.2020). „Kryzys generalizowalności” . Nauki behawioralne i mózgowe : 1-37. doi : 10.1017/S0140525X20001685 . ISSN  0140-525X . PMID  33342451 .
  22. ^ Aronson, E., Wilson, TD i Brewer, m. in. (1998). Metody eksperymentalne. W D. Gilbert, S. Fiske i G. Lindzey (red.), Podręcznik psychologii społecznej. (4th ed., Vol. 1, s. 99-142.) New York: Random House.
  23. ^ Hutchinson, J. Wesley; Kamakura, Wagner A.; Lynch, John G. (2000). „Nieobserwowana niejednorodność jako alternatywne wyjaśnienie efektów „odwrócenia” w badaniach behawioralnych”. Czasopismo Badań Konsumenckich . 27 (3): 324–344. doi : 10.1086/317588 . JSTOR  10.1086/317588 . S2CID  16353123 .
  24. ^ B Darley JM; Batson, CD (1973). „Z Jerozolimy do Jerycha: badanie zmiennych sytuacyjnych i dyspozycyjnych w zachowaniu pomagającym”. Dziennik Osobowości i Psychologii Społecznej . 27 : 100–108. doi : 10.1037/h0034449 .
  25. ^ Schwartz, SH; Gottlieb, A. (1976). „Reakcje świadków na gwałtowną kradzież: Zbrodnia w Jerozolimie”. Dziennik Osobowości i Psychologii Społecznej . 34 (6): 1188–1199. doi : 10.1037/0022-3514.34.6.1188 . PMID  1003323 .
  26. ^ Latane, B.; Dabbs, JM (1975). „Seks, wielkość grupy i pomoc w trzech miastach”. Socjometria . 38 (2): 108-194. doi : 10.2307/2786599 . JSTOR  2786599 .
  27. ^ Harrison, JA; Wells, RB (1991). „Wpływ obserwatora na męskie zachowania pomocowe: porównanie społeczne i dyfuzja odpowiedzialności”. Badania reprezentatywne w psychologii społecznej . 96 : 187–192.
  28. ^ Latane, B.; Darley, JM (1968). „Grupowe hamowanie interwencji świadka”. Dziennik Osobowości i Psychologii Społecznej . 10 (3): 215–221. doi : 10.1037/h0026570 . PMID  5704479 .
  29. ^ Hurley, D.; Allen, BP (1974). „Wpływ liczby osób znajdujących się w sytuacji nienadzwyczajnej”. Czasopismo Psychologii Społecznej . 92 : 27–29. doi : 10.1080/00224545.1974.9923068 .
  30. ^ Latane, B. i Darley, JM (1970). Nieodpowiadający obserwator: Dlaczego nie pomaga? Englewood Cliffs, NJ: Prentice Hall