Metaanaliza - Meta-analysis

Graficzne podsumowanie metaanalizy ponad 1000 przypadków rozlanego wewnętrznego glejaka mostu i innych glejaków pediatrycznych, w którym informacje na temat zaangażowanych mutacji oraz ogólnych wyników zostały wydestylowane z podstawowej literatury .

Metaanaliza jest analiza statystyczna, która łączy wyniki wielu badań naukowych . Metaanalizy można przeprowadzać, gdy istnieje wiele badań naukowych dotyczących tego samego pytania, przy czym każde badanie podaje pomiary, które mają być obarczone pewnym błędem. Celem jest zatem wykorzystanie podejść opartych na statystykach, aby uzyskać zbiorcze oszacowanie najbliższe nieznanej wspólnej prawdzie w oparciu o sposób postrzegania tego błędu.

Metaanalizy nie tylko dostarczają oszacowania nieznanej wspólnej prawdy, ale także potrafią porównywać wyniki z różnych badań i identyfikować wzorce między wynikami badań, źródła niezgodności między tymi wynikami lub inne interesujące związki, które mogą się ujawnić wiele badań.

Jednak przeprowadzając metaanalizę, badacz musi dokonać wyborów, które mogą mieć wpływ na wyniki, w tym decydować o tym, jak szukać badań, wybierać badania na podstawie zestawu obiektywnych kryteriów, radzić sobie z niekompletnymi danymi, analizować dane i uwzględniać lub decydując się nie uwzględniać stronniczości publikacji . Ocenianie dokonane podczas wykonywania metaanalizy może mieć wpływ na wyniki. Na przykład, Wanous i współpracownicy zbadali cztery pary metaanaliz na cztery tematy: (a) związek między wynikami pracy a satysfakcją, (b) realistycznymi podglądami pracy, (c) korelacjami konfliktu ról i niejednoznaczności oraz (d) pracą satysfakcję i nieobecność oraz zilustrowały, w jaki sposób różne wezwania wydane przez badaczy przyniosły różne wyniki.

Metaanalizy są często, choć nie zawsze, ważnymi elementami procedury przeglądu systematycznego . Na przykład metaanaliza może być przeprowadzona na kilku próbach klinicznych leczenia medycznego, w celu uzyskania lepszego zrozumienia, jak dobrze działa leczenie. W tym miejscu wygodnie jest stosować terminologię używaną przez Cochrane Collaboration i używać „metaanalizy” w odniesieniu do statystycznych metod łączenia dowodów, pozostawiając inne aspekty „ syntezy badań ” lub „syntezy dowodów”, takie jak łączenie informacji z jakościowych badania, dla bardziej ogólnego kontekstu przeglądów systematycznych. Metaanaliza jest źródłem wtórnym .

Historia

Historyczne korzenie metaanalizy sięgają XVII-wiecznych badań astronomicznych, podczas gdy artykuł opublikowany w 1904 roku przez statystyka Karla Pearsona w British Medical Journal, który zestawił dane z kilku badań nad inokulacją tyfusu, jest postrzegany jako pierwszy przypadek Do agregacji wyników wielu badań klinicznych zastosowano podejście metaanalityczne. Pierwsza metaanaliza wszystkich koncepcyjnie identycznych eksperymentów dotyczących konkretnego zagadnienia badawczego, przeprowadzona przez niezależnych badaczy, została zidentyfikowana jako publikacja książkowa z 1940 r., Percepcja pozazmysłowa po sześćdziesięciu latach , której autorami są psychologowie z Duke University: JG Pratt , JB Rhine i współpracownicy. Obejmowało to przegląd 145 raportów na temat eksperymentów ESP opublikowanych w latach 1882-1939 i zawierał oszacowanie wpływu niepublikowanych artykułów na ogólny efekt ( problem z szufladami ). Termin „metaanaliza” został ukuty w 1976 r. przez statystyka Gene V. Glassa , który stwierdził, że „obecnie interesuję się tym, co nazwaliśmy metaanalizą badań. , ale jest precyzyjny i trafny... Metaanaliza odnosi się do analizy analiz” . Chociaż doprowadziło to do tego, że został powszechnie uznany za współczesnego twórcę metody, metodologia stojąca za tym, co nazwał „metaanalizą”, wyprzedza jego pracę o kilka dekad. Teoria statystyczna dotycząca metaanalizy została znacznie rozwinięta przez prace Nambury S. Raju , Larry V. Hedgesa , Harrisa Coopera, Ingrama Olkina , Johna E. Huntera , Jacoba Cohena , Thomasa C. Chalmersa , Roberta Rosenthala , Franka L. Schmidta , John E. Hunter i Douglas G. Bonett. W 1992 roku metaanaliza została po raz pierwszy zastosowana do kwestii ekologicznych przez Jessicę Gurevitch, która wykorzystała metaanalizę do zbadania konkurencji w eksperymentach terenowych.

Kroki w metaanalizie

Metaanaliza jest zwykle poprzedzona przeglądem systematycznym, ponieważ pozwala to na identyfikację i krytyczną ocenę wszystkich istotnych dowodów (ograniczając w ten sposób ryzyko stronniczości w szacunkach zbiorczych). Ogólne kroki są wtedy następujące:

  1. Sformułowanie pytania badawczego np. za pomocą modelu PICO (Populacja, Interwencja, Porównanie, Wynik).
  2. Poszukiwanie literatury
  3. Wybór studiów („kryteria włączenia”)
    1. Na podstawie kryteriów jakości, np. wymogu randomizacji i zaślepienia w badaniu klinicznym
    2. Wybór konkretnych badań na ściśle określony temat, np. leczenie raka piersi.
    3. Zdecyduj, czy uwzględnić nieopublikowane badania, aby uniknąć stronniczości publikacji ( problem z szufladą plików )
  4. Zdecyduj, które zmienne zależne lub miary podsumowujące są dozwolone. Na przykład, rozważając metaanalizę opublikowanych (zagregowanych) danych:
    • Różnice (dane dyskretne)
    • Średnie (dane ciągłe)
    • g Hedgesa jest popularną miarą sumaryczną dla danych ciągłych, która jest standaryzowana w celu wyeliminowania różnic skali, ale zawiera indeks zmienności między grupami:
      1. gdzie jest średnią leczenia, jest średnią kontrolną, łączną wariancją.
  5. Wybór modelu metaanalizy, np. metaanaliza efektów stałych lub metaanaliza efektów losowych.
  6. Zbadaj źródła niejednorodności między badaniami , np. za pomocą analizy podgrup lub metaregresji .

Formalne wytyczne dotyczące prowadzenia i raportowania metaanaliz zawiera Podręcznik Cochrane .

Wskazówki dotyczące raportowania można znaleźć w oświadczeniu Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA).

Metody i założenia

Podejścia

Ogólnie rzecz biorąc, podczas przeprowadzania metaanalizy można wyróżnić dwa rodzaje dowodów: dane indywidualnego uczestnika (IPD) i dane zagregowane (AD). Zagregowane dane mogą być bezpośrednie lub pośrednie.

AD jest powszechniej dostępna (np. z literatury) i zazwyczaj reprezentuje sumaryczne szacunki, takie jak iloraz szans lub względne ryzyko. Można to bezpośrednio zsyntetyzować w ramach podobnych koncepcyjnie badań przy użyciu kilku podejść (patrz poniżej). Z drugiej strony, pośrednie dane zagregowane mierzą efekt dwóch terapii, z których każdy został porównany z podobną grupą kontrolną w metaanalizie. Na przykład, jeśli leczenie A i leczenie B zostały bezpośrednio porównane z placebo w oddzielnych metaanalizach, możemy wykorzystać te dwa połączone wyniki, aby uzyskać oszacowanie skutków A vs B w pośrednim porównaniu jako efekt A vs placebo minus efekt B w porównaniu z placebo.

Dowody IPD stanowią surowe dane zebrane przez ośrodki badawcze. To rozróżnienie wzbudziło potrzebę różnych metod metaanalitycznych, gdy pożądana jest synteza dowodów, i doprowadziło do opracowania metod jednoetapowych i dwuetapowych. W metodach jednoetapowych IPD ze wszystkich badań są modelowane jednocześnie, z uwzględnieniem grupowania uczestników w badaniach. Metody dwuetapowe najpierw obliczają statystyki podsumowujące AD ​​z każdego badania, a następnie obliczają ogólne statystyki jako średnią ważoną statystyk badania. Redukując IPD do AD, metody dwuetapowe mogą być również stosowane, gdy IPD jest dostępne; to czyni je atrakcyjnym wyborem podczas przeprowadzania metaanalizy. Chociaż powszechnie uważa się, że metody jednoetapowe i dwuetapowe dają podobne wyniki, ostatnie badania wykazały, że mogą czasami prowadzić do odmiennych wniosków.

Modele statystyczne dla danych zagregowanych

Dowody bezpośrednie: modele uwzględniające tylko efekty badania

Naprawiono model efektów

Model z efektem stałym zapewnia średnią ważoną serii oszacowań badania. Odwrotność wariancji oszacowań jest powszechnie używana jako waga badania, tak więc większe badania mają tendencję do wnoszenia więcej niż mniejsze badania do średniej ważonej. W konsekwencji, gdy badania w ramach metaanalizy są zdominowane przez bardzo duże badanie, wyniki mniejszych badań są praktycznie ignorowane. Co najważniejsze, model efektów stałych zakłada, że ​​wszystkie uwzględnione badania obejmują tę samą populację, wykorzystują te same definicje zmiennych i wyników itp. Założenie to jest zazwyczaj nierealistyczne, ponieważ badania są często podatne na kilka źródeł niejednorodności ; np. efekty leczenia mogą się różnić w zależności od lokalizacji, poziomów dawkowania, warunków badania, ...

Model efektów losowych

Powszechnym modelem używanym do syntezy badań heterogenicznych jest model efektów losowych metaanalizy. Jest to po prostu średnia ważona wielkości efektów grupy badań. Waga stosowana w tym procesie uśredniania ważonego z metaanalizą efektów losowych jest osiągana w dwóch etapach:

  1. Krok 1: Odwrotne ważenie wariancji
  2. Krok 2: Odważenie tego ważenia wariancji odwrotnej przez zastosowanie składnika wariancji efektów losowych (REVC), który jest po prostu wyprowadzony z zakresu zmienności wielkości efektu w badaniach podstawowych.

Oznacza to, że im większa jest ta zmienność wielkości efektu (inaczej znana jako niejednorodność ), tym większe nieważenie, a to może osiągnąć punkt, w którym wynik metaanalizy efektów losowych stanie się po prostu nieważoną średnią wielkością efektu w badaniach. Z drugiej strony, gdy wszystkie wielkości efektów są podobne (lub zmienność nie przekracza błędu próbkowania), nie stosuje się REVC, a metaanaliza efektów losowych jest domyślnie po prostu metaanalizą z efektem stałym (tylko odwrotne ważenie wariancji).

Zakres tego odwrócenia zależy wyłącznie od dwóch czynników:

  1. Heterogeniczność precyzji
  2. Niejednorodność wielkości efektu

Ponieważ żaden z tych czynników automatycznie nie wskazuje na wadliwe większe badanie lub bardziej wiarygodne mniejsze badania, redystrybucja wag w ramach tego modelu nie będzie miała związku z tym, co te badania faktycznie mogą zaoferować. Rzeczywiście, wykazano, że redystrybucja wag jest po prostu w jednym kierunku, od większych do mniejszych badań, w miarę jak wzrasta niejednorodność, aż w końcu wszystkie badania mają taką samą wagę i żadna redystrybucja nie jest możliwa. Innym problemem związanym z modelem efektów losowych jest to, że najczęściej używane przedziały ufności na ogół nie zachowują prawdopodobieństwa pokrycia powyżej określonego poziomu nominalnego, a zatem znacznie zaniżają błąd statystyczny i są potencjalnie zbyt ufne w swoich wnioskach. Zasugerowano kilka poprawek, ale debata trwa. Kolejną obawą jest to, że średni efekt leczenia może być czasami nawet mniej konserwatywny w porównaniu z modelem z efektem stałym, a zatem może wprowadzać w błąd w praktyce. Jednym z proponowanych rozwiązań interpretacyjnych jest utworzenie przedziału predykcji wokół oszacowania efektów losowych, aby przedstawić zakres możliwych efektów w praktyce. Jednak założeniem obliczania takiego przedziału predykcyjnego jest to, że badania są uważane za mniej lub bardziej jednorodne jednostki, a uwzględnione populacje pacjentów i leczenie porównawcze należy uznać za wymienne, co zwykle jest nieosiągalne w praktyce.

Najczęściej stosowaną metodą szacowania wariancji między badaniami (REVC) jest podejście DerSimonian-Laird (DL). Istnieje kilka zaawansowanych iteracyjnych (i kosztownych obliczeniowo) technik obliczania wariancji między badaniami (takich jak metody maksymalnego prawdopodobieństwa, profilu prawdopodobieństwa i ograniczone metody największej prawdopodobieństwa), a modele efektów losowych wykorzystujące te metody można uruchomić w programie Stata za pomocą polecenia metaan. Polecenie metaan należy odróżnić od klasycznego polecenia metan (pojedyncze „a”) w Stata, które używa estymatora DL. Te zaawansowane metody zostały również zaimplementowane w darmowym i łatwym w użyciu dodatku Microsoft Excel, MetaEasy. Jednak porównanie między tymi zaawansowanymi metodami a metodą DL obliczania wariancji między badaniami wykazało, że niewiele można zyskać, a DL jest całkiem adekwatna w większości scenariuszy.

Jednak większość metaanaliz obejmuje od 2 do 4 badań, a taka próba jest często niewystarczająca do dokładnego oszacowania heterogeniczności . Wydaje się zatem, że w małych metaanalizach uzyskuje się nieprawidłowe zero między oszacowaniami wariancji badania, co prowadzi do fałszywego założenia jednorodności. Ogólnie rzecz biorąc, wydaje się, że niejednorodność jest konsekwentnie niedoceniana w metaanalizach, a analizy wrażliwości, w których zakłada się wysoki poziom niejednorodności, mogą być pouczające. Te modele efektów losowych i pakiety oprogramowania, o których mowa powyżej, odnoszą się do metaanaliz zbiorczych badań, a badacze chcący przeprowadzić metaanalizy danych indywidualnych pacjentów (IPD) muszą rozważyć podejścia do modelowania efektów mieszanych.

Model IVhet

Doi i Barendregt we współpracy z Khan, Thalib i Williams (z University of Queensland, University of Southern Queensland i Kuwait University), stworzyli odwrotną wariancję opartą na quasi-prawdopodobieństwie alternatywy (IVhet) do modelu efektów losowych (RE), dla którego szczegóły są dostępne online. Zostało to włączone do MetaXL w wersji 2.0, bezpłatnego dodatku Microsoft Excel do metaanalizy, wyprodukowanego przez Epigear International Pty Ltd i udostępnionego 5 kwietnia 2014 r. Autorzy twierdzą, że wyraźną zaletą tego modelu jest to, że rozwiązuje te dwa główne problemy modelu efektów losowych. Pierwszą zaletą modelu IVhet jest to, że pokrycie pozostaje na poziomie nominalnym (zwykle 95%) dla przedziału ufności, w przeciwieństwie do modelu efektów losowych, który spada wraz ze wzrostem niejednorodności. Drugą zaletą jest to, że model IVhet zachowuje odwrotne wagi wariancji poszczególnych badań, w przeciwieństwie do modelu RE, który daje małym badaniom większą wagę (a zatem mniejszym badaniom) przy rosnącej heterogeniczności. Gdy niejednorodność staje się duża, wagi poszczególnych badań w modelu RE stają się równe, a zatem model RE zwraca średnią arytmetyczną, a nie średnią ważoną. Ten efekt uboczny modelu RE nie występuje w modelu IVhet, który tym samym różni się od oszacowania modelu RE z dwóch perspektyw: Oszacowania zbiorcze będą faworyzować większe badania (w przeciwieństwie do karania większych badań w modelu RE) i będą miały pewność przedział, który pozostaje w zakresie nominalnego pokrycia w warunkach niepewności (heterogeniczność). Doi i Barendregt sugerują, że chociaż model RE zapewnia alternatywną metodę łączenia danych z badania, ich wyniki symulacji pokazują, że użycie bardziej szczegółowego modelu prawdopodobieństwa z niemożliwymi do przyjęcia założeniami, tak jak w przypadku modelu RE, niekoniecznie zapewnia lepsze wyniki. To ostatnie badanie donosi również, że model IVhet rozwiązuje problemy związane z niedoszacowaniem błędu statystycznego, słabym pokryciem przedziału ufności i zwiększonym MSE obserwowanym w modelu efektów losowych, a autorzy wnioskują, że naukowcy powinni odtąd zrezygnować z używania modelu efektów losowych w metaanalizie. Chociaż ich dane są przekonujące, konsekwencje (pod względem wielkości fałszywie pozytywnych wyników w bazie danych Cochrane) są ogromne, a zatem przyjęcie tego wniosku wymaga starannego niezależnego potwierdzenia. Dostępność bezpłatnego oprogramowania (MetaXL), które obsługuje model IVhet (i wszystkie inne modele dla porównania) ułatwia to społeczności naukowej.

Dowody bezpośrednie: modele zawierające dodatkowe informacje

Model efektów jakości

Doi i Thalib pierwotnie wprowadzili model efektów jakościowych. Wprowadzili nowe podejście do korekty dla zmienności między badaniami poprzez uwzględnienie wkładu wariancji wynikającej z odpowiedniego komponentu (jakości) oprócz wkładu wariancji spowodowanej błędem losowym, który jest używany w dowolnym modelu metaanalizy efektów stałych w celu wygenerowania wagi dla każdego badania. Siła metaanalizy efektów jakości polega na tym, że pozwala ona na wykorzystanie dostępnych dowodów metodologicznych nad subiektywnymi efektami losowymi, a tym samym pomaga zlikwidować szkodliwą lukę, która otworzyła się między metodologią a statystyką w badaniach klinicznych. W tym celu oblicza się syntetyczną wariancję błędu systematycznego na podstawie informacji o jakości w celu dostosowania wag wariancji odwrotnej i wprowadza się wagę skorygowaną o jakość i- tego badania. Te skorygowane wagi są następnie wykorzystywane w metaanalizie. Innymi słowy, jeśli badanie i jest dobrej jakości, a inne badania są słabej jakości, część ich skorygowanych wag pod względem jakości jest matematycznie redystrybuowana do badania i, nadając im większą wagę w stosunku do ogólnej wielkości efektu. Ponieważ badania stają się coraz bardziej podobne pod względem jakości, redystrybucja staje się stopniowo mniejsza i ustaje, gdy wszystkie badania są równej jakości (w przypadku równej jakości model efektów jakości domyślnie przyjmuje model IVhet – patrz poprzedni rozdział). Niedawna ocena modelu efektów jakościowych (z pewnymi aktualizacjami) pokazuje, że pomimo subiektywnej oceny jakości, wydajność (MSE i rzeczywista wariancja w symulacji) jest lepsza od osiągalnej w modelu efektów losowych. Model ten zastępuje zatem nie do przyjęcia interpretacje, które obfitują w literaturę, a dostępne jest oprogramowanie do dalszego badania tej metody.

Dowody pośrednie: Metody metaanalizy sieci

Metaanaliza sieci dotyczy porównań pośrednich. Na obrazie A zostało przeanalizowane w stosunku do C i C zostało przeanalizowane w stosunku do b. Jednak związek między A i B jest znany tylko pośrednio, a metaanaliza sieciowa analizuje takie pośrednie dowody różnic między metodami i interwencjami przy użyciu metody statystycznej.

Metody metaanalizy porównań pośrednich (nazywane również metaanalizami sieciowymi, w szczególności w przypadku jednoczesnej oceny wielu zabiegów) zazwyczaj wykorzystują dwie główne metodologie. Pierwsza to metoda Buchera, która jest pojedynczym lub wielokrotnym porównaniem zamkniętej pętli trzech zabiegów, tak że jeden z nich jest wspólny dla dwóch badań i tworzy węzeł, w którym pętla się zaczyna i kończy. W związku z tym, aby porównać wiele terapii, potrzebne są wielokrotne porównania dwa na dwa (3 pętle leczenia). Ta metodologia wymaga, aby w badaniach z więcej niż dwoma ramionami wybrano tylko dwa ramiona, ponieważ wymagane są niezależne porównania parami. Alternatywna metodologia wykorzystuje złożone modelowanie statystyczne, aby uwzględnić jednocześnie wiele prób i porównań między wszystkimi konkurującymi terapiami. Zostały one wykonane przy użyciu metod bayesowskich, mieszanych modeli liniowych i metod meta-regresji.

Framework bayesowski

Określenie modelu metaanalizy sieci bayesowskiej polega na napisaniu ukierunkowanego modelu grafu acyklicznego (DAG) dla ogólnego oprogramowania do łańcuchów Markowa Monte Carlo (MCMC), takiego jak WinBUGS. Ponadto dla wielu parametrów należy określić wcześniejsze rozkłady, a dane muszą być dostarczone w określonym formacie. Razem DAG, priory i dane tworzą bayesowski model hierarchiczny. Aby jeszcze bardziej skomplikować sprawy, ze względu na charakter szacowania MCMC, nadmiernie rozproszone wartości początkowe muszą być wybrane dla wielu niezależnych łańcuchów, aby można było ocenić zbieżność. Obecnie nie ma oprogramowania, które automatycznie generuje takie modele, chociaż istnieją narzędzia wspomagające ten proces. Złożoność podejścia bayesowskiego ogranicza wykorzystanie tej metodologii. Zaproponowano metodologię automatyzacji tej metody, ale wymaga ona, aby dane wynikowe na poziomie grupy były dostępne, a to zwykle jest niedostępne. Czasami wysuwane są wielkie twierdzenia dotyczące nieodłącznej zdolności struktury bayesowskiej do obsługi metaanalizy sieci i jej większej elastyczności. Jednak ten wybór implementacji ram wnioskowania, bayesowskiego lub częstostycznego, może być mniej ważny niż inne wybory dotyczące modelowania efektów (patrz omówienie modeli powyżej).

Frequentystyczna platforma wielowymiarowa

Z drugiej strony, metody częstościowej wielowymiarowej obejmują przybliżenia i założenia, które nie są wyraźnie określone lub zweryfikowane, gdy metody są stosowane (patrz omówienie modeli metaanalizy powyżej). Na przykład pakiet mvmeta dla Stata umożliwia metaanalizę sieci w ramach częstości. Jeśli jednak w sieci nie ma wspólnego komparatora, należy to obsłużyć, rozszerzając zbiór danych fikcyjnymi ramionami o wysokiej wariancji, co nie jest zbyt obiektywne i wymaga decyzji, co stanowi wystarczająco wysoką wariancję. Inną kwestią jest wykorzystanie modelu efektów losowych zarówno w ramach częstościowej, jak i bayesowskiej. Senn radzi analitykom, aby ostrożnie interpretowali analizę „losowych efektów”, ponieważ dozwolony jest tylko jeden losowy efekt, ale można sobie wyobrazić wiele. Senn mówi dalej, że jest to raczej naiwne, nawet w przypadku, gdy porównuje się tylko dwie terapie, zakładając, że analiza efektów losowych wyjaśnia całą niepewność co do sposobu, w jaki efekty mogą się różnić w zależności od próby. Nowsze modele metaanalizy, takie jak te omówione powyżej, z pewnością pomogłyby złagodzić tę sytuację i zostały zaimplementowane w kolejnych ramach.

Uogólnione ramy modelowania parami

Podejściem wypróbowanym od późnych lat 90. jest zastosowanie analizy zamkniętej pętli wielokrotnych trzech zabiegów. Nie jest to popularne, ponieważ proces ten szybko staje się przytłaczający wraz ze wzrostem złożoności sieci. Rozwój w tej dziedzinie został następnie porzucony na rzecz metod bayesowskich i wielowymiarowych, które pojawiły się jako alternatywy. Niedawno niektórzy badacze opracowali automatyzację metody zamkniętej pętli trzech zabiegów dla złożonych sieci, aby udostępnić tę metodologię społeczności badawczej głównego nurtu. Ta propozycja ogranicza każdą próbę do dwóch interwencji, ale wprowadza również obejście dla prób z wieloma ramionami: w różnych seriach można wybrać inny stały węzeł kontrolny. Wykorzystuje również solidne metody metaanalizy, dzięki czemu można uniknąć wielu problemów wskazanych powyżej. Konieczne są dalsze badania wokół tej struktury, aby ustalić, czy rzeczywiście jest ona lepsza od ram bayesowskich lub wielowymiarowych częstości. Badacze, którzy chcą to wypróbować, mają dostęp do tej struktury za pośrednictwem bezpłatnego oprogramowania.

Dopasowana metaanaliza

Inna forma dodatkowych informacji pochodzi z zamierzonego ustawienia. Jeżeli znane jest docelowe ustawienie stosowania wyników metaanalizy, możliwe jest wykorzystanie danych z ustawienia w celu dostosowania wyników, tworząc w ten sposób „dostosowaną metaanalizę”. Zostało to wykorzystane w metaanalizach dotyczących dokładności testów, gdzie empiryczna wiedza na temat wskaźnika pozytywnych wyników testu i częstości występowania została wykorzystana do wyznaczenia obszaru w przestrzeni charakterystyki operacyjnej odbiornika (ROC), znanego jako „obszar możliwy do zastosowania”. Badania są następnie wybierane do ustawienia docelowego w oparciu o porównanie z tym regionem i agregowane w celu uzyskania podsumowania, które jest dostosowane do ustawienia docelowego.

Agregacja IPD i AD

Metaanalizę można również zastosować do połączenia IPD i AD. Jest to wygodne, gdy badacze przeprowadzający analizę dysponują własnymi surowymi danymi podczas zbierania danych zagregowanych lub sumarycznych z literatury. Uogólniony model integracji (GIM) jest uogólnieniem metaanalizy. Pozwala to na to, że model dopasowany do danych indywidualnego uczestnika (IPD) różni się od tych użytych do obliczenia danych zagregowanych (AD). GIM może być postrzegany jako metoda kalibracji modelu do integracji informacji z większą elastycznością.

Walidacja wyników metaanalizy

Oszacowanie z metaanalizy reprezentuje średnią ważoną z różnych badań, a gdy występuje niejednorodność, może to spowodować, że oszacowanie podsumowujące nie będzie reprezentatywne dla poszczególnych badań. Ocena jakościowa badań pierwotnych przy użyciu ustalonych narzędzi może ujawnić potencjalne błędy systematyczne, ale nie określa ilościowo łącznego wpływu tych błędów systematycznych na oszacowanie zbiorcze. Chociaż wynik metaanalizy można porównać z niezależnym prospektywnym badaniem pierwotnym, taka zewnętrzna walidacja jest często niepraktyczna. Doprowadziło to do opracowania metod wykorzystujących formę walidacji krzyżowej typu „leść -jeden-out” , czasami określanej jako walidacja krzyżowa wewnętrzna-zewnętrzna (IOCV). W tym przypadku każde z włączonych badań k jest kolejno pomijane i porównywane z sumarycznym oszacowaniem uzyskanym z agregacji pozostałych badań k-1. Ogólna statystyka walidacyjna Vn oparta na IOCV została opracowana w celu pomiaru trafności statystycznej wyników metaanalizy. Dla dokładności testu i przewidywania, szczególnie gdy występują efekty wielowymiarowe, zaproponowano również inne podejścia, które mają na celu oszacowanie błędu przewidywania.

Wyzwania

Metaanaliza kilku małych badań nie zawsze przewiduje wyniki jednego dużego badania. Niektórzy argumentowali, że słabość metody polega na tym, że źródła błędów nie są przez nią kontrolowane: dobra metaanaliza nie może skorygować złego projektu lub błędu w oryginalnych badaniach. Oznaczałoby to, że do metaanalizy należy włączyć jedynie badania rzetelne metodologicznie, praktykę zwaną „syntezą najlepszych dowodów”. Inni metaanalitycy włączyliby słabsze badania i dodaliby zmienną predykcyjną na poziomie badania, która odzwierciedla jakość metodologiczną badań, aby zbadać wpływ jakości badania na wielkość efektu. Jednak inni argumentowali, że lepszym podejściem jest zachowanie informacji o wariancji w próbie badawczej, zarzucanie jak najszerszej sieci, oraz że metodologiczne kryteria doboru wprowadzają niepożądaną subiektywność, niwecząc cel podejścia.

Stronniczość publikacji: problem z szufladą plików

Oczekiwano wykresu lejkowego bez problemu z szufladą plików. Największe badania zbiegają się na końcu, podczas gdy mniejsze badania pokazują mniej więcej symetryczne rozproszenie u podstawy
Oczekiwano wykresu lejkowego w przypadku problemu z szufladą plików. Największe badania nadal skupiają się wokół końcówki, ale uprzedzenie do publikowania negatywnych badań spowodowało, że mniejsze badania jako całość mają nieuzasadniony korzystny wynik dla hipotezy

Inną potencjalną pułapką jest poleganie na dostępnym zbiorze opublikowanych badań, co może prowadzić do przesadnych wyników ze względu na stronniczość publikacji , ponieważ istnieje mniejsze prawdopodobieństwo opublikowania badań, które wykazują wyniki negatywne lub nieistotne . Na przykład firmy farmaceutyczne znane są z ukrywania negatywnych badań, a naukowcy mogli przeoczyć nieopublikowane badania, takie jak prace doktorskie lub streszczenia z konferencji, które nie dotarły do ​​​​publikacji. Nie jest to łatwe do rozwiązania, ponieważ nie wiadomo, ile badań nie zostało zgłoszonych.

Ten problem szuflady na akta (charakteryzujący się negatywnymi lub nieistotnymi wynikami schowanymi do szafki) może skutkować nieobiektywnym rozkładem wielkości efektów, tworząc w ten sposób poważny błąd wskaźnika bazowego , w którym znaczenie opublikowanych badań jest przeceniane, ponieważ inne badania albo nie zostały przesłane do publikacji, albo zostały odrzucone. Należy to poważnie rozważyć podczas interpretacji wyników metaanalizy.

Rozkład wielkości efektów można zwizualizować za pomocą wykresu lejkowego, który (w swojej najczęstszej wersji) jest wykresem punktowym błędu standardowego w funkcji wielkości efektu. Wykorzystuje fakt, że mniejsze badania (a więc większe błędy standardowe) mają większy rozrzut wielkości efektu (będąc mniej precyzyjnymi), podczas gdy większe badania mają mniejszy rozrzut i tworzą wierzchołek lejka. Jeśli nie opublikowano wielu negatywnych badań, pozostałe pozytywne badania dają początek wykresie lejka, w którym podstawa jest przekrzywiona w jedną stronę (asymetria wykresu lejka). W przeciwieństwie do tego, gdy nie ma stronniczości publikacji, efekt mniejszych badań nie ma powodu, aby był przekrzywiony w jedną stronę, a więc powstaje symetryczny wykres lejkowy. Oznacza to również, że jeśli nie występuje błąd publikacji, nie byłoby związku między błędem standardowym a wielkością efektu. Negatywny lub pozytywny związek między błędem standardowym a wielkością efektu oznaczałby, że mniejsze badania, w których stwierdzono efekty tylko w jednym kierunku, z większym prawdopodobieństwem zostaną opublikowane i/lub przedłożone do publikacji.

Oprócz wizualnego wykresu lejka zaproponowano również statystyczne metody wykrywania błędów publikacji. Są one kontrowersyjne, ponieważ zazwyczaj mają niską moc wykrywania stronniczości, ale w pewnych okolicznościach mogą również powodować fałszywe alarmy. Na przykład małe efekty badań (obciążone mniejsze badania), w których istnieją różnice metodologiczne między mniejszymi i większymi badaniami, mogą powodować asymetrię wielkości efektów, która przypomina stronniczość publikacji. Jednak niewielkie efekty badań mogą być równie problematyczne dla interpretacji metaanaliz, a autorzy metaanalizy muszą koniecznie zbadać potencjalne źródła stronniczości.

Zaproponowano metodę tandemową do analizy stronniczości publikacji w celu ograniczenia problemów z fałszywie dodatnimi błędami. Ta metoda Tandem składa się z trzech etapów. Po pierwsze, oblicza się bezpieczne N Orwina, aby sprawdzić, ile badań należy dodać, aby zredukować statystykę testową do trywialnego rozmiaru. Jeśli ta liczba badań jest większa niż liczba badań wykorzystanych w metaanalizie, to znak, że nie ma stronniczości publikacyjnej, gdyż w takim przypadku potrzeba wielu badań, aby zmniejszyć wielkość efektu. Po drugie, można wykonać test regresji Eggera, który sprawdza, czy wykres lejka jest symetryczny. Jak wspomniano wcześniej: symetryczny wykres lejkowy jest znakiem, że nie ma błędu publikacji, ponieważ wielkość efektu i wielkość próby nie są zależne. Po trzecie, można zastosować metodę przycinania i wypełniania, która imputuje dane, jeśli wykres lejka jest asymetryczny.

Problem stronniczości publikacji nie jest trywialny, ponieważ sugeruje się, że 25% metaanaliz w naukach psychologicznych mogło ucierpieć z powodu stronniczości publikacji. Problemem pozostaje jednak niska moc istniejących testów i problemy z wizualnym wyglądem wykresu lejka, a oszacowania błędu publikacji mogą pozostać niższe niż w rzeczywistości.

Większość dyskusji na temat stronniczości publikacji koncentruje się na praktykach czasopism, które sprzyjają publikowaniu istotnych statystycznie wyników. Jednak wątpliwe praktyki badawcze, takie jak przerabianie modeli statystycznych aż do osiągnięcia istotności, mogą również faworyzować statystycznie istotne ustalenia na poparcie hipotez badaczy.

Problemy związane z badaniami nieraportującymi efektów nieistotnych statystycznie

Badania często nie zgłaszają efektów, gdy nie osiągają one istotności statystycznej. Na przykład mogą po prostu powiedzieć, że grupy nie wykazywały statystycznie istotnych różnic, bez podawania jakichkolwiek innych informacji (np. statystyki lub wartości p). Wyłączenie tych badań doprowadziłoby do sytuacji podobnej do błędu publikacyjnego, ale ich włączenie (przy założeniu efektu zerowego) również obciążyłoby metaanalizę. MetaNSUE, metoda stworzona przez Joaquima Raduę , pozwala naukowcom na bezstronne uwzględnienie tych badań. Jego kroki są następujące:

Problemy związane z podejściem statystycznym

Inne słabości polegają na tym, że nie ustalono, czy statystycznie najdokładniejszą metodą łączenia wyników są modele z efektami stałymi, IVhet, losowymi czy jakościowymi, chociaż krytyka wobec modelu z efektami losowymi narasta z powodu przekonania, że ​​nowe efekty losowe ( stosowane w metaanalizie) są zasadniczo formalnymi urządzeniami ułatwiającymi wygładzanie lub kurczenie, a przewidywanie może być niemożliwe lub nierozważne. Główny problem z podejściem efektów losowych polega na tym, że wykorzystuje ono klasyczną myśl statystyczną polegającą na generowaniu „estymatora kompromisowego”, który sprawia, że ​​wagi są zbliżone do estymatora ważonego naturalnie, jeśli heterogeniczność w badaniach jest duża, ale zbliżona do estymatora ważonego odwrotną wariancją, jeśli między heterogeniczność badania jest niewielka. Pominięto jednak rozróżnienie między modelem, który wybieramy do analizy danego zbioru danych, a mechanizmem, dzięki któremu dane powstały . W każdej z tych ról może występować efekt losowy, ale te dwie role są zupełnie różne. Nie ma powodu, by sądzić, że model analizy i mechanizm generowania danych (model) mają podobną formę, ale wiele poddziedzin statystyki wykształciło zwyczaj zakładania w teorii i symulacji, że mechanizm generowania danych (model) jest identyczny z wybranym przez nas modelem analizy (lub chcielibyśmy, aby inni wybrali). Jako hipotetyczny mechanizm generowania danych, model efektu losowego dla metaanalizy jest głupi i lepiej jest myśleć o tym modelu jako o powierzchownym opisie i czymś, co wybieramy jako narzędzie analityczne – ale ten wybór dla metaanalizy może nie działa, ponieważ efekty badania są stałą cechą odpowiedniej metaanalizy, a rozkład prawdopodobieństwa jest jedynie narzędziem opisowym.

Problemy wynikające ze stronniczości kierowanej agendą

Najpoważniejszy błąd w metaanalizie często pojawia się, gdy osoba lub osoby przeprowadzające metaanalizę mają cel ekonomiczny , społeczny lub polityczny, taki jak uchwalenie lub pokonanie ustawodawstwa . Osoby z tego rodzaju programami mogą częściej nadużywać metaanalizy z powodu osobistych uprzedzeń . Na przykład, badacze przychylnie nastawieni do programu autora będą prawdopodobnie wybierali swoje badania, podczas gdy te nieprzychylne zostaną zignorowane lub oznaczone jako „niewiarygodne”. Ponadto uprzywilejowani autorzy mogą sami być stronniczy lub opłacani, aby uzyskać wyniki, które wspierają ich ogólne cele polityczne, społeczne lub gospodarcze w taki sposób, jak wybór małych korzystnych zestawów danych i nieuwzględnianie większych, niekorzystnych zestawów danych. Wpływ takich błędów na wyniki metaanalizy jest możliwy, ponieważ metodologia metaanalizy jest wysoce plastyczna.

W badaniu z 2011 r. przeprowadzonym w celu ujawnienia możliwych konfliktów interesów w podstawowych badaniach naukowych wykorzystywanych do metaanaliz medycznych dokonano przeglądu 29 metaanaliz i stwierdzono, że konflikty interesów w badaniach leżących u podstaw metaanaliz były rzadko ujawniane. Wśród 29 metaanaliz znalazło się 11 z czasopism medycyny ogólnej, 15 z czasopism medycyny specjalistycznej i trzy z Cochrane Database of Systematic Reviews . W 29 metaanalizach dokonano przeglądu łącznie 509 randomizowanych badań kontrolowanych (RCT). Spośród nich 318 RCT zgłosiło źródła finansowania, a 219 (69%) otrzymało finansowanie z przemysłu (tj. co najmniej jeden autor ma powiązania finansowe z przemysłem farmaceutycznym). Spośród 509 badań z randomizacją 132 zgłosiło ujawnienie konfliktu interesów autorów, a w 91 badaniach (69%) ujawniono jednego lub więcej autorów mających powiązania finansowe z przemysłem. Informacje te rzadko jednak znajdowały odzwierciedlenie w metaanalizach. Tylko dwa (7%) zgłosiły źródła finansowania RCT, a żaden nie zgłosił powiązań RCT z branżą autorską. Autorzy doszli do wniosku, że „bez potwierdzenia COI ze względu na finansowanie przemysłu lub powiązania finansowe przemysłu autorskiego z RCT uwzględnionych w metaanalizach, zrozumienie i ocena czytelników z metaanalizy mogą być zagrożone”.

Na przykład w 1998 r. amerykański sędzia federalny stwierdził, że Agencja Ochrony Środowiska Stanów Zjednoczonych nadużyła procesu metaanalizy w celu opracowania badania, w którym stwierdza się, że osoby niepalące są narażone na raka w wyniku środowiskowego dymu tytoniowego (ETS) z zamiarem wpłynięcia na decydentów. uchwalać przepisy antynikotynowe w miejscu pracy. Sędzia stwierdził, że:

Wybór badań EPA jest niepokojący. Po pierwsze, w aktach znajdują się dowody na poparcie oskarżenia, że ​​EPA „wiśnia wybrała” jej dane. Bez kryteriów łączenia badań w metaanalizę sąd nie może ustalić, czy wykluczenie badań, które mogą obalić a priori hipotezę EPA, było przypadkowe, czy celowe. Po drugie, wyłączenie przez EPA prawie połowy dostępnych badań bezpośrednio stoi w sprzeczności z rzekomym celem EPA dotyczącym analizy badań epidemiologicznych oraz jest sprzeczne z Wytycznymi EPA dotyczącymi oceny ryzyka. Patrz Ocena Ryzyka ETS na 4-29 („Te dane powinny być również przeanalizowane w celu rozważenia wszystkich dostępnych dowodów , zgodnie z zaleceniami EPA dotyczącymi oceny ryzyka rakotwórczego (US EPA, 1986a) (podkreślenie dodane)). Po trzecie, selektywność EPA wykorzystanie danych jest sprzeczne z Ustawą o badaniach nad radonem Ustawa stanowi, że program EPA ma „zbierać dane i informacje dotyczące wszystkich aspektów jakości powietrza w pomieszczeniach” (Ustawa o badaniach nad radonem § 403(a)(1)) (podkreślenie dodane).

W wyniku nadużycia sąd uchylił rozdziały 1–6 i załączniki do dokumentu EPA „Skutki biernego palenia na układ oddechowy: rak płuc i inne zaburzenia”.

Słabe standardy integracji prowadzą do mylących wniosków

Metaanalizy w edukacji często nie są wystarczająco restrykcyjne, jeśli chodzi o jakość metodologiczną zawartych w nich badań. Na przykład badania, które obejmują małe próby lub pomiary wykonane przez badaczy, prowadzą do zawyżonych szacunków wielkości efektu.

Zastosowania we współczesnej nauce

Współczesna metaanaliza statystyczna to coś więcej niż tylko połączenie wielkości efektów zestawu badań przy użyciu średniej ważonej. Może sprawdzić, czy wyniki badań wykazują większą zmienność niż oczekiwana zmienność ze względu na próbkowanie różnej liczby uczestników badania. Dodatkowo cechy badania, takie jak zastosowany instrument pomiarowy, próbka populacji lub aspekty projektu badań, mogą być kodowane i wykorzystywane w celu zmniejszenia wariancji estymatora (patrz modele statystyczne powyżej). W ten sposób niektóre słabości metodologiczne w badaniach można skorygować statystycznie. Inne zastosowania metod metaanalitycznych obejmują opracowywanie i walidację klinicznych modeli predykcyjnych, w których metaanaliza może być wykorzystana do łączenia danych indywidualnych uczestników z różnych ośrodków badawczych oraz do oceny możliwości uogólnienia modelu, a nawet do agregowania istniejących modeli predykcyjnych.

Metaanalizę można przeprowadzić zarówno w przypadku projektów jednoprzedmiotowych, jak i projektów badań grupowych. Jest to ważne, ponieważ wiele badań zostało wykonanych z projektami badań jednoprzedmiotowych . Istnieje spora dyskusja na temat najbardziej odpowiedniej techniki metaanalitycznej dla badań jednotematycznych.

Metaanaliza prowadzi do przesunięcia nacisku z pojedynczych badań na wiele badań. Podkreśla praktyczne znaczenie wielkości efektu zamiast statystycznej istotności poszczególnych badań. Ta zmiana myślenia została nazwana „myśleniem metaanalitycznym”. Wyniki metaanalizy są często przedstawiane na poletku leśnym .

Wyniki badań są łączone przy użyciu różnych podejść. Jedno podejście często stosowane w metaanalizie w badaniach opieki zdrowotnej nosi nazwę " metody odwrotnej wariancji ". Średnia wielkość efektu we wszystkich badaniach jest obliczana jako średnia ważona , przy czym wagi są równe odwrotnej wariancji estymatora efektu każdego badania. Większym badaniom i badaniom o mniejszej zmienności losowej przypisuje się większą wagę niż mniejszym badaniom. Inne popularne podejścia obejmują metodę Mantela-Haenszela i metodę Peto .

Mapowanie d oparte na nasionach (dawniej oznaczane mapowanie różnicowe, SDM) jest techniką statystyczną do metaanalizy badań nad różnicami w aktywności lub strukturze mózgu, która wykorzystuje techniki neuroobrazowania, takie jak fMRI, VBM lub PET.

Do zrozumienia ekspresji genów wykorzystano różne techniki o wysokiej przepustowości, takie jak mikromacierze . MicroRNA profile ekspresji użyto do identyfikacji różnicowo wyrażane mikroRNA w szczególnych warunkach typu komórki lub tkanki, choroby lub w celu sprawdzenia efektu leczenia. Przeprowadzono metaanalizę takich profili ekspresji, aby wyciągnąć nowe wnioski i zweryfikować znane odkrycia.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki