Anonim

A bizonyítékok felhasználása különbözteti meg az orvosokat a tenyérolvasóktól. A bizonyítékok megakadályozzák, hogy becsapjuk magunkat. Ez elrontja a hubriksunkat.

Néhány szakértő klinikus azonban helyesen kritizálta a bizonyítékokon alapuló gyakorlat túlzott felhasználását, mert ez elgondolkodhatatlan algoritmikus gyógymódhoz vezethet. Ez a fajta gyakorlat félelmetes, mert a bizonyítékok ritkán adnak könnyű válaszokat, mint például igen, tedd ezt, nem, ne tedd ezt.

Az orvostudomány fejlődésével a betegek egyre inkább az orvosoktól függnek, hogy segítsék a bizonyítékok fordítását. Ehhez fel kell tennünk a kérdést: vajon a vizsgálók feltették-e a helyes kérdést, felvették-e a mindennapi betegekhöz hasonló betegeket, tisztességes összehasonlítókat választottak, és a statisztikailag szignifikáns eredmények elérték-e a klinikai jelentőségét? Ezek elég kemények ahhoz, hogy át tudják rendezni.

Most, a Charlottesville-i Virginiai Egyetemen, Brian Nosek professzor vezette, elegáns tanulmány [1] eredményei még nehezebbé teszik az orvosi bizonyítékok fordítását. Csapatának bebizonyította, hogy a kutatók által az adatkészlet elemzése során hozott döntések jelentősen befolyásolhatják az eredményeket.

Évek óta, amikor egy tudományos papírt olvastam, azt gondoltam, hogy az adatok a közzétett eredményt eredményezik. Nosek és kollégái azt találták, hogy az eredmények nagyon függhetnek attól, ahogyan a kutatók elemzik az adatokat. És szerezzük meg: Kevés egyetértés van az adatok elemzésének legjobb módjáról.

A Nosek csoportja 29 kutatócsoportot toborzott 61 kutatóból, akik ugyanazt az adatkészletet használják egy egyszerű kérdés megválaszolására: Vajon a hivatásos labdarúgó-játékvezetők nagyobb valószínűséggel adnak piros kártyákat a szabálytalanságok miatt a sötét bőrű és a világos bőrű játékosok számára? A piros lapok azonnali kidobást eredményeznek a játékból, míg a sárga lap lehetővé teszi a játékosok folytatását, kivéve, ha újabb jogsértés merül fel.

Ez egy többéves projekt volt, amely magában foglalta a sportstatisztikák adatsorának felépítését nagyrészt a 2012–2013-as szezonból a négy európai férfi premier bajnokságban, majd különféle szakterületek és tapasztalatokkal rendelkező kutatócsoportokat toboroztak az első elemzés elvégzésére. A kísérlet első szakaszában a csoportok összefoglalókat nyújtottak be a kérdés megválaszolására vonatkozó megközelítésükről, de önállóan dolgoztak.

A következő szakaszban a Nosek csapata összegyűjtötte a 29 csoportot a szakértői értékelések körébe, amelyben minden csoport visszajelzést adott más csoportok analitikai módszereiről. Ezeknek az értékeléseknek az összesítését a csoportok rendelkezésére bocsátották, amelyek lehetővé tették a csoportok számára, hogy tanuljanak egymás megközelítéséből.

A következő szakaszban a csapatok, megtanulva társaiktól, megváltoztathatják az elemzés megközelítését, és esetleg megváltoztathatják következtetéseiket.

A vizsgálat hatodik szakaszában a vizsgálók megvitatták és megvitatták a végső elemzéseket. Ez arra késztette egyes csoportokat, hogy végezzenek további teszteket annak felmérésére, hogy az eredményeket néhány outliertől származik-e - nem az. A megbeszélés eredményeként felfedezték, hogy az eredmények variabilitása nemcsak az analitikai módszerek, hanem a kovariátok megválasztása miatt is megtörtént.

A 29 csapat a kovariátok 21 egyedi kombinációját választotta és sokféle analitikai technikát alkalmazott, kezdve az egyszerű lineáris regressziótól a komplex többszintű regresszióig és a Bayes-féle megközelítésekig.

Az effektusméret esélyhányadának pontbecslése 0, 89 (kissé negatív) és 2, 93 (közepesen pozitív) között változott.

Húsz csapat (69%) talált statisztikailag szignifikáns hatást, kilenc csapat (31%) nem. Sem a szakértelem szintje, az egymást követő értékelések, sem a vizsgálók korábbi hiedelmei (amelyeket felmérésekben értékeltek, mielőtt a nyomozók megtekintették az adatkészletet) nem magyarázták a hatás méretének variabilitását.

Ez nagy, mert mindenki megérti, hogy különböző adatok elemzése vagy különböző kérdések feltevése eltérő eredményeket eredményez. Ezek voltak ugyanazok az adatok és ugyanaz a kérdés!

Kutatási tanulmány elolvasásakor a módszertani szakaszban általában egy vagy két mondat található, amely leírja a (szinguláris) analitikai módszert. Ez a cikk megmutatja, hogy az azonos adatkészletek változó eredményeket hozhatnak - néhány statisztikailag szignifikáns, mások nem.

A fentiekben le nem írt heterogenitás területet annyira feltűnővé teszi, hogy a Nosek tanulmányában alkalmazott legtöbb elemző megközelítés védhető volt és a többi módszertan ésszerűnek ítélte.

Ezek az elemzés-függő eredmények nem különböznek a P-hakkolástól vagy a forkálási utak kertjétől. A P-hakkolás (más néven csalás) akkor fordul elő, amikor a kutatók aktívan törekszenek a szignifikanciára és számos elemzést végezzenek az adatokról, majd kiválasztják és közzéteszik azt a módszert, amely a jelentős eredményt hozza. Ebben a tanulmányban minden kutatócsoport ismertette módszert, mielőtt rendelkezett volna az adatokkal.

A villás utak problémájának kertje akkor fordul elő, amikor a kutatók az adatok mintázatainak megfigyelése után finomítják elemzési tervüket. [2] Ha például a várt eredmény nem jelenik meg főhatásként, akkor a kutatók kölcsönhatásokat kereshetnek. Nosek és munkatársai kifejtették, hogy mivel csak egy alapkérdést tettek fel - ha a foci játékvezetők nagyobb valószínűséggel adnak piros lapot a sötétebb bőrű játékosoknak -, ez korlátozta a pályák forkolásának problémáját. Sőt, a 29 csapat nem volt ösztönözve pozitív eredmények elérésére.

Ne hagyja, hogy azt gondolja, hogy ez csak a társadalomtudomány kérdése. Egy e-mailben Brahmajee Nallamothu, MD, a michiganiai egyetemen, Ann Arborban rámutatott egy kiváló klinikai példára: 2010-ben a JAMA az Egyesült Királyság Általános Gyakorlati Kutatási Adatbázisa segítségével kiadott egy papírt, amely kimutatta, hogy a biszfoszfonátok nem társulnak a rákhoz, [3], de egy hónappal később, a BMJ ugyanazon adatbázis alapján kiadott egy papírt, amely kimutatta, hogy a biszfoszfonátok társulnak a rákhoz. [4]

Mi a helyzet egy brit adatbázis nemrégiben elvégzett elemzésével, amely összefüggést mutatott az angiotenzin-konvertáló enzim-inhibitorok használata és a tüdőrák között. [5] A veszély pontbecslése alig érte el a szignifikanciát 1, 14-nél, 95% -os konfidencia-intervallummal 1, 01 és 1, 29 között. Más analitikai módszer eredményezne nem szignifikáns eredményeket? Mi a helyzet 10 különféle analitikai módszerrel?

Az első kérdésem, amelyet Nosek professzorhoz kértem fel, amikor telefonon beszéltünk, az volt, hogy az elemzés-függő eredmények alkalmazhatók-e a randomizált kontrollos vizsgálatokra. Igen válasz riasztott engem. Nosek elmondta, hogy amikor a választási lehetőségek rugalmasak, például az eredmények megválasztásakor a betegeket bele kell foglalni, és hogyan kell megváltoztatni a változókat, akkor elvárható a variabilitás.

MD, Harlan Krumholz, a New Yorki Yale Egyetemen (Connecticut) szintén relevánsnak találta az RCT-t. E-mailben írta: „Bármely adott kérdéshez a különböző csoportok nagyon eltérő módon kezelhetik azt - még egy RCT-vel is. Ha szabadon adná nekik a kísérlet megtervezésének kérdését - különféle dolgokat tudnának levonni.”

Nallamothu hangsúlyozta az RCTS variabilitásának valóságát, megjegyezve a látszólag hasonló MitraClip, Mitra-FR [6] és a COAPT vizsgálatok eltérő eredményeit. [7]

Ezzel az érveléssel szemben azt állíthatja, hogy az RCT-k és analitikai módszereik előzetesen regisztráltak, és ez megakadályozza, hogy a kutatók az adatok megismerése után váltsanak módszereket. Miközben egyre több vizsgálatot regisztrálnak előzetesen, Nosek rámutatott, hogy a valóságban a protokollok leírása során a specifikusság hiánya lehetővé teszi a kutatók számára a végső elemzés rugalmasságát.

A Nemzeti Tudományos Akadémia folyóiratának cikkében [8] ő és társai legalább kilenc gyakorlati kihívást sorolnak fel az adatok elemzésére, még az előzetes regisztrációval is. A hosszú cikk rövid üzenetét rögzíti ez az idézet: „Az adatgyűjtés és az elemzési tervek közötti eltérések a leginkább kiszámítható kutatások során gyakoriak.”

Az RCT-k rugalmasságának egy másik releváns és legfrissebb példája arra vonatkozik, hogy a kísérleti végpontok megváltoztatása hogyan befolyásolhatja az eredményeket. [9] Ez a kérdés vitát váltott ki a PCI és az orvosi terápia között még folyamatban lévő ISCHEMIA-vizsgálatról stabil koszorúér betegségben szenvedő betegekben. [10, 11]

Nosek és munkatársainak széles látószöge egy kicsit jó hírt hoz, és talán utat mutat a tudományos igazság felé. A 2. ábrán a szerzők csökkenő sorrendben mutatják be a 29 különböző esélyességi arányt és megbízhatósági intervallumot. Noha a pontbecslések körülbelül kétharmada szignifikáns pozitív hatást eredményezett, egyharmaduk pedig nem, az átfogó kép viszonylag következetes eredményeket mutat. A legtöbb bizalmi intervallum átfedésben van, és ha ezeket együtt vesszük, akkor látható a pozitív hatás felé mutató tendencia - tehát igen, a foci játékvezetők valószínűleg több piros lapot adnak a sötét bőrű játékosoknak.

Ez arra gondoltam: Miért nem végeznek a nyomozók gyakrabban több elemzést? Nosek elmondta nekem, hogy a statisztikai szoftver megkönnyíti az adatok különféle elemzéseinek elvégzését. Krumholz hozzátette, hogy az adatok függő eredményeinek felfedezése rámutat a nyílt tudomány és az adatmegosztás értékére, mivel ez lehetővé tenné sok terv előterjesztését.

A belga és az amerikai szerzők egy csoportja ezt a folyamatot többváltozós elemzésnek nevezte. [12] Azt írták, hogy a többszörös adatelemzés elvégzésének gondolata „abból a megfigyelésből indul ki, hogy az adatokat passzív módon nem rögzítik egy kísérletben vagy egy megfigyelő tanulmányban. Az adatok inkább bizonyos mértékig aktívan készülnek.”

Ez a csoport egy multiversz elemzést használt a provokatív elemzés megtámadására [13], amely arra utal, hogy egy nő menstruációs ciklusa befolyásolja a vallásosságot és a politikai hozzáállást. Amikor ugyanazokat az adatokat más módon, különféle, de megalapozott módszerekkel elemezték, felfedezték, hogy a legtöbb P érték nem mutatott szignifikáns különbségeket.

Számomra a tudományos kérdés többnyelvű megközelítésének legjobb része az, hogy az előzetes regisztráció korlátozására irányul. Nevezetesen, bár elengedhetetlen egy kísérleti módszer iránti elkötelezettség, ez csak a - sokból - elemző megközelítést tesz lehetővé. Az orvostudomány valószínűleg megbízhatóbb és megbízhatóbb lenne, ha a tudósok figyelembe vennék a Nosek és munkatársai által a záró megjegyzésükben megfogalmazott tanácsokat: „Arra ösztönözzük a tudósokat, hogy dolgozzanak ki minden lehetséges védekező elemzést, végezzenek el mindent, majd számítsák ki annak valószínűségét, hogy a a megfigyelt jelentős eredmények száma látható, ha valóban nincs hatás.”

Amit ez a cikk megtanított nekem, az orvostudomány felhasználói számára, még óvatosabbnak kell lennie a következtetések levonásakor egy vagy két cikkből. Megtartja-e a kiválasztott elemzés eredményét az adatok elemzésének más ésszerű módjaira?

A másik egyértelmű lecke: A nyílt tudomány viselkedésének befogadása, például az előzetes regisztráció, a tömegbeszerzés és a több elemzés elvégzése csökkentheti a „pozitív” újságíró papírok számát, de ez valójában felgyorsíthatja a valódi orvosi fejlődés ütemét.

A kevesebb tudományos megfordítás valószínűleg növeli a közvélemény bizalmát a tudomány iránt.