Probele mici, speranțele mari

Cartea Cartilor - O aventura uriasa - s01e06 - episod complet (Iulie 2019).

Anonim

N de p nuci

Conventius: Fiecare experiență este o probă.

Scrupulus: Din ce?

Când ne întrebăm "Ce ne învață știința?" sau "Ce ne spun datele?" facem bine să dăm noțiunea de eșantion de confort un alt aspect. În sistemul statistic al lui Fisher, toate eșantioanele sunt mostre de confort în sensul că nu știm din ce populație au fost desenate și, prin urmare, nu știm la ce populație putem generaliza rezultatele statistice. Această ignoranță a populației ar trebui să atenueze entuziasmul nostru inductiv. Desigur, orice eșantion este un set aleatoriu de observații cu privire la o anumită populație, dar aceasta este o tautologie și, prin urmare, inutilă. Unele populații atribuite post-hoc la proba trasată sunt ciudate și neinformative. Dacă, de exemplu, facem un studiu folosind serviciul online al lui Mechanical Turk, putem spune că eșantionul nostru este extras din populația muncitorilor turci. Chiar dacă am avea motive să afirmăm că eșantionul a fost aleator, ce fel de categorie este "muncitorii turci"?

Prelevarea de probe este un secret vinovat în știință. Mulți dintre noi o fac și transmitem incertitudinile pe care le aduce saltului inductiv de la date la teorie. Nu avem instrumente statistice de făcut altfel. Efortul de proiectare experimentală merge în a se asigura că respondenții sunt repartizați aleatoriu în condiții experimentale și de control. Eșantionarea aleatorie dintr-o populație bine definită este deseori inaccesibilă.

Un alt tip de efort merge în selectarea dimensiunilor eșantionului. Pentru a face selecția cu înțelepciune este de a răspunde la problema puterii statistice . Ca o completare a probabilității unei erori de tip II (nereușind să detecteze un adevărat efect), analiza puterii iese din paradigma Neyman-Pearson (NPP) a statisticilor, nu a lui Fisher. Centrala nucleară vă cere să știți sau să pretindem în mod credibil că cunoașteți mărimea unui efect presupunând că există, de fapt, o analiză a puterii multiple și afișarea rezultatelor ca o curbă, dar trebuie să selectăm încă o singură N pentru studiul nostru, care ne arată pariul nostru cu privire la ipoteza care este adevărată). NPP presupune că facem ceea ce știm că este cel mai dificil: eșantion din populații cunoscute sau bine imaginate. În caz contrar, nu există niciun motiv să credem că peste multe replicări exacte am găsi erori de tipul I și II cu probabilitățile specificate.

Chiar dacă nu putem efectua o analiză a puterii bazată pe teorie și dacă nu putem eșantiona la întâmplare, dimensiunea eșantionului contează. Cu cât eșantionul este mai mare, cu atât este mai mare precizia cu care măsuram ceea ce măsuram. Cum determinăm dimensiunea eșantionului? Cât de mare este suficient de mare în absența unui criteriu furnizat de analiza puterii? Mulți cercetători folosesc una greu și una euristică moale. Euristul greu este că vor să evite cheltuielile deficitare. Fondurile și facilitățile de cercetare impun limitări dificile (deși nu imposibile - deci "euristice") care trebuie depășite. Din acest motiv, studiile care implică imagistica cerebrală au probe mult mai mici decât studiile sau studiile de comportament economic asupra MTurk. Euristicul moale este să selectați un eșantion de dimensiunea tipic văzută în literatura de specialitate a domeniului special de studiu. În majoritatea domeniilor, majoritatea articolelor publicate raportează rezultate semnificative, iar în multe domenii, majoritatea studiilor sunt subminate (Ioannidis, 2005).

De unde știm dacă un studiu individual este subevaluat dacă nu există o estimare a priori a dimensiunii efectului? Nu o facem. Efectuând o analiză a puterii după fapt, presupunând că mărimea efectelor observate este cea reală, va justifica numai semnificația obținută ca fiind posibilă să apară. Am putea efectua o analiză p-curbă în multe studii (dacă acestea sunt disponibile) pentru a vedea dacă există rezultate mai semnificative decât ne-am fi așteptat având în vedere dimensiunea medie a efectului. Dacă există, este probabil că (multe) studii au fost efectuate mai mult decât au fost publicate. Cu alte cuvinte, folosirea euristică a literaturii-N prezintă riscul de a face nesemnificativă probabilitatea și semnificația - când apare - suspectul.

Într-un set recent de studii într-o zonă cu eșantioane tradiționale mici, N au fost 6, 8 și 10. Dimensiunile eficacității nu au fost raportate, ci p <0, 05. Care ar fi dimensiunea minimă a efectului standardizat observat (de exemplu, o diferență între o medie observată și cea teoretică împărțită de deviația standard) pentru a face acest lucru? Răspunsul este 1, 1, .9 și .8. Aceste dimensiuni ale efectului sunt destul de mari. Pentru unele zone din psihologie, aceste efecte sunt imprevizibil (cu excepția cazului în care a avut loc o mare cantitate de agregare). Aceste efecte pot apare, bineînțeles, ca valori exagerate într-o distribuție a mărimilor efectului, deoarece răspândirea acestei distribuții este mare în măsura în care N este mic. Un alt mod de a gândi este de a compara două implicații ale unei direcții diferite. Dacă știm că adevăratul efect este mare, o probă mică are mai multe șanse de a avea un efect mai mare decât un efect mic. Dacă, totuși, știm (din studiul nostru) că o probă mică a produs un efect mare, adevăratul efect subiacent poate fi mare sau mic. Cu alte cuvinte, deducerea unui adevărat efect mare de la un mic observat este o inferență inversă eronată (Krueger, 2017). Această deducere poate fi adevărată, dar nu pariați pe fermă.

Publicul - care speră să se confrunte cu o reducere a incertitudinii datorită datelor - se confruntă acum cu o enigmă mai mare: Cercetătorul a avut noroc când a căutat o semnificație? Sunt rezultatele semnificative adevărate descoperiri sau false? Și, există studii nedeclarate de-a lungul drumului spre rezultatele descoperite? Cercetătorul poate să nu știe răspunsul la primele două întrebări și ar fi indiscret să cereți celui de-al treilea (deși această normă pare să se slăbească).

Cercetătorul poate recurge la literatura-euristică și constată că în acest domeniu special de studiu, efectele tind să fie mari și că N-ul scăzut reflectă acest fapt. Executarea unor studii mai mari ar fi ineficiente. Cum ar fi posibil ca toate (sau doar cele mai multe) efecte să fie mari dacă ele există deloc? Nu cred că este posibil. Există mai multe moduri de a crea efecte mici decât cele mari. Într-o lume multivariată, multilațională, unele cauze sau efecte se vor anula unul pe altul. Efectele foarte mari pot fi obținute numai dacă toate cauzele relevante pentru un efect împing în aceeași direcție. Argumentul "all-true-effects-are-big" presupune o distribuție bimodală a dimensiunilor efectului, cu un mod la zero și un alt mod la punctul "mare" (de exemplu, 1.0). Efectele nula trebuie să fie permise pentru ca încercarea să nu aibă loc. Distribuția unimodală, de exemplu, în jurul valorii de 1.0, nu are sens, deoarece implică faptul că toate efectele pe care le putem gândi sunt dovedite adevărate odată ce ne gândim la ele. În schimb, o distribuție unimodală în jurul valorii de 0.0 are sens, deoarece permite efecte pozitive și negative și deoarece presupune, în mod rezonabil, că efectele devin mai rare atunci când devin mai mari (vezi Pleskac & Hertwig, 2014, pentru teorie și cercetare privind relația inversă dintre probabilitate și valoare).

Pentru a putea spune că într-un anumit domeniu efectele studiate tind să fie mari, un cercetător trebuie să demonstreze că există suficiente cunoștințe, din teorie sau experiență, pentru a localiza acele efecte care sunt mari, dacă există . Acest tip de cunoaștere nu este imposibil, dar este greu să vină. Și există o implicare paradoxală. Dacă o teorie este suficient de precisă pentru a prezice unde ar putea exista un efect mare, aceași teorie nu ne va spune, de asemenea, despre probabilitatea existenței acestui efect?

Această întrebare, dacă este răspuns afirmativ, creează o dilemă. Pe un singur corn, cercetătorul știe sau suspectează cu tărie că un anumit tratament va crea un efect mare. Dacă da, un test de semnificație nu adaugă prea mult. Pe celălalt corn, cercetătorul speră doar că efectul este mare, dar acordă - cu Pleskac & Hertwig - că, chiar dacă direcția efectului este corectă, dimensiunile mici sunt mai mari decât cele mari. Apoi, găsirea p <.05 și o estimare a puterii post-hoc a .80, ca și în exemplele din lumea reală de mai sus, ridică spectrele norocului sau erorilor de tipul I, ambele care mănâncă la încrederea noastră. (1)

Sfârșitul p

Dacă urmăm puzzle-ul de probe mici la concluzia sa tragică, ajungem la eșantionul cu un singur eveniment. Dacă această observație a mințit, să zicem, 3 abateri standard față de media predicției teoretice, am face un test de semnificație?

Nu am vrea. Psihologia este plină de demonstrații în cazul în care cazul este făcut cu un singur exemplu convingător. Multe efecte vizuale în special pot fi stabilite prin crearea unei imagini care impune o percepție dorită. Sunt încrezător, de exemplu, că vedeți atât arahidele, cât și litera N din fotografia de mai sus - pentru că o fac. Replicarea (experiența intersubiectiv împărtășită) este presupusă deoarece a funcționat atât de bine în trecut încât ne putem aștepta la variații scăzute față de persoane. Această cunoaștere a fost câștigată prin inducție. Pentru că a fost atât de consistentă, testarea semnificației este acum inutilă.

Strategia N = 1 (sau ceva mai mult) funcționează până când nu o face. Este usor de folosit. Mulți filozofi încă mai cred că pot face un punct cu un experiment gândit inteligent, pe care ei îl creează pentru a pompa intuiția dorită din propriile minți, pentru a concluziona apoi că toate mințile dau același rezultat. Din nefericire, filozofii sunt renumiți pentru dezbaterea continuă. De asemenea, ideea că testele de semnificație foarte mici ale probelor nu prezintă probleme este ușor de văzut de către practicieni și este proiectată de alți cercetători.

Ce se întâmplă dacă sfârșitul era aproape, dar nu a fost atins?

Cazul N = 1 este special, deoarece nu numai că nu dorim să efectuăm un test de semnificație, dar nu putem. În exemplul t- test al exemplului de mai sus (și în altă parte), datele din eșantion servesc pentru a estima atât mărimea efectului brut, cât și diferența dintre media observată și cea ipotetică, dar și variația, care apoi intră în estimarea mărimea efectului standardizat, eroarea probabilă de eșantionare și statistica de testare și probabilitatea acesteia. Dacă N = 1, nu există varianță și toate calculele care depind de ea se defalc. Dacă presupunem - așa cum am făcut-o mai sus - că există o singură observație 3 deviații standard dincolo de mijloacele ipotetice, trebuie să cerem cunoașterea acestei deviații standard din motive a priori . Aceasta înseamnă că nu numai că am pierdut date atunci când coborâm la N = 1, dar trebuie să-i petrecem și capitalul teoretic pentru a cumpăra încă o ipoteză (nu numai varianta ipotetică, ci și varianța ipotetică). Dacă nu putem face acest lucru, singura observație nu are sens; plutește în spațiu gol.

Există o diferență categorică între N = 1 și N = 2. Dacă N = 2, putem estima varianța și putem calcula toți indicii care o cer. Dacă presupunem că prima observație este aceeași cu media ipotetică și cea de-a doua observație este de 10 puncte, deviația standard este de 7, 07. Împingându-ne împotriva sfaturilor profesorilor noștri de statistică, constatăm că t (1) = 2, 00, p = .295. Nu am respins ipoteza nulă. Într-adevăr, nu am putut. Indiferent cât de mare am face a doua observație, t și p vor rămâne cam la fel. Creșterea varianței anulează creșterea diferenței medii.

Soluția este - dacă reușiți - să păstrați varianța mică în timp ce creșteți diferența medie. În exemplul nostru, am avea nevoie de o observație de 10 puncte și de altul cu 9 puncte distanță de media ipotetizată, pentru a vedea semnificația, t (1) = 20, p = .032. Pentru a prezice acest rezultat cu încredere, nu numai că ar trebui să putem anticipa un efect mare, dar și o mică variație. Acest lucru pare a fi un ordin înalt. Problema se ameliorează treptat pe măsură ce N crește. Este neglijabil până ajungem la N = 6? Răspunsul la această întrebare necesită unele simulări matematice sau computerizate.

(1) Estimarea puterii pre-hoc pentru un singur eșantion t - încercarea de a declara un mediu (.5 unități standard) ca fiind semnificativă este .23. Pentru N = 8, acesta este .29; pentru N = 10, este .35.

Iată un link către o discuție despre t- testele cu N.

Iată două postări recente despre testarea semnificației de la acest birou:

Viața și momentele p

Statisticile ca proces social

Ioannidis, JPA (2005). De ce majoritatea rezultatelor cercetărilor publicate sunt false. PLoS Med . 2: E124. doi: 10.1371 / journal.pmed.0020124

Krueger, JI (2017). Inferență inversă. În SO Lilienfeld & ID Waldman (Eds.), Știința psihologică sub control: provocări recente și soluții propuse (pp. 110-124). New York, NY: Wiley.

Pleskac, TJ și Hertwig, R. (2014). Alegerea rațională din punct de vedere ecologic și structura mediului. Jurnalul de Psihologie Experimentală: General, 143, 2000-2019.