Ho approfittato di un po' del mio tempo libero per preparare un'analisi critica del lavoro di parapsicologia proposto da PK2 qualche tempo fa, all'interno di un commento postato nel diario dei sogni lucidi di olrac. Per motivi di brevità ripropongo di seguito il link dell'articolo:
http://deanradin.com/evidence/Sherwood2 ... eamESP.pdf
L'articolo in questione è una review piuttosto datata che si propone di passare in rassegna i risultati di un certo numero di studi condotti nel campo dei sogni "Maimonides". Cercherò di spiegare brevemente in cosa consistono di solito questi tipi di esperimenti: in questi casi il sogno è visto come uno stato di coscienza che apre le porte alle esperienze extra-sensoriali per mezzo di una sorta di trasmissione telepatica di immagini. Pertanto avremo due soggetti, un "trasmettitore" e un "ricevitore", che passeranno la notte in un laboratorio. Il ricevitore si troverà a dormire in una stanza isolata e le sue onde cerebrali, nonchè il movimento dei suoi occhi, verranno monitorati durante il suo sonno. Quando il ricevitore entrerà nella fase REM, lo sperimentatore segnalerà al trasmettitore, tramite un apparecchio acustico e sotto la supervisione di un secondo sperimentatore, l'inizio della sessione dell'esperimento. Il trasmettitore dovrà pertanto concentrarsi su di una figura scelta da un computer in modo casuale, allo scopo di influenzare i contenuti del sogno del ricevitore. Alla fine della fase REM il ricevitore verrà svegliato e gli verrà chiesto di descrivere quello che ha sognato. La procedura potrà essere ripetuta più volte nel corso della notte, utilizzando la stessa figura. Infine, il resoconto scritto, riguardante i sogni avuti dal ricevitore, verrà passato ad una giuria che in modo indipendente dovrà dare una valutazione sulla possibile corrispondenza tra l'immagine bersaglio e i contenuti del sogno. I dati verranno trattati statisticamente al fine di valutare se esiste una correlazione significativa tra le figure selezionate dal computer e le immagini sognate dal ricevitore e stabilire quindi se il numero di successi ottenuti è significativamente maggiore di quello che si sarebbe avuto nel caso di eventi indipendenti occorsi in modo perfettamente casuale.
Premetto subito che in circa 150 anni di studi nel campo della parapsicologia, gli sperimentatori non hanno mai potuto trovare, purtroppo, dei soggetti che fossero dotati in modo chiaro e univoco di poteri paranormali, così che per sopperire alla mancanza di gente capace di spostare massi con la forza del pensiero ogni volta che gli veniva richiesto o di profeti in grado di dare sempre previsioni infallibili, si è dovuto fare affidamento agli strumenti della statistica e del calcolo delle probabilità. All'inizio, nel corso del XIX secolo, sotto l'influsso della corrente di pensiero positivista, l'entusiasmo in questo campo di ricerca era molto alto, tanto che eminenti scienziati dell'epoca, del calibro di Alfred Russel Wallace e William Crookes, spinsero l'allora professore di fisica William Fletcher Barrett e il filosofo Henry Sidgwick a fondare nel 1882 la famosa "Society for Psychical Research", dedicata agli studi sul paranormale, nel tentativo di unire questa disciplina alle leggi della fisica conosciuta. Purtroppo però quando ci si accorse a distanza di tempo che anche i più eminenti scienziati, convinti della bontà dei loro risultati, potevano venire facilmente ingannati anche da trucchi puerili messi in atto da bambini che avevano imparato i giochi di prestigio, la fiducia verso questo campo di ricerca iniziò a venire messa in discussione. Si scoprì che i soggetti migliori a smascherare questo genere di trucchi non erano tanto gli scienziati, quanto gli stessi maghi prestigiatori, i quali vennero prontamente reclutati, riuscendo a mettere a nudo una quantità innumerevole di frodi perpretrate da sedicenti medium e spiritualisti che venivano sottoposti ai test di laboratorio. Tra i più eminenti maghi scettici vale la pena menzionare grandi personalità del calibro di Houdini, James Randi nonchè il nostro benemerito mago Silvan. Nel corso dei decenni i risultati nel campo della parapsicologia divennero sempre meno convincenti e il numero di dipartimenti universitari che ottenevano finanziamenti per queste ricerche cominciarono a scemare, fino a ridursi al lumicino. Attualmente esiste ancora una ristrettissima cerchia di parapsicologi che si affida alla statistica per cercare di dimostrare l'esistenza di certi fenomeni paranormali, ma niente che possa paragonarsi alla numerosissima pletora di studiosi che iniziarono a fare questi esperimenti. L'indice statistico sintetico utilizzato in questi studi è ,di solito, il coefficiente di correlazione di Pearson, indicato con la lettera "r". E' un indice molto semplice, già superato da altri strumenti statistici molto sofisticati, ma che nondimeno può essere ancora considerato valido se i dati che vengono messi in correlazione appaiono coerenti e di facile interpretazione. Purtroppo la statistica è una disciplina maledetta ed io che in passato mi sono occupato di disegnare studi epidemiologici ed ho un background tanto nella statistica di base, quanto in campi specializzati come la statistica industriale, la statistica medica e la bio-statistica, so bene come la scelta degli strumenti matematici da applicare allo studio di una popolazione di dati possa finire per essere fuorviante e dare una rappresentazione dei dati completamente avulsa dalla realtà. Come se non bastasse, l'applicazione impropria di questi strumenti pare possa venire ancora oggi fatta scientemente da ricercatori che si occupano di campi di studio diversi da quelli della parapsicologia, specie se vengono finanziati da lobbies o istituzioni private che tendono a far passare certi messaggi all'opinione pubblica, sperando così di ottenere un ritorno di tipo pecuniario. Un caso da manuale potrebbe essere ad esempio quello della guerra ancora in corso tra studi epidemiologici che vogliono dimostrare la pericolosità delle diete che contemplano il consumo di carne rossa, come il famoso "ChinaStudy" oppure questo:
http://aje.oxfordjournals.org/content/179/3/282.long
e studi che smentiscono questa affermazione, come questo:
http://www.ncbi.nlm.nih.gov/pubmed/23486512
Per non parlare di studi che arrivano addirittura alla conclusione che qualsiasi cibo si ingerisca, vegetariano o non, può portare ad un aggravamento della salute:
http://ajcn.nutrition.org/content/97/1/127.long
A questo punto è d'obbligo chiedersi quale di questi studi è quello capace di darci un'informazione veritiera. La verità è che purtroppo si tratta in tutti i casi di studi "osservazionali", che come nel caso della parapsicologia, cercano di trovare una correlazione senza poter risalire alle vere cause del problema. E' come dire ad esempio che esiste una correlazione tra malattie e consumo di caffè, come se quest'ultimo potesse essere la causa della malattia, quando invece poi si viene a scoprire che in realtà la maggior parte di consumatori accaniti di caffè sono anche incalliti fumatori ed è questa la causa delle loro malattie. Altro esempio più torbido potrebbe essere quello delle lobbies che in passato hanno spinto alcuni ricercatori a pubblicare ricerche che volevano dimostrare la non pericolosità del consumo di zuccheri raffinati, ma ne potrei fare ancora tanti altri di esempi come questi.
Alla luce di queste riflessioni potrei anche fermarmi qui, ma decido invece di addentrarmi nel merito dello studio parapsicologico sui Maimonides per dimostrarne i punti di debolezza, ma senza perdermi troppo in tecnicismi che potrebbero solo finire per farmi apparire troppo pedante sull'argomento.
Una prima parte della review è dedicata alla disamina di alcuni studi pubblicati dall'inizio degli anni '60 fino alla fine degli anni '80 e che sembrano aver dato risultati statisticamente significativi. Gli autori di questi studi sono parapsicologi del calibro di:
Montague Ullman https://en.wikipedia.org/wiki/Montague_Ullman ;
Stanley Krippner: https://en.wikipedia.org/wiki/Stanley_Krippner ;
Charles Honorton: https://en.wikipedia.org/wiki/Charles_Honorton ;
e Daryl Bem: https://en.wikipedia.org/wiki/Daryl_Bem
Si tratta in tutti i casi di studi datati che sono ormai stati ampiamente esaminati e aspramente criticati per i difetti nel modo in cui sono stati disegnati e per l'evidente assenza di replicabilità.
Una seconda parte della review si occupa dei tentativi indipendenti di replicazione degli studi precedenti e ciò che purtroppo esce fuori sembra per gran parte una sfilza di fallimenti, annessi a problematiche sul modo di disegnare gli esperimenti, di cui ho estratto le parti più indicative:
- in some earlier studies, the blind judges’ judgements may not have been completely independent so that
they might have derived clues to the target identity from other transcripts
(Clemmer, 1986).
- Although no specific details of the outcome nor any statistical analyses were reported, Globus et al. (1968, p. 365) concluded that ‘A consensus of judges was unable to correctly designate the “target picture” more often thanwould be expected by chance; thus, the null hypothesis was not rejected’.
- However, six independent judges did not identify the target pictures better than MCE. It is not known how the judges (one of whom was the receiver) performed individually but it has been reported elsewhere that ‘the judges differed widely in their ratings’(Strauch, 1970, p. 50).
- As Dement acknowledged, this experiment was very problematic, not least because the senders were shown
a photo of the receiver and then asked to decide which target they should send. Although the judging procedure is not described, Dement reported that none of the targets was manifested in the receivers’ dreams.
- However, this study lacked adequate controls against sensory leakage and involved arbitrary selection of data for analysis (see Parker, 1975; Strauch, 1970) and so cannot here be considered a successful replication of the Maimonides studies.
- Van de Castle (1971) also acted as experimenter in a non-laboratory dream telepathy study involving a group of youth-camp members. However, the limited amount of information available in the published summary of this study makes it difficult to evaluate fully.
- Van de Castle (1989) felt very strongly that the conditions in the replication study were far from conducive and that it should be deemed neither a replication attempt nor a failure. However, the onus is on parapsychologists to identify what the psi-conducive and psi-inhibitory factors are and to ensure that studies are designed to maximize the former and minimize the latter; simply saying, after the fact, that the conditions were not right can too easily be seen as attempt to salvage a favoured but unsupported hypothesis.
- However, again this study cannot be considered an exact replication attempt. As Foulkes et al. (1972, p. 734) pointed out, ‘Our experiment deviated from the original in a number of ways. . . . It is not clear which set or sets of factors may have contributed to the discrepancy in results between the two studies’.
- In summary, none of the five studies that used EEG–EOG monitoring and deliberate awakening can be considered exact replication attempts because of their variations in procedure. Four of them cannot be considered successful conceptual replications either, in that performance was not significantly better than MCE.
- One potential problem with this study is that Weiner, who had determined the target sequence, independently judged the target and dream codings and compared her judgements with McCain to check for discrepancies; her memory of the target sequence might have influenced the resolution of any such discrepancies.
- When the results of these two studies were combined, the cumulative result was significant. Child et al. (1977) reported that ‘In subsequent months we carried out similar experiments with the agent in Connecticut and the participant in either Tennessee or Italy. These experiments showed little deviation from chance.’ (pp.
92–3) but mentioned no further details. These replication attempts do not appear to have been published and are therefore unavailable for review.
- The following morning, as a group, Rustomji-Kerns and the two experimenters judged first the Ganzfeld and then the dream mentation against four pictures in the target set, using ratings and rankings ... Once the judging had been completed, the target envelope was opened. For the preliminary trials, the mean z-scores indicated that in the Ganzfeld condition the targets were rated slightly higher than the non-targets but the reverse was true in the dream condition. However, neither of these means nor the difference between them was statistically significant.
- An attempted replication (Kanthamani & Khilji, 1990) involved a sample of ten participants who, in this case, each contributed two trials of each type, completed in a counterbalanced order. There were only two judges; the participant and the experimenter. Again, there was evidence of missing in the Ganzfeld condition
and hitting in the dream condition and, although neither of these deviated significantly from MCE, the difference between the conditions was again significant.
- Analyses of the combined ranks confirmed earlier findings, but here dream performance was also significantly better than chance. However, we are not convinced about the validity of the t-test analyses conducted given that it would appear, from the reported degrees of freedom, that the two data points per participant in each of the two conditions were treated as independent.
- Sargent and Harley did not analyze the two conditions separately, but rather combined performance for the two conditions, giving a sum of ranks of 101 that is below the MCE of 110. Although performance
in both conditions was better than MCE, neither comes close to significance (SOR for Ganzfeld is 53, where MCE = 60; for dream trials SOR is 48, where MCE = 50). Ganzfeld performance was a little better than dream performance, however.
- After a dream trial, the participant came into the laboratory with his or her dream report and rated and ranked four picture postcards. Unlike the Kanthamani studies, there were no additional independent judges. Although performance was lower than MCE in both conditions (dream SOR = 131, Ganzfeld
SOR = 137, MCE = 125), it was marginally better in the dream condition.
- McLaren and Sargent (1982) conducted another dream precognition study with a single participant who kept a dream diary. Performance on the non-CC trials indicated significant psi-missing; performance was insignificantly better than chance on the CC trials. Unfortunately there is insufficient information
provided concerning the methodological and security aspects of this study to evaluate their adequacy.
- Harley’s rankings were suggestively poorer than MCE and his ratings were significantly poorer. An independent judge’s performance was also significantly poorer than MCE. The author noted that none of the target pictures had strong emotional connotations, which may have been a contributing factor to
failure here.
- Markwick only recorded ‘selected dreams and hypnagogic imagery’ (Markwick & Beloff, 1988, p. 77) and then ranked each duplicate set of five target possibilities. Some of the trial judgements were based upon multiple nights’ dreams. In the first experiment (Markwick&Beloff, 1983), overall performance was significantlybetter than chance but seemed to decline after trial 64 following a crisis in
Markwick’s personal life. This significant finding is of particular interest given that ‘It was obtained by a skeptically minded subject working under an ultrarigorous regime, with a reputed negative experimenter’ (Marwick & Beloff,1983, p. 229).
-----------------------------------
Nota: il seguente periodo: " This significant finding is of particular interest given that ‘It was obtained by a skeptically minded subject working under an ultrarigorous regime, with a reputed negative experimenter" contraddice le affermazioni del parapsicologo Dean Radin, il quale, in modo a mio avviso più che ridicolo, giustifica i fallimenti di certi esperimenti come conseguenza del fatto che gli sperimentatori scettici creano una sorta di interferenza mentale sui soggetti sottoposti all'esperimento.
-----------------------------------
- Markwick’s earlier success was not replicated and her performance was worse than chance, though not significantly. Markwick and Beloff (1988) speculated that the failure to replicate may have been due to a ‘balancing out’ of direct hits and extreme misses, which effectively cancelled each other out.
- In an ingenious pilot study (Hearne, 1981a), the participant attempted to use ocular signalling during a lucid dream to communicate a four-digit target number being sent by the experimenter. Of nine nights spent in the sleep laboratory, only two yielded lucid dreams. During the first of these the participant awoke himself
without having signalled; during the second, he saw several different numbers during his dream and made several aborted attempts to signal them. None of the numbers suggested were correct.
- In another study (Hearne, 1981b), eight emotionally close sender–receiver pairs participated in an experiment that investigated whether the receivers, in either a waking, NREM or REM sleep state, could detect when electric shocks were administered to the sender. There were no significant differences in the
receivers’ mean heart rate between the experimental and control periods in any condition. One pair seemed to demonstrate a difference in the waking condition but two replication attempts with this pairing failed.
- On eight non-consecutive nights, Hearne attempted to send a randomly selected magazine picture between
5:00 and 7:00 a.m. The participant recorded any dreams that she could remember upon awakening after 5:00 a.m. The following day, she ranked a duplicate set of eight pictures. However, it is not clear how the sender and receiver were prevented from communicating between the sending and judging periods. The participant
scored below MCE. Hearne (1985) had earlier reported a case of ostensible precognition involving his dream machine but it is not clear whether this was part of any formal investigation and the report is not particularly
impressive.
- Dalton et al. (2000) reported a sixteen-trial extended replication attempt in which four undergraduate students acted as experimenter–participants. The superiority of emotional over neutral targets was not confirmed by the group performance but three of the four individuals were more successful with emotional targets.
- Sherwood et al. (2002) conducted an exploratory investigation of dream precognition using static targets. The group and two of the individual participants scored below MCE in terms of direct hits while the other participant (SS) scored slightly above MCE. The results of this study did not provide much evidence for dream ESP nor any definite advantage of consensus over individual judging methods, in contrast to three previous studies.
- Roe et al. (2002) investigated dream clairvoyance and used dynamic targets selected for stronger emotional content. Contrary to predictions, neither the group nor any of the individual performances were significantly better than MCE. Group consensus judgements were more successful than two of the individuals but not significantly so. One individual (SS) again scored above chance‚ but this was counterbalanced by another individual (DL) who scored below chance with a similar effect size. There was a tendency for more emotional targets to be given lower ranks, and a suggestion that engaging clips were better than non-engaging ones, but these effects were generally quite small and with one exception did not achieve significance.
Da come si evince quindi, l'assenza di replicazione di questi studi è piuttosto lampante. Se andate a guardare nella tabella 2 della review noterete però che vengono citati alcuni tentativi di replicazione che presentano un "effect size r" statisticamente significativo. Il criterio per stabilire la significatività dell'indice "r" è stabilito dalla "regola di Cohen" che suggerisce un valore r=0.1 da considerarsi come un piccolo effetto; r=0.3 come un effetto medio e r>=0.5 come un effetto largo. Uno statistico ingenuo o poco accorto potrebbe dare per buoni questi risultati, ma è più evidente che mai il fatto che questi studi sono stati anch'essi disegnati male. Infatti alcuni degli esperimenti citati in tabella 2 hanno un "effect size r" addirittura "largamente negativo", il che significa che paradossalmente qui l'effetto parapsicologico è quello di portare i soggetti esaminati a commettere errori molto più spesso di quanto non avrebbero dovuto fare secondo il calcolo delle probabilità di eventi casuali. Questo dato è tipico degli esperimenti disegnati male, perchè la forbice tra r positivi e r negativi è troppo amplia. Se poi, come si fa di solito nelle review, si calcola la media aritmetica degli effetti r di ciascuno studio di tabella 2, ne esce un valore r=0.19. Se volete sapere come viene giudicato un simile effetto in termini di significatività statistica, allora vi rimando ad un simpatico giochino:
http://www.polyu.edu.hk/mm/effectsizefa ... esult.html
Capirete allora la bontà poco più che banale di questa "significatività". Ad ogni modo un ostinato credente nella parapsicologia potrebbe obbiettare che malgrado l'assenza puntuale di replicabilità di molti studi, un effetto poco significativo è sempre meglio che niente. Anche questa è un'affermazione ingenua, poichè anche in campi come la medicina, gli effetti poco significativamente superiori ai placebo vengono sistematicamente rigettati, dato che un ricercatore serio sa bene che, per il rasoio di Occam, è più facile che l'esperimento sia stato invece disegnato male e quindi si premurerà immediatamente a trovare gli errori metodologici. Se così non fosse, gli scaffali delle nostre farmacie sarebbero piene di pillole farlocche e ciò farebbe solo il favore delle case farmaceutiche. Del resto, come diceva ironicamente Ernest Rutherford, ovvero uno dei più grandi sperimentalisti mai esistiti: "Se un esperimento richiede l'uso della statistica, allora è meglio ridisegnare da capo l'esperimento".
A riprova di tutti gli argomenti che ho affrontato, vi rimando alla lettura sulle problematiche che riguardano l'utilizzo del parametro statistico in questione:
https://en.wikipedia.org/wiki/Effect_size
Scoprirete allora quali sono i casi in cui l'utilizzo di questo parametro risulta fuorviante, come per esempio quello della review sui Maimonides, dove gli studi discussi sono stati disegnati in modo l'uno diverso dall'altro e non vi è coerenza tra i dati analizzati, come ammesso dallo stesso autore della review:
"Overall, the Maimonides studies were more successful than the post-Maimonides studies but this may be due to procedural differences. There is a need for a meta-analysis of the experimental dream ESP literature, not only to provide an estimate of the overall effect size but also to identify process-oriented factors that might influence study outcomes."
"It is somewhat difficult to assess the success of the post-Maimonides studies overall and in relative terms because they used different outcome measures (sometimes more than one) so there is no single metric that runs across all of the studies."
Scoprirete anche che alla luce del modo arbitrario e fallace con cui viene usata la regola di Cohen, il Dipartimento dell'Educazione degli stati Uniti ha stabilito che tale metodo è inappropriato e non dovrebbe più essere utilizzato, perchè impedisce di dare interpretazioni univoche ai risultati, come dimostrato in questo elegante studio di sociologia:
http://ies.ed.gov/ncser/pubs/20133000/pdf/20133000.pdf
Tralasciando questa review che è piuttosto datata, posso asserire che comunque negli ultimi anni, proprio grazie alla reciproca collaborazione tra alcuni parapsicologi seriamente motivati e scettici scientificamente preparati, la parapsicologia ha cercato di affinare sempre più i suoi strumenti per presentare alla comunità scientifica dei lavori sempre più degni di venire analizzati, poichè si è cercato di eliminare in modo sistematico tutti i possibili errori metodologici nel condurre gli esperimenti e ciò, che ci crediate o meno, è molto lodevole e gratificante per noi scienziati schifosamente nerdosi. Un caso può essere quello della professoressa Julia Mossbridge, che ultimamente ha disegnato, secondo me, davvero un bell'esperimento per dimostrare quel che lei chiama "Predictive physiological anticipation", tanto da aggiudicarsi, al contrario di molti parapsicologi, una pubblicazione su un'autorevole rivista che tratta anche temi controversi:
http://journal.frontiersin.org/article/ ... 6/abstract
Infine, questo non significa purtroppo che i suoi risultati siano veritieri, perchè se pur con maggiore difficoltà, altre attente ed oneste analisi come quelle di D. Samuel Schwarzkopf, hanno potuto per l'ennesima volta mettere in luce i difetti metodologici dell'esperimento (colpa ancora una volta della malafede di Dean Radin e Jessica Utts?):
Credo di aver esaurito l'argomento a sufficienza. Spero inoltre di aver affrontato temi interessanti e decido infine di lasciare a voi l'ultima parola.