Popinga: Darwin sperimentatore e la nascita della statistica dei dati biologici

domenica 13 febbraio 2022

Darwin sperimentatore e la nascita della statistica dei dati biologici

Anche se aveva molti talenti, Charles Darwin non era un gran matematico. Nella sua autobiografia scrive di aver studiato matematica da giovane, ma ricorda anche che "mi ripugnava", pur riconoscendo che avrebbe voluto aver appreso i principi di base della matematica, "perché gli uomini così dotati sembrano avere un senso in più".

Darwin non amava le complesse dimostrazioni e scrisse al secondo cugino William Darwin Fox il 23 maggio 1855: "Non ho fiducia in niente che non sia la misurazione effettiva e la Regola del Tre” (cioè le proporzioni semplici). Scrivendo a T. H. Huxley il 7 maggio 1860, confermava che “Dato che sembravi in qualche modo interessato ai cambiamenti nelle proporzioni dei piccioni, ti dirò i risultati generali dopo aver rielaborato l'intero argomento in ogni modo possibile e con l'aiuto di circa (più o meno) diecimila calcoli con la regola delle tre”.

Fu un fiore selvatico, la linaiola comune (Linaria vulgaris), a cambiare le sue opinioni. Come riferisce in The Effects of Cross and Self-Fertilisation in the Vegetable Kingdom (1876), per i suoi esperimenti Darwin coltivò la pianta, che ha piccoli fiori ermafroditi, incrociò accuratamente alcuni fiori e ne autofecondò degli altri. Quando coltivò i semi, scoprì che gli ibridi erano più grandi e più forti di quelli provenienti dalla stessa parentela.

“Alla fine, fui portato a fare gli esperimenti registrati nel presente volume dalla seguente circostanza. Allo scopo di determinare certi punti riguardo all'eredità, e senza pensare agli effetti di un ravvicinato incrocio, coltivai vicini due grandi letti di pianticelle autofecondate ed incrociate della stessa pianta di Linaria vulgaris. Con mia sorpresa, le piante incrociate, quando erano completamente cresciute, erano chiaramente più alte e più vigorose di quelle autofecondate. Le api visitano incessantemente i fiori di questa Linaria e portano il polline dall'una all'altra; e se si escludono gli insetti, i fiori producono pochissimi semi; cosicché le piante selvatiche da cui sono cresciute le mie piantine devono essere state incrociate durante tutte le generazioni precedenti. Sembrava quindi del tutto incredibile che la differenza tra i due letti di pianticelle potesse essere dovuta ad un solo atto di autofecondazione; e attribuii il risultato al fatto che i semi autofecondati non fossero ben maturati, per quanto improbabile fosse che tutti avrebbero dovuto essere in questo stato, o a qualche altra causa accidentale e inesplicabile. L'anno successivo, coltivai per lo stesso scopo di prima due grandi letti ravvicinati di piante autofecondate e incrociate del garofano, Dianthus caryophyllus. Questa pianta, come la Linaria, è quasi sterile se si escludono gli insetti; e possiamo trarre la stessa deduzione di prima, cioè che le piante madri devono essere state incrociate durante ogni o quasi ogni generazione precedente. Nondimeno le pianticelle autofecondate erano chiaramente inferiori in altezza e vigore a quelle incrociate”.

Era stupito. Sebbene avesse sempre sospettato che la consanguineità fosse dannosa per le piante, non aveva mai pensato che potesse avere un effetto significativo entro una singola generazione. “In modo che le piante naturalmente incrociate erano in altezza rispetto alle piante autofecondate spontaneamente in un rapporto di almeno fino a 100 a 1”.

Così ripeté l'esperimento con altri sette tipi di piante, compreso il mais, per una decina di generazioni per tipo. Aveva una idea brillante e, a quel tempo, nuova. Poiché lievi differenze nel suolo o nella luce o nella quantità di acqua potrebbero influenzare i tassi di crescita, piantò i semi in coppia: un seme impollinato in modo incrociato e un seme autoimpollinato in ogni vaso. Poi li fece crescere e ne misurò l'altezza.

Il metodo adottato da Darwin era quello di confrontare ogni pianta autofecondata a una incrociata, in condizioni il più possibile uguali. Le coppie così scelte per il confronto erano germogliate nello stesso momento, e le condizioni del terreno in cui crescevano erano ampiamente rese uguali piantando nello stesso vaso. Necessariamente non erano della stessa discendenza, poiché sarebbe difficile nel mais autofecondare due piante nello stesso momento in cui nasce una progenie incrociata dalla coppia. Tuttavia, i genitori provenivano presumibilmente dallo stesso lotto di semi. L'evidente scopo di queste precauzioni era di aumentare la sensibilità dell'esperimento, facendolo dipendere il meno possibile dalle circostanze ambientali, e quindi il più possibile dalle differenze intrinseche dovute all’origine delle piante.

Il metodo dell'accoppiamento, molto utilizzato nel lavoro biologico moderno, illustra bene come un appropriato disegno sperimentale riesca a conciliare due desideri, che a volte appaiono in conflitto. Da un lato si richiede la massima uniformità del materiale biologico, oggetto dell'esperimento, per aumentare la sensibilità di ogni singola osservazione; e, dall'altro, si vogliono moltiplicare le osservazioni in modo da dimostrare per quanto possibile l'affidabilità e la coerenza dei risultati.

Come previsto, in media, gli ibridi erano più alti. Tra le sue 30 piante di mais, ad esempio, gli esemplari autofecondati erano alti solo l'84% degli ibridi. Ma Darwin era abbastanza esperto da non fidarsi semplicemente dell'altezza media di così poche piante. "Posso premettere - scriveva - che se prendessimo per caso una dozzina o una ventina di uomini appartenenti a due nazioni e li misurassimo, presumo sarebbe molto avventato formulare un giudizio da un numero così piccolo sulla loro altezza media. Ma il caso è alquanto diverso nelle mie piante incrociate ed autofecondate, poiché erano esattamente della stessa età, furono sottoposte dalla prima all'ultima alle stesse condizioni, e discendevano dagli stessi genitori. Quando sono state misurate solo da due a sei paia di piante, i risultati sono manifestamente di poco o nessun valore, tranne in quanto confermano e sono confermati da esperimenti fatti su scala più ampia con altre specie”. Poteva essere, si domandò, che le differenze di altezza nelle piante fossero solo variazioni casuali? Il suo risultato poteva essere più significativo, ma voleva essere in grado di stabilire di quanto.

Per farlo, tuttavia, era necessaria la matematica. Perciò si rivolse a suo cugino, Francis Galton, che era un leader nel campo emergente della statistica. Galton aveva recentemente inventato la deviazione standard o scarto quadratico medio, che è un indice di dispersione statistico, vale a dire una stima della variabilità di una popolazione di dati o di una variabile casuale.

“Poiché veniva misurato solo un numero modesto di piante incrociate e autofecondate, per me era di grande importanza sapere fino a che punto le medie fossero affidabili. Chiesi quindi al signor Galton, che ha molta esperienza in ricerche statistiche, di esaminare alcune delle mie tabelle di misura, in numero di sette, cioè quelle di Ipomoea, Digitalis, Reseda lutea, Viola, Limnanthes, Petunia e Zea”.

Galton non fu però di grande aiuto. Poteva calcolare la deviazione standard, ma non poteva usare quel numero per dire quanto fosse probabile che la differenza di altezza non fosse casuale. Inoltre, era abbastanza sicuro che ci fossero troppo poche piante per dirlo. Così rispose a Charles Darwin:

“La determinazione della variabilità (misurata da quello che tecnicamente viene chiamato 'errore probabile') è un problema di maggior delicatezza di quello di determinare le medie, e dubito, dopo molte prove, che sia possibile trarre conclusioni utili da queste poche osservazioni. Dovremmo avere misure di almeno cinquanta piante per ogni caso, per poter dedurre risultati affidabili. Un fatto, tuttavia, relativo alla variabilità, è molto evidente nella maggior parte dei casi, anche se non in Zea mays, cioè che le piante autofecondate comprendono il maggior numero di esemplari eccezionalmente piccoli, mentre quelle incrociate sono più generalmente completamente cresciute.

Se si arrivasse a conoscere che una serie segue la legge dell'errore o qualsiasi altra legge, e se d’altra parte si conoscesse il numero degli individui della serie, sarebbe sempre possibile ricostruire l'intera serie quando ne è stata data una frazione. Ma non ritengo che tale metodo sia applicabile in questo caso. Il dubbio sul numero delle piante in ogni riga [della tabella ricavata, NdR] è di minore importanza; la vera difficoltà sta nella nostra ignoranza della legge precisa seguita dalla serie. L'esperienza delle piante in vaso non ci aiuta a determinare tale legge, perché le osservazioni di tali piante sono troppo poche per permetterci di stabilire con precisione più che i termini medi della serie a cui appartengono, mentre i casi che stiamo ora considerando si riferiscono ai termini estremi di questa serie”.

E la questione rimase a quel punto, in una frustrante incertezza, per 40 anni.

Per risolvere l'impasse, ci voleva una Guinness. Nei primi anni del Novecento, la società produttrice di birra dublinese si dotò di un gruppo di ricerca per studiare in modo scientifico i parametri che influenzano la qualità della birra, applicando procedimenti che oggi prendono il nome di controllo di qualità. Un dipendente della Guinness, William Sealy Gosset, laureato in chimica e matematica, sviluppò un metodo di confronto fra campioni statistici che viene ampiamente usato ancora oggi in ogni campo, per esempio negli studi clinici di efficacia dei farmaci.

A Gosset, tuttavia, non fu consentito di pubblicare il metodo con il proprio nome, perché Guinness voleva mantenere segreto il fatto che le statistiche potessero aiutare a produrre una birra migliore. Egli lo fece sotto lo pseudonimo di "Student", nel 1908. La tecnica è quindi diventata nota come “Student’s t-test”, un test statistico di tipo parametrico che ha lo scopo di verificare se il valore medio di una distribuzione si discosta significativamente da un certo valore di riferimento.

Lo Student’s t-test fece ciò che Galton non sapeva come fare: data la deviazione standard calcolata da Galton, diceva quanto fosse probabile che la differenza di altezza tra gli ibridi e gli autofecondati fosse casuale. La risposta fu che la possibilità era di circa il 5%. Per gli standard statistici, è a malapena significativo.

Ci vollero altri dieci anni e l'intervento di un altro genio statistico per la successiva svolta sul problema. Ronald Aylmer Fisher (1890-1962), un poliedrico biologo britannico che fu attivo come matematico, statistico e genetista. Per la sua opera nella statistica, è stato definito "la figura più importante nella statistica del XX secolo". In biologia, il suo lavoro utilizzò la matematica per combinare la genetica mendeliana e la selezione naturale; ciò contribuì alla rinascita del darwinismo nella revisione della teoria dell'evoluzione nota come sintesi moderna. Per i suoi contributi alla biologia, Fisher fu anche definito "il più grande successore di Darwin".

Da studente universitario, Fisher venne a conoscenza dell’opera di Gregor Mendel sulla genetica e di quella di Darwin sull'evoluzione, ma la teoria che collegava le due non era ancora stata sviluppata. Fisher decise di creare la base statistica per rendere possibile la connessione. L'esperimento di Darwin con gli ibridi era proprio il tipo di problema che Fisher doveva essere in grado di risolvere. Notò qualcosa che Galton aveva ignorato: il metodo intelligente di Darwin per accoppiare le piante. Aveva calcolato la deviazione standard delle piante come un unico grande gruppo.

Fisher rifece l'analisi ma calcolò la deviazione standard della differenza di altezza tra le coppie di piante in ogni vaso. Di colpo, invece di una possibilità del 5% che il risultato non significasse nulla, ottenne una possibilità dello 0,01%. In altre parole, era quasi certo che gli ibridi diventassero davvero più alti degli autofecondati.

Fisher notò che lo Student’s t-test aveva un possibile difetto: presumeva che le altezze delle piante variassero in modo prevedibile (secondo una distribuzione normale, per essere precisi). Nel caso in cui tale ipotesi fosse stata sbagliata, escogitò un altro modo di analizzare i dati e confermò il risultato. Studiò la progettazione di esperimenti introducendo il concetto di randomizzazione e l'analisi della varianza, procedure oggi utilizzate in tutto il mondo. L'idea di Fisher era quella di organizzare un esperimento come un insieme di sotto-esperimenti suddivisi che differiscono l'uno dall'altro per l'applicazione di uno o più fattori o trattamenti. I sub-esperimenti sono progettati in modo tale da consentire di attribuire differenze nei loro risultati ai diversi fattori o combinazioni di fattori mediante analisi statistiche. Questo è stato un notevole progresso rispetto all'approccio allora esistente di variare solo un fattore alla volta in un esperimento, che era una procedura relativamente inefficiente.

Fisher pubblicò il frutto della sua ricerca in due libri fondamentali, Statistical Methods for Research Workers e The Design of Experiments. Quest'ultimo introdusse diverse idee fondamentali, tra cui l'ipotesi nulla H₀ e la significatività statistica, che gli scienziati di tutto il mondo usano ancora oggi.

L'analisi di Fisher fu possibile solo perché Darwin aveva progettato così bene i suoi esperimenti. In effetti, Fisher era spesso frustrato dalla qualità degli esperimenti di altre persone. "Chiamare lo statistico dopo che l'esperimento è terminato", disse in una conferenza a Calcutta nel 1938, "potrebbe essere nient'altro che chiedergli di eseguire un esame post mortem: potrebbe essere in grado di dire di cosa è morto l'esperimento".

Secondo Fisher, “Il principale contributo di Darwin, non solo alla Biologia ma all'intera scienza naturale, fu l'aver portato alla luce un processo per cui a contingenze improbabili a priori viene data, nel corso del tempo, una probabilità crescente, fino a quando non è la loro mancata occorrenza, e non il loro verificarsi, che diventa altamente improbabile”.

Ciò che poterono fare gli statistici con i dati di Darwin fu semplicemente una conseguenza dello sviluppo nel tempo della loro scienza, ma nessuno mai mise in dubbio la raffinatezza della sua procedura sperimentale.

Popinga

domenica 13 febbraio 2022

Darwin sperimentatore e la nascita della statistica dei dati biologici

Nessun commento:

Posta un commento