domenica 5 giugno 2011

Il calcolo della distanza tra due testi letterari


Un blogger come Popinga che si occupa di scienza e letteratura non può dimenticare come la statistica sia un metodo fondamentale di ricerca anche in campo letterario, in supporto ai tradizionali procedimenti della critica basati sull’analisi stilistica e sullo studio del contesto storico, geografico e culturale. Da più di un secolo il testo letterario è considerato un insieme di elementi che è possibile elaborare con numerosi metodi matematici, che hanno raggiunto una tale raffinatezza da poter essere giudicati affidabili quanto l’analisi delle impronte digitali o il test del DNA utilizzati in campo forense.

L’applicazione dell’analisi statistica ai testi letterari consente diversi tipi di indagine, tra i quali quella che inglesi e americani chiamano “autorship attribution”, cioè l’identificazione dell’autore di un testo di origine dubbia o sconosciuta. Il problema fu oggetto di due studi pionieristici già nel 1887 e nel 1901, quando l’americano Thomas Mendenhall inaugurò la stilometria analizzando la distribuzione della lunghezza delle parole in vari autori, dapprima dimostrando le significative differenze che esistono tra lingue diverse e tra autori differenti (nel caso di Dickens e Thackeray), poi studiando i testi di Shakespeare, Bacon e Marlowe, ricavandone una serie di istogrammi di distribuzione di frequenza. Questo secondo studio divenne molto popolare perché evidenziò notevoli differenze tra l’istogramma riferito a Shakespeare e quelli di molti suoi contemporanei (tra i quali Francis Bacon), ma una sostanziale e impressionante similitudine con quello ricavato dall’analisi dei testi di Marlowe. Il fatto alimentò la secolare discussione sull’identità del genio di Stratford-on-Avon, la cui biografia presenta tuttora importanti lacune (Marlowe fu ucciso in una taverna due settimane prima che fosse pubblicata la prima opera di Shakespeare). L’identità tra i due fu sostenuta con un metodo simile al contemporaneo metodo bootstrap di ricampionamento. Le conclusioni di Mendenhall furono contestate sulla base della scelta dei testi, ma non sono mai state completamente smentite.

In effetti la scelta dei testi da confrontare costituisce una delle operazioni più delicate dell’analisi stilometrica, per una serie di comprensibili motivi: lo stile di un autore può maturare e arricchirsi durante la sua carriera artistica, e perciò, più che analizzare la costanza di determinati caratteri nell’intera opera, è più utile considerare il loro valore statistico considerando la data di produzione. Inoltre un autore può utilizzare diverse forme letterarie, come la prosa e la poesia, che presentano diverse proprietà statistiche. In questi casi è necessario un appropriato lavoro preliminare di scelta e trattamento per evitare che si sopravvaluti una eterogeneità dettata da consapevoli scelte stilistiche. Infine, un’affidabile analisi stilometrica deve considerare tutte le informazioni disponibili sull’opera oggetto di indagine, come la data di stesura, e ciò rende necessaria la collaborazione tra esperti di vari campi, come statistici e storici della letteratura e biografi.

Particolarmente interessanti sono quei casi dove il risultato dell’analisi stilometrica consente di identificare un altrimenti inaspettato autore di un’opera, oppure di negare la paternità di un candidato ritenuto probabile, quando tale attribuzione è confermata dalla scoperta successiva di nuovo materiale documentario. Un esempio di tale successo è la smentita dell’attribuzione a Mark Twain delle lettere comparse sul New Orleans Daily Crescent durante il 1861, in cui un certo Quintus Curtius Snodgrass descriveva la sua partecipazione alla Guerra Civile americana nel campo sudista.

I metodi di analisi statistica di un testo letterario messi a punto nel corso degli anni sono numerosi e assai diversificati, sia per quanto riguarda i caratteri presi in esame (lunghezza delle parole, loro distribuzione, frequenza di utilizzo di termini significativi, evoluzione nel tempo del lessico, lunghezza e costruzione delle frasi e dei periodi, ecc.), sia per ciò che concerne il trattamento matematico delle informazioni così ottenute, sia per gli obiettivi che si propone.

Un interessante articolo di Cyrill e Dominique Labbé, intitolato La classification des textes e comparso alla fine di marzo sul bellissimo portale francese Images des Mathématiques del CNRS (Centre National de la Recherche Scientifique) fornisce l’occasione per illustrare una procedura per un calcolo di “distanza” tra i testi, al fine di poter misurare con precisione la prossimità più o meno elevata di ciascuno di essi in rapporto a tutti gli altri.

La distanza tra due testi (intertestuale) si misura come si misura la distanza tra due oggetti nello spazio, con la differenza che l’unità di misura non è il metro, ma la parola. Se si rappresentano i due testi come due insiemi di parole, A e B, si opera la differenza simmetrica AΔB tra i due insiemi, cioè si considera l’insieme formato dagli elementi che appartengono ad A oppure a B ma non appartengono ad entrambi. La proprietà caratteristica, AΔB = {x|x ∈ (A∪B) − (A∩B)}, mostra che si tratta dell'unione dei due insiemi meno la loro intersezione. Si conta quindi il numero di parole diverse tra i due testi.

Come si risolvono le ambiguità? Prendiamo ad esempio i due “testi”:
a) Il neofascista gli disse “Difendiamo la nostra razza”;
b) “Difendiamo la nostra razza”, gli disse il pescatore.
Tranne una parola (neofascista, pescatore), sembrano pressoché uguali, a condizione di ignorare le maiuscole iniziali, la punteggiatura e l’ordine delle parole. Ciò nonostante, esiste un’ambiguità di fondo, che è dovuta all’esistenza di una omografia, cioè di parole con la stessa grafia e significati diversi (la zeta sorda non viene distinta nella lingua scritta da quella sonora). “Razza” è da intendersi nel primo caso come “gruppo di individui che presentano caratteri somatici comuni”, mentre nel secondo caso indica un “pesce marino con corpo dalla forma simile a un rombo, grandi pinne a forma di ali, coda sottile e lunga” (fonte: Dizionario Sabatini-Coletti, edizione on line). In genere queste ambiguità sono risolte dall’esame del contesto, a meno di voler considerare i casi di un neofascista ambientalista o di un pescatore razzista, peraltro nient’affatto da escludersi in questi tempi di gran confusione.

Come si procede allora per il calcolo della “distanza” tra A e B? Definiamo:
- NA e NB: numero delle parole (tokens in inglese) rispettivamente in A e B, o lunghezza di A e B, nel nostro caso 8;
- VA e VB: numero dei “vocaboli” (types in inglese) rispettivamente in A e B. Si tratta della dimensione dei rispettivi vocabolari: ci sono 8 parole differenti in A e 8 in B. V(A,B) è il vocabolario totale di A e B, che consta di 9 parole (10 se consideriamo l’omografia di “razza”).
- FiA e FiB: numero di volte in cui un vocabolo i è utilizzato rispettivamente in A e B. Si tratta degli effettivi o “frequenze assolute” di questo vocabolo. Nel nostro esempio, esse sono tutte 1 tranne che per “neofascista” e “razza” (gruppo umano), che sono assenti in B, e “pescatore” e “razza” (pesce), che sono assenti in A.
- |FiA - FiB|: la differenza assoluta degli effettivi del vocabolo i in A e in B. L’aggettivo “assoluta” significa che non si tiene conto del segno nel risultato. Nell’esempio, la differenza assoluta è 1 per “neofascista” e “pescatore”.
- D(A,B): è la distanza tra A e B. Questa distanza è il numero di parole diverse tra A e B (o viceversa). Per calcolare questa distanza si fa ricorso a una tabella come quella sotto rappresentata.

1difendere (verbo)110
2dire (verbo)110
3gli (pronome)110
4il (articolo)110
5la (articolo)110
6neofascista (nome)101
7nostra (aggettivo)110
8pescatore (nome)011
9razza (1, nome)101
10razza (2, nome)011
Totale884
I vocaboli impiegati in A e B sono collocati in ordine alfabetico nelle prime due colonne. Nella terza e quarta colonna si riportano rispettivamente gli effettivi FiA e FiB. Nella quarta colonna, infine, si riporta la differenza assoluta º FiA e FiB º tra questi due effettivi. Nell’ultima riga si leggono i risultati. La lunghezza di A (NA) come quella di B (NB) è di 8 parole. La distanza assoluta tra A e B è uguale a 4 parole. Queste operazioni si possono riassumere con la formula: (1):
 
E, poiché ci sono 16 parole totali in A e B, la distanza relativa (2) è uguale a 4/16, cioè 0,25:
 
D(A,B) è una distanza euclidea (lunghezza del segmento di retta che unisce due punti). L’aggettivo “euclideo” significa “conforme alla geometria di Euclide” (per un punto passa una sola parallela a una retta esterna a quel punto). Le proprietà di una distanza euclidea sono: 
– l’identità (la distanza tra un punto e se stesso è nulla);
– la simmetria (il risultato è lo stesso sia misurando AB sia misurando BA);
– la disuguaglianza triangolare (il percorso diretto tra A e B è sempre più breve che passando per un punto C non situato sul segmento AB). Queste proprietà hanno importanti conseguenze. Ad esempio si può costruire una rappresentazione grafica di tutte le distanze all’interno di una vasta popolazione di testi, così come si disegna la mappa di una città.
Tornando al nostro esempio, ammettendo perciò che il sostantivo “razza” abbia due significati diversi in A e in B, la distanza tra i due insiemi è di 4 parole su 16, vale a dire 0,25.

Nell’esempio sopra riportato i due testi hanno la stessa lunghezza (lo stesso numero di parole). Come si procede invece a misurare la distanza quando i due testi hanno lunghezze differenti? Supponiamo che B sia più lungo di A (NA < NB). In questo caso si cerca di stimare la distanza riducendo B alla lunghezza di A e sovrapponendo questa riduzione B’ sul testo A. In altri termini la domanda diviene: se B avesse la stessa lunghezza di A, quante parole differenti avrebbero questi due testi?
Definiamo:
U: il rapporto tra le lunghezze di A e di B, cioè la proporzione con la quale bisogna ridurre B per ottenere B’:
EiA(u): l’effettivo teorico, in un testo di lunghezza A, di un vocabolo i appartenente al vocabolario di B. Questo effettivo teorico si ottiene ponderando con U l’effettivo di i in B:
Per ciascuno dei vocaboli di B, la formula (3) permette di calcolare il numero di volte che questo vocabolo apparirebbe se B avesse la lunghezza di A. Sostituendo nella formula (1), l’effettivo di ciascuno dei vocaboli di B con questo effettivo teorico, si ottiene una stima della distanza intertestuale:
Per il calcolo della distanza relativa si sostituisce nella formula (2) NB con la somma degli effettivi teorici, vale a dire con la lunghezza teorica di B’:
 
Il valore di NB’ è all’incirca uguale a NA. La formula (2) diventa:
Si tratta di una stima suggerita da almeno due ordini di motivi. Innanzitutto, gli effettivi in A sono dei numeri interi naturali, mentre gli effettivi teorici in B’ sono dei razionali che si avvicinano a degli interi naturali (sconosciuti). Detto altrimenti, il risultato della sottrazione al numeratore di (4) e (5) comporta dei decimali senza significato, ma che comunque entrano nella misura della distanza. Questi decimali pesano in modo più evidente se il vocabolo considerato ha un numero basso di effettivi (osservati in A e teorici in B’). Ora, in tutti i testi in lingua naturale, i vocaboli che appaiono una sola volta sono sempre più numerosi che quelli che compaiono due volte, che a loro volta sono più numerosi degli effettivi di tre, ecc. Il fatto che nelle formule (4) e (5) si mettono insieme delle differenze assolute non permette a questi “errori” di annullarsi. Al contrario, essi si sommano. Per eliminare questo effetto, Cyrill e Dominique Labbé propongono di eliminare dal calcolo:
 – i vocaboli assenti in A e per i quali l’effettivo teorico in B’ è inferiore a 1. La formula (3) diventa allora:
– la differenza degli effettivi osservati in A e degli effettivi teorici in B quando questo valore è inferiore a 0,5. In effetti, poiché si tratta di stimare un intero, questo risultato equivale a zero. La formula (4) diventa allora:
La formula (5) è completata per integrare questi due elementi.
In secondo luogo, il risultato di (5) è una stima a causa dei postulati che fondano il calcolo dell’effettivo teorico di un vocabolo in B’ (formula 3bis). Questa formula suppone che:
– l’effettivo di un vocabolo aumenta proporzionalmente all’allungamento del testo. Questo postulato vale solo per le parole più frequenti e non specializzate;
– la comparsa di nuovi vocaboli avviene sempre allo stesso ritmo. In effetti, questo ritmo è molto rapido all’inizio del testo – perciò la formula (3bis) non si può applicare a testi troppo corti –, poi scende lentamente verso la fine.
Per questi motivi la formula (5) non è pienamente affidabile quando i due testi comparati non sono di lunghezze troppo diverse e quando la lunghezza del più corto supera il punto a partire dal quale il ritmo di comparsa di nuove parole diviene sensibilmente lineare. Una serie di esperienze indica che:
– i due testi devono avere più di 1000 parole, e che, al di sotto delle 3000, il risultato di (5) può essere instabile;
– il rapporto U deve essere inferiore a 1/10. Più questo rapporto si innalza, più il risultato deve essere esaminato con prudenza;
– entro questi limiti, l’incertezza che pesa sulla distanza stimata è compresa tra ± 1% (con testi superiori a 5000 parole e con U<2) e ± 5% (quando U vale 1/5).
Così calcolata, la distanza intertestuale si rivela uno strumento assai utile per determinare l’autore di un testo di difficile attribuzione o di origine sconosciuta. Tuttavia, i fattori da considerare per chi voglia utilizzare l’analisi statistica per la classificazione di un insieme di testi letterari sono ancora molti (genere, autore, lingua, epoca, tema, ecc.), per cui conviene rimandare all’articolo originale chi voglia approfondire queste tematiche. Non se ne pentirà.

5 commenti:

  1. Fioriscono un po' ovunque i metodi matematici l'attribuzione dei testi. Ricordiamo che in Italia c'è il gruppo formato da Emanuele Caglioti, Dario Benedetto e Mirko Degli Esposti che usa metodi entropici per studiare questo problema (per esempio misurare la "gramscianità" dei testi. Vedi anche:
    http://maddmaths.simai.eu/focus/la-matematica-smaschera-il-falso-letterario

    RispondiElimina
  2. Grazie, Roberto. Come vorrei che fosse elevata la mia gramscianità!

    RispondiElimina
  3. Due robe, anzi, tre ma al prezzo di due.

    Uno dei miei autori preferiti fino a un po' di tempo fa --Neal Stephenson-- cambiava completamente il modo di scrivere in funzione del personaggio di cui stava parlando, visibile particolarmente nel Ciclo Barocco.
    Riguardo Shakespeare, Bacon e Marlowe ricordo un pezzo spassosissimo di Woody Allen, credo che da noi sia in "Parlarsi Addosso" ma non ho controllato.
    Poi si possono fare indagini anche più approfondite: prendendo solo un carattere ogni tot nella Bibbia (sia nella versione originale che nella traduzione di Re Giacomo) si può trovare di tutto e di più. L'hanno già fatto e si trova sul Web (il compito di trovare l'URL è lasciato al lettore). E lì c'è scritto chiaramente che Silvio è vero dio (d'ora in poi sostituisce lo spirito santo che non si è mai capito bene che c'azzeccasse) e che Ruby Rubacuori è davvero la nipote di Mubarack Rubacuori.

    Ma poi, domanda: come si fa a valutare un autore poliedrico come il Barozzi?

    RispondiElimina
  4. Stavo pensando, dopo aver premuto il tasto "Posta commento" che questo post è perfetto per un carnevale. Se sì cancella liberamente il mio commento troppo trolloso.

    RispondiElimina
  5. Mio capitano, non dirmi che J. Evans Pritchard aveva ragione!

    A parte tutto, io conoscevo questo, che ancora non ho mai usato, ma in effetti può essere molto utile per l'analisi di testi, specie se corposi:
    http://www.tlab.it/it/presentation.php

    Tu che ne pensi, juhan?

    Grazie per l'interessante articolo, Pop.

    RispondiElimina