I Big Data, il Big Change e la logica abduttiva

Pietro Greco si occupa dell’impatto dei “big data” sulle prospettive di sviluppo della scienza. Dopo aver criticato la diffusa idea che l'estrazione automatica di conoscenza dai “big data” costituisca una sorta di quarto “paradigma scientifico”, Greco nega che i dati “parlino da soli” senza bisogno di teorie scientifiche, e sostiene che essi possono, al più, suggerire un percorso di conoscenza, che dovrà comunque essere costantemente verificato confrontando “sensate esperienze” e “determinati riferimenti teorici."

Una delle più grandi biblioteche al mondo, la Library del Congresso degli Stati Uniti, a Washington, con i suoi 28 milioni di libri e i suoi 50 milioni di manoscritti, conserva una quantità di informazione pari a circa 20 terabytes. L’European Bioinformatics Institute (EBI), un centro di ricerca dell’European Molecular Biology Laboratory (EMBL) che ha sede presso il Wellcome Trust Genome Campus di Hinxton, a Cambridge, in Gran Bretagna, tra il 2008 e il 2010, ha quadruplicato la quantità di bytes accumulati: passando da 1 a 4 petabytes. Tradotto dal gergo degli informatici, significa che la biblioteca virtuale dell’EBI nel 2008 conteneva l’equivalente in dati di 50 biblioteche del Congresso degli Stati Uniti salite a 200 quattro anni dopo.

Non è un caso isolato, quello dell’EBI. Il primo genoma umano è stato sequenziato per intero nel 2001. Dodici anni dopo, nel 2012, i DNA sequenziati per intero erano nell’ordine delle migliaia. In Islanda, per esempio, la DeCODE Genetics ha raccolto i dati genetici completi di 15.000 cittadini, riuscendo a elaborare per ciascuno una mappa del rischio di contrarre il diabete, l’Alzheimer e, per le donne, il cancro al seno. Nel Regno Unito, invece, il Genome Project è stato varato nel 2014 per sequenziare il genoma di 100.000 sudditi di Sua Maestà Britannica. Mentre sia gli Stati Uniti, con la Precision Medicine Initiative, sia la Cina, con il progetto del BGI di Shenzhen, contano di mettere insieme, ciascuno, i 3 miliardi e passa di basi del DNA di un milione di loro cittadini. La progressione è inarrestabile. Tanto che di recente Nature ha previsto che, entro il 2025, i biologi avranno sequenziato e potranno comparare il DNA di un miliardo di persone in tutto il mondo. Tradotto nell’unità di misura dell’informazione, significa che dovranno immagazzinare e gestire una quantità senza precedenti di informazioni: probabilmente 40 petabytes (2.000 Library del Congresso degli Stati Uniti) per anno.

Non c’è dubbio: la biomedicina sarà (è già) dominata dai “big data”. E molti ritengono che questa enorme quantità di dati modificherà (sta modificando) nel profondo la scienza medica. Con ricadute difficili da immaginare per la farmaceutica e più in generale per la clinica medica. E a chi ancora nutrisse qualche dubbio, ricordiamo che già da qualche anno le più grandi aziende del settore stanno investendo miliardi di dollari nei “big data”.

Discorsi analoghi si possono fare per molti altri settori della scienza. Per dirne una, un solo esperimento con LHC al CERN di Ginevra raccoglie dati per 10 petabytes (500 Library del Congresso). Per gestire tutti questi dati è necessario distribuirli in svariate decine di megabanche sparse per il mondo.

E non è finita. Da qui a qualche anno lo Square Kilometre Array (SKA), un grande radiotelescopio distribuito su migliaia di chilometri quadrati tra l’Africa del Sud e l’Australia, raccoglierà 1.000 di petabytes di dati al giorno. Il che significa che ogni 24 ore quel grande orecchio carpirà all’universo una quantità di informazioni pari a quelle contenute in 50.000 Library del Congresso americano.

Non c’è dubbio: i “big data” cambieranno (stanno già cambiando) la scienza intera. Ma stiamo andando verso un “big change” o verso un “big flop”?

Secondo alcuni i “big data” realizzeranno (stanno già realizzando) la “grande svolta”. Tony Hey, Stewart Tansley e Kristin Tolle, per esempio, in un libro che ha fatto scuola, The Fourth Paradigm. Data-Intensive Scientific Discovery, pubblicato dalla Microsoft nel 2009, sostengono che il salto di quantità nella produzione di dati è tale da realizzare di per sé un salto di qualità nella scienza. L’informazione raccolta a scala così grande è, o si trasforma facilmente in, nuova conoscenza. Per questo hanno annunciato l’avvento di un “quarto paradigma” nella storia della scienza. Un nuovo modo di estrarre conoscenza dal mondo naturale attraverso l’analisi automatica dei “big data”.

In realtà, il primo a parlare di un “quarto paradigma” associato ai “big data” è stato Jim Gray, un informatico che ha collaborato a lungo con la Microsoft nel tentativo di convincere il mondo intero che siamo entrati in una nuova era epistemologica. Non era un visionario, Jim Gray. Ha vinto, infatti, il premio Turing assegnato ai grandi matematici. Conviene, dunque, ascoltarlo.

Il primo e il secondo paradigma nella produzione di nuova conoscenza scientifica, ricordava Gray, sono quelli che aveva individuato Galileo già nel Seicento: le “certe dimostrazioni” e le “sensate esperienze”, ovvero le teorie rigorose e l’attenta verifica empirica. Per tre secoli o giù di lì, il combinato disposto di questi due primi paradigmi ha definito “la scienza”.

L’avvento del computer, nella seconda parte del XX secolo, ha offerto una terza possibilità di produrre nuova conoscenza: la simulazione. In molti campi, ormai, la ricerca scientifica non indaga più il mondo naturale, ma quello virtuale, riprodotto al computer in analogia con quello reale. Le previsioni relative ai cambiamenti del clima (e anche le previsioni meteorologiche) vengono realizzate mediante simulazioni al computer. C’è un indubbio svantaggio in questo modo di fare scienza: i risultati riguardano non la realtà, ma solo un’approssimazione più o meno buona della realtà (i meteorologi ogni tanto sbagliano). Ma c’è anche un grande vantaggio: gli esperimenti controllati si possono ripetere all’infinito, modificando a piacimento ogni parametro e scarrozzando senza limiti nello spazio e nel tempo. Con le simulazioni possiamo costruire una serie grande a piacimento di “scenari di probabilità”.

Non ci sarebbe una scienza del clima (e neanche una meteorologia scientifica), con tanto di previsioni, se non avessimo una infinità di pianeti Terra virtuali su cui sperimentare. Certo, per la simulazione vale il “paradosso di Weisskopf”. In uno dei suoi libri, il grande fisico Victor Weisskopf scrive: «Io mi sono chiesto, senza mai riuscire a spiegarmelo, perché alle nostre latitudini il vento soffia prevalentemente da ovest. Una volta chiesi una spiegazione a un famoso meteorologo. Egli mi disse di andare nel suo ufficio, dove mi mostrò i dati in uscita dal suo computer, che calcolava le direzioni del vento tenendo conto della radiazione solare, della rotazione della Terra e di altri fattori importanti. “Vede”, mi disse, “tutte le frecce alle medie latitudini puntano da ovest verso est.” Io gli risposi: “Evidentemente il computer lo capisce, ma noi?”». Già, il computer ci offre spesso delle soluzioni, ma non sempre una spiegazione.

Tuttavia pochi hanno dubbi: la simulazione è il “terzo paradigma” della scienza.

Ebbene, sosteneva Gray, ora c’è (o ci sarà a breve) un “quarto paradigma”: la possibilità di navigare nel mare sconfinato dei “big data” alla ricerca (anche) di ordine e regolarità che non vediamo e che le teorie scientifiche attuali non prevedono. Si tratta solo di organizzarla, questa navigazione nei “big data”, per produrre nuova conoscenza. Occorrerà mettere a punto algoritmi capaci di trovare in piena autonomia ordine e regolarità nel mare di informazioni e di tradurli in nuova conoscenza. I dati parleranno da soli a questi algoritmi e non avremo più bisogno di teorie, per produrre nuova conoscenza intorno al mondo naturale.

Jim Gray ne era convinto: presto assisteremo al trionfo epistemologico di un nuovo metodo induttivo. Perché estensioni inusitate di dati in ogni settore della scienza già esistono e i matematici hanno le capacità tecniche di navigarci a piacimento. Avremo dunque dei robot cognitivi in grado di sostituire lo scienziato in carne e ossa?

Chi scrive pensa di no. E tra poco cercherà di argomentare il suo scetticismo. Ma il cronista ha il dovere di riportare i fatti. Ed è un fatto che, di recente, sull’argomento si è schierata la Royal Society. È possibile – sostiene l’antica accademia scientifica di Londra – che i robot annunciati da Jim Gray non li avremo mai. Ma non è possibile – non è sano – escluderlo a priori. Sarebbe, infatti, un peccato perdere o ridurre fortemente l’opportunità di far emergere il «quarto paradigma». Per cercare di coglierla, pertanto, dobbiamo lavorare sull’informazione, aumentando il tasso di comunicazione tra gli scienziati (ma anche tra scienziati e laici), il tasso di accessibilità ai dati e le risorse pubbliche, sia per organizzare in banche razionali i “big data” sia per produrre gli algoritmi più adatti a indagarli.

In altri termini, la Royal Society sostiene che tutti gli scienziati e tutti i cittadini volenterosi, in totale trasparenza, debbano conferire a una banca dati globale ogni e qualsiasi dato in loro possesso; che tutti, ma proprio tutti, possano liberamente accedere alla banca globale e intraprendere percorsi di navigazione nel grande mare dei “big data”; che le istituzioni, nazionali e internazionali, debbano mettere a disposizione un po’di soldi e creare le infrastrutture informatiche adatte.

Il governo inglese e quello americano, così come l’Unione Europea, si sono già attivati e stanno muovendo in questa direzione, convinti di aver colto la novità e che sarà questa una delle autostrade dell’innovazione. Certo occorrerebbe che anche in Italia se ne cominci a parlare.

Ma la domanda è: quali concrete possibilità ci sono che il metodo indicato da Jim Gray produca davvero nuova conoscenza e si trasformi nel “quarto paradigma”?

A ben vedere il metodo che ha proposto è di tipo induttivo, sia pure con strumenti nuovi (gli algoritmi automatici). E i limiti dell’induttivismo sono stati analizzati da molti logici e filosofi. Per esempio da Bertrand Russell, che con la solita arguzia ha narrato della tragica fallacia della logica del “tacchino induttivista”. Ogni giorno un tacchino americano vede il contadino che gli porta il cibo, puntuale alle medesima ora. Così ne induce che anche l’indomani a quell’ora potrà saziare la sua fame. Solo che l’indomani è il Giorno del Ringraziamento e il contadino arriva puntuale non per sfamare il tacchino, ma per sfamarsi col tacchino.

Anche Karl Popper ha indicato i limiti del ragionamento induttivo: i dati non parlano da soli. Non è possibile, infatti, elaborare teorie scientifiche universali perché con questo tipo di logica non si possono fare previsioni solide: si parte da un caso, si ottiene un risultato e si inferisce una regola generale che però può essere fallace. Se verifico che nel lago vicino casa tutti i cigni sono bianchi e anche nel lago affianco quei sinuosi uccelli hanno il medesimo colore, non posso stabilire la legge universale “tutti i cigni sono bianchi”, perché non so, né posso sapere, se in un laghetto lontano ci sia un cigno nero.

La scienza preferisce la logica deduttiva. Del tipo: “tutti i cigni di questo lago sono bianchi, i cigni vicino casa mia vengono da questo lago, dunque questi cigni sono bianchi”. Il risultato è assolutamente necessario.

Il filosofo americano Charles Sanders Peirce sottolinea che esiste un terzo tipo di logica, battezzata abduzione. Che suona, più o meno, così: “I cigni che ho trovato nel giardino di casa mia sono bianchi (risultato); tutti i cigni del lago qui vicino sono bianchi (regola); allora (caso) i cigni nel mio giardino provengono probabilmente dal lago qui vicino”. La logica abduttiva non è “certa” come quella deduttiva, ma neppure è fallace come quella induttiva. Accresce, comunque, la nostra conoscenza sul mondo perché indica un percorso da verificare. Un percorso in cui “certe dimostrazioni” e “sensate esperienze” sono comunque necessarie.

La domanda è se la navigazione nel grande mare dei dati non debba essere guidata da un approccio abduttivo. Agli algoritmi automatici che li manipoleranno non possiamo riconoscere la capacità a priori di inferire regole generali, perché i dati non parlano da soli. E, se parlano, non sempre dicono la verità. Tuttavia possono indicare un percorso. Che conviene verificare con “sensate esperienze” e interpretare con “certe dimostrazioni”.

In altri termini i “big data” non possono ambire a imporsi come il “quarto paradigma”, tuttavia possono essere un valido strumento di ricerca se non pretendono di fare a meno della teoria e della verifica sperimentale.

* Per un approfondimento del rapporto tra scienza e big data si rimanda al video di un dibattito svoltosi il 18 gennaio 2017 alla Sapienza al quale Pietro Greco ha partecipato assieme a Angelo Vulpiani

Schede e storico autori