I big data che leggono le stelle

Come nella famosa canzone di Gino Paoli, intorno alla metà degli anni Novanta c’erano quattro amici al bar. Forse non hanno cambiato il mondo ma sicuramente hanno contribuito a fondare una nuova disciplina scientifica: l’astroinformatica. George S. Djorgovski del California Institute of Technology, Alex Szalay della Johns Hopkins di Baltimora, Kirk Borne della George Mason University di Washington e Giuseppe Longo della Federico II di Napoli sono stati tra i pionieri dell’applicazione di tecniche di machine learning all’analisi dei dati astronomici. Una metodologia alla base dell’astroinformatica, una nuova disciplina che si colloca all’intersezione tra astrofisica, cosmologia, matematica, scienze statistiche e computer science. Il gruppo di ricercatori napoletani, coordinati oltre che da Longo anche da Massimo Brescia, rappresenta una vera eccellenza nazionale e partecipa a numerosi progetti internazionali. Tra questi ci sono la missione satellitare Euclid dell’Esa che mapperà la geometria dell’universo studiando materia ed energia oscura e il telescopio di nuova concezione Lsst in grado di fotografare l’intero cielo visibile due volte a settimana. Che cosa sono l’astroinformatica e l’astrostatistica lo spiega proprio Giuseppe Longo, che alla Federico II è ordinario di astrofisica e fondatore del corso di laurea magistrale in data science (uno dei primi del genere in Italia):“L’astroinformatica è una disciplina giovane, di confine. Il suo obiettivo è lo sfruttamento scientifico dell’enorme quantità di dati prodotti dai moderni strumenti di studio dell’universo. Oggi l’astrofisica genera quantità di dati talmente grande (per l’appunto, big data) che è impossibile analizzarli con le tecniche informatiche tradizionali. Si ricorre allora a strumenti evoluti come l’Intelligenza artificiale, le tecniche statistiche avanzate o il calcolo distribuito. All’astroinformatica fa dunque capo tutto l’insieme di conoscenze che sono parte della moderna data science. L’astrostatistica, invece, è un sottoinsieme dell’astroinformatica e consiste nell’applicazione di tecniche statistiche avanzate all’analisi dei dati astronomici”.

In che modo questi nuovi strumenti di analisi hanno cambiato lo studio dell’astronomia e che vantaggi offrono rispetto al “vecchio” modo di procedere?

Non molto tempo fa una notte di osservazione con un grande telescopio produceva al più alcune decine di immagini registrate su lastra fotografica. Immagini con cui, al termine di una complessa procedura di calibrazione e analisi, si riuscivano a misurare le proprietà di uno o due oggetti celesti. Oggi la stessa notte di osservazione può produrre informazioni di grande accuratezza e qualità per decine o centinaia di migliaia di oggetti. Stiamo parlando di centinaia di terabyte di dati che, notte dopo notte, devono essere indicizzati, analizzati, interpretati e archiviati. È evidente che un tale flusso di dati non può essere elaborato con le tecniche tradizionali o con i normali strumenti software. È necessario, invece, far ricorso a strumenti automatici che delegano ai computer la maggior parte del lavoro che in passato era svolto dagli astronomi.

Questo comporta problemi?

I problemi da risolvere richiedono da un lato lo sfruttamento delle tecnologie informatiche già esistenti (dal calcolo distribuito all’high performance computing) e dall’altro impongono l’uso di strumenti software completamente nuovi, in grado di operare con migliaia di variabili e su centinaia di milioni, se non addirittura miliardi, di oggetti. È per questo che al cuore dell’astroinformatica ci sono le tecnologie del machine learning: algoritmi in grado di emulare il comportamento del cervello umano in alcuni tipi di operazioni e di farlo con un’accuratezza e una velocità inarrivabili per un essere umano. Questi algoritmi, oggi spesso ed erroneamente etichettati come Intelligenza artificiale per motivi più di marketing che scientifici, intervengono in tutte le fasi del processo di scoperta: dall’acquisizione e valutazione della qualità dei dati grezzi alla loro riduzione e calibrazione, dal riconoscimento degli oggetti presenti nelle immagini e loro classificazione fino all’estrazione delle informazioni utili, alla visualizzazione di spazi di alta dimensionalità e alla successiva verifica dei risultati.

È eccessivo dire che siamo di fronte a una metodologia rivoluzionaria?

Sicuramente è qualcosa che sta cambiando il modo di fare ricerca, non solo in astronomia ma anche in altre discipline. La stragrande maggioranza delle leggi fisiche e biologiche esprime relazioni di al più tre parametri indipendenti. Così, la legge dei gas perfetti lega il volume alla pressione e alla temperatura di un gas, mentre la legge di Hooke lega la deformazione di un corpo elastico alla forza. Questa constatazione potrebbe essere interpretata come il fatto che viviamo in un universo molto semplice ma molto più probabilmente è solo un artificio del cervello umano che non riesce a percepire o a visualizzare correlazioni tra più di tre variabili, essendo stato plasmato dall’evoluzione a lavorare in un ambiente tridimensionale. I grandi database dell’astronomia moderna, dove ogni oggetto è rappresentato da centinaia di parametri spesso indipendenti, uniti alla capacità di astrazione della matematica e alla potenza di calcolo delle moderne infrastrutture informatiche offrono invece, per la prima volta nella storia, la possibilità di andare oltre i limiti della tradizionale conoscenza umana.

IN PRINCIPIO FU GAUSS

Astronomia e statistica hanno iniziato a collaborare solo negli ultimi decenni. Eppure, c’è un precedente illustre che risale al 1801 quando Carl Friedrich Gauss propose una soluzione al problema dell’orbita di Ceres (o Cerere Ferdinandea in onore del re di Napoli), un planetoide scoperto a Palermo il primo gennaio dall’astronomo italiano Giuseppe Piazzi. Dopo sole 19 osservazioni in 42 giorni, Ceres sparì dietro il Sole e gli astronomi credettero di averlo perso perché non riuscivano a prevederne l’orbita basandosi sulla piccola quantità di dati raccolti. Fu allora che il giovane Gauss perfezionò un metodo matematico che aveva elaborato a soli 18 anni (ma non pubblicato) che permetteva di determinare un’orbita ipotizzando che fosse una sezione conica. I successivi avvistamenti di Ceres confermarono i calcoli di Gauss che nel 1809, dopo aver ulteriormente affinato il suo metodo, li pubblicò con il titolo Theoria motus corporum coelestium in sectionibus conicis solem ambientium. Quel metodo oggi è chiamato dei “minimi quadrati” ed è un importante strumento di analisi statistica.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Dimensione massima del file: 50MB Formati consentiti: jpg, gif, png Drop file here