Da una parte la tecnologia, da un’altra la ricerca scientifica e, infine, il rispetto della legge. Tre elementi che non confliggono tra di loro e che hanno nei dati, dalla loro produzione all’analisi fino ad arrivare alla loro interconnessione, un elemento in comune. Così non stupisce che realtà apparentemente distanti tra loro come Unicri (Istituto interregionale per la ricerca sul crimine e la giustizia delle Nazioni Unite), Cern (Organizzazione europea per la ricerca nucleare) e Direzione nazionale antimafia (Dna) abbiano unito forze e competenze per combattere il crimine organizzato e l’infiltrazione dell’economia legale partendo dall’analisi dei big data. L’argomento è stato al centro del primo Festival della tecnologia organizzato dal Politecnico di Torino. L’iniziativa è parte di Sirio, un programma promosso da Unicri volto a migliorare la sicurezza attraverso la ricerca, la tecnologia e l’innovazione. Responsabile del progetto è Francesco Marelli, la cui attività è focalizzata proprio sull’analisi, l’identificazione e la sperimentazione di soluzioni innovative per monitorare e combattere il crimine organizzato e il terrorismo. L’Istituto coinvolge l’industria e i centri di ricerca (sia pubblici che privati), nonché le entità governative e intergovernative, nello sforzo per analizzare e promuovere la conoscenza e le soluzioni tecnologiche più idonee per affrontare i rischi di sicurezza emergenti, tra i quali spiccano anche quelli legati ai big data. Per lungo tempo, il nostro Paese ha fatto scuola nella lotta al terrorismo e alla mafia. Ha introdotto una metodologia studiata e applicata sul campo, grazie al lavoro di uomini preparati e pronti a tutto. Ora, “le ultime 180 operazioni contro la criminalità organizzata di cui abbiamo avuto notizia nel nostro Paese
hanno preso il via dall’analisi incrociata dei big data”, ha annunciato a Torino Giovanni Russo, dal 2016 procuratore aggiunto presso la Direzione Nazionale Antimafia e Antiterrorismo, che da oltre vent’anni si occupa di informatica e sicurezza. Il terrorismo non si sconfigge solamente con le armi, ma anche servendosi dei bit. L’intelligenza artificiale, l’analisi dei big data, la mappatura delle relazioni di un network criminale, sono strumenti di una nuova forma di lotta all’illegalità. Un tema suggestivo, avveniristico, ma che deve fare i conti con i progressi della tecnologia, suo malgrado non sempre alleata: “Se una volta si parlava di silenzio per descrivere l’assenza di informazioni su un determinato episodio criminale – racconta il magistrato – ora si può parlare di rumore”. E continua facendo riferimento a un concetto illuminante, in un certo senso, quello del punto del raddoppio. “Nei primi dieci mesi del 2018 l’umanità ha generato una mole di informazioni superiore a quella dalla fondazione di Roma fino al 31 dicembre 2017. Ebbene, questo punto del raddoppio è destinato a scendere sempre più. Si stima che, entro il 2025, in pochi minuti l’umanità produrrà una quantità di informazioni superiore a quella prodotta negli ultimi 2000 anni. Questo dimostra quanto sia difficile il compito di chi vuole avvalersi di questi dati a fini investigativi”. Secondo l’indagine conoscitiva sui big data elaborata da Agcom, Antitrust e Garante della Privacy, il motore primario di questo processo di generazione di dati è indubbiamente Internet. Nel 2017 fece scalpore una rappresentazione grafica delle cose che accadevano in un minuto sulla Rete (vedi sotto). Oggi, in un minuto, vengono inviati 44 milioni di messaggi, effettuate 2,3 milioni di ricerche su Google, generati 3 milioni di “mi piace” e 3 milioni di condivisioni su Facebook, e effettuati 2,7 milioni di download da YouTube. Il database della Dna è uno dei più ricchi, se non il più ricco, del mondo. La piattaforma digitale che lo ospita di chiama Sidna e con il tempo è diventata il più avanzato sistema di trattamento di dati giudiziari del pianeta. Come ricorda lo stesso Russo, “qui vengono memorizzati tutti i procedimenti antimafia e antiterrorismo, formando un database che contiene due milioni di nominativi. Europol, che è la più grande agenzia di polizia d’Europa, ne contiene 90.000; Interpol, che è invece l’agenzia più grande del mondo, ne gestisce
250.000”. Un elemento di fondamentale importanza è la qualità delle informazioni. Nell’informatica vige la regola che se in un database si inseriscono dati spazzatura, anche le informazioni che verranno tratte saranno spazzatura. “Il database della Dda – continua il magistrato – è alimentato dalle direzioni distrettuali antimafia. Tutte le informazioni inserite hanno quindi un altissimo livello di attendibilità in quanto vagliate da un giudice o da un magistrato. E sono aggiornate in continuazione”.
Per studiare una cosca è di fondamentale importanza la ricostruzione storica delle dinamiche relazionali. “La potenza delle cosche criminali è data dalla rete dei rapporti. Per questo, occorre cambiare strategia d’attacco e d’investigazione. Come? Sidna non basta. Occorre creare sinergie con soggetti che possono rafforzare la nostra azione. Il Cern è uno di questi. Qui c’è un gruppo di scienziati che studia il significato delle informazioni che emergono dai dati in nostro possesso”. Collaboration spotting è la piattaforma digitale del Cern che ha rivelato come i big data possono essere utilizzati per combattere il crimine organizzato attraverso l’estrapolazione d’informazioni dai dati stessi. La piattaforma usa due grandi famiglie di algoritmi. Per la parte semantica viene utilizzato prevalentemente machine learning e Svm mentre, per tutta la parte relativa alla graph analytics, si ricorre a luwan e betweenness. Jean Marie Le Goff è un fisico e informatico specializzato nell’applicazione di tecniche avanzate della Information technology alla fisica delle particelle. Attualmente è Senior Scientist al Cern ed è lui a spiegare il funzionamento della piattaforma: “Un dato non è mai solo, è sempre accompagnato da altre informazioni. Quindi, se si vuole veramente conoscerlo, è necessario esplorarne l’interattività e le interconnessioni. Occorre dunque esplorare i database relazionali che stanno alla base della costruzione delle reti fino a individuare il legame che esiste tra diversi dati. Questi nuovi strumenti vengono chiamati visual analitics, un concetto ideato da Daniel Kime che li definiva come l’unione tra le tecniche di analisi automatizzata e le visualizzazioni interattive”. In altre parole, la creazione di conoscenza si basa essenzialmente sulla capacità di combinare informazioni semantiche specifiche del dominio con concetti estratti dai dati e visualizzare le reti risultanti. La memorizzazione di reti di grandi dimensioni in modo flessibile e scalabile richiede grafici: oggetti matematici che contengono informazioni in nodi che rappresentano istanze di dati di particolari categorie – chiamate facet – e delle relazioni che caratterizzano l’interconnettività di rete. In questo modo possono emergere le relazioni tra un mafioso e un prestanome, il legame tra un criminale e il tipo di attività di un bene confiscato: “Immaginiamo di avere un database con tutti i casi giudiziari che hanno previsto una confisca di beni alla criminalità organizzata e un altro database che contiene i dati sulle confische. Non esiste un legame dal punto di vista informatico. Qui abbiamo bisogno di un’analisi semantica e del machine learning per trovare il nesso. Chi sono i proprietari? Di che tipo di beni stiamo parlando? Dove sono collocati? Quando sono stati comprati? Ogni risposta – conclude Le Goff – porta con sé una serie di dati e di informazioni che se vengono confrontati, incrociati, interconnessi consentono di capire la strategia del gruppo criminale al quale sono stati sottratti i beni”. Collaboration spotting è uno strumento che nasce per fini scientifici. Solo in un secondo momento le sue caratteristiche sono stata applicate alla lotta al crimine organizzato. L’obiettivo finale è quello di supportare la Dna nel prevedere le future strategie criminali attraverso lo studio dei modelli organizzativi dei loro protagonisti.