prima pagina cronaca politica economia calcio tecnologia salute scienza cultura costume spettacolo sport giustizia ambiente cinema e tv turismo meteo rubriche mondo curiosità motori

L'intervista. Dal 2014, Chris Mattmann fa parte di uno dei gruppi di studio all'opera su Memex. programma finanziato dalla Difesa Usa. Obiettivo: un motore di ricerca il web invisibile ai più di ROSITA RIJTANO

"Io, scienziato della Nasa farò un browser per cercare anche nel web nascosto"

tecnologia

Dal 2014, Chris Mattmann fa parte di uno dei gruppi di studio all'opera su Memex, programma finanziato dall'agenzia governativa del dipartimento della difesa statunitense dedita allo sviluppo di nuove tecnologie per scopo militare (Darpa). Obiettivo: un motore di ricerca per il deep e il dark web

"Io, scienziato della Nasa, vi farò cercare nel web nascosto"

LOOK alla William Riker, primo ufficiale dell'astronave USS Enterprise E nella serie tv Star Trek - The next generation. Professione: data scientist. È Chris Mattmann, 36 anni, di cui gli ultimi sedici spesi dentro il Jet Propulsion Laboratory, laboratorio che si occupa di costruire le sonde spaziali senza equipaggio della Nasa. "Qui sono circondato da scienziati straordinari", racconta a Repubblica. "Lavorano su grandi missioni e rispettivi grattacapi. Risolverli richiede la capacità di gestire un'enorme mole di informazioni diverse, di far funzionare velocemente algoritmi scientifici e trasformare i dati disponibili online in conoscenza. Sfide impossibili da trovare altrove". Dal 2014, fa parte di uno dei gruppi di studio all'opera su Memex, programma finanziato dall'agenzia governativa del dipartimento della difesa statunitense, dedita allo sviluppo di nuove tecnologie per scopo militare (Darpa). L'obiettivo è realizzare un motore di ricerca che aiuti le forze dell'ordine a contrastare il traffico di essere umani, scandagliando le parti meno visibili della Rete: deep e dark web. Tra gli strumenti chiave utilizzati c'è Tika, co-creato da Mattmann. "Si ricorda il traduttore universale dalle sembianze di un pesciolino giallo, fantasticato da Douglas Adams in Guida galattica per gli autostoppisti? Ne immagini uno per i contenuti digitali: capace di farci comprendere qualsiasi tipo di file e ciò che contiene. Le presento Tika". Il progetto si concluderà tra sei mesi, ne abbiamo parlato in anteprima. Mattmann, quanto è grande la Rete? Riusciamo ad avere un'idea? "Sì, anche se bisogna fare una premessa: ci sono diversi modi di definire la sua grandezza. In termini di url (l'indirizzo di una risorsa in internet), parliamo di trilioni. Invece il volume, cioè il traffico internet globale, raggiungerà presto un paio di zettabyte. Si può fare una stima pure in base a quanti nuovi domini vengono aggiunti ogni anno: centinaia di milioni. Ci fa capire quanto tutto stia accadendo velocemente". Che cosa conosciamo oggi del web? "Ormai, sia da pc che da smartphone, accediamo alla Rete tramite Google o altri motori di ricerca. Sono diventati una sorta di collo di bottiglia". Come funzionano? "Semplificando: utilizzano i web crawler, cioè dei software che acquisiscono una copia testuale dei documenti online visitati e la inseriscono in un indice. Con le informazioni relative: questa è una pagina internet, parla di tale persona e così via. Un'altra proprietà fondamentale dei motori di ricerca è la capacità di organizzare le informazioni e renderle subito reperibili". Riescono a 'catalogare' ogni cosa? "No. Innanzitutto, generalmente i crawler non collezionano le pagine web a cui per accedere è necessario autenticarsi o fare il login. Un esempio è l'indirizzario universitario. Poi escludono i contenuti dinamici, come ajax o javascript, cioè i codici che ci permettono di navigare più agevolmente. Inoltre, il materiale della Rete più facilmente indicizzato è il testo. Mentre video e immagini contengono informazioni e conoscenze che, tuttavia, oggi non vengono estratte molto semplicemente. Questo è ciò che definisco deep web e costituisce tra l'89 e il 96 per cento di internet. Un altro discorso è il dark web: secondo le nostre stime, conta circa decine di migliaia di url". LEGGI: Duro colpo al dark web: hackerato AlphaBay Cioè? "Si tratta di pagine che sono ospitate su dei server utilizzando il protocollo Tor, sviluppato in origine dal dipartimento di difesa statunitense per consentire comunicazioni anonime e sicure. Nel 2004 è diventato di dominio pubblico. Un buon strumento per proteggere la privacy. Da allora, però, al suo interno è cresciuto anche il mercato nero: è possibile trovare droga, armi, persino affittare dei killer per uccidere qualcuno". Ed ecco che entra in gioco il progetto Memex. "Memex si propone di creare un motore di ricerca per aiutare le forze dell'ordine a contrastare il traffico di esseri umani e di armi illegali, scandagliando deep e dark web.  A differenza di Google, di cui ignoriamo il funzionamento, tutto il codice scritto per Memex dal 2014 a oggi è open source e si può trovare sul sito della Darpa. Tra gli strumenti chiave utilizzati c'è Tika che ho aiutato a sviluppare". Il modo più semplice per spiegare cos'è. "È il nostro babel fish. Si ricorda il traduttore universale dalle sembianze di un pesciolino giallo, fantasticato da Douglas Adams? Ne pensi uno per i contenuti digitali: capace di farci comprendere qualsiasi tipo di file e ciò che contiene. Ecco, le presento Tika: riesce a identificare ogni tipo di file che incontra e a utilizzare gli strumenti giusti per estrarre i metadati, inclusi la data di creazione del file, chi l'ha modificato in ultima battuta, in quale lingua è stato scritto. Da poco permette di tradurre da un linguaggio all'altro. Ma i motori di ricerca sono solo uno dei modi in cui Tika può essere sfruttato nell'analisi dei contenuti". Per esempio? "L'abbiamo usato per aiutare i giornalisti a setacciare i Panama Papers: oltre 11 milioni di documenti sottratti allo studio legale panamense Mossack Fonseca, al centro della più grande fuga di notizie della storia della finanza. Ma anche alla Nasa, quando abbiamo avuto bisogno di estrarre velocemente informazioni dagli articoli scientifici". Tutti i Panama Papers in un motore di ricerca Che cosa è stato fatto e che cosa resta da fare? "Durante il progetto Memex Tika è stato ulteriormente sviluppato, ora riesce a trattare meglio i contenuti multimediali trovati su deep e dark web. Per esempio: può automaticamente processare e analizzare il testo presente nelle immagini, o certe loro proprietà come la luce della camera. In alcuni casi, è in grado di identificare persone, cose e luoghi. Purtroppo stiamo solo grattando la superficie, quindi c'è ancora molto da fare nell'analisi dei video. Per non parlare del monitoraggio dei social media". Possiamo immaginare una Google per dark e deep web entro i prossimi dieci anni? "Assolutamente sì! Stiamo dimostrando che è possibile". Ma perché dovrebbe interessare a tutti un motore di ricerca del genere? "Tipicamente quando le compagnie vengono hackerate i dati rubati sono messi in vendita sul dark web. Basta pensare a Yahoo!. Uno strumento del genere potrebbe essere utile a controllare le informazioni che circolano su di noi. In più sul dark web ci sono anche siti che contengono informazioni utilissime, renderli a portata di mano può aiutare a socializzare la tecnologia". A cosa lavorerà prossimamente? "Personalmente, mi sto concentrando molto sull'insegnamento. Mi entusiasma. Perché ciò a cui tengo di più è allenare la prossima generazione di ricercatori che sia in grado di prendere in mano il progetto e portarlo avanti". @RositaRijtano

08/02/17 05:21

repubblica

Il progetto siciliano è stato finanziato dal Miur per oltre 4mln

Ricerca prolunga di 15 giorni freschezza di frutta e verdura

DeVos all'Istruzione, decisivo il voto di Pence ·Terrorismo, scontro con i media: "Trump mente" · Schiaffo dello Yemen, stop ai raid Usa

"Muslim ban", la corte federale d'Appello: "Decideremo il prima possibile"

·Terrorismo, è scontro tra Trump e i media "Nascondiamo attentati? Donald mente" · Schiaffo dello Yemen, stop ai raid Usa

"Muslim ban", la corte federale d'Appello: "Decideremo il prima possibile"

Il sindaco intervistato in diretta su napoli.repubblica.it. da Conchita Sannino  Rep Tv Live

De Magistris: "Il Pd si fa male da solo"  

·Terrorismo, è scontro tra Trump e i media "Nascondiamo attentati? Donald mente" ·Stop ai migranti, 18 Stati si oppongono I big del web schierati contro il presidente - Lista

"Muslim ban", la corte federale d'Appello: "Decideremo il prima possibile"

·Terrorismo, è scontro tra Trump e i media "Nascondiamo attentati? Donald mente" ·Stop ai migranti, 18 Stati si oppongono I big del web schierati contro il presidente - Lista

"Muslim ban", la corte federale d'Appello: "Decideremo il prima possibile"

Ricerca Vodafone-Ipsos, parte di un programma di formazione digitale

Internet posto 'sicuro' solo per un teenager su 4 in Europa

Tra i tesori storici e culturali della città statunitense dopo la nomina a patrimonio dell’umanità

A Philadelphia, prima città Usa patrimonio Unesco

Dipartimento Energia finanzia bioraffinerie per rifiuti

Halloween: le zucche nei rifiuti inquinano, presto saranno biocarburante

Il prefetto lascia dopo due anni per assumere la responsabilità del Dipartimento per le libertà civili e l'immigrazione

Il saluto di Gerarda Pantalone: "Napoli, una città al top"   foto

Oltre 2,6 milioni di spettatori e il 22.21% per l'Intervista

De Filippi si commuove da Costanzo, è boom in tv

Oltre 2,6 milioni di spettatori e il 22.21% per l'Intervista

De Filippi si commuove da Costanzo, è boom in tv

L'altra parte resterà ancora chiusa fino a termine operazioni

Porti: riapre dopo dragaggio scivolo approdo Tremestieri

Dipartimento pubblica graduatoria bando per iniziative educative

Pari opportunità: 5 mln euro per 90 progetti contro violenza

Popolazioni in declino in 3 specie su 4, la maggioranza di gorilla, lemuri, oranghi e gibboni rischia di sparire

L'allarme: agricoltura, clima e malattie oltre la metà dei primati a rischio estinzione