19.04.24
Argomenti correlati
InformazioneChi fa una ricerca su Internet si aspetta che gli venga restituita una fotografia più o meno completa e soddisfacente della realtà su cui sta interrogando il motore di ricerca. Ma in realtà le cose non stanno così: negli ultimi anni soprattutto gli articoli dei giornali hanno iniziato a dissolversi e non venire più mostrati all’utente. Non compaiono sui motori di ricerca – Google è in assoluto il più diffuso – e se ne perde la loro utilità sostanziale, cioè quella di saltar fuori dal monitor in correlazione a quello che l’utente chiede.
Questo avviene per effetto della “deindicizzazione”, che in buona sostanza consiste nel rimuovere un articolo dalle conoscenze di Google così come fosse un indirizzo cancellato dall’elenco telefonico. La strada, il civico e il numero di telefono rimangono lì, ci mancherebbe. Ma nessuno può conoscerli a meno di non sapere esattamente dove si trovano.
La deindicizzazione non avviene per errore, ma quasi sempre per tutelare una persona citata in quegli articoli. Un individuo può chiedere a Google che a una data ricerca (il proprio nome e cognome ad esempio) non venga più mostrato uno specifico contenuto. L’articolo è dunque ancora reperibile, ma semplicemente Google lo omette.
In altri casi a deindicizzare un articolo è direttamente la testata che l’ha pubblicato, tramite un comando nascosto nel proprio sito nel quale si dice ai motori di ricerca che passano di lì di «circolare, qui non c’è niente da leggere». Gli articoli sono online, quindi, ma gli utenti non li possono trovare dai motori di ricerca e devono sapere esattamente in quale sito si trovano.
I motivi per cui il proprietario di un sito, testate online comprese, decide di deindicizzare un contenuto sono vari. I due più frequenti: per effettuare test su alcune pagine oppure perché aziende o persone fisiche hanno invocato il diritto all’oblio, cioè la possibilità di essere dimenticati dal momento che la vicenda che li riguarda è lontana del tempo e ha perso interesse pubblico.
Se nel caso della deindicizzazione imposta dai motori di ricerca è sempre più difficile conoscere l’indirizzo dell’articolo colpito dalla censura, dall’altra l’elenco dei contenuti che le testate scelgono volontariamente di deindicizzare è aperto e leggibile a tutti, proprio per permettere a Google di cercarlo in autonomia.
È nato così il sito canzel.club, il club dei cancellati, che si occupa di monitorare le pagine omesse da alcuni giornali italiani ed esteri in modo da misurare il grado di autocensura della stampa. L’ha creato lo sviluppatore Sowdust nel 2021 e da allora monitora la deindicizzazione di molte testate giornalistiche italiane come La Stampa, Repubblica, il Corriere della Sera e Rai.it, e internazionali, tra cui El Pais e il Washington Post.
Il sito canzel.club è programmato per leggere un file che si trova all’interno delle testate monitorate, robots.txt, il quale comunica con i motori di ricerca e dà indicazione su quali pagine non devono essere indicizzate. Ogni volta che il file robots.txt delle testate giornalistiche monitorate viene aggiornato con un nuovo contenuto da rendere invisibile, canzel.club inserisce l’url dell’articolo al suo elenco.
Invisibili ai motori di ricerca
Il numero di articoli deindicizzati e quindi non visibili dai motori di ricerca, secondo i dati raccolti da canzel.club da dicembre 2021 a marzo 2024
«Canzel.club nasce dall'idea di sfruttare il file robots.txt per l'uso opposto a quello per cui è stato pensato - spiega Sowdust -. Le testate giornalistiche lo usano come una lista di url da ignorare, canzel.club invece lo usa per evidenziare gli articoli che nel tempo i giornali hanno deciso di rendere introvabili tramite i motori di ricerca» commenta lo sviluppatore a IrpiMedia.
Perché questo articolo: il seguito di #StoryKillers
IrpiMedia si è occupata dell’industria della disinformazione e del suo “dipartimento deindicizzazione” all’interno della serie #StoryKillers, pubblicata a febbraio 2023. La serie racconta come alcune agenzie di web reputation truffaldine come Eliminalia abbiano utilizzato diverse tattiche fraudolente per indurre i motori di ricerca a deindicizzare un articolo. «Archiviare è resistere», scrivevamo nell’editoriale.
Questo articolo affronta l’altro lato della stessa medaglia: quando sono i giornali a deindicizzare e non il motore di ricerca. L’effetto su chi consulta i motori di ricerca è importante: sono molte le informazioni che diventano invisibili per chi si affida solo a Google & co.
«Non esiste un sistema di tracciamento delle deindicizzazioni, né tantomeno sono note le motivazioni per cui avvengono - prosegue Sowdust -. Con canzel.club è possibile osservare almeno in parte cosa scompare rispettando il diritto all'oblio, in quanto il sito e i suoi contenuti sono a loro volta nascosti ai motori di ricerca».
Deindicizzare o non deindicizzare? Questo è il problema
Il penalista dell'informatica e delle nuove tecnologie Giovanni Battista Gallus spiega che per un giornalista ci sono due diversi «trattamenti» di un dato personale: «Quello per finalità di cronaca, che legittima la pubblicazione di un fatto su un giornale, quello per finalità di ricerca (anche statistica e storica), che si materializza nell’archivio storico del giornale».
Esiste poi un terzo trattamento, appannaggio dei motori di ricerca che rendono cercabili i contenuti agli utenti della rete. Se qualcuno ritiene che la permanenza online di un contenuto sia dannosa perché offre un’informazione vecchia e superata nei suoi riguardi, può chiedere la deindicizzazione sia alla testata sia al motore di ricerca. Il diritto all’oblio andrebbe però bilanciato con il valore informativo di ciò che è contenuto nell’articolo. Nel caso in cui questo sia elevato, «è bene aggiornare e non cancellare un articolo di stampa, se c’è la possibilità» spiega a IrpiMedia Bruno Saetta, avvocato ed esperto di diritto applicato alle nuove tecnologie.
Un esempio classico è quello degli articoli che riportano una vicenda giudiziaria: nel caso di un’assoluzione, piuttosto che rimuovere per intero l’articolo sarebbe quindi meglio dare evidenza dell’esito del processo con un aggiornamento all’articolo stesso. Soprattutto se i protagonisti della storia sono personaggi di rilievo pubblico. Il problema è sempre riuscire a trovare «un bilanciamento tra l’interesse pubblico e quello di una persona di essere dimenticata», aggiunge Saetta.
«Come dimostrano alcuni provvedimenti del Garante per la protezione dei dati personali, Google tende a resistere di più alle richieste di deindicizzazione - commenta l’avvocato Giovanni Battista Gallus -. È più facile che sia una testata a rendere irraggiungibile un articolo» rispetto al motore di ricerca. Lo si deduce, spiega l’avvocato, dal fatto che il Garante in diversi provvedimenti «dichiara esplicitamente il non luogo a procedere perché l’articolo è già stato deindicizzato prima che la persona faccia reclamo all’Autorità».
Significa quindi che un testata, quando ne ha ricevuto richiesta da una persona interessata, ha deciso di rendere irraggiungibile ai motori di ricerca un articolo prima di avere un (eventuale, non necessario) parere di merito dall’Autorità preposta. «A volte è stato addirittura rimosso dall'archivio storico», conclude Gallus.
Per quanto la mediazione con chi si sente parte lesa sia un atteggiamento positivo delle testate, va sottolineato che la deindicizzazione non è un gesto neutrale né privo di conseguenze: rendere più difficile a un utente la ricerca di un contenuto equivale a renderlo irrilevante. Tanto peggio quando questo non viene solo omesso dai risultati dei motori di ricerca, ma anche dall’archivio storico di una testata.
Persino il Garante privacy si è espresso sul valore storico degli archivi dei giornali. In un provvedimento del dicembre 2023 ha infatti respinto la richiesta di cancellazione di un articolo pubblicato dagli editori de Il Resto del Carlino e de La Gazzetta del Mezzogiorno, i quali sono tenuti a «inibire l’indicizzazione dell’articolo» visto che «non sembrano sussistere, allo stato attuale, specifiche ragioni di interesse pubblico che giustifichino una perdurante reperibilità dell’articolo in questione al di fuori dell’archivio dell’editore» ma non devono cancellare il pezzo perché «l’archivio on-line di un giornale, così come l’equivalente cartaceo, presenta in sé un'importante funzione ai fini della ricostruzione storica degli eventi che si sono verificati nel tempo».
Anche Google ha i suoi limiti
Tredici articoli deindicizzati identificati da canzel.club, principalmente di Repubblica e La Stampa, riguardano lo scandalo Telecom-Sismi (Servizio per le informazioni e la sicurezza militare, il comparto dei servizi segreti militari che allora era responsabile della sicurezza esterna, ndr). È un numero consistente se comparato a quelli di altri casi.
La vicenda è stata un vero e proprio terremoto che nel 2006 ha coinvolto aziende come Pirelli e Telecom, esponenti della politica italiana, e scoperchiato un sistema di dossieraggio nei confronti di varie personalità celebri. È un “caso studio” rilevante perché ha segnato uno spartiacque nella storia della sorveglianza in Italia, argomento che IrpiMedia indaga all’interno della serie #Sorveglianze. Secondo l’avvocato Bruno Saetta è una storia che «mantiene un interesse pubblico da un punto di vista storico».
Con MyIrpi diventi parte della nostra community
Gli ultimi episodi della vicenda giudiziaria risalgono al 2021, mentre le società hanno patteggiato nel 2010. Repubblica ha ritenuto di deindicizzare la cronaca dell’epoca sulla vicenda, che si trova invece cercando su Google da altri siti di informazione. I primi articoli di Repubblica sulla vicenda Telecom-Sismi rintracciabili su Google risalgono al marzo e al luglio 2013, ben sette anni dopo l’apertura dell’inchiesta giudiziaria alla Procura di Milano. Sono sei gli articoli che precedono quella data dei quali non si ha traccia attraverso Google, due di questi particolarmente rilevanti.
Il primo, settembre 2006, riferisce dettagli sui contorni dell’inchiesta della Procura di Milano: investigatori privati, ex agenti del Sismi, conti sequestrati in Lussemburgo e Svizzera per 11 milioni di euro. Il secondo, novembre 2006, racconta di traffici illegali di informazioni tra Sismi e Telecom. A fronte di una ricerca sui motori di ricerca sullo scandalo Telecom-Sismi, nessuno di questi articoli può comparire tra i risultati. Ma proprio grazie a canzel.club è sufficiente conoscerne l’indirizzo url per recuperarli e vedere dunque cosa è stato nascosto all’occhio di Google.
Come si verifica il modo in cui cambia nel tempo il robots.txt di una testata
Per verificare il numero di articoli di stampa deindicizzati prima del lancio di canzel.club, abbiamo utilizzato Wayback Machine: un software liberamente accessibile creato nel 2001 dall’organizzazione non profit statunitense Internet Archive che permette di ricostruire lo storico di una pagina, documentandone la forma e il contenuto in uno specifico giorno. Questo lavoro di archiviazione non è quotidiano per tutti i siti, ma a campione. L’utente può tornare indietro allo screenshot disponibile più vicino alla data desiderata attraverso il calendario presente sull’interfaccia del software. Al momento la piattaforma conserva lo storico di 866 miliardi di siti web del mondo.
Nel nostro caso, le pagine osservate su Wayback Machine per vedere gli articoli deindicizzati di Repubblica e La Stampa nel tempo erano due: www.repubblica.it/robots.txt e www.lastampa.it/robots.txt. L’arco di tempo che ci interessava indagare parte dal 2006, anno degli arresti per lo scandalo Telecom-Sismi, fino a oggi. Grazie a uno script, gli url deindicizzati elencati dalle pagine delle due testate sono stati copiati successivamente su canzel.club.
Dettagli a rischio
Oltre ai sei articoli di Repubblica, per il 2006 canzel.club restituisce anche cinque articoli deindicizzati de La Stampa. Due risalgono al giorno dell’arresto di ventuno persone - tra cui Carabinieri, membri della Guardia di finanza e funzionari di Polizia - e sono pieni di nomi e cognomi degli indagati nella vicenda. Un terzo racconta di un «pactum sceleris», un accordo per commettere un delitto, tra un investigatore privato e un manager di Telecom per spiare operatori della finanza e semplici cittadini. Il quarto invece riguarda un’operazione attraverso cui si sono trovati i conti cifrati aperti riconducibili a Pirelli. Tre mesi dopo, in un articolo deindicizzato di dicembre 2006 emerge dall’indagine il rapporto tra il dipartimento di sicurezza di Telecom e il Sismi.
Tra il 2010 e il 2013 altri quattro articoli mancano all’appello. Stessa sorte per gli articoli del 2012 che citavano altre condanne sul caso e sull’attività di hacking compiuta dalla squadra di hacker di Telecom. In questo articolo emerge un ulteriore pezzo del puzzle che spiega il modo in cui, secondo la Procura di Milano, erano state carpite illecitamente informazioni su migliaia di persone.
Il difficile equilibrio tra presunzione di innocenza e diritto di cronaca
Dai dati raccolti da canzel.club emergono molteplici storie il cui contenuto è stato sottratto all’azione dei motori di ricerca, più o meno note alle cronache nazionali.
Tra queste c’è anche la vicenda di un prete condannato lo scorso gennaio in appello a due anni e sei mesi per abusi sessuali su un minore («corruzione di minore» nella formula del codice penale vaticano, ndr) e incriminato a seguito dell’uscita del libro Peccato originale di Gianluigi Nuzzi e di alcuni servizi de Le Iene tra il 2017 e il 2018. Era stato assolto in primo grado nell’ottobre 2021 e la sentenza del tribunale vaticano ha ribaltato il primo verdetto. Ci sono altri aspetti della sua vicenda processuale ancora pendenti e il prete non è l’unico imputato. Il pezzo de La Stampa invisibile ai motori di ricerca, del marzo 2021, dava conto della testimonianza di quella che secondo la sentenza d’appello è la sua vittima.
Come in tutti i casi di cronaca giudiziaria, la difficoltà è mantenere un equilibrio tra la presunzione di innocenza dell’imputato fino al terzo grado di giudizio - richiesta anche dall’avvocata del prete condannato in appello raggiunta da IrpiMedia per un commento - e il diritto di cronaca lungo tutto il procedimento giudiziario. È giusto, quindi, deindicizzare una cronaca che riporta una deposizione?
Ipotizziamo che l’assoluzione al primo grado di giudizio sia stata usata come argomento per richiedere la deindicizzazione. In questo caso l’appello ha poi ribaltato il primo verdetto e quel pezzo. Non è chiaro quindi perché La Stampa abbia voluto deindicizzare l’articolo. Né Repubblica né La Stampa hanno risposto alle nostre richieste di spiegazione in merito alle scelte sulle deindicizzazioni.
Allo stato dell’arte, quindi, il rischio per gli utenti è fare sempre più fatica a ricostruire le vicende della storia recente su Internet. Senza indicizzazione ci si perde in quel mare magnum:
«Senza chi organizza i dati, come un motore di ricerca, non troveremmo nulla - dice l’avvocato Bruno Saetta -. Poniamo l’esempio di un blog non indicizzato: a meno che non se ne conosca l’indirizzo esatto, tutto ciò che in esso è contenuto è come se fosse perso». E lo stesso vale per gli articoli di giornale.
