Serve una regolamentazione contro le Intelligenze Artificiali Generative che tuteli gli editori di tutto il mondo

Nulla è per sempre. La vita stessa ha un inizio e una fine. A me piace affrontarla un’avventura alla volta, assecondando la necessità di cambiare ed evolversi. E così faccio anche per il lavoro, che ho stravolto ogni qual volta quello precedente iniziava a starmi stretto. Dopo svariati anni in cui ho messo a frutto la mia passione per la programmazione e la grafica, nel 2009 ho deciso di aprire un mio blog personale. Esiste ancora oggi, ne state leggendo una pagina proprio ora, e in questi quasi 15 anni è cambiato anche lui.

Da un progettino della domenica è diventato molto di più, offrendomi la possibilità di superare i confini del mio territorio, la Calabria, confrontarmi con tutta l’Italia e, in molti casi, il mondo intero. Non ho mai voluto avere alle spalle i classici editori, per non dover sottostare alle regole di un gioco che sembra sempre più distaccato dalla pura informazione, ma ho iniziato a dedicare così tanto tempo a questo progetto da ritenere giusto trarne un minimo di ritorno economico.

Chi mi segue sa che mi sono impegnato a contenere la pubblicità sul sito, evitando la raffica di articoli promozionali che si trovano ovunque sul web e limitando i banner intrusivi. A volte si trova una skin all’esterno (che credo non disturbi), ma non appare mai un banner in mezzo al testo di un articolo e non si aprirà mai al centro dello schermo bloccandone la lettura. Non ho trovato giusto mettere un paywall, perché non offro una pubblicazione così fitta e regolare da giustificarlo, ho solo una pagina di supporto in cui si può donare spontaneamente qualcosa affinché la situazione rimanga questa anche in futuro, aiutandomi a tutelare questo angolo di web che ormai sento come Casa.

Immaginate ora che qualcuno entri a casa vostra, vi derubi di tutte le vostre cose e le venda per ricavarne un profitto. Credo possiamo essere tutti d’accordo che questo sia profondamente sbagliato, oltre che un vero e proprio reato. Chiariamo subito che i concetti di proprietà privata e di diritto d’autore si scontrano su più ambiti e differiscono per molti altri. È difficile equiparare un sito web ad un’abitazione, dove ci sarà sempre una porta d’ingresso chiusa a protezione. Quello che non cambia è che appropriarsi indebitamente di qualcosa d’altri è sbagliato, a prescindere dalla questione legale, che sia un dipinto su una parete di casa o il testo che si è pubblicato nel proprio sito web che riporta la classica dicitura “Tutti i diritti riservati”.

Che si tratti di un piccolo sito come il mio o del portale di un grande editore, l’arrivo delle Intelligenze Artificiali Generative (di seguito IAG) avrà lo stesso impatto di un’orda di predoni spietati. Questi LLM (Large Language Model) sono voraci di dati e raramente vanno così per il sottile da preoccuparsi di “cose di poco conto” come il copyright. Nella Silicon Valley vale il motto “meglio chiedere scusa che permesso” è diventata una regola. Tanto più se si sentono sicuri di non poter essere beccati e, se proprio dovesse accadere, basterà pagare l’ennesima ammenda.

Quindi raccolgono tutti i dati possibili dal web per allenare le proprie IAG, con risultati spesso sbagliati, quando non ridicoli o pericolosi… ma questo è un altro discorso. Il problema che gli esseri umani dovranno affrontare nei prossimi giorni, non mesi o anni, è ben più importante e riguarda proprio chi crea i contenuti che allenano i modelli di intelligenza artificiale generativa. Perché finora noi abbiamo avuto il controllo sulla nostra produzione testuale e visiva. Abbiamo potuto decidere liberamente cosa farne, metterla online su progetti collaborativi, su un nostro sito personale, gratuitamente o a pagamento, ma questo diritto non lo avremo ancora per molto.

Google, che ormai detiene le chiavi dell’accesso al web, ha lentamente cambiato il metodo con cui fornisce risultati agli utenti. All’inizio era poco più di una lista di link con titolo e descrizione, da qualche tempo prova a rispondere direttamente alle richieste degli utenti, analizzando l’intero contenuto di una pagina e mostrandone un breve estratto, senza invogliare il clic su quel sito che ha fornito il contenuto. Questo semplice cambiamento, che può anche essere utile per l’utente, ha già causato un grave terremoto nel settore. Molti piccoli siti che si sostenevano grazie alla ricerca organica hanno visto le visite scendere in modo vertiginoso, in alcuni casi anche del 90%. È un brutto impatto che ho riscontrato anche io e che, in alcuni casi, ha portato autori indipendenti ma di qualità a chiudere battenti. E il futuro non sarà affatto più roseo.

L’idea di Google, che si inizia già a vedere oltreoceano, è quella di spostare tutta l’attenzione sulla sua IA. Quando un utente farà una domanda, Google risponderà direttamente, forte della sua enorme banca dati. Il problema è che quella banca dati siamo noi e che i link ai nostri contenuti saranno relegati a fondo pagina. Non so se ci si rende conto della gravità della situazione.

Il Garante della Privacy lo ha certamente notato e ha anche pubblicato un elenco di suggerimenti da mettere in atto per evitare che questi colossi in cerca di dati per le loro IAG facciano del web scraping selvaggio dei nostri contenuti a loro uso e consumo. Ahimè, per quanto si tratti di indicazioni ragionate poco possono fare all’atto pratico. Ve le elenco sinteticamente con un brevissimo commento:

  1. Creazione di aree riservate: è fattibile per siti ultra specialistici, ma per chi ha necessità di essere visibile può essere un grosso deterrente al raggiungimento del pubblico.
  2. Inserimento di clausole ad hoc nei termini di servizio: ovviamente va fatto, ma se bastasse questo a tutelarci non saremmo arrivati dove siamo oggi.
  3. Monitoraggio del traffico di rete: dal punto di vista puramente tecnico è sensato identificare e bloccare le eccessive richieste di dati dalle stesse sorgenti, ma è una procedura che richiede agli editori un minimo di competenze sistemistiche o il costante supporto di un tecnico qualificato… per questo mi sembra applicabile solo in rari casi.
  4. Intervento sui bot: oltre al problema tecnico, qui si aggiunge anche il fatto che riconoscere e limitare l’accesso al sito dei bot è una questione spinosa. Intanto perché questi sono necessari affinché i siti vengano indicizzati, che è una cosa a cui non si dovrebbe essere costretti a rinunciare per tutelarsi contro le IAG, ma anche perché i metodi attuabili non sono efficaci al 100% e in parte contribuiscono ad allontanare la reale utenza: tra i suggerimenti del Garante c’è l’adozione di CAPTCHA, ma immaginate di doverne superare uno solo per leggere un articolo: si finirebbe per darsi la zappa sui piedi e perdere ancora più utenti.

Come si può vedere, la reali possibilità che ha un editore per proteggersi contro l’avanzata delle IAG sono sostanzialmente nulle. E questo è un grave problema fin da oggi, perché se chi scrive smette di ottenerne sia un guadagno che l’attribuzione, non avrà più motivi per farlo. I contenuti che rimarranno online saranno quelli generati da altri LLM e saranno poi questi ad essere l’unica fonte delle future IAG, andando a far cibare questi mostri di loro stessi, moltiplicandone esponenzialmente le allucinazioni che sono insite nella loro natura. Potrebbe sembrare un futuro ipotetico, magari distopico e lontano, ma non lo è poi così tanto. Se non ci preoccupiamo di tutelare oggi chi crea contenuti originali e con una base umanistica, tecnica e scientifica per farlo, il web che ci piace sarà solo un lontano ricordo.

Abbiamo bisogno di limitare le aziende che creano IAG in modo univoco e chiaro a livello mondiale. So che non sarà neanche semplice capire quando alcune di queste contravverranno alle norme, perché il contenuto presente in una pagina del nostro sito sarà elaborato a scatola chiusa insieme a milioni di altri prima di tradurlo in una risposta, ma di questo dobbiamo preoccuparci dopo. Intanto è fondamentale stabilire come un editore possa imporre ad OpenAI o alla Google di turno di non utilizzare i propri contenuti per allenare le loro IAG. Potrebbe essere un tag da inserire nel codice HTML di ogni pagina di un sito, oppure anche un file da posizionare sulla root del dominio. Un po’ come avveniva ai tempi del robots.txt, ma in questo caso deve essere una imposizione non derogabile e non aggirabile. Se ad esempio volessi inibire l’intero sito a questi sistemi di web scraping, dovrei poter creare un semplice file come “nomesito.ext/shield.iag” ed essere sicuro che questo venga rispettato.

Si potrebbero inserire all’interno del file delle regole specifiche, come “skip all” per riferirsi all’interno sito, oppure dettagliare più granularmente il comportamento in base agli URL, sempre che non si intenda dare libero accesso all’uso di tutti i contenuti. La mia è solo un’idea buttata lì, una delle tante possibili, e probabilmente neanche la migliore, ma quel che è certo è che qualcosa si deve fare, perché il futuro del web è seriamente a rischio, così come il lavoro di tutti gli autori ed editori che ne hanno finora popolato le pagine che leggiamo e apprezziamo.

Questa illustrazione è stata generata con una IA, perché non è solo il settore dell’editoria a passarsela male
Alcuni link presenti nell'articolo possono presentare codici di affiliazione con i partner sponsorizzati.
Maurizio Natali

Titolare e caporedattore di SaggiaMente, è "in rete" da quando ancora non c'era, con un BBS nell'era dei dinosauri informatici. Nel 2009 ha creato questo sito nel tempo libero, ma ora richiede più tempo di quanto ne abbia da offrire. Profondo sostenitore delle giornate di 36 ore, influencer di sé stesso e guru nella pausa pranzo, da anni si abbronza solo con la luce del monitor. Fotografo e videografo per lavoro e passione.