L’uso dell’intelligenza artificiale nel giornalismo statunitense è entrato in una fase misurabile. Un gruppo di ricercatori di University of Maryland, Microsoft, UMass Amherst e Pangram Labs ha condotto un audit su larga scala che quantifica quanto spesso gli articoli dei quotidiani online incorporano testi generati o co-scritti da modelli linguistici, delineando dove questa pratica si concentra e in che modo varia per argomenti, proprietà editoriali e lingue. Il lavoro si intitola “AI use in American newspapers is widespread, uneven, and rarely disclosed”. Gli autori sono Jenna Russell, Marzena Karpinska, Destiny Akinode, Katherine Thai, Bradley Emi, Max Spero e Mohit Iyyer.
Lo studio si fonda su tre insiemi di articoli. Il primo, recent_news, raccoglie 186.507 pezzi pubblicati online da 1.528 testate tra il 15 giugno e il 15 settembre 2025. I testi sono stati acquisiti tramite RSS con scansioni bisettimanali, quindi ripuliti con Trafilatura e Newspaper4K per eliminare intestazioni, pubblicità e residui HTML. Il secondo, opinions, comprende 44.803 editoriali di New York Times, Washington Post e Wall Street Journal pubblicati tra agosto 2022 e settembre 2025, ottenuti via ProQuest. Il terzo, ai_reporters, segue 10 reporter con pubblicazioni prima e dopo novembre 2022, per un totale di 20.132 articoli su 14 testate, così da osservare l’adozione nel tempo. In totale, l’analisi copre 251.442 articoli.
Per etichettare i testi gli autori utilizzano Pangram, un rilevatore con tasso di falsi positivi riportato prossimo allo 0,001% sui contenuti giornalistici. A ogni articolo viene assegnata una probabilità di generazione automatica e una classe tra HUMAN-WRITTEN, MIXED e AI-GENERATED. La categoria MIXED indica la coesistenza, nello stesso articolo, di porzioni scritte da umani e porzioni prodotte da modelli, una scelta coerente con la letteratura che descrive un continuum tra editing e generazione. Su un sottoinsieme bilanciato di 1.000 articoli, la concordanza con un secondo rivelatore commerciale (GPTZero) raggiunge l’88,2% con κ di Cohen pari a 0,764.
Gli autori arricchiscono i dati con una classificazione tematica basata sulla tassonomia IPTC Media Topics, assegnata in zero-shot con QWEN3-8B e validata su un campione da due annotatori umani (accordo medio 87%, allineamento modello-umano 77%). Inoltre, collegano circa metà delle testate a misure storiche di tiratura e proprietà editoriale tratte dall’US News Deserts Database per studiare differenze strutturali.
I risultati mostrano che, nel campione recent_news, il 9,1% degli articoli presenta uso di intelligenza artificiale: 5,24% AI-GENERATED e 3,98% MIXED; il restante 90,85% viene classificato come HUMAN-WRITTEN. L’adozione cresce nelle testate con tiratura storica sotto le 100 mila copie, dove la quota con AI tocca il 9,3% rispetto all’1,7% nelle più grandi. Nella mappa per stati emergono valori medi più alti nel Mid-Atlantic e nel Sud, con Maryland, Tennessee e Alabama in testa nel periodo osservato.
La variazione per argomenti segue pattern riconoscibili. Le notizie meteo registrano la probabilità media più elevata di generazione automatica (27,7%), seguite da scienza/tecnologia (16,1%) e salute (11,7%). Temi come conflitti, giustizia e religione presentano percentuali inferiori. Questa distribuzione si combina con differenze tra gruppi proprietari: Boone News Media risulta il gruppo con quota complessiva più alta di articoli AI (20,9%), seguito da Advance Publications (13,4%); altri grandi gruppi restano sotto il 2%.
La lingua influisce in modo marcato. Nel dataset recent_news, l’8,0% degli articoli in inglese viene classificato come AI-GENERATED o MIXED, mentre la quota sale al 31,0% per gli articoli in altre lingue. La componente principale riguarda contenuti in spagnolo pubblicati da testate statunitensi per pubblici bilingui, che costituiscono circa l’80% degli articoli non inglesi contrassegnati.
Il confronto tra generi editoriali offre un altro angolo di lettura. Nei tre grandi quotidiani nazionali analizzati, gli editoriali hanno probabilità di contenere AI 6,4 volte superiore rispetto agli articoli di cronaca coevi delle stesse testate: 4,5% contro 0,7%. Tra gli autori degli editoriali contrassegnati compaiono spesso figure pubbliche di primo piano. Sul versante longitudinale, il set ai_reporters indica una crescita progressiva dell’uso lungo il triennio, fino a superare in media il 40% nel 2025 per il gruppo osservato.
La sezione metodologica include ulteriori cautele. Gli autori chiariscono che, per gli articoli MIXED, l’etichetta certifica la presenza di segmenti generati senza specificare in quale fase del processo produttivo sia intervenuto il modello. L’obiettivo dell’audit è fotografare l’ampiezza e i contesti d’uso, non attribuire il merito di singole frasi o ricostruire la sequenza precisa tra drafting (fase di stesura delle bozze) ed editing. In parallelo, lo studio documenta un’ampia convergenza tra i rivelatori testati e rende disponibili i criteri con cui le etichette fini di Pangram sono state aggregate nelle tre classi utilizzate per l’analisi.
Il tema della trasparenza è stato affrontato con un audit manuale. Su 100 articoli contrassegnati come AI-GENERATED o MIXED, 95 non riportano una disclosure esplicita dell’uso di strumenti automatici e, su un campione di 100 testate, 91 non pubblicano una policy chiara sull’argomento. Le policy rintracciate variano dall’ammissibilità con condizioni di verifica e indicazione al lettore al divieto di generazione integrale; in alcuni casi gli autori riscontrano incoerenze tra policy enunciate e pratiche osservate.
Per favorire la riproducibilità, il team rilascia collegamenti agli articoli, codice di analisi e una dashboard interattiva che verrà aggiornata periodicamente con nuovi contenuti e note di disclosure. Nel complesso, l’indagine mette a disposizione una base empirica ampia per discutere standard editoriali, workflow e ambiti applicativi, con dati disaggregati per dimensione delle testate, argomenti, proprietà e lingue.
Gli autori aggiungono una riflessione conclusiva sul lessico da utilizzare quando si descrive l’inserimento dell’intelligenza artificiale nel lavoro giornalistico. La chiarezza terminologica consente di distinguere tra testi redatti interamente dai modelli, contenuti costruiti in collaborazione tra autore e strumenti automatici e interventi mirati in fase di revisione. Definire con precisione queste differenze aiuta a comunicare come si sviluppa il processo produttivo degli articoli e quale contributo fornisce l’automazione nelle varie fasi. Le evidenze raccolte mostrano che, durante l’estate 2025, l’intelligenza artificiale risulta integrata nei flussi di scrittura soprattutto delle redazioni locali e, con modalità specifiche, anche negli spazi di commento delle grandi testate. Le variabili che incidono maggiormente sulla diffusione riguardano la dimensione delle redazioni, i temi trattati e le strategie organizzative adottate dai diversi gruppi editoriali.

Dalla bozza al libro finito: GPT-5 come motore, tu al comando. Prezzo di lancio 9,99 €

