Articolo
Andrea Daniele Signorelli
L’IA ha tradito le promesse?

L’ia Ha Tradito Le Promesse Signorelli Cover
economia tecnologia

Perdite miliardarie, ritorni sugli investimenti scarsi, nuove versioni deludenti: i modelli linguistici sembrano aver raggiunto il plateau e i costi crescono più dei risultati. Che fine hanno fatto i miracoli annunciati?

I segnali che, nel mondo dell’intelligenza artificiale, qualcosa si stia incrinando sono parecchi: dagli allarmi sul rischio “bolla speculativa” ai conti in profondo rosso di tutte le startup del settore (a partire da OpenAI, che nel 2025 potrebbe perdere 27 miliardi di dollari), fino ai modestissimi ricavi legati alla generative AI ottenuti da quegli stessi grandi colossi (Meta, Google, Microsoft e gli altri) che su questa tecnologia hanno investito centinaia di miliardi di dollari.

Come giustificare – agli occhi degli azionisti e dei mass media – una situazione di questo tipo? La risposta più comune sembra essere quella di alzare ulteriormente la posta in palio. Di far passare l’idea che le difficoltà attuali siano un male necessario in vista di un possibile bene superiore: “Se dovessimo finire per spendere inutilmente un paio di centinaia di miliardi di dollari, ovviamente sarebbe una brutta cosa”, ha per esempio affermato Mark Zuckerberg. “Ma penso che il rischio maggiore sia un altro: quello di perdere il treno che porta alla superintelligenza artificiale”.

Qualunque spesa è giustificabile se il fine – per usare le parole di Gavin Baker, investitore del fondo Atreides Management – è “essere i primi a dare vita a un dio digitale”. È così? Siamo davvero sul punto di creare un dio digitale il cui avvento rivoluzionerà per sempre la civiltà umana? Secondo il 76% degli scienziati informatici che hanno partecipato a un sondaggio, la risposta è nettamente negativa: la superintelligenza artificiale non solo non è vicina, ma non è nemmeno chiaro se – e come – sia possibile costruirla.

In realtà, non è necessario dare vita a qualche forma di divinità artificiale per giustificare le immense quantità di denaro investite nell’intelligenza artificiale generativa. Sarebbe sufficiente, si fa per dire, che l’evoluzione dell’intelligenza artificiale generativa proceda fino a renderla una tecnologia in grado di trasformare la nostra economia, come già avvenuto con la macchina a vapore, con l’elettricità o con internet.

Il problema, però, è che lo sviluppo dei large language model e degli altri sistemi generativi potrebbe aver già raggiunto il culmine e che la legge di scala teorizzata dal ceo di Anthropic Dario Amodei – secondo cui le prestazioni dei modelli linguistici come ChatGPT aumentano proporzionalmente al crescere del potere computazionale e del numero di dati impiegati per l’addestramento – sta dando chiari segnali di rallentamento. È un aspetto diventato particolarmente evidente dopo la diffusione dell’attesissimo GPT-5 (il più recente dei modelli che alimentano ChatGPT), che, nonostante le enormi aspettative, è stato accolto con freddezza dagli addetti ai lavori proprio per gli scarsi progressi rispetto al suo predecessore, che aveva invece rappresentato un balzo in avanti vertiginoso rispetto a GPT-3.

“A livello tecnico stiamo raggiungendo il plateau”, conferma Giada Pistilli, responsabile per l’etica dell’intelligenza artificiale di Hugging Face, la più importante piattaforma open source per lo sviluppo di sistemi AI. “Le capacità di GPT-5 rispetto a GPT-4 sono in effetti praticamente le stesse. Quello su cui adesso si sta lavorando è soprattutto il tono, il modo in cui si esprimono o il loro comportamento. Il motivo per cui si sia giunti a questo plateau non è chiaro, ma è possibile che la legge di scala stia effettivamente venendo meno, senza considerare i costi enormi, anche dal punto di vista ambientale, di addestrare e mantenere modelli sempre più grandi”.

Se davvero siamo arrivati al plateau, il rischio è che, invece di trasformarsi in un “digital god”, gli LLM rimangano quello che sono: dei sistemi statistici incredibilmente avanzati, che forniscono spesso risultati sorprendenti, ma che commettono anche molti errori, danno risposte inaccurate o del tutto inventate (le cosiddette “allucinazioni”), faticano a interpretare i nostri comandi meno immediati e i cui risultati devono sempre essere verificati.

È ancora presto per trarre conclusioni, ma i timori stanno venendo confermati anche dalle prime ricerche sui risultati (in termini economici e di produttività) ottenuti dalle aziende che hanno integrato i modelli generativi nei loro processi. Secondo uno studio del MIT di Boston, il 95% delle aziende statunitensi non ha visto “nessun ritorno” dagli investimenti in intelligenza artificiale generativa (nonostante una spesa stimata in 30/40 miliardi di dollari).

Gli autori dello studio attribuiscono questo pessimo risultato non alla mancanza di infrastrutture, formazione o talenti, ma all’incapacità dei sistemi di intelligenza artificiale di conservare i dati, adattarsi e imparare nel tempo. 

Il rischio è che, invece di trasformarsi in un “digital god”, gli LLM rimangano quello che sono: dei sistemi statistici incredibilmente avanzati, che forniscono spesso risultati sorprendenti, ma che commettono anche molti errori”.

Risultati simili (anche se meno drammatici) giungono da un report di McKinsey secondo cui l’80% delle aziende che usano l’AI generativa afferma di non aver ottenuto “nessun impatto tangibile” a livello di ricavi. La società di consulenza Gartner, dopo aver analizzato questi studi, ha affermato che “l’intelligenza artificiale sta entrando nella fase della disillusione del suo sviluppo tecnologico”.

È davvero così? L’intelligenza artificiale generativa non è (per ora) all’altezza dei compiti che le vengono richiesti a livello aziendale? “C’è un altro aspetto: se gli incrementi a livello di input sono piccoli, non possiamo aspettarci un’enorme capacità di output da parte della macchina”, spiega Massimo Chiriatti, chief technology and innovation officer di Lenovo Italia e autore di Incoscienza Artificiale (Luiss University Press, 2021). “Il valore nasce dall’integrazione tra l’intuito e la razionalità dell’essere umano, combinati ai suggerimenti algoritmici”.

La causa dei risultati deludenti sarebbe quindi da cercare (anche) nella parziale integrazione dei processi o magari nella mancanza di preparazione del personale. È una visione in parte condivisa anche da Giada Pistilli: “La si è venduta come una bacchetta magica, per cui anche giganti come Airbus o Renault avevano aspettative altissime. Ma poi bisogna adattarla, estrapolare correttamente i dati delle aziende e altro ancora. Tutto ciò ha un costo elevato e aumenta i rischi che i progetti vengano accantonati”.

E i singoli utenti, invece? Nel Microsoft Work Index del 2024, si parla del fenomeno BYOAI (“bring your own AI”, porta la tua intelligenza artificiale), vale a dire l’abitudine di professionisti e impiegati di utilizzare in autonomia i vari strumenti di intelligenza artificiale generativa, spesso senza avvisare l’azienda e i superiori per evitare che venga visto come un “trucchetto” o, peggio, faccia considerare le loro mansioni come facilmente automatizzabili.

È un utilizzo che potremmo definire “dal basso” e che ricorda più quello degli alunni che sfruttano ChatGPT per studiare (o per farsi fare i compiti) di quanto non assomigli a un’integrazione “dall’alto”, organica e a livello aziendale. Per le società che producono i sistemi di AI, il fatto che questo impiego si stia così tanto diffondendo non è necessariamente una buona notizia: prima di tutto, perché i potenziali ricavi sono molto inferiori a quelli che si possono ottenere vendendo pacchetti di “AI as a service” alle aziende; in secondo luogo perché, come ammesso dallo stesso Sam Altman, anche gli utenti che pagano per la versione pro di ChatGPT costano comunque a OpenAI più di quanto le facciano guadagnare; infine perché, in ogni caso, gli utenti paganti di ChatGPT sono solo il 5% degli 800 milioni di utenti mensili.

Un tasso di conversione talmente basso da essere allarmante, che fa pensare che ben pochi vedano in ChatGPT un prodotto così utile da giustificarne il costo. Il punto, allora, è capire se effettivamente gli LLM siano in grado di “potenziare” i lavoratori quanto promesso. 

Anche da questo punto di vista, i primi studi sul tema non hanno dato i risultati sperati: una ricerca pubblicata lo scorso luglio dal think tank Model Evaluation and Threat Research ha indagato l’impatto degli LLM nel campo della programmazione. Dal momento che il coding è una delle capacità che i modelli linguistici hanno dimostrato di padroneggiare meglio, i ricercatori si attendevano guadagni in termini di produttività pari al 40%; i professionisti che hanno partecipato alla ricerca avevano aspettative più basse, ma comunque pari a un +20%.

I risultati, invece, hanno dipinto un quadro molto diverso: i programmatori sono stati addirittura il 20% più lenti. Com’è possibile? La ragione, secondo lo studio, sta soprattutto nella necessità di dover verificare tutto il lavoro che i large language model hanno svolto e poi sistemare gli inevitabili errori: una forma di supervisione che spesso comporta tempi superiori rispetto a svolgere il lavoro da soli. Come ha detto uno dei programmatori che hanno partecipato alla ricerca, “è l’equivalente digitale di dover sempre tenere d’occhio ciò che sta facendo uno sviluppatore junior troppo sicuro di sé”.

È qualcosa che avviene anche quando si incaricano gli LLM di eseguire compiti molto semplici. Recentemente, ho chiesto a ChatGPT di formattare un articolo in html (titoletti, corsivi, grassetti e link), in modo che fosse pronto per essere inserito nella piattaforma editoriale di una rivista con cui collaboro. 

Al primo tentativo, ChatGPT mi ha restituito un articolo in cui ampie parti del testo erano state modificate (facendomi temere che ciò potesse verificarsi anche successivamente, nonostante le mie precise istruzioni in merito). Al secondo passaggio, non ha inserito i link. Al terzo passaggio, ha inserito dei link non funzionanti e infine, al quarto passaggio, è riuscito a restituirmi la versione corretta, a cui comunque ho dovuto apportare delle modifiche. 

Risultato? Nonostante non abbia cronometrato, è molto probabile che tutto ciò mi abbia richiesto più tempo di quanto ne avrei impiegato facendo tutto da solo. È possibile che le prossime volte le cose vadano meglio, ma il fatto che degli errori siano sempre possibili costringe, come segnalato anche nello studio, a una costante supervisione. 

Se la situazione attuale è questa, e se i progressi stanno realmente rallentando, come possiamo attenderci che il futuro prossimo sia all’insegna degli AI Agent, in grado di svolgere per noi, su comando, operazioni complesse come prenotare voli e alberghi del nostro prossimo viaggio, fare acquisti al posto nostro e svolgere, anche in ambito professionale, tutta una serie di operazioni complesse? Chi affiderebbe serenamente a questi agenti il compito di effettuare dei pagamenti o di ordinare delle merci?

“C’è un eccesso di offerta ed è anche per questo che tante startup sono in rosso. Se fanno tutti le stesse cose, è difficile convincermi a usare il tuo chatbot o il tuo agente”.

I dubbi aumentano osservando i risultati ottenuti da Agentforce, l’intelligenza artificiale sviluppata dal colosso del cloud Salesforce. Secondo le ricerche della stessa azienda, Agentforce porta a termine con successo i compiti che richiedono un singolo passaggio solo nel 58% dei casi, mentre nelle azioni “multi-step” questa percentuale scende al 35%. Lascereste lavorare in autonomia, affidandogli anche responsabilità economiche, un “agente” che riesce a svolgere correttamente il suo compito una volta su tre?

“Si fa presto a dire agente e pensare che vada bene per ogni situazione”, precisa Massimo Chiriatti. “L’agente dev’essere in grado di generalizzare, adattarsi all’ambiente – che è aperto e non programmato su misura per lui – trovare la strada per operare mantenendo elevata la sua efficacia e garantendo la protezione dei dati. Probabilmente, prima di imparare in che situazioni usare questi strumenti, dovremmo imparare in quali situazioni non usarli, conoscere i loro limiti”.

Operare in “campo aperto”, ovvero navigare il mare di internet e individuare le azioni corrette da compiere in un ambiente che non è stato sviluppato per le intelligenze artificiali, è un compito estremamente complesso: “Gli agenti in ambito produttivo, semplicemente, ancora non funzionano”, conferma Giada Pistilli. “È presto e bisogna avere pazienza. Un paio di settimane fa, OpenAI ha presentato delle partnership con aziende come Booking o Zillow, che permettono di usare i loro servizi tramite agenti. Il vantaggio di queste partnership specifiche è che, in quei casi, gli ingegneri informatici adattano l’app affinché tutto funzioni e quindi, ovviamente, ci sono chance migliori che l’agente abbia successo rispetto a farlo andare in libertà su internet. Certo, ci si potrebbe anche chiedere quali siano i vantaggi di chattare con Booking invece di usare l’app normalmente…”.

Per molti versi, l’intelligenza artificiale generativa sembra essere vittima delle eccessive promesse fatte dalle stesse aziende che la stanno sviluppando, allo scopo di ottenere copertura mediatica e soprattutto gli investimenti necessari a coprire i costanti buchi di bilancio. L’hype, insomma, si sta rivelando un boomerang, ma in questo settore ci sono altre due criticità: la mancanza di scalabilità e l’assenza di “effetto network”.

Partiamo dalla prima: a differenza di quanto avviene con i motori di ricerca, i social network e le altre grandi macchine da soldi del mondo digitale (in cui, una volta costruita l’infrastruttura, i nuovi utenti costano pochissimo ma portano ulteriori ricavi), l’intelligenza artificiale generativa è molto meno scalabile, perché i costi computazionali aumentano in maniera quasi proporzionale alla crescita degli utenti.

In più, manca l’effetto network: se Facebook, Instagram e TikTok sono diventati colossi da miliardi di utenti è anche perché gli utenti avevano un vantaggio concreto a recarsi là dove “sono già tutti”, concentrando gli utenti, e quindi i ricavi, in un numero molto ridotto di piattaforme. 

Nonostante ChatGPT sia di gran lunga il più usato (perché il primo e più noto), non c’è nessun concreto vantaggio a usare il sistema di OpenAI invece di Claude di Anthropic, Gemini di Google, il francese Mistral, il cinese DeepSeek o tutti gli altri modelli generalisti. Le differenze sono infatti minime e gli utilizzi possibili praticamente identici. Di conseguenza, le varie aziende si suddividono i (già pochi) utenti paganti e di conseguenza anche i ricavi, comunque insufficienti.

“C’è un eccesso di offerta ed è anche per questo che tante startup sono in rosso”, conferma Chiriatti. “Se fanno tutti le stesse cose, è difficile convincermi a usare il tuo chatbot o il tuo agente”. È probabilmente per questo che molte società stanno puntando su prodotti più specifici: l’intelligenza artificiale per le ricerche (come Perplexity), quella per migliorare la qualità dei podcast (Adobe Podcast), quella per le trascrizioni audio (Descript) e una miriade di altre ancora. 

Il problema è che, se non già oggi sicuramente a breve, i modelli generalisti saranno in grado di offrire anche tutti questi servizi specifici. Non c’è nessun ostacolo tecnologico per cui ChatGPT non possa trascrivere un’intervista o Google sfruttare l’AI per le ricerche online (e infatti ha appena integrato nel suo motore di ricerca la funzione AI Mode, che probabilmente metterà fuori gioco proprio Perplexity).

Forse anche in questo caso, come già avvenuto in passato (per esempio con Amazon), c’è un solo modo per rendere economicamente sostenibile l’intelligenza artificiale: che un unico modello (in pole position ci sono ChatGPT e Gemini) vinca la grande corsa attualmente in atto e convinca tutti gli utenti a usarlo per fare tutto ciò che con l’AI generativa si può fare.

“È un po’ quello che è successo con la bolla di internet: dopo lo scoppio si è creata una grande concentrazione, con quattro o cinque protagonisti a trainare tutto”, spiega Pistilli. “Personalmente, spero che le cose non vadano così e che ci sia spazio anche per la parte open source, ma è difficile”.

L’aspetto più inquietante, però, è un altro: nonostante il modello di business di ChatGPT e gli altri si sia inizialmente basato sugli abbonamenti, il fatto che gli introiti generati non siano evidentemente sufficienti potrebbe convincere i vari OpenAI, Google e Anthropic a puntare ancora una volta sulla pubblicità. 

Ma sono sufficienti i classici annunci personalizzati per colmare i buchi di bilancio? “Vuoi mettere ciò che si può scoprire dai post che pubblichiamo su Facebook e ciò che invece si può apprendere dalle nostre conversazioni con ChatGPT, che riguardano tutto e possono durare anche ore?”, risponde Giada Pistilli. “Non c’è paragone. E infatti Meta ha già annunciato che userà le interazioni degli utenti con l’AI per fare pubblicità. C’è bisogno di tantissima educazione: gli utenti devono sapere che ciò che dicono a ChatGPT non è privato e non lo sarà mai”.

Alla fine, anche nel campo dell’intelligenza artificiale, ci ritroveremo quasi certamente a fronteggiare un vecchio nemico: il capitalismo della sorveglianza. Ma questa volta, in una versione ancora più potente e insidiosa.

Andrea Daniele Signorelli

Andrea Daniele Signorelli è giornalista e collabora a diverse testate tra cui: «Domani», «Wired», «Repubblica», «Il Tascabile». È autore del podcast Crash – La chiave per il digitale. Il suo ultimo libro è Simulacri digitali. Le allucinazioni e gli inganni delle nuove tecnologie (add editore, 2024).

Contenuti Correlati