L’Intelligenza artificiale di Google riscrive Bella Ciao. La musica è sul punto di cambiare. Un nuovo modello di intelligenza artificiale, sviluppato da Google, promette di generare musica coerente e ad alta fedeltà a partire da un semplice testo. Tra gli autori della ricerca ci sono anche italiani. Cronaca di Pier Luigi Pisa pubblicata su La Stampa del 30 gennaio 2023.

Su ItalianaContemporanea l’articolo è pubblicato nella pagina Intelligenza artificiale. Il testo conta 781 parole e richiede circa 4 minuti di lettura.


In attesa di Sparrow – l’intelligenza artificiale con cui Google risponderà a ChatGpt – il colosso di Mountain View ha svelato un nuovo, interessante modello di IA in grado di generare musica a partire da una semplice descrizione testuale.

E quindi, come oggi usiamo ChatGpt per ottenere un racconto o una poesia a partire da una domanda scritta, in futuro saremo capaci di ricavare la musica che desideriamo chiedendo a MusicLM, per esempio, di produrre “la melodia rilassante di un violino accompagnata da un riff di chitarra distorto”.

Nel paper scientifico diffuso da Google, e firmato da diversi ricercatori italiani, ci sono numerosi esempi di suoni e brani molto brevi prodotti da MusicLM, che è stata addestrata con un volume di dati che include 280.000 ore di musica.

Ci sono, per esempio, gli audio prodotti a partire da una descrizione molto dettagliata. Come questa: “Una fusione di reggaeton e musica dance elettronica, con un suono spaziale e ultraterreno. Invita a perdersi nello spazio ed evoca un senso di meraviglia e soggezione, pur essendo ballabile”. I trenta secondi generati da questo testo rispondono, quasi alla perfezione, alla descrizione fornita attraverso le parole.

È il caso di ricordare, a tal proposito, che l’IA generativa – di qualsiasi tipo – per dare il meglio ha bisogno di essere guidata il più possibile dalle parole degli esseri umani. Una domanda superficiale, generica o stringata, infatti, produrrà sempre un contenuto piuttosto banale e di scarsa qualità. Il segreto, dunque, sta nel cosiddetto ‘prompt’, vale a dire il comando testuale che viene impartito all’intelligenza artificiale per ottenere non solo testo, ma anche immagini (si pensi a Dall-E e Midjourney) o, appunto, suoni.

Con MusicLM, oltre al testo, si può usare una melodia preesistente per influenzare ogni prompt. Nello studio pubblicato da Google c’è un esempio di questa tecnica applicata a “Bella ciao”. Si offrono all’IA i primi dieci secondi di questo brano, semplicemente fischiettati o canticchiati, e poi si specifica con un prompt testuale la versione alternativa che si intende ottenere. E così, magicamente, “Bella ciao” viene eseguita da “un coro a cappella”, oppure risuona sotto forma di  “assolo di chitarra”, o ancora come il risultato di “un gruppo jazz provvisto di sassofono”. 

La creatività di MusicLM può produrre risultati impensati. Vi siete mai chiesti che suono ha un quadro? Ebbene i ricercatori di Google lo hanno domandato all’IA, fornendo la descrizione testuale di capolavori dell’arte come “La persistenza della memoria” di Salvador Dalì. È bastato inserire, come prompt, un estratto dalla voce dedicata a questo dipinto dall’Enciclopedia Britannica, per ottenere 30 secondi di una melodia eterea caratterizzata dalle note di un piano.

Ma non finisce qui. All’IA si può chiedere anche di impostare il livello di esperienza di un musicista. “Suona come un pianista principiante”, per esempio, oppure “come un pianista professionista”. O, all’estremo, come “un pianista professionista follemente veloce”.

Ciò che non è ancora in grado di fare MusicLM, invece, è produrre un canto con versi sensati, parole chiare e distinte. Tutto si amalgama, quando ci prova, con un effetto simile a quello che si ottiene quando si chiede a una IA di generare una caricatura a partire da un nostro selfie: il risultato non ci somiglia mai fino in fondo, è spesso il frutto dell’unione di volti pescati dalla banca dati da cui impara ogni modello.

“MusicLM genera musica a 24 kHz che rimane coerente per diversi minuti – si legge nel paper firmato dai ricercatori Google -. I nostri esperimenti mostrano che MusicLM supera i modelli precedenti sia in termini di qualità audio che di aderenza alla descrizione testuale”.

In effetti, esistono già modelli di intelligenza artificiale simili a MusicLM. Uno di questi, Dance Diffusion, è stato sviluppato proprio da Google. Ma ce ne sono altri estremamente curiosi, come per esempio Riffusion che consente di generare musica – incredibilmente – a partire da un’immagine, per la precisione da uno spettrogramma. Ma nessuna di queste intelligenze artificiali, finora, era stata in grado di raggiungere la complessità sonora e l’alta fedeltà che contraddistinguono MusicLM.

Per ora parliamo solo di un paper scientifico, vale a dire dello studio di una tecnologia che è ancora in fase di sperimentazione e soprattutto che non è ancora aperta al pubblico, ma i risultati del lavoro di Google sono abbastanza impressionanti e lasciano intendere, ancora una volta, quanto l’IA cambierà (e semplificherà) il modo in cui produciamo contenuti pensati per le masse.

Per il testo e le immagini la rivoluzione è già in corso. Sull’audio ci siamo quasi. E anche i video, presto, potranno essere generati velocemente da un’intelligenza artificiale.

Ma il punto di partenza, l’immaginazione dietro ogni prompt, continuerà a essere ‘umano’. Solo un uomo, infatti, può arrivare a chiedersi che colonna sonora può avere un quadro.


Scopri di più da ItalianaContemporanea IC

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continue reading