Gemini introduce la generazione musicale con Lyria 3: dalle immagini alle tracce audio

L’ecosistema dell’intelligenza artificiale di Google si espande ulteriormente verso la multimedialità, integrando nuove funzionalità dedicate alla creazione sonora. Dopo aver consolidato gli strumenti per la generazione di testi, immagini e video, l’azienda di Mountain View ha annunciato l’arrivo della generazione musicale direttamente all’interno dell’app Gemini. Il cuore di questa novità è Lyria 3, l’ultimo modello sviluppato da Google DeepMind, progettato per trasformare prompt testuali e file visivi in brevi tracce audio.

Questa nuova funzione, che segna un passo significativo nell’interazione tra utente e AI generativa, è in fase di rilascio globale per tutti gli utenti maggiorenni e supporta tutte le lingue, incluso l’italiano.

Come funziona la creazione musicale in Gemini

L’obiettivo dichiarato non è la produzione di hit discografiche, ma fornire agli utenti uno strumento di espressione rapida e creativa. Il sistema permette di generare brani della durata di 30 secondi, completi di copertine personalizzate create tramite il modello grafico Nano Banana. Le modalità di interazione sono state progettate per essere intuitive e versatili, spaziando dalla semplice descrizione testuale all’interpretazione di file complessi.

Le funzionalità principali si suddividono in tre macro-categorie:

Da testo a traccia: L’utente può descrivere un genere, uno stato d’animo o una situazione specifica. Gemini elabora la richiesta generando testi (se richiesti) e una base strumentale coerente. È possibile specificare dettagli tecnici come il tipo di strumenti (“pianoforte delicato”, “batteria veloce”) o il mood (“rilassante”, “energico”).
Dal file alla traccia: Questa rappresenta una delle novità più interessanti sotto il profilo tecnologico. Il modello è in grado di analizzare file caricati dall’utente — come foto, PDF o presentazioni — e comporre una traccia che ne rispecchi l’atmosfera. Un esempio pratico potrebbe essere la generazione di una colonna sonora basata sulla foto di un’escursione.
Idee trasformate in audio: Il sistema è pensato anche per l’intrattenimento sociale, permettendo di trasformare battute o messaggi in canzoni da condividere, come un brano punk rock per ricordare a un coinquilino di svolgere le faccende domestiche.

Una volta generato il contenuto, l’app facilita la condivisione tramite download diretto del file o creazione di un link inviabile ad amici e contatti.

Le capacità tecniche di Lyria 3

Rispetto alle iterazioni precedenti dei modelli audio di Google, Lyria 3 introduce miglioramenti sostanziali nella qualità e nel controllo dell’output. Il salto qualitativo si manifesta principalmente in tre aspetti tecnici:

Generazione automatica dei testi: Non è più necessario fornire le parole della canzone; il modello è in grado di generare liriche coerenti basandosi esclusivamente sul prompt iniziale.
Maggiore controllo creativo: Gli utenti hanno ora la possibilità di influenzare parametri specifici come lo stile vocale e il ritmo, definito in battiti per minuto (BPM).
Complessità musicale: Le tracce risultanti presentano una struttura più realistica e articolata rispetto al passato.

Oltre all’app consumer, la tecnologia di Lyria 3 sta venendo integrata anche in YouTube Dream Track. Questa funzione, attualmente in fase di implementazione per i creator al di fuori degli Stati Uniti, è destinata a migliorare le colonne sonore degli YouTube Shorts, permettendo la creazione di basi ritmiche o strofe personalizzate di alta qualità.

Copyright, sicurezza e sistema SynthID

Un aspetto cruciale nello sviluppo di tecnologie generative musicali riguarda la tutela del diritto d’autore e la trasparenza dei contenuti. Google ha sottolineato che Lyria 3 è stato addestrato tenendo in considerazione gli accordi con i partner dell’industria musicale e le normative sul copyright.

Per prevenire abusi o violazioni, il sistema adotta diverse misure di sicurezza:

Divieto di imitazione diretta: La generazione è pensata per l’espressione originale. Se un prompt richiede esplicitamente lo stile di un artista specifico, l’AI lo utilizzerà solo come “ampia ispirazione creativa” per generare un’atmosfera simile, senza mai clonare la voce o lo stile esatto dell’artista citato.
Watermarking impercettibile: Tutte le tracce create tramite l’app Gemini contengono SynthID, una filigrana digitale non udibile dall’orecchio umano ma rilevabile dagli strumenti software. Questo permette di identificare in modo univoco i contenuti generati dall’AI di Google.
Verifica dei contenuti: Google sta ampliando le funzionalità di verifica per includere l’audio. Gli utenti potranno caricare un file sospetto e chiedere al sistema se è stato generato dall’AI; Gemini analizzerà la traccia alla ricerca della firma SynthID per fornire una risposta.

L’azienda ha inoltre attivato filtri specifici per controllare gli output rispetto ai contenuti esistenti e ha messo a disposizione strumenti di segnalazione per eventuali violazioni della proprietà intellettuale, ribadendo che l’uso della tecnologia è vincolato al rispetto delle norme che vietano la violazione della privacy e dei diritti altrui.

Come funziona la creazione musicale in Gemini

Le capacità tecniche di Lyria 3

Copyright, sicurezza e sistema SynthID

Articoli correlati