Una scena che mi resta addosso
La prima volta che ho visto circolare esempi di video generati da prompt con audio credibile, non ho pensato a un “tool” in più nella cassetta degli attrezzi, ho pensato a quel momento storico in cui la fotografia smette di essere magia da laboratorio e diventa gesto quotidiano, solo che qui la posta in gioco è più alta perché non stiamo catturando il mondo, lo stiamo sintetizzando.
Con Seedance, almeno per come viene descritta e mostrata nelle demo che rimbalzano in rete, la sensazione è quella di un’accelerazione improvvisa, quasi imbarazzante, perché accorcia la distanza tra l’idea e il risultato in un modo che mette in crisi molte delle nostre abitudini cognitive, dal “cerco un’app” al “apro la camera”, fino al più profondo “mi fido di ciò che vedo”.
E prima ancora di discutere quale azienda sia avanti e quale sia indietro, io mi fermo su una domanda più umana: che cosa succede alla cultura quando produrre una sequenza audiovisiva con sonoro diventa facile quanto scrivere un messaggio, e quando il gesto di creare non richiede più né troupe né montaggio né microfoni, ma soltanto intenzione, linguaggio e un po’ di contesto.
Perché Seedance sembra sorprendente davvero
La sorpresa non è solo la qualità, che pure colpisce, ma l’insieme di tre fattori che, combinati, cambiano la natura dell’oggetto “video”.
Il primo fattore è la multimodalità intesa in senso pratico, cioè la capacità di far convivere testo, immagini, movimento e suono in una singola esperienza generativa, così che il video non sia più un file muto da rifinire altrove, ma una scena che nasce già con un’identità narrativa, con una temperatura emotiva, con un ritmo che prova a sembrare intenzionale.
Il secondo fattore è la coerenza, che in questi modelli è sempre stata il vero tallone d’Achille, perché il nostro cervello perdona una texture imperfetta ma non perdona un personaggio che cambia volto, una luce che contraddice l’inquadratura precedente, un corpo che si muove con una fisica sbagliata, e quando quella coerenza migliora oltre una certa soglia scatta l’effetto inquietante del “sembra girato”, non del “sembra generato”.
Il terzo fattore è il controllo, perché un salto di paradigma non avviene quando la macchina “fa cose belle”, avviene quando la macchina diventa sufficientemente governabile da trasformarsi in linguaggio operativo, e quindi quando posso chiedere non solo “fammi una scena” ma “fammi quella scena, con quel tono, con quel tipo di montaggio mentale, con una certa continuità”, e posso iterare senza che ogni tentativo assomigli a una lotteria.
Qui mi prendo anche una cautela necessaria: molte affermazioni circolano in forma di confronto diretto con altri modelli e con presunti benchmark, ma senza una metodologia pubblica condivisa quei paragoni vanno presi con prudenza, mentre il segnale forte resta un altro, più semplice e più verificabile: la soglia di stupore collettivo si è alzata di colpo, e quando la soglia di stupore si alza significa che cambiano le aspettative di mercato, le paure industriali e le abitudini degli utenti.
Il punto non è “fare video”, è cancellare il tempo tra pensiero e contenuto
Se devo spiegarmelo come ingegnere e come umanista digitale, io la vedo così: questi sistemi stanno riducendo drasticamente l’attrito tra intenzione e rappresentazione, e lo fanno proprio nel mezzo più potente che abbiamo, l’audiovisivo, che è già oggi la lingua franca della comunicazione pubblica.
Non è soltanto una questione di creatività, è una questione di economia del tempo, perché per decenni il video è stato costoso, lento, specializzato, e quindi ha mantenuto un valore sociale legato alla rarità, mentre adesso l’abbondanza diventa la condizione di partenza e il valore si sposta su ciò che prima era implicito e ora diventa decisivo: idea, etica, responsabilità, contesto, firma, provenienza.
Secondo stime di settore, la quota di traffico internet legata al video è già dominante e continua a crescere, e anche senza fissarsi su un numero preciso il trend è chiaro: viviamo immersi in clip, stories, lezioni registrate, pubblicità brevi, videomessaggi, e quando la produzione diventa istantanea la competizione non è più “chi ha gli strumenti”, ma “chi sa raccontare senza manipolare”.

Perché lo smartphone “come lo conosciamo” rischia di perdere centralità
La tua previsione sui quattro o cinque anni non la leggo come profezia apocalittica, la leggo come una traiettoria plausibile, perché lo smartphone è stato la risposta a un mondo fatto di app e schermi, mentre il mondo che sta arrivando sembra sempre più fatto di conversazione, generazione e automazione.
Lo smartphone nasce come oggetto di intermediazione, cioè come superficie su cui tocchiamo icone per chiedere ad altri servizi di fare cose per noi, ma se l’interfaccia diventa una IA conversazionale e generativa, quell’intermediazione cambia forma, perché io non “apro l’app video”, io descrivo l’esito che voglio, e il sistema orchestra tutto dietro le quinte, scegliendo strumenti e modelli come oggi un sistema operativo sceglie driver e processi.
In questo scenario lo schermo resta utile, ma smette di essere sovrano, e la centralità si sposta verso dispositivi più leggeri, più indossabili, più continui, perché se la mia interazione principale è parlare, ascoltare e ricevere risposte contestuali, allora auricolari intelligenti, occhiali con sovrimpressioni, anelli e sensori diventano candidati naturali a sostituire molte sessioni “testa bassa” sul telefono.
E c’è un dettaglio che spesso sottovalutiamo: lo smartphone non è solo uno schermo, è anche un compromesso ergonomico, perché digitare, leggere, scorrere, saltare tra app richiede attenzione frammentata, mentre un assistente capace di interpretare obiettivi può ridurre quella frammentazione e restituire continuità, e la continuità è una droga dolce per la mente umana.
Tre scenari futuri, concreti e vicini
Quando provo a immaginare cosa potrebbe accadere in un orizzonte breve, io vedo tre scenari che possono convivere, perché la tecnologia raramente sostituisce tutto in un colpo solo, più spesso assorbe e ridistribuisce.
Nel primo scenario, che considero il più probabile, la IA diventa l’interfaccia principale e lo smartphone diventa un nodo di rete, potente ma meno “centrale”, perché molte azioni si spostano su comandi vocali e su flussi automatizzati, e le app diventano servizi invisibili, con una conseguenza psicologica enorme: smettiamo di pensare per applicazioni e iniziamo a pensare per risultati.
Nel secondo scenario, che potrebbe esplodere appena l’hardware si alleggerisce davvero, l’esperienza quotidiana si sposta su wearable, soprattutto su occhiali che non devono per forza essere realtà virtuale spettacolare, ma possono essere semplicemente un display discreto che mostra suggerimenti, traduzioni, note, direzioni, e soprattutto una camera sempre pronta a catturare contesto, non per registrare ricordi ma per alimentare generazione e assistenza.
Nel terzo scenario, che è quello più politico e più delicato, nasce un livello di fiducia e provenienza obbligatorio, perché se i video diventano facili da creare, diventano facili da falsificare, e allora la società chiederà marcatori di origine, filigrane robuste, standard di autenticità, e anche norme più severe, con un ruolo crescente di regolazioni come l’AI Act europeo e di pratiche industriali di content credentials.
Un esempio che uso spesso, perché è concreto
Immagina una professoressa di scienze alle medie che prepara una lezione sul sistema solare: invece di cercare un video già fatto, scrive un prompt che genera una sequenza di due minuti con narrazione in italiano, immagini coerenti, esempi calibrati per l’età, e un finale con domande di verifica; poi rigenera la stessa lezione in versione inclusiva per studenti con difficoltà di attenzione, con ritmo più lento e audio più pulito, e la pubblica con una dichiarazione trasparente su come è stata creata.
Qui io vedo il lato luminoso della democratizzazione, perché abbassi barriere e costi, ma vedo anche il lato che mi inquieta, perché la stessa facilità permette a chiunque di produrre propaganda verosimile, truffe affettive, diffamazioni, e di saturare lo spazio pubblico con contenuti plausibili ma non verificabili.
La tecnologia, come sempre, non porta un destino, porta una moltiplicazione di possibilità, e quindi ci costringe a scegliere quali abitudini, quali tutele e quali alfabetizzazioni rendere normali.
La creatività non muore, cambia il suo posto nella filiera
Quando sento dire “finirà il cinema” o “finiranno i creativi”, io penso che sia una lettura emotiva ma incompleta, perché ciò che tende a scomparire non è la creatività, bensì certe mansioni ripetitive e certe rendite di posizione legate alla scarsità degli strumenti.
Se un singolo autore può prototipare storyboard, animatic, varianti di tono, voci provvisorie, allora le fasi iniziali diventano più rapide e più economiche, e questo può liberare energia, ma può anche comprimere budget e tempi, con il rischio di peggiorare le condizioni di lavoro se non esiste contrattazione, riconoscimento, filiere di compensazione, e soprattutto regole chiare sull’uso di dataset e somiglianze.
Il nodo del copyright, in particolare, non è una nota a piè pagina: è il campo di battaglia centrale, perché l’audiovisivo generato vive di stile, e lo stile è spesso il sedimento di opere precedenti, e se non costruiamo un patto sociale tra innovazione e diritti rischiamo di trasformare un’accelerazione creativa in una guerra permanente tra piattaforme e comunità artistiche.
L’umanesimo digitale come bussola, non come slogan
Io continuo a credere che la tecnologia possa democratizzare il sapere, ma solo se la guidiamo con un umanesimo digitale che non sia decorazione morale, bensì progettazione concreta: trasparenza sulle origini, educazione alla verifica, strumenti di segnalazione, accessibilità, rispetto dei diritti, e un’idea di progresso che non coincida con la sola velocità.
Se il video con audio nasce da un prompt, allora la competenza fondamentale diventa la capacità di formulare intenzioni, di controllare risultati, di dichiarare limiti, di distinguere tra finzione e testimonianza, e qui la scuola, l’università, i media e la pubblica amministrazione hanno una responsabilità enorme, perché la fiducia sociale è un’infrastruttura tanto quanto la fibra ottica.
Per me la domanda più importante non è “quanto è potente Seedance”, ma “quale cultura della prova vogliamo adottare”, perché nel mondo che arriva non vincerà chi genera di più, vincerà chi genera meglio e chi sa rendere verificabile ciò che conta.
Che cosa fare adesso, senza panico e senza ingenuità
Se dovessi trasformare questa riflessione in una piccola agenda personale, la renderei fatta di gesti semplici ma sistematici, perché è così che si attraversano i cambiamenti rapidi senza perdere dignità e lucidità.
Io inizierei coltivando una dieta informativa più rigorosa, separando demo promozionali da test ripetibili, e chiedendo sempre quali sono i vincoli, i costi, i diritti e le condizioni d’uso.
Io continuerei costruendo competenze narrative, perché nel nuovo regime dell’abbondanza la tecnica si compra e la sensibilità si costruisce, e la sensibilità significa sapere cosa raccontare, a chi, con quali conseguenze.
Io infine spingerei per strumenti di provenienza e per educazione civica digitale, perché la vera innovazione sociale non sarà il video che nasce in dieci secondi, sarà la capacità collettiva di non farsi governare da ciò che sembra vero ma non lo è.
FAQ: Seedance, video generativo e “fine” dello smartphone
Qui raccolgo le domande che mi fanno più spesso quando parlo di modelli video con audio generato e del possibile spostamento verso interfacce conversazionali e wearable.
Perché un modello che genera anche audio cambia la percezione del video?
Perché il suono chiude il cerchio narrativo, rende la clip immediatamente “pubblicabile” e quindi riduce ancora di più la distanza tra intenzione e contenuto, con effetti enormi su creatività, educazione e disinformazione.
Nota: questa è una FAQ editoriale, puoi adattarla a ciò che pubblichi e ai tuoi esempi reali.
Che cosa significa davvero “multimodale” in questo contesto?
Significa che l’esperienza generativa non vive a pezzi separati, perché testo, immagini, movimento e suono vengono orchestrati insieme, così che tu possa guidare la scena come un’idea unica e non come una somma di strumenti scollegati.
Gli smartphone spariranno oppure verranno assorbiti da nuovi dispositivi?
Io scommetto sull’assorbimento, perché lo smartphone resterà come nodo potente, ma molte azioni quotidiane potrebbero migrare verso auricolari intelligenti, occhiali e assistenti sempre attivi, finché lo schermo non sarà più il luogo obbligato in cui “avviene” la vita digitale.
Qual è il rischio più serio quando il video diventa facilissimo da generare?
Il rischio non è solo il fake singolo, è la saturazione: troppi contenuti plausibili, troppo poco tempo per verificare, e una fiducia pubblica che si sfilaccia, perciò diventano cruciali provenienza, watermark robusti, alfabetizzazione mediatica e responsabilità di piattaforme e creator.
Posso far sì che solo una domanda alla volta resti aperta, tipo accordion?
Sì, in HTML moderno puoi collegare più elementi <details> usando lo stesso attributo name, così quando ne apri uno gli altri si richiudono automaticamente, senza JavaScript.
Articoli e video per orientarsi
Ho raccolto risorse che mi aiutano a spiegare due idee insieme: la generazione video con audio come nuova lingua della creatività e lo spostamento possibile verso interfacce conversazionali e wearable, con lo smartphone sempre più “assorbito” dal sistema.
OpenAI: Sora (pagina ufficiale in italiano)
Utile per citare in modo “pulito” che cosa promette un modello video e quali capacità dichiara a livello concettuale.
Apri la risorsaGeoPop: Veo 3 in Italia, cosa può fare
Ottimo quando vuoi spiegare in modo comprensibile perché l’audio integrato è un salto qualitativo, non solo un dettaglio.
Apri la risorsaGoogle: generare video con Veo 3.1 nell’API Gemini
Perfetta se vuoi passare dalla meraviglia al “come lo porto nei flussi di lavoro” senza perdere rigore.
Apri la risorsaMicrosoft Learn: panoramica generazione video Sora (anteprima)
Utile quando vuoi tenere insieme capacità e governance, senza scivolare nell’ideologia pro o contro.
Apri la risorsaYouTube: “Sora AI… tutorial facile” (italiano)
Serve quando vuoi far vedere al pubblico il gesto concreto, perché spesso il paradigma si capisce guardando l’interazione.
Guarda il videoYouTube: “SORA… Tutorial Completo” (italiano)
Buono per la parte “artigianale” della narrazione: come cambia il lavoro creativo quando prototipare diventa istantaneo.
Guarda il videoOcchiali AI e scenario “fine smartphone” (articolo in italiano)
Io lo uso come “specchio” per discutere aspettative e marketing, distinguendo visione industriale e probabilità concreta.
Apri la risorsaUtile per introdurre l’idea che il display non debba più essere un rettangolo in tasca, ma possa diventare ambiente.
Apri la risorsaDa informatico a cercatore di senso
Unisciti al mio mondo di conoscenza e iscriviti al mio canale WhatsApp.
Sarai parte di una comunità appassionata, sempre aggiornata con i miei pensieri e le mie idee più emozionanti.
Non perderti l’opportunità di essere ispirato ogni giorno, iscriviti ora e condividi questa straordinaria avventura con me!
Nota di trasparenza sull’uso dell’AI nel blog
In questo spazio digitale, dedicato alla comprensione critica dell’innovazione tecnologica, desidero condividere con chiarezza due aspetti importanti del lavoro che porto avanti.
Immagini generate con l’AI
La quasi totalità delle immagini presenti nel blog è generata tramite strumenti di intelligenza artificiale. Le utilizzo sia come supporto visivo sia come modo per sperimentare nuove forme di comunicazione creativa, coerenti con i temi trattati.
Un blog nato dalla scrittura… e trasformato dalla velocità dell’AI
Scrivere è sempre stata una mia passione. Dopo anni di appunti, riflessioni e sperimentazioni, tre anni fa è nato questo blog. Fin da subito, però, ho dovuto confrontarmi con una sfida evidente: l’incredibile accelerazione dell’evoluzione scientifica legata all’intelligenza artificiale rende complesso mantenere aggiornato un progetto di divulgazione che ambisce alla qualità e alla precisione.
Per questo, in coerenza con la mia missione di promuovere consapevolezza, oggi più che mai un elemento vitale, ho scelto di farmi affiancare da piattaforme di AI in molte fasi del lavoro editoriale. In particolare, l’AI mi supporta in:
- ricerca e verifica preliminare delle notizie
- organizzazione e strutturazione degli articoli
- creazione di sezioni HTML per FAQ e link alle fonti
- ideazione di infografiche
- esplorazione di titoli efficaci e pertinenti
L’obiettivo non è delegare il pensiero, ma amplificare la capacità di analisi e di sintesi, così da offrire contenuti sempre più chiari, accurati e utili.
















