Gli LLM (Large Language Models) sono sistemi di intelligenza artificiale addestrati a comprendere e generare testo. Dietro la loro apparente “intelligenza” ci sono due elementi fondamentali: i dataset (l’enorme quantità di dati testuali) e le modalità di addestramento (i processi di apprendimento).

Un punto importante: Il modello non memorizza il testo come un database. Impara pattern statistici: quali parole tendono a comparire insieme, quali strutture sintattiche sono comuni e quali sequenze sono probabili. Per questo si dice che un LLM è un sistema di predizione del token successivo.

1. Cosa sono i Dataset

Un dataset è la “biblioteca” da cui il modello apprende. I dati provengono da:

  • Pagine web e blog
  • Libri e romanzi
  • Articoli scientifici
  • Codice sorgente
  • Dialoghi e trascrizioni
  • Enciclopedie

La qualità conta più della quantità

Un modello addestrato su dati enormi ma sporchi si comporterà peggio di uno addestrato su meno dati ma meglio selezionati. Un buon dataset deve essere pulito, deduplicato, bilanciato e sicuro.

2. Le Fasi dell’Addestramento

Fase 1: Pretraining

Il modello “legge” miliardi di pagine per imparare la grammatica e i fatti. È un apprendimento auto-supervisionato: il testo stesso fornisce il segnale (indovinare la parola successiva).

Fase 2: Instruction Tuning (SFT)

Il modello impara a seguire istruzioni specifiche. Si usano esempi del tipo “istruzione -> risposta desiderata” per passare da completatesto ad assistente.

Fase 3: Allineamento (RLHF)

Tramite il Reinforcement Learning from Human Feedback, gli umani valutano le risposte del modello. Il modello impara non solo la risposta corretta, ma quale risposta è più utile, sicura e gradita all’utente.

3. Tecniche Avanzate e Problemi

Fine-tuning efficiente (LoRA)

Invece di riaddestrare tutto il modello, tecniche come LoRA permettono di modificare solo piccole parti, rendendo l’addestramento accessibile anche con budget limitati.

Le “Allucinazioni”

Le allucinazioni (risposte plausibili ma false) accadono perché il modello genera la sequenza più probabile, non necessariamente quella vera. Questo dipende spesso da dati errati nel dataset originale.

Il problema dei Bias e del Copyright

I dataset non sono neutrali: riflettono stereotipi culturali e pregiudizi presenti nel web. Inoltre, l’uso di testi protetti da diritto d’autore è una delle questioni legali più dibattute oggi.

Come “Impara” un LLM: Una Metafora Visiva

1. Lo Studente Curioso (Pre-addestramento)

Immagina uno studente con accesso all’intera biblioteca digitale del mondo. Non ha compiti specifici, ma un obiettivo: leggere tutto e capire come funziona la lingua. Impara assorbendo conoscenza grezza.

2. L’Allievo Specializzato (Fine-tuning)

Ora lo studente deve prepararsi per compiti specifici. Un insegnante fornisce esercizi mirati: “Se ti chiedo X, rispondi Y”. Impara a dare la risposta giusta a un compito preciso.

3. Il Revisore Esigente (Allineamento RLHF)

Lo studente sa fare i compiti, ma deve imparare a interagire nel modo “giusto”. Dei revisori valutano le sue risposte indicando quale è più educata, sicura o utile. Impara a comportarsi bene.

Sintesi del Processo

  1. Raccolta e pulizia dei testi.
  2. Tokenizzazione (testo trasformato in numeri).
  3. Pretraining (imparare a prevedere la parola successiva).
  4. Fine-tuning su istruzioni.
  5. Allineamento con valori umani (RLHF/DPO).