AI e Dataismo. La fine del metodo scientifico

Lascia un commento / Di Leobag2023 / Gennaio 2 2024

Sommario

Il “dataismo” è un concetto che si riferisce alla prospettiva filosofica e culturale che sostiene che i dati abbiano un ruolo centrale e fondamentale nella comprensione del mondo e nella presa di decisioni. In breve, il dataismo suggerisce che la raccolta, l’analisi e l’interpretazione dei dati siano fondamentali per ottenere conoscenza e insight significativi. Questa filosofia ha guadagnato attenzione soprattutto nell’era digitale, in cui la quantità di dati disponibili è esplosa grazie alle tecnologie di raccolta dati sempre più avanzate. Sostenitori del dataismo ritengono che i dati, più delle teorie preconcette o delle spiegazioni concettuali, possano rivelare nuove informazioni, collegamenti e modelli nel mondo che altrimenti potrebbero sfuggire all’osservazione umana o alle teorie tradizionali. In sintesi, il dataismo pone l’enfasi principale sull’importanza dei dati come guida per la comprensione del mondo e la presa di decisioni.

Sono passati quasi 15 anni da quando Chris Anderson ha scritto su Wired [1] che il metodo scientifico stava diventando obsoleto, e che i grandi dati stavano prendendo il sopravvento sulle teorie di modellazione del comportamento umano.

Anderson prevedeva che il monitoraggio di enormi quantità di dati avrebbe superato ogni teoria sulla previsione e distribuzione dei comportamenti e delle tendenze della popolazione.

Dall’antropologia alla sociologia, dalla linguistica alla psicologia, si riteneva che applicare teorie non fosse sufficiente per far emergere fenomeni latenti, imprevedibili e non controllabili per natura. Invece, la misurazione sempre più precisa dei dati avrebbe fornito informazioni con un livello di fedeltà senza precedenti.

“Con una quantità sufficiente di dati, i numeri parlano da soli” (Anderson, 2008 Wired).

Indice degli argomenti

La rivoluzione del dataismo
- I dati sono ora considerati la vera rivoluzione nella ricerca e nell’industria, supportando il concetto di “dataismo” [2].
I dati sono il vero specchio del reale
- Esempi storici, come il caso dell’acquisto compulsivo di carta igienica durante la pandemia, mostrano come i dati riflettano comportamenti inaspettati e difficilmente prevedibili.
Lo schematismo latente del reale
- La natura complessa e latente del mondo reale rende difficile spiegarla attraverso teorie, ma i dati stessi possono svelare correlazioni significative.
I paradigmi dell’Intelligenza Artificiale e la loro complementarietà
- La transizione dal paradigma modello-centrico a quello data-centrico evidenzia il ruolo centrale dei dati nell’Intelligenza Artificiale.
Come i dati guidano le inferenze: il prompting
- L’introduzione del prompting come strategia per guidare i modelli generativi del linguaggio attraverso dati specifici.
L’evoluzione del prompting
- Dall’approccio zero-shot prompting alle strategie avanzate come il Tree of Thoughts prompting, evidenziando come i dati stiano guidando l’evoluzione delle tecniche di prompting.
LLMs sempre più auto-referenziali e aumentati: il dato il cuore di tutto
- L’importanza crescente dell’auto-prompting, dove i modelli generano automaticamente prompt efficaci basandosi sui dati stessi.

La Rivoluzione dei Dati: Quando i Numeri Parlano da Soli

I dati sono ora al centro della ricerca e dell’industria, dando vita al concetto di “dataismo”. Chris Anderson prevedeva che la misurazione precisa di enormi quantità di dati avrebbe superato le teorie tradizionali sulla previsione e distribuzione dei comportamenti e delle tendenze della popolazione. Con il tempo, i dati hanno dimostrato di essere il vero specchio del reale.

I Dati Come Specchio del Reale:

Ciò suggerisce un cambiamento nell’approccio. Invece di basarsi principalmente su modelli teorici o ipotesi predefinite, si presta maggiore attenzione alla raccolta e all’analisi di dati reali per comprendere e interpretare ciò che sta accadendo.

In un contesto in cui i dati sono considerati uno specchio del reale, l’attenzione si sposta verso l’osservazione e la registrazione di ciò che effettivamente avviene, piuttosto che affidarsi principalmente a modelli concettuali. Questo approccio è particolarmente rilevante in ambiti in cui la complessità del mondo reale rende difficile spiegare i fenomeni attraverso teorie preesistenti, ma i dati raccolti possono offrire una rappresentazione più accurata e dettagliata della realtà.

Esempi storici, come il fenomeno dell’acquisto compulsivo di carta igienica durante la pandemia, evidenziano come i dati riflettano comportamenti inaspettati e difficilmente prevedibili. Questi dati diventano il mezzo attraverso il quale possiamo comprendere meglio i meandri della società e i suoi modelli.

Lo Schematismo Latente del Reale:

Lo “Schematismo Latente del Reale” si riferisce al concetto che la realtà è complessa e spesso nascosta sotto la superficie, rendendo difficile spiegarla completamente attraverso teorie o modelli concettuali predefiniti. In altre parole, molte volte ci sono aspetti nascosti o sconosciuti del mondo reale che non possono essere facilmente previsti o compresi utilizzando solo teorie o schemi di pensiero prestabiliti.

L’idea è che, mentre le teorie forniscono un modo di interpretare il mondo, ci sono elementi imprevedibili e complessi che emergono solo quando si analizzano i dati effettivi provenienti dalla realtà. Quindi, anziché fare affidamento esclusivamente su schemi mentali o concetti teorici, l’attenzione si sposta verso l’osservazione diretta dei dati reali per rivelare quegli aspetti latenti o imprevisti del mondo reale.

La complessità e la natura latente del mondo reale rendono quindi difficile spiegarle attraverso teorie convenzionali. Tuttavia, i dati stessi, con la loro precisione e oggettività, possono rivelare correlazioni significative, svelando schemi altrimenti nascosti.

dataismo

I Paradigmi dell’Intelligenza Artificiale:

L’Intelligenza Artificiale ha subito una transizione fondamentale dal paradigma modello-centrico a quello data-centrico. Questo sottolinea il ruolo centrale dei dati nell’evoluzione dell’IA, confermando che i dati guidano ora le scoperte più delle teorie.

La transizione dall’approccio modello-centrico a quello data-centrico nell’Intelligenza Artificiale rappresenta un cambiamento fondamentale nel modo in cui affrontiamo i problemi e sviluppiamo i modelli. In passato, l’attenzione principale era posta sulla costruzione di modelli e algoritmi complessi, spesso basati su teorie e regole specifiche.

Tuttavia, con l’avvento dei grandi dati e delle tecnologie di apprendimento automatico, in particolare del deep learning, si è riconosciuto sempre di più il ruolo cruciale dei dati. Piuttosto che dipendere esclusivamente da modelli predefiniti o regole fisse, i modelli di intelligenza artificiale moderni traggono vantaggio da enormi quantità di dati per apprendere modelli più complessi e adattabili.

L’esempio dei traduttori di lingue è molto pertinente. In passato, i sistemi di traduzione automatica potevano essere basati su regole linguistiche e grammaticali, ma spesso non riuscivano a catturare la ricchezza e la complessità delle lingue naturali. Oggi, i traduttori automatici moderni, come quelli basati su reti neurali, imparano dai dati, analizzando enormi corpora di testi in diverse lingue per comprendere le relazioni semantiche e sintattiche.

Questa transizione al paradigma data-centrico ha portato a notevoli progressi nell’accuratezza e nell’adattabilità delle applicazioni di intelligenza artificiale, evidenziando che ora i dati giocano un ruolo centrale nella guida delle scoperte e delle prestazioni dei modelli.

Come i Dati Guidano le Inferenze: Il Prompting:

L’introduzione del prompting come strategia nell’IA per guidare i modelli generativi del linguaggio attraverso dati specifici è una chiara dimostrazione di come i dati siano diventati il motore delle inferenze.

Prompting:
- Il “prompting” nell’Intelligenza Artificiale si riferisce a una strategia in cui si forniscono input specifici o istruzioni a un modello di linguaggio per generare risposte o output desiderati.
- Può essere considerato come la presentazione di una domanda o di un contesto specifico al modello affinché produca una risposta coerente.
Modelli Generativi del Linguaggio:
- Si tratta di modelli di intelligenza artificiale che sono progettati per generare testo o linguaggio naturale in risposta a un input.
- Questi modelli sono addestrati su enormi quantità di dati testuali per apprendere le strutture linguistiche e le associazioni semantiche.
Motore delle Inferenze:
- Le “inferenze” si riferiscono alle deduzioni o conclusioni che un modello può trarre in base ai dati di input.
- Nella frase “i dati sono diventati il motore delle inferenze”, si intende che l’utilizzo dei dati (informazioni precedentemente apprese dal modello) è ciò che guida e determina le risposte o le generazioni del modello.

Quindi, mettendo tutto insieme: L’introduzione del prompting come strategia nell’IA significa che, fornendo dati specifici o indicazioni sotto forma di prompt, stiamo guidando i modelli generativi del linguaggio a generare output basati su ciò che hanno appreso dai dati. In altre parole, il modo in cui presentiamo i dati ai modelli influenza direttamente le loro risposte, e questa capacità di generare risposte contestualmente accurate è ciò che si intende per “motore delle inferenze”. I dati diventano quindi il fondamento su cui il modello costruisce le sue deduzioni e risposte.

L’Evoluzione del Prompting:

Dall’approccio zero-shot prompting alle strategie avanzate come il Tree of Thoughts prompting, emerge come i dati stiano guidando l’evoluzione delle tecniche di prompting, consentendo una maggiore precisione e adattabilità.

LLMs Sempre più Auto-Referenziali:

L’auto-prompting, in cui i modelli generano automaticamente prompt efficaci basandosi sui dati stessi, sta diventando sempre più centrale. I dati sono ora il cuore di tutto, evidenziando un cambiamento fondamentale nella dinamica tra modelli e informazioni.

In termini più semplici, la caratteristica di auto-referenzialità si riferisce alla capacità di un modello di linguaggio di utilizzare le informazioni che ha già appreso per formulare nuove domande o generare nuovi contenuti. Ad esempio, un LLM potrebbe analizzare una serie di testi, e invece di ricevere prompt esterni, potrebbe generare autonomamente le domande o le istruzioni per continuare la generazione del testo.

Questo aspetto dell’auto-referenzialità è parte integrante dell’evoluzione di modelli di linguaggio più avanzati. Tuttavia, va notato che questo può portare a una maggiore complessità e anche a sfide, come il rischio di perpetuare eventuali pregiudizi o modelli indesiderati presenti nei dati iniziali con cui il modello è stato addestrato.

Limitazione della Libertà

Secondo me, appare charo come il dataismo implichi una rinuncia alla libertà individuale e collettiva, in quanto i dati sarebbero in grado di determinare le nostre scelte e i nostri comportamenti, senza lasciare spazio alla creatività, alla critica e al dissenso. Questa è una visione critica e pessimista del dataismo, che mette in evidenza i possibili rischi e pericoli di questa filosofia. Alcuni esempi di questi rischi sono:

La perdita di privacy e di controllo sui propri dati personali, che possono essere raccolti, analizzati e usati da aziende, governi o altri attori senza il nostro consenso o la nostra consapevolezza.
La manipolazione e la distorsione dei dati, che possono essere selezionati, interpretati e presentati in modo da sostenere determinate ideologie, interessi o agende, senza rispettare la verità o la pluralità delle fonti e delle prospettive.
La riduzione della complessità e della diversità del mondo, che possono essere ignorate o semplificate dai dati, che non sono in grado di catturare tutti gli aspetti e le sfumature della realtà, soprattutto quelli qualitativi, emotivi e relazionali.
La delega delle decisioni e delle responsabilità agli algoritmi, che possono essere considerati più affidabili, efficienti e obiettivi degli esseri umani, ma che non sono infallibili, trasparenti o etici, e che possono avere effetti negativi o imprevisti.

Conclusioni

La scienza dei dati sta vivendo una rivoluzione senza precedenti, spostandosi da un approccio teorico a uno basato sui dati. Questo cambiamento di paradigma rende la scienza più adattabile e reattiva, consentendo una migliore comprensione dei fenomeni complessi e imprevedibili della vita quotidiana. I dati, piuttosto che le teorie, sono diventati il cuore pulsante di nuove scoperte e predizioni.

dataismo

PS Per maggiore chiarezza

Inferenza
L’inferenza, in termini generali, si riferisce al processo di deduzione o conclusione basato su prove o ragionamenti logici. Nel contesto dell’intelligenza artificiale (IA) e del machine learning, l’inferenza indica la capacità di trarre delle conclusioni o fare delle predizioni basate sui dati.
Quando si parla di “inferenze” nell’ambito dell’IA, ci si riferisce spesso al processo attraverso il quale un modello di machine learning applica le sue conoscenze acquisite durante la fase di addestramento per fare predizioni su nuovi dati o situazioni. In altre parole, il modello è in grado di “inferire” o dedurre informazioni su dati non visti in precedenza.
Ad esempio, se hai addestrato un modello di machine learning per riconoscere animali e lo esponi a una nuova immagine di un gatto, l’inferenza sarà la capacità del modello di identificare correttamente che si tratta di un gatto sulla base delle caratteristiche apprese durante l’addestramento.
In breve, l’inferenza in ambito di machine learning rappresenta il processo attraverso il quale un modello applica le sue conoscenze per effettuare previsioni o trarre conclusioni su nuovi dati.
Tree of Thoughts Prompting
Tree of Thoughts Prompting è un metodo di prompt engineering che mira a massimizzare il potenziale dei grandi modelli di linguaggio. Questo metodo introduce un framework per la risoluzione avanzata dei problemi attraverso una ricerca a albero del tipo System 2 . Questo metodo è stato dimostrato essere altamente efficace in test .
In parole semplici, Tree of Thoughts Prompting è un modo per aiutare i computer a risolvere problemi complessi in modo più umano, basato sulla prova ed errore. Questo metodo è stato sviluppato per superare le limitazioni di altri metodi di prompt engineering come Chain of Thoughts (CoT)

Riferimenti

I big data snobbano i modelli scientifici. Dalla tesi Chris Anderson

I big data non eliminano la necessità dei modelli proposti dal metodo scientifico. La tesi del diluvio dei dati di Chris Anderson,i pattern e l’intelligenza

I dati, vero specchio del reale nell’era dell’Intelligenza Artificiale – Agenda Digitale

Perché i dati sono oggi così importanti, tanto da parlare di Intelligenza Artificiale data-centrica e dataismo? I dati sono più importanti dei modelli? Così le previsioni di Chris Anderson nel 2008 sono diventate realtà

Argomenti correlati

Lascia un commento Annulla risposta