🚀 Un Italiano rivoluziona l’AI locale ed io sono gasato: Il Deep Dive su DS4 (Darf Star)
L’intelligenza artificiale non è più una promessa del futuro o un privilegio esclusivo di chi può permettersi cluster di GPU da milioni di dollari. Oggi, mentre scrivo questo articolo, stiamo vivendo un momento di rottura epocale. E il merito è di una delle menti più brillanti che l’Italia abbia mai prestato alla community open source mondiale: **Salvatore Sanfilippo**, alias **Antirez**.
Se non sapete chi è Salvatore, probabilmente non sapete come funziona l’internet moderno. Creatore di **Redis**, il database in-memory più usato al mondo, Salvatore ha deciso di puntare il suo genio verso una nuova frontiera: l’esecuzione di modelli AI giganti su hardware consumer. Il suo nuovo progetto, **DS4 (Darf Star)**, è diventato virale in pochi giorni, accumulando oltre 15.000 stelle su GitHub e attirando l’attenzione di sviluppatori da ogni angolo del pianeta, dagli USA alla Cina.
Perché sono così gasato? Perché Salvatore ha risolto il problema che ci attanaglia tutti: **come far girare un modello di frontiera da 284 miliardi di parametri in locale, mantenendo il 100% della privacy e zero dipendenza dal cloud?**
In questo esteso approfondimento tecnico, analizzeremo ogni singola intuizione di Salvatore, dalle tecniche di quantizzazione intelligente alla rivoluzione dello streaming su SSD, per capire perché DS4 è il Jarvis personale che stavamo aspettando.
—
## 🏛️ 1. L’Eredità di Salvatore e la genesi di DS4
Prima di entrare nei dettagli tecnici di DS4, è fondamentale capire chi c’è dietro il codice. Salvatore Sanfilippo non è un semplice “coder”. È l’architetto che ha creato le fondamenta di gran parte delle applicazioni che usate ogni giorno. Redis è il motore che permette a piattaforme come Twitter, GitHub e Instagram di rispondere in millisecondi.
Dopo aver lasciato la manutenzione di Redis, molti si chiedevano quale sarebbe stata la sua prossima mossa. La risposta è arrivata sotto forma di infatuazione per i modelli cinesi di **DeepSeek**. Salvatore ha notato che i modelli prodotti da DeepSeek, in particolare la famiglia **V4 (flash e pro)**, avevano un’efficienza interna superiore rispetto a molti modelli occidentali, ma rimanevano impossibili da eseguire per l’utente comune a causa delle loro dimensioni mastodontiche.
**DS4** nasce con un obiettivo preciso: non essere un altro “llama.cpp” generico che fa tutto per tutti, ma essere un **motore di inferenza specializzato**, una lama affilata creata appositamente per ottimizzare, comprimere e scatenare la potenza di DeepSeek V4.
—
## 🏗️ 2. Il problema dello “Scalino della RAM”: Perché i modelli non entrano nei PC
Per capire la portata di DS4, dobbiamo guardare in faccia la realtà dell’hardware attuale.
Immaginiamo di voler far girare **DeepSeek V4 Flash**, un modello con **284 miliardi di parametri**.
Ecco la matematica brutale della memoria:
– **Precisione Piena (BF16):** 16 bit per parametro. 284 miliardi X 2 byte = **568 GB di RAM.**
– **Quantizzazione standard (INT8):** 8 bit per parametro. 284 miliardi X 1 byte = **284 GB di RAM.**
Ora guardiamo i computer più potenti che un professionista può realisticamente acquistare oggi: un MacBook Pro M3/M4 Max o un PC con una NVIDIA RTX 5090 o workstation NVIDIA GB10. Tipicamente, ci scontriamo con un tetto di **128 GB di memoria unificata**.
Vedete il divario? Il modello è fisicamente troppo grande per essere caricato. Fino a ieri, la risposta era: “Comprati un server da 20.000 euro o usa l’API di OpenAI”. Questo è quello che chiamo lo **scalino della RAM**. Sotto una certa soglia di memoria, l’AI è semplicemente morta, non parte nemmeno.
—
## 💎 3. L’intuizione della Quantizzazione Dinamica e Intelligente
Qui entra in gioco il primo colpo di genio di Salvatore. Molti pensano che per far entrare un modello nella RAM basti “comprimerlo” tutto (quantizzazione). Se comprimi tutto a 4 bit o 2 bit, il modello entra, ma diventa… stupido. Perde l’attenzione, inizia ad allucinare, non capisce più la logica complessa.
Salvatore ha avuto un’idea diversa: **perché dobbiamo quantizzare tutto allo stesso modo?**
DeepSeek V4 è un modello **MoE (Mixture of Experts)**. Significa che ha 43 layer, e in ogni layer ci sono 256 esperti. Non tutti gli esperti sono uguali. Alcuni portano un segnale informativo altissimo (quelli che gestiscono la logica, la grammatica di base, la conoscenza orizzontale), altri vengono attivati raramente.
**L’approccio DS4 è chirurgico:**
1. **Analisi Empirica:** Salvatore ha creato un dataset di 2,9 milioni di token (coding, matematica, tool calling, documenti lunghi) e lo ha fatto passare nel modello originale.
2. **Mappatura del Segnale:** Ha identificato quali parti del modello (layer, colonne di pesi, esperti) si attivavano di più e portavano più informazioni.
3. **Quantizzazione Differenziata:** Le parti critiche sono state mantenute a 8 bit (precisione alta), mentre le parti meno rilevanti sono state compresse a **2 bit**.
Il risultato? Un modello che sulla carta pesava 568 GB è stato ridotto a **81 GB**.
Adesso sì che può entrare in un MacBook da 128 GB, mantenendo prestazioni che Salvatore descrive come “indistinguibili dall’originale” per i compiti di assistenza alla programmazione.
—
## 🌊 4. SSD Streaming: La democratizzazione dell’AI
Ma Salvatore non si è fermato a chi ha 128 GB di RAM. Cosa succede se hai un MacBook Air con 16 GB o un Pro con 32 GB? Secondo le vecchie regole, saresti tagliato fuori. Non con DS4.
Salvatore ha introdotto il concetto di **SSD Streaming**. Sfruttando la velocità estrema dei dischi SSD moderni (come quelli dei Mac che viaggiano a diversi GB/s), DS4 non carica tutto il modello in RAM.
– Carica nella memoria unificata (RAM) solo gli esperti che hanno un’alta probabilità di essere chiamati (l’80% dei casi).
– Mantiene sul disco SSD gli esperti “rari”.
Quando il router del modello MoE decide di attivare un esperto che non è in RAM, DS4 lo “streamma” istantaneamente dal disco. Questo rallenta leggermente la generazione (magari scendi da 20 token/s a 3-5 token/s), ma **permette al modello di girare.**
È un cambio di paradigma totale: non ci chiediamo più “posso eseguirlo?”, ma solo “quanto veloce andrà?”. Questo abbatte le barriere d’ingresso per milioni di sviluppatori e ricercatori.
—
## 🚀 5. Performance Reali: MacBook vs Nvidia
Nel video che ho analizzato, Salvatore mostra i benchmark reali su hardware consumer. E qui c’è una sorpresa per i fan delle GPU dedicate.
Sui MacBook Pro con chip **M3/M4 Max e Ultra**, grazie alla memoria unificata (dove CPU e GPU attingono dallo stesso bacino ad altissima velocità), DS4 raggiunge velocità di **prefill** (lettura dell’input) incredibili: fino a **470 token al secondo.** La generazione di output si attesta tra i **20 e i 35 token al secondo**.
Per darvi un parametro, 30 token al secondo è più veloce di quanto una persona media possa leggere. È un Jarvis fluido, reattivo, quasi istantaneo.
Curiosamente, il setup NVIDIA GB10 (spesso preferito in ambito server) in questo specifico scenario di inferenza locale è risultato leggermente meno efficiente dei chip Apple Silicon, dimostrando che l’architettura a memoria unificata di Apple è, al momento, la “Terra Promessa” per l’AI locale.
—
## 🏗️ 6. Inferenza Distribuita: Potenza senza limiti
E se un solo computer non basta? Salvatore ha pensato anche a questo.
DS4 supporta l’**Inferenza Distribuita**. Immaginate di avere due MacBook. Potete collegarli tramite un cavo **Thunderbolt 5** e DS4 spezzetterà il modello tra le due macchine.
I dati passano attraverso il cavo a velocità di decine di gigabit, permettendo ai due computer di lavorare come se fossero un unico, gigantesco cervello. Salvatore è riuscito a far girare il modello “Pro” di DeepSeek (da 1.6 trilioni di parametri!) collegando due Mac Studio.
Questo apre la strada a workstation domestiche composte da hardware modulare che, sommate, superano la potenza dei supercomputer di pochi anni fa.
—
## 💾 7. Session Saving: Carichi un milione di token in un attimo
Uno dei problemi dei modelli AI è la “perdita di memoria” o il costo computazionale di rileggere tutta la conversazione. DeepSeek supporta finestre di contesto da **1 milione di token**.
In un sistema normale, ricaricare una conversazione così lunga richiederebbe minuti di calcolo (prefill).
Salvatore ha implementato una funzione che salva lo stato dell’attenzione (la matrice KV cache) direttamente su file.
– Spegni il computer.
– Lo riaccendi il giorno dopo.
– Carichi il file della sessione.
– **Istante.** Hai di nuovo il tuo AI con tutta la memoria dei mesi precedenti pronta all’uso.
—
## 🎯 Conclusione: Perché DS4 è importante per noi
Come Vito Ruocco, vi dico che questo progetto non è solo “tecnologia bella”. È **libertà**.
Libertà dalle sottoscrizioni mensili che possono cambiare prezzo o termini in ogni momento.
Libertà di dare all’AI i nostri codici segreti, i nostri documenti aziendali, le nostre idee più intime, sapendo che nessun byte uscirà mai dal nostro perimetro fisico.
Salvatore Sanfilippo ci ha dato gli strumenti per costruire il nostro futuro. DS4 è la prova che un singolo sviluppatore appassionato può avere più impatto di un’intera multinazionale quando l’obiettivo è la democratizzazione della conoscenza.
**Cosa fare ora?**
1. Andate su GitHub e mettete una stella a [DS4](https://github.com/antirez/ds4).
2. Scaricate il codice e, se avete un Mac con buona RAM, provatelo.
3. Supportate l’open source italiano.
L’AI di frontiera è finalmente a casa nostra. E non è mai stata così veloce.
—
*Analisi tecnica a cura di Vito Ruocco, basata sulle release ufficiali e le dimostrazioni di Salvatore Sanfilippo del giugno 2026.*
*Vi è piaciuto questo approfondimento? Condividetelo e parliamone nei commenti. Il futuro dell’AI è locale, ed è appena iniziato.*