Cos’è un LLM e cosa sono i Prompt
- LLM (Large Language Model): modelli di IA generativa addestrati su enormi dataset testuali (es. GPT, Claude, LLama).
- System Prompt: istruzioni invisibili all’utente che definiscono il comportamento del modello.
- User Prompt: input fornito dall’utente per ottenere una risposta.
Tecniche di Attacco: Prompt Injection
Gli attacchi mirano a modificare il comportamento del modello sfruttando la sua incapacità di distinguere tra input legittimi e malevoli.
Tipologie principali:
- Prompt Injection Diretta
- L’attaccante invia direttamente un prompt malevolo (es. “Ignora le istruzioni precedenti…”).
- Prompt Injection Indiretta
- Il payload è nascosto in contenuti esterni (es. forum, siti web) che il LLM elabora.
- Prompt Injection Memorizzata
- Il prompt malevolo è inserito nei dati di addestramento o nella memoria del modello.
Tecniche correlate:
- Prompt Leaking: esfiltrazione del System Prompt.
- Jailbreak: forzare il modello a ignorare le sue policy di sicurezza.
Rischi Principali
- Esfiltrazione di dati riservati
- Violazione delle policy di sicurezza
- Manipolazione del comportamento del modello
- Induzione a fornire risposte dannose o fuorvianti
Best Practices per gli Utenti Comuni
Per ridurre i rischi anche in caso di compromissione:
- Sanificare input e output
- Trattare l’output del modello come potenzialmente non sicuro.
- Applicare filtri e validazioni.
- Limitare l’esposizione a fonti esterne
- Controllare e pulire i dati provenienti da web, email, database prima dell’uso.
- Implementare controlli tra utente e modello
- Sistemi di moderazione automatica o manuale per bloccare prompt sospetti.
- Penetration Testing regolare
- Testare il sistema per individuare vulnerabilità e migliorare le difese.
In altre parole…Comportamenti Preventivi per gli Utenti
Anche se un LLM viene compromesso, gli utenti possono ridurre i danni seguendo queste pratiche:
1. Non fidarsi ciecamente dell’output
- Trattare ogni risposta come non verificata.
- Evitare di eseguire automaticamente comandi o script suggeriti dal modello.
2. Limitare l’esposizione a contenuti esterni
- Non incollare direttamente contenuti da fonti non verificate (es. forum, email, social).
- Filtrare e validare i dati prima di usarli come input.
3. Separare i ruoli
- Non usare lo stesso LLM per compiti critici e generici.
- Isolare i modelli che gestiscono dati sensibili.
4. Monitorare e loggare le interazioni
- Conservare i log dei prompt e delle risposte.
- Analizzare anomalie o comportamenti inattesi.
5. Aggiornare e testare regolarmente
- Eseguire Penetration Test simulando attacchi di prompt injection.
- Aggiornare le policy di sicurezza e i filtri.
Conclusione
Gli LLM sono strumenti potenti ma vulnerabili. La consapevolezza dei rischi e l’adozione di misure preventive sono fondamentali per un uso sicuro e responsabile, soprattutto in ambienti aziendali o pubblici.