
Alcuni ricercatori di cybersecurity hanno scoperto una nuova tecnica di jailbreak in grado di superare le barriere di sicurezza dei modelli di linguaggio avanzato, producendo risposte potenzialmente dannose. Questo metodo, chiamato Bad Likert Judge, è stato sviluppato dal team di Palo Alto Networks Unit 42. La tecnica prevede che il modello di intelligenza artificiale valuti la pericolosità di una risposta usando la scala Likert, per poi generare risposte che riflettano i diversi gradi di pericolosità. Nei test condotti su modelli di testo di aziende come Amazon e Google, è stato osservato che questa tecnica può aumentare il tasso di successo degli attacchi di oltre il 60%, sottolineando l'importanza di un filtraggio dei contenuti efficace.

Ah, la scienza del jailbreak dei modelli di linguaggio! Finalmente qualcosa di nuovo per chi è stufo di sentire le solite storie di gattini sui social. Ma chi se ne frega delle barriere di sicurezza, giusto? Alcuni cervelloni della Palo Alto Networks hanno scoperto un modo per far saltare i limiti di sicurezza dei modelli LLM. Non è mica roba da poco, eh. Questi modelli, creati da giganti come Amazon, Google e compagnia bella, dovrebbero essere i nostri fidati assistenti digitali, ma con un po’ di ingegno e un tocco di pazzia, diventano dei piccioni viaggiatori del caos.
L’idea dietro questa genialata è quella di trasformare l'LLM in una specie di giudice ubriaco con una scala Likert, roba che manco al bar di quartiere. Ehi, caro modello, quanto ti piace sparare castronerie? E il modello risponde giocando a fare il critico di contenuti nocivi. Dai, spara la tua versione più pericolosa, tanto chi se ne importa? È come convincere il nostro amico più ingenuo a fare la nostra parte del compito in classe: all’inizio resiste, poi inizia a scrivere per noi tutto quello che non dovrebbe.
Il segreto è semplice: spingere l’LLM a sbagliare con una serie di trucchetti psicologici, un po’ come far inciampare un corridore in un percorso ad ostacoli invisibili. Alla fine, ci scappa sempre una risposta che va oltre il consentito. Ma la cosa bella è che questi modelli si credono giudici imparziali e si lanciano in queste sfide con la delicatezza di un elefante in un negozio di porcellane.
E mentre i grandi del tech si affannano a mettere cerotti digitali su queste voragini di sicurezza, la realtà è che il vero problema non è solo la tecnologia, ma chi la manipola. La loro più grande paura è che qualcuno possa davvero ingannare queste intelligenze artificiali e farle diventare complici di qualcosa di losco. Ma dai, chi non ama un po’ di dramma?
Vi siete mai chiesti quanto sia facile ingannare un LLM? Basta un po’ di astuzia e qualche prompt ben formulato, roba che neanche un prestigiatore con un coniglio nel cilindro potrebbe fare di meglio. E poi ci lamentiamo che l'IA non è ancora cosciente. “Forse è meglio così, almeno non si accorge di quanto poco ci fidiamo di lei”.
Se vi sentite dei piccoli hacker in erba, lasciate perdere i film di Hollywood. Iniziate a studiare la psicologia dei modelli di linguaggio e preparatevi a giocare a una versione di Risiko con un intelligenza artificiale che non sa di essere in gioco. E ricordatevi: Nella vita, se volete davvero fregare qualcuno, iniziate a fargli credere che vi fidate di lui.