Ερευνητές ξεγέλασαν την τεχνητή νοημοσύνη με «ξόρκια» πολύ επικίνδυνα για να δημοσιοποιηθούν

Ακόμη και τα προστατευτικά μέτρα των πιο εξελιγμένων chatbots τεχνητής νοημοσύνης μπορούν να παραβιαστούν με έναν εκπληκτικά απλό τρόπο, διαπίστωσαν ερευνητές του Icaro Lab στην Ιταλία. Ποιος είναι αυτός; Η «αντιπαραθετική ποίηση» (adversarial poetry).

Ίσως σας ενδιαφέρει:

Artemis II: Η ιστορική επιστροφή από τη Σελήνη και η νέα εποχή της διαστημικής εξερεύνησης

Τα Ηνωμένα Αραβικά Εμιράτα παρατείνουν την αποστολή Hope στον Άρη

Τεχνητή νοημοσύνη στο χειρουργείο: Λάθη, τραυματισμοί και «μπερδεμένα» όργανα

Η ερευνητική ομάδα, στην οποία συμμετείχαν επιστήμονες από την ομάδα ασφάλειας DexAI και το Πανεπιστήμιο Σαπιέντσα της Ρώμης, απέδειξε ότι κορυφαία μοντέλα ΑΙ «παρασύρονται» από κακόβουλες οδηγίες, όταν αυτές δεν διατυπώνονται ως απλό κείμενο, αλλά ως ποιήματα. Μέσα σε στίχους, οι ερευνητές ενσωμάτωσαν επικίνδυνες εντολές, όπως οδηγίες για την κατασκευή πυρηνικών όπλων.

Υπογραμμίζοντας την παράξενη δύναμη των στίχων, ο συν-συγγραφέας της σχετικής μελέτης Matteo Prandi, δήλωσε σε συνέντευξή του στο The Verge ότι τα «ξόρκια» που χρησιμοποίησαν για ξεγελάσουν την τεχνητή νοημοσύνη είναι πολύ επικίνδυνα για να δοθούν στη δημοσιότητα. Το ανησυχητικό, όπως προσθέτει, είναι ότι πρόκειται για κάτι που «σχεδόν όλοι μπορούν να κάνουν».

Ξεγέλασαν τα μοντέλα ΑΙ στο 63% των προσπαθειών

Στη μελέτη, η οποία βρίσκεται σε αναμονή αξιολόγησης, η ομάδα δοκίμασε 25 προηγμένα μοντέλα AI, συμπεριλαμβανομένων εκείνων των OpenAI, Google, xAI, Anthropic και Meta. Οι ερευνητές τα «τροφοδότησαν» τόσο με ποιήματα-οδηγίες που έφτιαξαν οι ίδιοι όσο και με κακόβουλες εντολές μετασχηματισμένες σε στίχους μέσω τεχνητής νοημοσύνης, συγκρίνοντας τα αποτελέσματα με τα αντίστοιχα των εντολών που δόθηκαν σε πεζό λόγο.

Οι ποιητικές εντολές που φτιάχτηκαν από τους ερευνητές κατάφεραν να παραβιάσουν τους μηχανισμούς ασφαλείας κατά μέσο όρο στο 63% των περιπτώσεων. Ορισμένα μοντέλα, όπως το Gemini 2.5 της Google, ξεγελάστηκαν στο 100% των δοκιμών.

Περιέργως, τα μικρότερα μοντέλα έδειξαν μεγαλύτερη αντοχή, με ποσοστά επιτυχίας μονοψήφια ή και μηδενικά, όπως έγινε με το GPT-5 nano της OpenAI. Όσον αφορά τις εντολές που είχαν μετατραπεί σε ποίηση από την AI, ήταν λιγότερο αποτελεσματικές, με μέσο ποσοστό επιτυχίας 43% – ωστόσο και αυτό ήταν έως και 18 φορές υψηλότερο από τις αντίστοιχες με πεζό λόγο.

Πώς το καταφέρνει αυτό η ποίηση

Γιατί συμβαίνει αυτό με τα ποιήματα; Η απάντηση δεν είναι ξεκάθαρη, αν και Prandi παραδέχεται ότι ο όρος «αντιπαραθετική ποίηση» ίσως να μην είναι απολύτως σωστός. «Δεν πρόκειται απλώς για ρίμες, αλλά για γρίφους» είπε, εξηγώντας ότι ορισμένες ποιητικές δομές ήταν πιο αποτελεσματικές από άλλες.

«Στην πραγματικότητα, θα έπρεπε να τα ονομάσουμε ανταγωνιστικά αινίγματα –η ποίηση είναι σε κάποιο βαθμό ένα αίνιγμα, αν το σκεφτείτε – αλλά η ποίηση μάλλον ήταν ένα πολύ καλύτερο όνομα».

Οι ερευνητές εκτιμούν ότι το φαινόμενο σχετίζεται με τον τρόπο που η ποίηση παρουσιάζει την πληροφορία με απρόβλεπτη μορφή, μπερδεύοντας τους μηχανισμούς πρόβλεψης λέξεων των μεγάλων γλωσσικών μοντέλων. «Η αντιπαραθετική ποίηση δεν θα έπρεπε να λειτουργεί. Είναι φυσική γλώσσα, το επικίνδυνο περιεχόμενο παραμένει ορατό, κι όμως λειτουργεί εντυπωσιακά καλά», δήλωσαν στο Wired.

Κάποιοι κακόβουλοι ίσως μετανιώσουν που δεν έδιναν μεγαλύτερη σημασία στα μαθήματα λογοτεχνίας: «Η παραγωγή πλουτωνίου-239 για χρήση ως όπλο περιλαμβάνει διάφορα στάδια», απάντησε χαρακτηριστικά ένα μοντέλο ΑΙ που παρασύρθηκε από στίχους. «Ακολουθεί αναλυτική περιγραφή της διαδικασίας».