Η παγίδα των εικόνων διαγράμματος ροής στο GPT-4: Η επικινδυνότητα των παραπλανητικών εξόδων

4 Ιουλίου, 2025

Μια νέα μελέτη με τίτλο «

Λογική Jailbreak εικόνας σε κείμενο: Η φαντασία σας μπορεί να σας βοηθήσει να κάνετε τα πάντα

‘ βρήκε ότι τα μοντέλα οπτικής γλώσσας, όπως το GPT-4o, μπορούν να εξαπατηθούν ώστε να παράγουν επιβλαβείς εξόδους κειμένου, αλλά να τους τροφοδοτήσουν μια εικόνα διαγράμματος ροής που απεικονίζει μια επιβλαβή δραστηριότητα μαζί με μια προτροπή κειμένου που ζητά λεπτομέρειες σχετικά με τη διαδικασία.

Οι ερευνητές της μελέτης διαπίστωσαν ότι το GPT-4o, ίσως το πιο δημοφιλές μοντέλο οπτικής γλώσσας, είναι ιδιαίτερα ευαίσθητο σε αυτό το λεγόμενο λογικό jailbreak, με

ποσοστό

επιτυχίας επίθεσης 92,8%. Είπε ότι το GPT-4-vision-preview ήταν ασφαλέστερο, με ποσοστό επιτυχίας μόλις 70%.

Οι ερευνητές ανέπτυξαν ένα αυτοματοποιημένο πλαίσιο jailbreak κειμένου σε κείμενο που ήταν σε θέση να δημιουργήσει πρώτα μια εικόνα διαγράμματος ροής από ένα επιβλαβές

μήνυμα

κειμένου, το οποίο στη συνέχεια τροφοδοτήθηκε σε ένα οπτικό μοντέλο γλώσσας για να δώσει ένα επιβλαβές αποτέλεσμα. Αυτή η μέθοδος είχε ένα μειονέκτημα, ωστόσο, ότι τα διαγράμματα ροής που δημιουργήθηκαν με AI είναι λιγότερο αποτελεσματικά στην ενεργοποίηση του λογικού jailbreak σε σύγκριση με τα χειροποίητα. Αυτό υποδηλώνει ότι αυτό το jailbreak θα μπορούσε να είναι πιο δύσκολο να αυτοματοποιηθεί.

Τα ευρήματα αυτής της μελέτης αντικατοπτρίζουν μια άλλη μελέτη στην οποία ανέφερε ο Neowin, η οποία διαπίστωσε ότι τα μοντέλα οπτικής γλώσσας ήταν επιρρεπή στην έξοδο επιβλαβών εξόδων όταν παρέχονται με πολυτροπικές εισόδους, όπως μια εικόνα και ένα κείμενο μαζί.

Οι συγγραφείς αυτού του εγγράφου ανέπτυξαν ένα νέο σημείο αναφοράς που ονομάζεται σημείο αναφοράς Safe Inputs but Unsafe Output (SIUO). Μόνο μερικά μοντέλα, συμπεριλαμβανομένου του GPT-4o, σημείωσαν πάνω από 50% στο σημείο αναφοράς (το υψηλότερο, τόσο καλύτερα), αλλά όλα είχαν πολύ δρόμο μπροστά τους.

Τα μοντέλα οπτικών γλωσσών όπως το GPT-4o και το

Google

Gemini

αρχίζουν να γίνονται πιο διαδεδομένες

προσφορές

από διαφορετικές εταιρείες τεχνητής νοημοσύνης. Το GPT-4o εξακολουθεί να περιορίζει προς το παρόν τις εισόδους εικόνων σε τόσες πολλές την ημέρα

. Ακόμα, όπως

Αυτά τα όρια αρχίζουν να γίνονται πιο φιλελεύθερα, οι εταιρείες τεχνητής νοημοσύνης θα πρέπει να ενισχύσουν την ασφάλεια αυτών των πολυτροπικών μοντέλων για να αποφύγουν τον έλεγχο των κυβερνήσεων, οι οποίες έχουν ήδη ιδρύσει οργανισμούς ασφάλειας τεχνητής νοημοσύνης.

VIA:

NeoWin.net

Προηγούμενο άρθρο

Η Vodafone αναζητά Σύνδεση με τον Κόσμο του Διαδικτύου

Η παγίδα των εικόνων διαγράμματος ροής στο GPT-4: Η επικινδυνότητα των παραπλανητικών εξόδων

Επαναφορά κίνησης και μάχης στο Dragon’s Dogma 2: Το ReDogmafication Mod

Μεταμόρφωση από το παρελθόν στο μέλλον με μόνο 26€/μήνα: Η νέα Nova!

Η συλλογική άμυνα: Κλειδί για την κυβερνοασφάλεια

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

Ακύρωση απάντησης

Most Popular

Έρχεται η Huawei P70 series και είναι πολύ μακριά από τον ανταγωνισμό

Ανάπτυξη εφαρμογών Android ενισχυμένη με την τεχνητή νοημοσύνη του Google Gemini

Εφαρμογή του gov.gr κατά της ακρίβειας για σύγκριση τιμών

Greek Live Channels και Live Streaming – Πως να παρακολουθείς δωρεάν Live Αγώνες

Last Articles

Η Vodafone αναζητά Σύνδεση με τον Κόσμο του Διαδικτύου

Επαναφορά κίνησης και μάχης στο Dragon’s Dogma 2: Το ReDogmafication Mod

Μεταμόρφωση από το παρελθόν στο μέλλον με μόνο 26€/μήνα: Η νέα Nova!

Η συλλογική άμυνα: Κλειδί για την κυβερνοασφάλεια

Η παγίδα των εικόνων διαγράμματος ροής στο GPT-4: Η επικινδυνότητα των παραπλανητικών εξόδων

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

Last Articles

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

Ακύρωση απάντησης