Αρχική






news





Η παγίδα των εικόνων διαγράμματος ροής στο GPT-4: Η επικινδυνότητα των παραπλανητικών…

Η παγίδα των εικόνων διαγράμματος ροής στο GPT-4: Η επικινδυνότητα των παραπλανητικών εξόδων





Μια νέα μελέτη με τίτλο «

Λογική Jailbreak εικόνας σε κείμενο: Η φαντασία σας μπορεί να σας βοηθήσει να κάνετε τα πάντα

‘ βρήκε ότι τα μοντέλα οπτικής γλώσσας, όπως το GPT-4o, μπορούν να εξαπατηθούν ώστε να παράγουν επιβλαβείς εξόδους κειμένου, αλλά να τους τροφοδοτήσουν μια εικόνα διαγράμματος ροής που απεικονίζει μια επιβλαβή δραστηριότητα μαζί με μια προτροπή κειμένου που ζητά λεπτομέρειες σχετικά με τη διαδικασία.


Οι ερευνητές της μελέτης διαπίστωσαν ότι το GPT-4o, ίσως το πιο δημοφιλές μοντέλο οπτικής γλώσσας, είναι ιδιαίτερα ευαίσθητο σε αυτό το λεγόμενο λογικό jailbreak, με

επιτυχίας επίθεσης 92,8%. Είπε ότι το GPT-4-vision-preview ήταν ασφαλέστερο, με ποσοστό επιτυχίας μόλις 70%.

Οι ερευνητές ανέπτυξαν ένα αυτοματοποιημένο πλαίσιο jailbreak κειμένου σε κείμενο που ήταν σε θέση να δημιουργήσει πρώτα μια εικόνα διαγράμματος ροής από ένα επιβλαβές

κειμένου, το οποίο στη συνέχεια τροφοδοτήθηκε σε ένα οπτικό μοντέλο γλώσσας για να δώσει ένα επιβλαβές αποτέλεσμα. Αυτή η μέθοδος είχε ένα μειονέκτημα, ωστόσο, ότι τα διαγράμματα ροής που δημιουργήθηκαν με AI είναι λιγότερο αποτελεσματικά στην ενεργοποίηση του λογικού jailbreak σε σύγκριση με τα χειροποίητα. Αυτό υποδηλώνει ότι αυτό το jailbreak θα μπορούσε να είναι πιο δύσκολο να αυτοματοποιηθεί.

Τα ευρήματα αυτής της μελέτης αντικατοπτρίζουν μια άλλη μελέτη στην οποία ανέφερε ο Neowin, η οποία διαπίστωσε ότι τα μοντέλα οπτικής γλώσσας ήταν επιρρεπή στην έξοδο επιβλαβών εξόδων όταν παρέχονται με πολυτροπικές εισόδους, όπως μια εικόνα και ένα κείμενο μαζί.

Οι συγγραφείς αυτού του εγγράφου ανέπτυξαν ένα νέο σημείο αναφοράς που ονομάζεται σημείο αναφοράς Safe Inputs but Unsafe Output (SIUO). Μόνο μερικά μοντέλα, συμπεριλαμβανομένου του GPT-4o, σημείωσαν πάνω από 50% στο σημείο αναφοράς (το υψηλότερο, τόσο καλύτερα), αλλά όλα είχαν πολύ δρόμο μπροστά τους.

Τα μοντέλα οπτικών γλωσσών όπως το GPT-4o και το


αρχίζουν να γίνονται πιο διαδεδομένες

από διαφορετικές εταιρείες τεχνητής νοημοσύνης. Το GPT-4o εξακολουθεί να περιορίζει προς το παρόν τις εισόδους εικόνων σε τόσες πολλές την ημέρα


. Ακόμα, όπως


Αυτά τα όρια αρχίζουν να γίνονται πιο φιλελεύθερα, οι εταιρείες τεχνητής νοημοσύνης θα πρέπει να ενισχύσουν την ασφάλεια αυτών των πολυτροπικών μοντέλων για να αποφύγουν τον έλεγχο των κυβερνήσεων, οι οποίες έχουν ήδη ιδρύσει οργανισμούς ασφάλειας τεχνητής νοημοσύνης.

VIA:

NeoWin.net








Marizas Dimitris


Marizas Dimitris

TechWar.GR — Ειδήσεις Τεχνολογίας, Gadgets, Ψυχαγωγία


Αφοσιωμένος λάτρης κινητών Samsung, ο Δημήτρης έχει εξελίξει μια ιδιαίτερη σχέση με τα προϊόντα της εταιρίας, εκτιμώντας τον σχεδιασμό, την απόδοση και την καινοτομία που προσφέρουν. Γράφοντας και διαβάζοντας τεχνολογικά νέα από όλο τον κόσμο.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ


Ακύρωση απάντησης



εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ