Δεν χρειάζεται να ανησυχείτε ότι οι μυστικές συνομιλίες σας
ChatGPT
ελήφθησαν σε μια πρόσφατα αναφερθείσα παραβίαση τ
ω
ν συστημάτων του OpenAI. Το ίδιο το hack, αν και ανησυχητικό, φαίνεται να ήταν επιφανειακό – αλλά είναι υπενθύμιση ότι οι εταιρείες τεχνητής νοημοσύνης έγιναν σύντομα ένας από τους πιο ζουμερούς στόχους για τους χάκερ.
Οι Νιου Γιορκ Ταιμς
ανέφερε το hack με περισσότερες λεπτομέρειες μετά τον πρώην υπάλληλο του OpenAI Leopold Aschenbrenner
το υπαινίχθηκε πρόσφατα σε ένα podcast
. Το χαρακτήρισε «μείζον περιστατικό ασφαλείας», αλλά ανώνυμες πηγές της εταιρείας είπαν στους Times ότι ο χάκερ είχε πρόσβαση μόνο σε ένα φόρουμ συζήτησης εργαζομένων. (Επικοινωνώ με το OpenAI για επιβεβαίωση και σχόλιο.)
Καμία παραβίαση ασφαλείας δεν πρέπει να αντιμετωπίζεται πραγματικά ως ασήμαντη και η υποκλοπή εσωτερικών συζητήσεων ανάπτυξης OpenAI έχει σίγουρα την αξία της. Αλλά απέχει πολύ από το να αποκτήσει πρόσβαση ένας χάκερ σε εσωτερικά συστήματα, μοντέλα σε εξέλιξη, μυστικούς οδικούς χάρτες και ούτω καθεξής.
Αλλά θα πρέπει να μας τρομάζει ούτως ή άλλως, και όχι απαραίτητα λόγω της απειλής της Κίνας ή άλλων αντιπάλων που μας προσπερνούν στον αγώνα εξοπλισμών τεχνητής νοημοσύνης. Το απλό γεγονός είναι ότι αυτές οι εταιρείες τεχνητής νοημοσύνης έχουν γίνει φύλακες σε έναν τεράστιο όγκο πολύτιμων δεδομένων.
Ας μιλήσουμε για τρία είδη δεδομένων OpenAI και, σε μικρότερο βαθμό, άλλες εταιρείες τεχνητής νοημοσύνης που δημιούργησαν ή έχουν πρόσβαση σε: δεδομένα εκπαίδευσης υψηλής ποιότητας, μαζικές αλληλεπιδράσεις χρηστών και δεδομένα πελατών.
Δεν είναι βέβαιο ποια είναι τα δεδομένα εκπαίδευσης που έχουν, επειδή οι εταιρείες είναι απίστευτα μυστικοπαθείς σχετικά με τα αποθέματά τους. Αλλά είναι λάθος να πιστεύουμε ότι πρόκειται απλώς για μεγάλους σωρούς αποκομμένων δεδομένων ιστού. Ναι, χρησιμοποιούν ξύστρες ιστού ή σύνολα δεδομένων όπως το Pile, αλλά είναι μια τεράστια εργασία που διαμορφώνει αυτά τα ακατέργαστα δεδομένα σε κάτι που μπορεί να χρησιμοποιηθεί για την εκπαίδευση ενός μοντέλου όπως το GPT-4o. Απαιτείται τεράστιος αριθμός ανθρώπινων ωρών εργασίας για να γίνει αυτό — μπορεί να αυτοματοποιηθεί μόνο εν μέρει.
Ορισμένοι μηχανικοί μηχανικής μάθησης έχουν υποθέσει ότι από όλους τους παράγοντες που σχετίζονται με τη δημιουργία ενός μεγάλου γλωσσικού μοντέλου (ή, ίσως, οποιουδήποτε συστήματος που βασίζεται σε μετασχηματιστές), ο μόνος πιο σημαντικός είναι η ποιότητα δεδομένων. Γι’ αυτό ένα μοντέλο που έχει εκπαιδευτεί στο Twitter και στο Reddit δεν θα είναι ποτέ τόσο εύγλωττο όσο ένα εκπαιδευμένο σε κάθε δημοσιευμένη δουλειά του περασμένου αιώνα. (Και πιθανώς γιατί το OpenAI
σύμφωνα με πληροφορίες
χρησιμοποίησαν αμφισβητήσιμα νόμιμες πηγές, όπως βιβλία που προστατεύονται από πνευματικά δικαιώματα στα εκπαιδευτικά τους δεδομένα, μια πρακτική που ισχυρίζονται ότι έχουν εγκαταλείψει.)
Επομένως, τα σύνολα δεδομένων εκπαίδευσης που έχει δημιουργήσει το OpenAI έχουν τεράστια αξία για τους ανταγωνιστές, από άλλες εταιρείες έως αντίπαλες πολιτείες και ρυθμιστικές αρχές εδώ στις ΗΠΑ Δεν θα ήθελαν η FTC ή τα δικαστήρια να μάθουν ακριβώς ποια δεδομένα χρησιμοποιήθηκαν και εάν η OpenAI ήταν ειλικρινής σχετικά με ότι;
Αλλά ίσως ακόμη πιο πολύτιμο είναι το τεράστιο πλήθος δεδομένων χρηστών του OpenAI — πιθανώς δισεκατομμύρια συνομιλίες με το ChatGPT για εκατοντάδες χιλιάδες θέματα. Ακριβώς όπως τα δεδομένα αναζήτησης ήταν κάποτε το κλειδί για την κατανόηση της συλλογικής ψυχής του ιστού, το ChatGPT έχει το δάχτυλό του στον παλμό ενός πληθυσμού που μπορεί να μην είναι τόσο ευρύ όσο το σύμπαν των χρηστών Google, αλλά παρέχει πολύ μεγαλύτερο βάθος. (Σε περίπτωση που δεν το γνωρίζατε, εκτός και αν εξαιρεθείτε, οι συνομιλίες σας χρησιμοποιούνται για δεδομένα εκπαίδευσης.)
Στην περίπτωση της Google, μια αύξηση στις αναζητήσεις για «κλιματιστικά» σας λέει ότι η αγορά θερμαίνεται λίγο. Αλλά αυτοί οι χρήστες δεν κάνουν μια ολόκληρη συζήτηση σχετικά με το τι θέλουν, πόσα χρήματα είναι διατεθειμένοι να ξοδέψουν, πώς είναι το σπίτι τους, κατασκευαστές που θέλουν να αποφύγουν και ούτω καθεξής. Ξέρετε ότι αυτό είναι πολύτιμο επειδή η ίδια η Google προσπαθεί να μετατρέψει τους χρήστες της ώστε να παρέχουν αυτές ακριβώς τις πληροφορίες, αντικαθιστώντας τις αλληλεπιδράσεις AI με τις αναζητήσεις!
Σκεφτείτε πόσες συνομιλίες είχαν οι άνθρωποι με το ChatGPT και πόσο χρήσιμες είναι αυτές οι πληροφορίες, όχι μόνο για τους προγραμματιστές AI, αλλά για τις ομάδες μάρκετινγκ, τους συμβούλους, τους αναλυτές… είναι ένα χρυσωρυχείο.
Η τελευταία κατηγορία δεδομένων έχει ίσως την υψηλότερη αξία στην ανοιχτή αγορά: ο τρόπος με τον οποίο οι πελάτες χρησιμοποιούν στην πραγματικότητα την τεχνητή νοημοσύνη και τα δεδομένα που οι ίδιοι έχουν τροφοδοτήσει στα μοντέλα.
Εκατοντάδες μεγάλες εταιρείες και αμέτρητες μικρότερες χρησιμοποιούν εργαλεία όπως το OpenAI και τα
API
της
Anthropic
για μια εξίσου μεγάλη ποικιλία εργασιών. Και για να τους είναι χρήσιμο ένα γλωσσικό μοντέλο, συνήθως πρέπει να έχει βελτιστοποιηθεί ή να του παρέχεται με άλλο τρόπο πρόσβαση στις δικές τους εσωτερικές βάσεις δεδομένων.
Αυτό μπορεί να είναι κάτι τόσο πεζό όσο τα παλιά φύλλα προϋπολογισμού ή τα αρχεία προσωπικού (για να γίνουν πιο εύκολα αναζητήσιμα, για παράδειγμα) ή τόσο πολύτιμο όσο ο κώδικας για ένα ακυκλοφόρητο κομμάτι λογισμικού. Το τι κάνουν με τις δυνατότητες του AI (και το αν είναι πραγματικά χρήσιμες) είναι δική τους δουλειά, αλλά το απλό γεγονός είναι ότι ο πάροχος AI έχει προνομιακή πρόσβαση, όπως και κάθε άλλο προϊόν SaaS.
Αυτά είναι βιομηχανικά μυστικά και οι εταιρείες τεχνητής νοημοσύνης βρίσκονται ξαφνικά στο επίκεντρο πολλών από αυτά. Η καινοτομία αυτής της πλευράς του κλάδου εγκυμονεί έναν ιδιαίτερο κίνδυνο, καθώς οι διαδικασίες τεχνητής νοημοσύνης απλώς δεν είναι ακόμη τυποποιημένες ή πλήρως κατανοητές.
Όπως κάθε πάροχος SaaS, οι εταιρείες τεχνητής νοημοσύνης είναι απόλυτα ικανές να παρέχουν βιομηχανικά πρότυπα επίπεδα
ασφάλεια
ς, απορρήτου, επιλογών εσωτερικής χρήσης και γενικά να παρέχουν τις υπηρεσίες τους με υπευθυνότητα. Δεν έχω καμία αμφιβολία ότι οι ιδιωτικές βάσεις δεδομένων και οι κλήσεις API των πελατών του OpenAI του Fortune 500 είναι πολύ κλειστές! Πρέπει οπωσδήποτε να γνωρίζουν εξίσου ή περισσότερο τους κινδύνους που ενυπάρχουν στο χειρισμό εμπιστευτικών δεδομένων στο πλαίσιο της τεχνητής νοημοσύνης. (Το γεγονός ότι η OpenAI δεν ανέφερε αυτήν την επίθεση είναι επιλογή τους, αλλά δεν εμπνέει εμπιστοσύνη σε μια εταιρεία που το χρειάζεται απεγνωσμένα.)
Ωστόσο, οι καλές πρακτικές ασφαλείας δεν αλλάζουν την αξία αυτού που προορίζονται να προστατεύσουν ή το γεγονός ότι κακόβουλοι παράγοντες και διάφοροι αντίπαλοι κρύβονται με νύχια στην πόρτα για να μπουν μέσα. Ασφάλεια δεν είναι απλώς η επιλογή των σωστών ρυθμίσεων ή η ενημέρωση του λογισμικού σας — αν και φυσικά τα βασικά είναι επίσης σημαντικά. Είναι ένα ατελείωτο παιχνίδι γάτας και ποντικιού που, κατά ειρωνικό τρόπο, τώρα υπερτροφοδοτείται από την ίδια την τεχνητή νοημοσύνη: πράκτορες και αυτοματοποιητές επιθέσεων διερευνούν κάθε γωνιά και γωνιά των επιφανειών επίθεσης αυτών των εταιρειών.
Δεν υπάρχει λόγος πανικού – εταιρείες με πρόσβαση σε πολλά προσωπικά ή εμπορικά πολύτιμα δεδομένα αντιμετωπίζουν και διαχειρίζονται παρόμοιους κινδύνους εδώ και χρόνια. Αλλά οι εταιρείες τεχνητής νοημοσύνης αντιπροσωπεύουν έναν νεότερο, νεότερο και δυνητικά πιο ζουμερό στόχο από τον κακώς διαμορφωμένο εταιρικό διακομιστή ή τον ανεύθυνο διαμεσολαβητή δεδομένων σε ποικιλία κήπου. Ακόμη και ένα hack όπως αυτό που αναφέρθηκε παραπάνω, χωρίς σοβαρές διεισδύσεις που γνωρίζουμε, θα πρέπει να ανησυχεί οποιονδήποτε συναλλάσσεται με εταιρείες τεχνητής νοημοσύνης. Έχουν ζωγραφίσει τους στόχους στην πλάτη τους. Μην εκπλαγείτε όταν κάποιος, ή όλοι, κάνουν μια βολή.
VIA:
techcrunch.com

0