Η
Anthropic
λανσάρει ένα
πρόγραμμα
να χρηματοδοτήσει την ανάπτυξη νέων τύπων σημείων αναφοράς ικανών να αξιολογήσουν την απόδοση και τον αντίκτυπο των μοντέλων τεχνητής νοημοσύνης, συμπεριλαμβανομένων των μοντέλων παραγωγής όπως το δικό της Claude.
Το πρόγραμμα της Anthropic, το οποίο παρουσιάστηκε τη Δευτέρα, θα χορηγήσει επιχορηγήσεις σε τρίτους οργανισμούς που μπορούν, όπως το θέτει η εταιρεία σε μια ανάρτηση ιστολογίου, «να μετρήσουν αποτελεσματικά τις προηγμένες δυνατότητες σε μοντέλα τεχνητής νοημοσύνης». Οι ενδιαφερόμενοι μπορούν να υποβάλουν αιτήσεις για αξιολόγηση σε κυλιόμενη βάση.
«Η επένδυσή μας σε αυτές τις αξιολογήσεις αποσκοπεί στην εξύψωση ολόκληρου του τομέα της
ασφάλεια
ς της τεχνητής νοημοσύνης, παρέχοντας πολύτιμα εργαλεία που ωφελούν ολόκληρο το οικοσύστημα», έγραψε η Anthropic στο επίσημο blog της. «Η ανάπτυξη αξιολογήσεων υψηλής ποιότητας, σχετικών με την ασφάλεια παραμένει πρόκληση και η ζήτηση ξεπερνά την προσφορά».
Όπως έχουμε επισημάνει στο παρελθόν, η τεχνητή νοημοσύνη έχει ένα πρόβλημα συγκριτικής αξιολόγησης. Τα πιο συχνά αναφερόμενα σημεία αναφοράς για την τεχνητή νοημοσύνη σήμερα κάνουν κακή δουλειά στην καταγραφή του τρόπου με τον οποίο ο μέσος άνθρωπος χρησιμοποιεί πραγματικά τα συστήματα που ελέγχονται. Υπάρχουν επίσης ερωτήματα σχετικά με το εάν ορισμένα σημεία αναφοράς, ιδιαίτερα αυτά που κυκλοφόρησαν πριν από την αυγή της σύγχρονης γενετικής τεχνητής νοημοσύνης, μετρούν ακόμη και αυτό που υποτίθεται ότι μετρούν, δεδομένης της ηλικίας τους.
Η λύση πολύ υψηλού επιπέδου, δυσκολότερη από ό,τι ακούγεται, που προτείνει η Anthropic, δημιουργεί προκλητικά σημεία αναφοράς με έμφαση στην ασφάλεια της τεχνητής νοημοσύνης και τις κοινωνικές επιπτώσεις μέσω νέων εργαλείων, υποδομών και μεθόδων.
Η εταιρεία ζητά συγκεκριμένα δοκιμές που αξιολογούν την ικανότητα ενός μοντέλου να εκτελεί καθήκοντα όπως η πραγματοποίηση επιθέσεων στον κυβερνοχώρο, η «ενίσχυση» των όπλων μαζικής καταστροφής (π.χ. πυρηνικά όπλα) και η
χειραγώγηση
ή η εξαπάτηση των ανθρώπων (π.χ. μέσω
deepfakes
ή παραπληροφόρησης). Για τους κινδύνους της τεχνητής νοημοσύνης που σχετίζονται με την εθνική ασφάλεια και την
άμυνα
, η Anthropic λέει ότι έχει δεσμευτεί να αναπτύξει ένα είδος «σύστημα έγκαιρης προειδοποίησης» για τον εντοπισμό και την αξιολόγηση των κινδύνων, αν και δεν αποκαλύπτει στην ανάρτηση του ιστολογίου τι μπορεί να συνεπάγεται ένα τέτοιο σύστημα.
Η Anthropic λέει επίσης ότι σκοπεύει το νέο της πρόγραμμα να υποστηρίξει την έρευνα σε σημεία αναφοράς και εργασίες «από άκρο σε άκρο» που διερευνούν τις δυνατότητες της τεχνητής νοημοσύνης να βοηθήσει στην επιστημονική μελέτη, να συνομιλεί σε πολλές γλώσσες και να μετριάσει τις ριζωμένες προκαταλήψεις, καθώς και την αυτολογοκρισία της τοξικότητας.
Για να τα επιτύχει όλα αυτά, η Anthropic οραματίζεται νέες πλατφόρμες που επιτρέπουν σε ειδικούς σε θέματα να αναπτύξουν τις δικές τους αξιολογήσεις και δοκιμές μοντέλων μεγάλης κλίμακας που περιλαμβάνουν «χιλιάδες» χρήστες. Η εταιρεία λέει ότι έχει προσλάβει έναν συντονιστή πλήρους απασχόλησης για το πρόγραμμα και ότι μπορεί να αγοράσει ή να επεκτείνει έργα που πιστεύει ότι έχουν τη δυνατότητα να κλιμακωθούν.
«Προσφέρουμε μια σειρά από επιλογές χρηματοδότησης προσαρμοσμένες στις ανάγκες και το στάδιο κάθε έργου», γράφει η Anthropic στην ανάρτηση, αν και ένας εκπρόσωπος της Anthropic αρνήθηκε να δώσει περισσότερες λεπτομέρειες σχετικά με αυτές τις επιλογές. «Οι ομάδες θα έχουν την ευκαιρία να αλληλεπιδράσουν απευθείας με τους ειδικούς του τομέα Anthropic από την ομάδα του frontier red, τη λεπτομέρεια, την εμπιστοσύνη και την ασφάλεια και άλλες σχετικές ομάδες».
Η προσπάθεια της Anthropic να υποστηρίξει νέα σημεία αναφοράς τεχνητής νοημοσύνης είναι αξιέπαινη — υποθέτοντας, φυσικά, ότι υπάρχουν αρκετά μετρητά και ανθρώπινο δυναμικό πίσω από αυτήν. Όμως, δεδομένων των εμπορικών φιλοδοξιών της εταιρείας στον αγώνα τεχνητής νοημοσύνης, μπορεί να είναι δύσκολο να εμπιστευτεί κανείς πλήρως.
Στην ανάρτηση ιστολογίου, η Anthropic είναι μάλλον διαφανής ως προς το γεγονός ότι θέλει ορισμένες αξιολογήσεις που χρηματοδοτεί για να ευθυγραμμιστούν με
Ταξινομήσεις ασφάλειας AI
το
αναπτηγμένος
(με κάποια στοιχεία από τρίτα μέρη, όπως ο μη κερδοσκοπικός οργανισμός έρευνας τεχνητής νοημοσύνης METR). Αυτό είναι μέσα στο προνόμιο της εταιρείας. Αλλά μπορεί επίσης να αναγκάσει τους αιτούντες στο πρόγραμμα να αποδεχτούν ορισμούς της «ασφαλούς» ή «επικίνδυνης» τεχνητής νοημοσύνης με τους οποίους μπορεί να μην συμφωνούν απόλυτα.
Ένα μέρος της κοινότητας της τεχνητής νοημοσύνης είναι επίσης πιθανό να διαφωνήσει με τις αναφορές του Anthropic σε «καταστροφικούς» και «παραπλανητικούς» κινδύνους τεχνητής νοημοσύνης, όπως οι κίνδυνοι πυρηνικών όπλων.
Πολλοί ειδικοί
ας πούμε ότι υπάρχουν ελάχιστα στοιχεία που να υποδηλώνουν ότι η τεχνητή νοημοσύνη, καθώς γνωρίζουμε ότι θα αποκτήσει παγκόσμιες δυνατότητες, που θα ξεπερνούν τον άνθρωπο σύντομα, αν ποτέ. Οι ισχυρισμοί περί επικείμενης «υπερνοημοσύνης» χρησιμεύουν μόνο για να τραβήξουν την προσοχή από τα πιεστικά ρυθμιστικά ζητήματα της τεχνητής νοημοσύνης της εποχής, όπως οι παραισθησιακές τάσεις της τεχνητής νοημοσύνης, προσθέτουν αυτοί οι ειδικοί.
Στην ανάρτησή της, η Anthropic γράφει ότι ελπίζει το πρόγραμμά της να χρησιμεύσει ως «καταλύτης για την πρόοδο προς ένα μέλλον όπου η ολοκληρωμένη αξιολόγηση τεχνητής νοημοσύνης είναι ένα βιομηχανικό πρότυπο». Αυτή είναι μια αποστολή που έχουν ανοίξει πολλοί,
εταιρική-μη συνδεδεμένη
μπορούν να ταυτιστούν οι προσπάθειες για τη δημιουργία καλύτερων σημείων αναφοράς AI. Αλλά μένει να δούμε αν αυτές οι προσπάθειες είναι πρόθυμες να ενώσουν τις δυνάμεις τους με έναν πωλητή τεχνητής νοημοσύνης του οποίου η πίστη εναπόκειται τελικά στους μετόχους.
VIA:
techcrunch.com

0