Ο αγώνας μεταξύ ανοιχτού κώδικα και αποκλειστικού λογισμικού είναι καλά κατανοητός. Αλλά οι εντάσεις που διαπερνούν τους κύκλους του λογισμικού εδώ και δεκαετίες έχουν ανακατευτεί στον αναπτυσσόμενο χώρο της τεχνητής νοημοσύνης, με τη διαμάχη να βρίσκεται σε έντονη αναζήτηση.
Οι New York Times πρόσφατα
δημοσίευσε μια αναβλύζουσα αξιολόγηση
του Διευθύνοντος Συμβούλου της Meta, Mark Zuckerberg, σημειώνοντας πώς η «τεχνητή νοημοσύνη ανοιχτού κώδικα» τον έκανε δημοφιλή για άλλη μια φορά στη
Silicon Valley
. Το πρόβλημα, ωστόσο, είναι ότι τα μοντέλα μεγάλων γλωσσών με την επωνυμία Llama της Meta δεν είναι πραγματικά ανοιχτού κώδικα.
Ή είναι αυτοί;
Σύμφωνα με τις περισσότερες εκτιμήσεις, δεν είναι. Αλλά υπογραμμίζει πώς η έννοια της «τεχνητής νοημοσύνης ανοιχτού κώδικα» πρόκειται να προκαλέσει περισσότερες συζητήσεις τα επόμενα χρόνια. Αυτό είναι κάτι που το
Open Source
Initiative (
OSI
) προσπαθεί να αντιμετωπίσει, με επικεφαλής τον εκτελεστικό διευθυντή
Stefano Maffulli
(στην εικόνα παραπάνω), ο οποίος εργάζεται για το πρόβλημα για περισσότερα από δύο χρόνια μέσω μιας παγκόσμιας προσπάθειας που περιλαμβάνει συνέδρια, εργαστήρια, πάνελ, διαδικτυακά σεμινάρια, αναφορές και άλλα.
Το AI δεν είναι κώδικας λογισμικού
Συντελεστές εικόνας:
Westend61 μέσω
Getty
Το OSI υπήρξε διαχειριστής του
Ορισμός ανοιχτού κώδικα
(OSD) για περισσότερο από ένα τέταρτο του αιώνα, καθορίζοντας πώς ο όρος «ανοιχτός κώδικας» μπορεί ή πρέπει να εφαρμοστεί στο λογισμικό. Μια άδεια που πληροί αυτόν τον ορισμό μπορεί νόμιμα να θεωρηθεί “ανοιχτού κώδικα”, αν και αναγνωρίζει
φάσμα αδειών
που κυμαίνονται από εξαιρετικά επιτρεπτές έως όχι και τόσο επιτρεπτές.
Αλλά η μεταφορά παλαιού τύπου συμβάσεων αδειοδότησης και ονομασίας από λογισμικό στο AI είναι προβληματική.
Τζόζεφ Τζακς
ευαγγελιστής ανοιχτού κώδικα και ιδρυτής της εταιρείας VC
OSS Capital
φτάνει στο σημείο να πει ότι υπάρχει «
δεν υπάρχει AI ανοιχτού κώδικα
», σημειώνοντας ότι «ο ανοιχτός κώδικας επινοήθηκε ρητά για τον πηγαίο κώδικα λογισμικού».
Αντίθετα, τα «βαρίδια νευρωνικών δικτύων» (NNWs) – ένας όρος που χρησιμοποιείται στον κόσμο της τεχνητής νοημοσύνης για να περιγράψει τις παραμέτρους ή τους συντελεστές μέσω των οποίων μαθαίνει το δίκτυο κατά τη διάρκεια της εκπαιδευτικής διαδικασίας – δεν είναι καθόλου συγκρίσιμα με το λογισμικό.
«Τα νευρωνικά καθαρά βάρη δεν είναι πηγαίος κώδικας λογισμικού. είναι δυσανάγνωστα από τον άνθρωπο, ούτε μπορούν να εντοπιστούν σφαλμάτων», σημειώνει ο Τζακς. «Επιπλέον, τα θεμελιώδη δικαιώματα του ανοιχτού κώδικα επίσης δεν μεταφράζονται στα NNW με οποιονδήποτε τρόπο».
Αυτό οδήγησε τον συνάδελφο Jacks και OSS Capital
Χέδερ Μίκερ
προς την
καταλήξουν στον δικό τους ορισμό
γύρω από την έννοια των «ανοιχτών βαρών».
Έτσι, πριν ακόμη φτάσουμε σε έναν ουσιαστικό ορισμό της «τεχνητής νοημοσύνης ανοιχτού κώδικα», μπορούμε ήδη να δούμε μερικές από τις εγγενείς εντάσεις στην προσπάθεια να φτάσουμε εκεί. Πώς μπορούμε να συμφωνήσουμε σε έναν ορισμό εάν δεν μπορούμε να συμφωνήσουμε ότι το «πράγμα» που ορίζουμε υπάρχει;
Ο Maffulli, γι’ αυτό που αξίζει, συμφωνεί.
«Το θέμα είναι σωστό», είπε στο TechCrunch. «Μία από τις αρχικές συζητήσεις που είχαμε ήταν αν θα το ονομάζαμε AI ανοιχτού κώδικα, αλλά όλοι χρησιμοποιούσαν ήδη τον όρο».
Αυτό αντικατοπτρίζει ορισμένες από τις προκλήσεις στην ευρύτερη σφαίρα της τεχνητής νοημοσύνης, όπου αφθονούν οι συζητήσεις σχετικά με το αν αυτό που ονομάζουμε “AI” σήμερα
είναι πραγματικά AI
ή απλώς ισχυρά συστήματα που διδάσκονται να εντοπίζουν μοτίβα μεταξύ τεράστιων τμημάτων δεδομένων. Αλλά οι αρνητές παραιτούνται κυρίως από το γεγονός ότι η ονοματολογία «AI» είναι εδώ και δεν έχει νόημα να την πολεμήσουμε.

Συντελεστές εικόνας:
Larysa Amosova μέσω Getty
Η OSI ιδρύθηκε το 1998 και είναι μια μη κερδοσκοπική εταιρεία κοινωφελούς χαρακτήρα που εργάζεται σε μια μυριάδα δραστηριοτήτων που σχετίζονται με ανοιχτό κώδικα σχετικά με την υπεράσπιση, την εκπαίδευση και τον βασικό λόγο ύπαρξής της: τον ορισμό του ανοιχτού κώδικα. Σήμερα, ο οργανισμός βασίζεται σε χορηγίες για χρηματοδότηση, με αξιόλογα μέλη όπως η Amazon, η Google, η Microsoft, η Cisco, η Intel, η Salesforce και η Meta.
Η εμπλοκή της Meta με το OSI είναι ιδιαίτερα αξιοσημείωτη αυτή τη στιγμή, καθώς σχετίζεται με την έννοια της «τεχνητής νοημοσύνης ανοιχτού κώδικα». Παρά το γεγονός ότι ο Μέτα κρεμάει το καπέλο του με τεχνητή νοημοσύνη
στον δεσμό ανοιχτού κώδικα
η εταιρεία έχει σημαντικούς περιορισμούς σχετικά με τον τρόπο χρήσης των μοντέλων της Llama: Σίγουρα, μπορούν να χρησιμοποιηθούν δωρεάν για περιπτώσεις έρευνας και εμπορικής χρήσης, αλλά οι προγραμματιστές εφαρμογών με περισσότερους από 700 εκατομμύρια μηνιαίους χρήστες πρέπει να ζητήσουν ειδική άδεια από τη Meta, η οποία θα χορηγήσει καθαρά κατά την κρίση της.
Με απλά λόγια, τα αδέρφια του Meta Big Tech μπορούν να σφυρίξουν αν θέλουν.
Η γλώσσα της Meta γύρω από τα LLM της είναι κάπως εύπλαστη. Ενώ η εταιρεία το κάλεσε
Λάμα 2 μοντέλο ανοιχτού κώδικα
με την άφιξη του Llama 3 τον Απρίλιο, αποχώρησε κάπως από την ορολογία,
χρησιμοποιώντας φράσεις
όπως “ανοιχτά διαθέσιμο” και “ανοιχτά προσβάσιμο” αντί. Αλλά σε ορισμένα σημεία, αυτό
εξακολουθεί να αναφέρεται σε
το μοντέλο ως «ανοιχτού κώδικα».
«Όλοι οι άλλοι που συμμετέχουν στη συζήτηση συμφωνούν απόλυτα ότι η ίδια η Llama δεν μπορεί να θεωρηθεί ανοιχτού κώδικα», είπε ο Maffulli. «Οι άνθρωποι με τους οποίους έχω μιλήσει και εργάζονται στη Meta, ξέρουν ότι είναι λίγο δύσκολο».
Επιπλέον, κάποιοι θα μπορούσαν να υποστηρίξουν ότι υπάρχει μια σύγκρουση συμφερόντων εδώ: μια εταιρεία που έχει δείξει την επιθυμία να αποσυρθεί από την επωνυμία ανοιχτού κώδικα παρέχει επίσης χρηματοδότηση στους διαχειριστές του «ορισμού»;
Αυτός είναι ένας από τους λόγους για τους οποίους το OSI προσπαθεί να διαφοροποιήσει τη χρηματοδότησή του, εξασφαλίζοντας πρόσφατα επιχορήγηση από το
Ίδρυμα Sloan
, το οποίο βοηθά στη χρηματοδότηση της παγκόσμιας ώθησης πολλών μετόχων για την επίτευξη του ορισμού τεχνητής νοημοσύνης ανοιχτού κώδικα. Το TechCrunch μπορεί να αποκαλύψει ότι αυτή η επιχορήγηση ανέρχεται σε περίπου 250.000 $ και η Maffulli ελπίζει ότι αυτό μπορεί να αλλάξει την οπτική γύρω από την εξάρτησή της από την εταιρική χρηματοδότηση.
“Αυτό είναι ένα από τα πράγματα που η επιχορήγηση Sloan καθιστά ακόμη πιο σαφές: Θα μπορούσαμε να πούμε αντίο στα χρήματα του Meta ανά πάσα στιγμή”, είπε ο Maffulli. «Θα μπορούσαμε να το κάνουμε αυτό ακόμη και πριν από αυτό το Sloan Grant, γιατί ξέρω ότι θα λάβουμε δωρεές από άλλους. Και ο Μέτα το ξέρει πολύ καλά. Δεν παρεμβαίνουν σε τίποτα από αυτά [process]ούτε η Microsoft, ούτε το
GitHub
ή η Amazon ή η Google — γνωρίζουν απολύτως ότι δεν μπορούν να παρέμβουν, επειδή η δομή του οργανισμού δεν το επιτρέπει».
Λειτουργικός ορισμός AI ανοιχτού κώδικα

Συντελεστές εικόνας:
Aleksei Morozov / Getty Images
Το τρέχον προσχέδιο ορισμού τεχνητής νοημοσύνης ανοιχτού κώδικα βρίσκεται στο
έκδοση 0.0.8
, που αποτελούν τρία βασικά μέρη: το «προοίμιο», το οποίο καθορίζει την αποστολή του εγγράφου. τον ίδιο τον ορισμό τεχνητής νοημοσύνης ανοιχτού κώδικα. και μια λίστα ελέγχου που διέρχεται από τα στοιχεία που απαιτούνται για ένα σύστημα τεχνητής νοημοσύνης συμβατό με ανοιχτού κώδικα.
Σύμφωνα με το τρέχον προσχέδιο, ένα σύστημα τεχνητής νοημοσύνης ανοιχτού κώδικα θα πρέπει να παρέχει ελευθερίες χρήσης του συστήματος για οποιονδήποτε σκοπό χωρίς να ζητείται άδεια. να επιτρέψει σε άλλους να μελετήσουν τον τρόπο λειτουργίας του συστήματος και να επιθεωρήσουν τα στοιχεία του· και να τροποποιήσετε και να μοιραστείτε το σύστημα για οποιονδήποτε σκοπό.
Όμως, μία από τις μεγαλύτερες προκλήσεις ήταν γύρω από τα δεδομένα – δηλαδή, μπορεί ένα σύστημα τεχνητής νοημοσύνης να ταξινομηθεί ως «ανοιχτού κώδικα» εάν η εταιρεία δεν έχει διαθέσει το σύνολο δεδομένων εκπαίδευσης για να το χρησιμοποιήσουν άλλοι; Σύμφωνα με τον Maffulli, είναι πιο σημαντικό να γνωρίζουμε από πού προέρχονται τα δεδομένα και πώς ένας προγραμματιστής επισήμανε, αφαίρεσε και φιλτράρει τα δεδομένα. Και επίσης, έχοντας πρόσβαση στον κώδικα που χρησιμοποιήθηκε για τη συγκέντρωση του συνόλου δεδομένων από τις διάφορες πηγές του.
«Είναι πολύ καλύτερο να γνωρίζουμε αυτές τις πληροφορίες παρά να έχουμε το απλό σύνολο δεδομένων χωρίς τα υπόλοιπα», είπε ο Maffulli.
Ενώ θα ήταν καλό να έχετε πρόσβαση στο πλήρες σύνολο δεδομένων (το OSI το καθιστά “προαιρετικό” στοιχείο), ο Maffulli λέει ότι δεν είναι δυνατό ή πρακτικό σε πολλές περιπτώσεις. Αυτό μπορεί να οφείλεται στο ότι υπάρχουν εμπιστευτικές πληροφορίες ή πληροφορίες που προστατεύονται από πνευματικά δικαιώματα που περιέχονται στο σύνολο δεδομένων που ο προγραμματιστής δεν έχει άδεια να αναδιανείμει. Επιπλέον, υπάρχουν τεχνικές για την εκπαίδευση μοντέλων μηχανικής μάθησης, όπου τα ίδια τα δεδομένα δεν μοιράζονται πραγματικά με το σύστημα, χρησιμοποιώντας τεχνικές όπως η ομοσπονδιακή μάθηση, το διαφορικό απόρρητο και η ομομορφική
κρυπτο
γράφηση.
Και αυτό υπογραμμίζει τέλεια τις θεμελιώδεις διαφορές μεταξύ “λογισμικού ανοιχτού κώδικα” και “τεχνητής νοημοσύνης ανοιχτού κώδικα”: Οι προθέσεις μπορεί να είναι παρόμοιες, αλλά δεν είναι συγκρίσιμες, και αυτή η διαφορά είναι αυτό που το OSI προσπαθεί να καταγράψει στο ορισμός.
Στο λογισμικό, ο πηγαίος κώδικας και ο δυαδικός κώδικας είναι δύο όψεις του ίδιου τεχνουργήματος: Αντικατοπτρίζουν το ίδιο πρόγραμμα σε διαφορετικές μορφές. Αλλά τα σύνολα δεδομένων εκπαίδευσης και τα επακόλουθα εκπαιδευμένα μοντέλα είναι διαφορετικά πράγματα: Μπορείτε να πάρετε το ίδιο σύνολο δεδομένων και δεν θα μπορείτε απαραίτητα να δημιουργήσετε ξανά το ίδιο μοντέλο με συνέπεια.
«Υπάρχει μια ποικιλία στατιστικής και τυχαίας λογικής που συμβαίνει κατά τη διάρκεια της εκπαίδευσης που σημαίνει ότι δεν μπορεί να την κάνει να αναπαραχθεί με τον ίδιο τρόπο όπως το λογισμικό», πρόσθεσε ο Maffulli.
Επομένως, ένα σύστημα τεχνητής νοημοσύνης ανοιχτού κώδικα θα πρέπει να είναι εύκολο να αναπαραχθεί, με σαφείς οδηγίες. Και εδώ μπαίνει στο παιχνίδι η πτυχή της λίστας ελέγχου του ορισμού AI ανοιχτού κώδικα, η οποία βασίζεται στο α
πρόσφατα δημοσιευμένη ακαδημαϊκή εργασία
που ονομάζεται «The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence».
Αυτό το έγγραφο προτείνει το Model Openness Framework (MOF), ένα σύστημα ταξινόμησης που βαθμολογεί τα μοντέλα μηχανικής μάθησης «με βάση την πληρότητα και τη διαφάνειά τους». Το MOF απαιτεί συγκεκριμένα στοιχεία της ανάπτυξης του μοντέλου AI να «περιλαμβάνονται και να κυκλοφορούν υπό κατάλληλες ανοιχτές άδειες», συμπεριλαμβανομένων μεθοδολογιών εκπαίδευσης και λεπτομερειών σχετικά με τις παραμέτρους του μοντέλου.
Σταθερή κατάσταση

Συντελεστές εικόνας:
OSI
Το OSI αποκαλεί την επίσημη κυκλοφορία του ορισμού «σταθερή έκδοση», όπως θα κάνει μια εταιρεία με μια εφαρμογή που έχει υποβληθεί σε εκτεταμένες δοκιμές και εντοπισμό σφαλμάτων πριν από την πρώτη στιγμή. Το OSI σκόπιμα δεν το αποκαλεί «τελική κυκλοφορία», επειδή μέρη του πιθανότατα θα εξελιχθούν.
«Δεν μπορούμε πραγματικά να περιμένουμε ότι αυτός ο ορισμός θα διαρκέσει για 26 χρόνια όπως ο ορισμός του ανοιχτού κώδικα», είπε ο Maffulli. “Δεν περιμένω το κορυφαίο μέρος του ορισμού – όπως “τι είναι ένα σύστημα AI;” — να αλλάξουν πολλά. Αλλά τα μέρη στα οποία αναφερόμαστε στη λίστα ελέγχου, αυτές οι λίστες εξαρτημάτων εξαρτώνται από την τεχνολογία; Αύριο, ποιος ξέρει πώς θα είναι η τεχνολογία».
Ο σταθερός ορισμός τεχνητής νοημοσύνης ανοιχτού κώδικα αναμένεται να είναι σφραγισμένος από το Διοικητικό Συμβούλιο στο
Ανοιχτό συνέδριο All Things
στα τέλη Οκτωβρίου, με το OSI να ξεκινά ένα παγκόσμιο roadshow στους ενδιάμεσους μήνες που θα εκτείνεται σε πέντε ηπείρους, αναζητώντας πιο «διαφορετικές πληροφορίες» σχετικά με το πώς θα οριστεί η «τεχνητή νοημοσύνη ανοιχτού κώδικα» προχωρώντας. Αλλά οποιεσδήποτε τελικές αλλαγές είναι πιθανό να είναι κάτι περισσότερο από «μικρές τροποποιήσεις» εδώ και εκεί.
«Αυτή είναι η τελική ευθεία», είπε ο Maffulli. «Έχουμε φτάσει σε μια ολοκληρωμένη έκδοση του ορισμού. έχουμε όλα τα στοιχεία που χρειαζόμαστε. Τώρα έχουμε μια λίστα ελέγχου, επομένως ελέγχουμε ότι δεν υπάρχουν εκπλήξεις εκεί. δεν υπάρχουν συστήματα που θα πρέπει να συμπεριληφθούν ή να εξαιρεθούν».
VIA:
techcrunch.com

0