Το
Moshi Chat είναι ένα νέο μοντέλο τεχνητής νοημοσύνης εγγενούς ομιλίας από τη γαλλική startup Kyutai, που υπόσχεται μια παρόμοια εμπειρία με το GPT-4o, όπου καταλαβαίνει τον τόνο της φωνής σας και μπορεί να διακοπεί.
Σε αντίθεση με το GPT-4o,
Μόσι
είναι ένα μικρότερο μοντέλο και μπορεί να εγκατασταθεί τοπικά και να εκτελεστεί εκτός σύνδεσης. Αυτό θα μπορούσε να είναι τέλειο για το μέλλον των έξυπνων οικιακών συσκευών — εάν μπορούν να βελτιώσουν την απόκριση.
Είχα αρκετές συζητήσεις με τον Μόσι. Κάθε ένα διαρκεί έως και πέντε λεπτά στην τρέχουσα διαδικτυακή επίδειξη και σε κάθε περίπτωση τελείωσε με την επανάληψη της ίδιας λέξης ξανά και ξανά, χάνοντας τη συνοχή.
Σε μια από τις συζητήσεις άρχισε να με διαφωνεί, αρνούμενος κατηγορηματικά να μου πει μια ιστορία, απαιτώντας αντ’ αυτού να δηλώσει ένα γεγονός και δεν το άφηνε μέχρι να πω «πες μου ένα γεγονός».
Όλα αυτά είναι πιθανότατα ένα ζήτημα μεγέθους παραθύρου περιβάλλοντος και υπολογιστικών πόρων που μπορούν εύκολα να επιλυθούν με την πάροδο του χρόνου. Αν και το OpenAI δεν χρειάζεται να ανησυχεί ακόμα για τον ανταγωνισμό από το Moshi, δείχνει ότι όπως συμβαίνει με το Sora, όπου τα Luma Labs, το Runway και άλλοι πιέζουν την ποιότητά του – άλλα προλαβαίνουν.
Τι
είναι το Moshi Chat;
Δοκιμάζοντας το Moshi Chat – AI ομιλία σε ομιλία – YouTube
Το Moshi Chat είναι το πνευματικό τέκνο του ερευνητικού εργαστηρίου Kyutai και κατασκευάστηκε από την αρχή πριν από έξι μήνες από μια ομάδα οκτώ ερευνητών. Ο στόχος είναι να ανοίξει και να αξιοποιήσει το νέο μοντέλο με την πάροδο του χρόνου, αλλά αυτή είναι η πρώτη ανοιχτά προσβάσιμη εγγενής γενετική τεχνητή νοημοσύνη φωνής.
«Αυτός ο νέος τύπος τεχνολογίας καθιστά δυνατή για πρώτη φορά την επικοινωνία με ομαλό, φυσικό και εκφραστικό τρόπο με ένα AI», ανέφερε η εταιρεία σε δήλωση.
Η βασική του λειτουργικότητα είναι παρόμοια με το GPT-4o του OpenAI αλλά από ένα πολύ μικρότερο μοντέλο. Είναι επίσης διαθέσιμο για χρήση σήμερα, ενώ η προηγμένη φωνή GPT-4o δεν θα είναι ευρέως διαθέσιμη μέχρι το Φθινόπωρο.
Η ομάδα προτείνει ότι ο Moshi θα μπορούσε να χρησιμοποιηθεί σε σενάρια ρόλων ή ακόμα και ως προπονητής για να σας ενθαρρύνει ενώ προπονείστε. Το σχέδιο είναι να συνεργαστείτε με την κοινότητα και να την ανοίξετε, ώστε οι άλλοι να μπορούν να αναπτύξουν και να βελτιώσουν περαιτέρω την τεχνητή νοημοσύνη.
Είναι ένα πολυτροπικό μοντέλο παραμέτρων 7Β που ονομάζεται Helium, εκπαιδευμένο σε κωδικοποιητές κειμένου και ήχου, αλλά το Moshi είναι ομιλία σε ομιλία εγγενώς. Μπορεί να τρέξει σε GPU Nvidia, Apple’s Metal ή CPU.
Τι θα γίνει μετά με τον Μόσι;
Moshi Keynote – Kyutai – YouTube
Ο Kyutai ελπίζει ότι η υποστήριξη της κοινότητας θα χρησιμοποιηθεί για την ενίσχυση της βάσης γνώσεων και της πραγματικότητας του Moshi. Αυτά έχουν περιοριστεί επειδή είναι ένα ελαφρύ βασικό μοντέλο, αλλά ελπίζουμε ότι η επέκταση αυτών των πτυχών σε συνδυασμό με την εγγενή ομιλία θα δημιουργήσει έναν ισχυρό βοηθό.
Το επόμενο στάδιο είναι η περαιτέρω βελτίωση του μοντέλου και η κλιμάκωσή του ώστε να επιτραπούν πιο περίπλοκες και μακροσκελείς
συνομιλίες
με τον Moshi.
Χρησιμοποιώντας το και παρακολουθώντας τις επιδείξεις, το βρήκα απίστευτα γρήγορο και ανταποκρίνεται για το πρώτο λεπτό περίπου, αλλά όσο περισσότερο συνεχίζεται η συζήτηση τόσο πιο ασυνάρτητη γίνεται. Η έλλειψη γνώσης του είναι επίσης προφανής και αν το επικαλέσετε ότι έκανε ένα λάθος, αναστατώνεται και πηγαίνει σε ένα βρόχο “Λυπάμαι, συγγνώμη, συγγνώμη.”
Αυτό δεν είναι ακόμη άμεσος ανταγωνιστής της προηγμένης φωνής GPT-4o του OpenAI, παρόλο που η προηγμένη φωνή δεν είναι προς το παρόν διαθέσιμη. Ωστόσο, η
προσφορά
ενός ανοιχτού, τοπικού μοντέλου που έχει τη δυνατότητα να λειτουργεί με τον ίδιο τρόπο είναι ένα σημαντικό βήμα προς τα εμπρός για την ανάπτυξη AI ανοιχτού κώδικα.
Περισσότερα από το Tom’s Guide
VIA:
TomsGuide.com

0