Αρχική






Artificial Intelligence





Η μαγική μετατροπή του Kyutai Moshi Chat: Από κείμενο σε ομιλία

Η μαγική μετατροπή του Kyutai Moshi Chat: Από κείμενο σε ομιλία





Το Kyutai, ένα μη κερδοσκοπικό εργαστήριο αφιερ

μένο στην προώθηση της ανοιχτής έρευνας στην τεχνητή νοημοσύνη (

), έχει κάνει σημαντικά βήματα με την τελευταία του

, το Moshi Chat. Αυτό το υπερσύγχρονο εγγενές πολυτροπικό μοντέλο θεμελίωσης σε πραγματικό χρόνο αντιπροσωπεύει ένα αξιοσημείωτο επίτευγμα στην τεχνολογία AI. Η εισαγωγή του Moshi Chat από το Kyutai έχει συγκεντρώσει την προσοχή για τις εντυπωσιακές του ικανότητες, ιδιαίτερα στους τομείς της ταυτόχρονης ακρόασης και ομιλίας. Σε αντίθεση με τα παραδοσιακά μοντέλα AI, το Moshi Chat έχει σχεδιαστεί για να κατανοεί και να εκφράζει συναισθήματα, κάνοντας τις αλληλεπιδράσεις μαζί του πιο φυσικές και ελκυστικές.

Με τα μοναδικά χαρακτηριστικά του και τη διαθεσιμότητα ανοιχτού κώδικα, το Moshi Chat ξεχωρίζει ως πρωτοπόρος στην ανάπτυξη της AI.


Η ανάπτυξη του Moshi Chat αποτελεί απόδειξη της δέσμευσης της Kyutai για διαφάνεια και συνεργατική καινοτομία. Η ικανότητα του μοντέλου να

χειριστεί δύο ροές ήχου ταυτόχρονα

—η ακρόαση και η ομιλία σε πραγματικό χρόνο—το ξεχωρίζει από άλλα μοντέλα τεχνητής νοημοσύνης.

Αυτή η ικανότητα υποστηρίζεται από μια ισχυρή κοινή διαδικασία προ

ίδευσης σε συνδυασμό δεδομένων κειμένου και ήχου, χρησιμοποιώντας δεδομένα συνθετικού κειμένου από Helium, ένα

Μοντέλο γλώσσας 7 δισεκατομμυρίων παραμέτρων που αναπτύχθηκε από την Kyutai

. Τέτοιες εξελίξεις στην τεχνολογία AI είναι το αποτέλεσμα αυστηρής έρευνας και τελειοποίησης, με στόχο την επίτευξη απρόσκοπτης και αποτελεσματικής απόδοσης.

Τεχνολογία Kyutai Moshi Chat

Το χαρακτηριστικό γνώρισμα του Moshi Chat είναι αυτό

δυνατότητα αλληλεπίδρασης σε πραγματικό χρόνο

, που του επιτρέπει να ακούει και να απαντά ταυτόχρονα. Αυτό επιτυγχάνεται μέσω της κοινής προεκπαίδευσης σε συνδυασμό δεδομένων κειμένου και ήχου, διασφαλίζοντας ότι το μοντέλο μπορεί να διατηρήσει μια ομαλή ροή κειμενικών και ακουστικών πληροφοριών. Η βάση των ικανοτήτων επεξεργασίας ομιλίας του Moshi Chat είναι το μοντέλο Helium, ένα μοντέλο γλώσσας 7 δισεκατομμυρίων παραμέτρων που χρησιμεύει ως η ραχοκοκαλιά για αυτήν την καινοτόμο τεχνολογία.

Σύμφωνα με την

Η βασική ομιλία του Kyutai Moshi Chat στο YouTube

η διαδικασία τελειοποίησης για το Moshi Chat περιλάμβανε ένα

εκτεταμένο σύνολο δεδομένων με 100.000 συνθετικές συνομιλίες «προφορικού τύπου».

. Αυτές οι συνομιλίες μετατράπηκαν χρησιμοποιώντας τεχνολογία Text-to-Speech (TTS), παρόμοια με το Murf AI, επιτρέποντας στο μοντέλο να παράγει και να κατανοεί την ομιλία με αξιοσημείωτη ακρίβεια. Ο κινητήρας TTS, που υποστηρίζει 70 διαφορετικά συναισθήματα και στυλ, βελτιώθηκε χρησιμοποιώντας 20 ώρες ήχου που ηχογραφήθηκε από εξουσιοδοτημένο ταλέντο φωνής. Αυτή η σχολαστική προσέγγιση της εκπαίδευσης είχε ως αποτέλεσμα ένα μοντέλο που

όχι μόνο κατανοεί την προφορική γλώσσα, αλλά μεταφέρει επίσης συναισθήματα και αποχρώσεις

κάνοντας τις αλληλεπιδράσεις πιο φυσικές και ελκυστικές.

Η δέσμευση της Kyutai για υπεύθυνη χρήση τεχνητής νοημοσύνης είναι εμφανής στην ενσωμάτωση της υδατοσήμανσης για τον εντοπισμό του ήχου που δημιουργείται από την τεχνητή νοημοσύνη. Αυτό το χαρακτηριστικό, που βρίσκεται ακόμη σε εξέλιξη, υπογραμμίζει τη σημασία των ηθικών κριτηρίων στην ανάπτυξη της τεχνητής νοημοσύνης. Επιπλέον, η απόφαση να κυκλοφορήσει το Moshi Chat ως έργο ανοιχτού κώδικα υπογραμμίζει την αφοσίωση της Kyutai στην προώθηση ενός

περιβάλλον συνεργασίας εντός της κοινότητας AI

.


Το Moshi Chat κατανοεί και εκφράζει συναισθήματα, κάνοντας τις αλληλεπιδράσεις πιο φυσικές

(

Πίστωση εικόνας

)

Διαδικασία εκπαίδευσης και τελειοποίησης του Moshi AI

Η ανάπτυξη του Moshi Chat περιλάμβανε μια αυστηρή διαδικασία εκπαίδευσης και τελειοποίησης για να διασφαλιστεί το υψηλό επίπεδο απόδοσής του. Το μοντέλο εκπαιδεύτηκε από την αρχή χρησιμοποιώντας το βασικό μοντέλο γλώσσας κειμένου Helium 7B, το οποίο στη συνέχεια εκπαιδεύτηκε από κοινού με κωδικοποιητές κειμένου και ήχου.

Ο κωδικοποιητής ομιλίας, που βασίζεται στο εσωτερικό μοντέλο Mimi του Kyutai, μπορεί να υπερηφανεύεται για ένα

300x συντελεστής συμπίεσης

το οποίο είναι καθοριστικό για τη διατήρηση της ποιότητας του ήχου με ταυτόχρονη μείωση του μεγέθους των δεδομένων.

Η διαδικασία τελειοποίησης για το Moshi Chat περιλάμβανε σχολιασμό

100.000 εξαιρετικά λεπτομερείς μεταγραφές με συναίσθημα και στυλ

. Αυτοί οι σχολιασμοί επιτρέπουν στο μοντέλο να κατανοήσει και να μεταφέρει ένα ευρύ φάσμα συναισθημάτων, κάνοντας τις αλληλεπιδράσεις μαζί του πιο ζωντανές και ελκυστικές. Η μηχανή Text-to-Speech, η οποία υποστηρίζει 70 διαφορετικά συναισθήματα και στυλ, ήταν

τελειοποιημένος χρησιμοποιώντας 20 ώρες ήχου

καταγράφηκε από τον α

αδειοδοτημένο ταλέντο φωνής με το όνομα Alice

.

Η εστίαση του Kyutai στην προσαρμοστικότητα είναι εμφανής στο Moshi Chat

δυνατότητα τελειοποίησης με λιγότερο από 30 λεπτά ήχου

. Αυτή η δυνατότητα επιτρέπει στους χρήστες να προσαρμόσουν το μοντέλο ώστε να ταιριάζει σε συγκεκριμένες ανάγκες, είτε για έρευνα, εκμάθηση γλωσσών ή άλλες εφαρμογές. Η ανάπτυξη του μοντέλου δείχνει την αποτελεσματικότητα και την ευελιξία του,

χειρισμός δύο μεγεθών παρτίδας στα 24 GB VRAM και υποστήριξη πολλαπλών backend

. Οι βελτιστοποιήσεις στον κώδικα συμπερασμάτων, όπως η βελτιωμένη προσωρινή αποθήκευση KV και η προσωρινή αποθήκευση εντολών, αναμένεται να βελτιώσουν περαιτέρω την απόδοση του Moshi Chat.

Kyutai Moshi Chat Κείμενο σε ομιλία

Το Moshi Chat βασίζεται στο μοντέλο της γλώσσας Helium, ένα μοντέλο 7 δισεκατομμυρίων παραμέτρων που αναπτύχθηκε από την Kyutai

(

Πίστωση εικόνας

)

Τεχνολογία για όλους από την Kyutai Labs

Το Moshi Chat δεν είναι μόνο ένα τεχνολογικό θαύμα αλλά και εξαιρετικά προσιτό. Η Kyutai έχει αναπτύξει μια μικρότερη παραλλαγή του μοντέλου που μπορεί να λειτουργεί σε MacBook ή GPU μεγέθους καταναλωτή, καθιστώντας το διαθέσιμο σε ένα ευρύτερο φάσμα χρηστών.

Η αποτελεσματικότητα του μοντέλου αποδεικνύεται περαιτέρω από την ανάπτυξή του σε πλατφόρμες όπως το Scaleway και

Αγκαλιασμένο πρόσωπο

όπου χειρίζεται δύο μεγέθη παρτίδας στα 24 GB VRAM, υποστηρίζοντας διάφορα backends, όπως CUDA, Metal και CPU.

Η φωνή του μοντέλου, που εκπαιδεύεται σε συνθετικά δεδομένα που παράγονται από ένα ξεχωριστό μοντέλο TTS, επιτυγχάνει εντυπωσιακό λανθάνοντα χρόνο από άκρο σε άκρο 200 χιλιοστών του δευτερολέπτου. Αυτή η χαμηλή καθυστέρηση είναι ζωτικής σημασίας για αλληλεπιδράσεις σε πραγματικό χρόνο, επιτρέποντας στο Moshi Chat να ανταποκρίνεται σχεδόν στιγμιαία στις εισροές των χρηστών. Ο συνδυασμός προηγμένων τεχνικών εκπαίδευσης και βελτιστοποιημένου κώδικα συμπερασμάτων, που αναπτύχθηκε με χρήση Rust, συμβάλλει στην ανώτερη απόδοση του μοντέλου. Η βελτιωμένη προσωρινή αποθήκευση KV και η άμεση προσωρινή αποθήκευση αναμένεται επίσης να βελτιώσουν περαιτέρω την απόδοση του μοντέλου.

Το demo που δημοσιεύτηκε από

Γιαν ΛεΚούν

δείχνει πόσο καλά λειτουργεί αυτό το νέο

.

Κοιτάζοντας το μέλλον, το Kyutai έχει φιλόδοξα σχέδια για το Moshi Chat. Η ομάδα σκοπεύει να κυκλοφορήσει μια ολοκληρωμένη τεχνική αναφορά και να ανοίξει εκδόσεις μοντέλων, συμπεριλαμβανομένης της βάσης κωδικών συμπερασμάτων, του μοντέλου 7B, του κωδικοποιητή ήχου και της πλήρους βελτιστοποιημένης στοίβας. Οι μελλοντικές επαναλήψεις του Moshi Chat, όπως οι εκδόσεις 1.1, 1.2 και 2.0, θα ενσωματώνουν τα σχόλια των χρηστών για να βελτιώσουν και να βελτιώσουν τις δυνατότητες του μοντέλου.

Η επιτρεπτική αδειοδότηση του Kyutai στοχεύει να ενθαρρύνει την ευρεία υιοθέτηση και την καινοτομία, διασφαλίζοντας ότι τα οφέλη του Moshi Chat είναι προσβάσιμα σε ένα διαφορετικό κοινό.

Πώς να χρησιμοποιήσετε το Moshi Chat

Οι χρήστες μπορούν και ενθαρρύνονται να

δοκιμάστε το Moshi Chat online μέσω του ιστότοπου Kyutai

. Μία φορά εκεί:

  1. Συμπληρώστε το email σας
  2. Κάντε κλικ στο «Συμμετοχή στην ουρά»
  3. Αρχίνα να μιλάς

Είτε συζητούν καθημερινά θέματα είτε εξερευνούν πιο σύνθετα θέματα, οι χρήστες μπορούν να ασχοληθούν με το Moshi Chat φυσικά, επωφελούμενοι από τις προηγμένες δυνατότητες αναγνώρισης ομιλίας και σύνθεσης.



Πίστωση επιλεγμένης εικόνας

:

Kyutai/YouTube

VIA:

DataConomy.com








Marizas Dimitris


Marizas Dimitris

TechWar.GR — Ειδήσεις Τεχνολογίας, Gadgets, Ψυχαγωγία


Αφοσιωμένος λάτρης κινητών Samsung, ο Δημήτρης έχει εξελίξει μια ιδιαίτερη σχέση με τα προϊόντα της εταιρίας, εκτιμώντας τον σχεδιασμό, την απόδοση και την καινοτομία που προσφέρουν. Γράφοντας και διαβάζοντας τεχνολογικά νέα από όλο τον κόσμο.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ


Ακύρωση απάντησης



εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ