Ανταγωνισμός στην τεχνολογία φωνητικών βοηθών: Ο αντίπαλος του GPT-4 από το Moshi Chat

4 Ιουλίου, 2025

Το

Moshi Chat είναι ένα νέο μοντέλο τεχνητής νοημοσύνης εγγενούς ομιλίας από τη γαλλική startup Kyutai, που υπόσχεται μια παρόμοια εμπειρία με το GPT-4o, όπου καταλαβαίνει τον τόνο της φωνής σας και μπορεί να διακοπεί.

Σε αντίθεση με το GPT-4o,

Μόσι

είναι ένα μικρότερο μοντέλο και μπορεί να εγκατασταθεί τοπικά και να εκτελεστεί εκτός σύνδεσης. Αυτό θα μπορούσε να είναι τέλειο για το μέλλον των έξυπνων οικιακών συσκευών — εάν μπορούν να βελτιώσουν την απόκριση.

Είχα αρκετές συζητήσεις με τον Μόσι. Κάθε ένα διαρκεί έως και πέντε λεπτά στην τρέχουσα διαδικτυακή επίδειξη και σε κάθε περίπτωση τελείωσε με την επανάληψη της ίδιας λέξης ξανά και ξανά, χάνοντας τη συνοχή.

Σε μια από τις συζητήσεις άρχισε να με διαφωνεί, αρνούμενος κατηγορηματικά να μου πει μια ιστορία, απαιτώντας αντ’ αυτού να δηλώσει ένα γεγονός και δεν το άφηνε μέχρι να πω «πες μου ένα γεγονός».

Όλα αυτά είναι πιθανότατα ένα ζήτημα μεγέθους παραθύρου περιβάλλοντος και υπολογιστικών πόρων που μπορούν εύκολα να επιλυθούν με την πάροδο του χρόνου. Αν και το OpenAI δεν χρειάζεται να ανησυχεί ακόμα για τον ανταγωνισμό από το Moshi, δείχνει ότι όπως συμβαίνει με το Sora, όπου τα Luma Labs, το Runway και άλλοι πιέζουν την ποιότητά του – άλλα προλαβαίνουν.

Τι

είναι το Moshi Chat;

Δοκιμάζοντας το Moshi Chat – AI ομιλία σε ομιλία – YouTube

Παρακολουθήστε On

Το Moshi Chat είναι το πνευματικό τέκνο του ερευνητικού εργαστηρίου Kyutai και κατασκευάστηκε από την αρχή πριν από έξι μήνες από μια ομάδα οκτώ ερευνητών. Ο στόχος είναι να ανοίξει και να αξιοποιήσει το νέο μοντέλο με την πάροδο του χρόνου, αλλά αυτή είναι η πρώτη ανοιχτά προσβάσιμη εγγενής γενετική τεχνητή νοημοσύνη φωνής.

«Αυτός ο νέος τύπος τεχνολογίας καθιστά δυνατή για πρώτη φορά την επικοινωνία με ομαλό, φυσικό και εκφραστικό τρόπο με ένα AI», ανέφερε η εταιρεία σε δήλωση.

Η βασική του λειτουργικότητα είναι παρόμοια με το GPT-4o του OpenAI αλλά από ένα πολύ μικρότερο μοντέλο. Είναι επίσης διαθέσιμο για χρήση σήμερα, ενώ η προηγμένη φωνή GPT-4o δεν θα είναι ευρέως διαθέσιμη μέχρι το Φθινόπωρο.

Η ομάδα προτείνει ότι ο Moshi θα μπορούσε να χρησιμοποιηθεί σε σενάρια ρόλων ή ακόμα και ως προπονητής για να σας ενθαρρύνει ενώ προπονείστε. Το σχέδιο είναι να συνεργαστείτε με την κοινότητα και να την ανοίξετε, ώστε οι άλλοι να μπορούν να αναπτύξουν και να βελτιώσουν περαιτέρω την τεχνητή νοημοσύνη.

Είναι ένα πολυτροπικό μοντέλο παραμέτρων 7Β που ονομάζεται Helium, εκπαιδευμένο σε κωδικοποιητές κειμένου και ήχου, αλλά το Moshi είναι ομιλία σε ομιλία εγγενώς. Μπορεί να τρέξει σε GPU Nvidia, Apple’s Metal ή CPU.

Τι θα γίνει μετά με τον Μόσι;

Moshi Keynote – Kyutai – YouTube

Moshi Keynote - Kyutai - YouTube

Παρακολουθήστε On

Ο Kyutai ελπίζει ότι η υποστήριξη της κοινότητας θα χρησιμοποιηθεί για την ενίσχυση της βάσης γνώσεων και της πραγματικότητας του Moshi. Αυτά έχουν περιοριστεί επειδή είναι ένα ελαφρύ βασικό μοντέλο, αλλά ελπίζουμε ότι η επέκταση αυτών των πτυχών σε συνδυασμό με την εγγενή ομιλία θα δημιουργήσει έναν ισχυρό βοηθό.

Το επόμενο στάδιο είναι η περαιτέρω βελτίωση του μοντέλου και η κλιμάκωσή του ώστε να επιτραπούν πιο περίπλοκες και μακροσκελείς

συνομιλίες

με τον Moshi.

Χρησιμοποιώντας το και παρακολουθώντας τις επιδείξεις, το βρήκα απίστευτα γρήγορο και ανταποκρίνεται για το πρώτο λεπτό περίπου, αλλά όσο περισσότερο συνεχίζεται η συζήτηση τόσο πιο ασυνάρτητη γίνεται. Η έλλειψη γνώσης του είναι επίσης προφανής και αν το επικαλέσετε ότι έκανε ένα λάθος, αναστατώνεται και πηγαίνει σε ένα βρόχο “Λυπάμαι, συγγνώμη, συγγνώμη.”

Αυτό δεν είναι ακόμη άμεσος ανταγωνιστής της προηγμένης φωνής GPT-4o του OpenAI, παρόλο που η προηγμένη φωνή δεν είναι προς το παρόν διαθέσιμη. Ωστόσο, η

προσφορά

ενός ανοιχτού, τοπικού μοντέλου που έχει τη δυνατότητα να λειτουργεί με τον ίδιο τρόπο είναι ένα σημαντικό βήμα προς τα εμπρός για την ανάπτυξη AI ανοιχτού κώδικα.

Περισσότερα από το Tom’s Guide

Επισ

τροφή

στο MacBook Air

Φορτώστε περισσότερες προσφορές

VIA:

TomsGuide.com

Προηγούμενο άρθρο

Κυνηγώντας το Τρόπαιο: Η Αγωνία της Awkwafina

Ανταγωνισμός στην τεχνολογία φωνητικών βοηθών: Ο αντίπαλος του GPT-4 από το Moshi Chat

Τι

είναι το Moshi Chat;

Τι θα γίνει μετά με τον Μόσι;

Περισσότερα από το Tom’s Guide

Νέο εργαλείο από την Cloudflare για αποκλεισμό bots AI δωρεάν

Η αντιγραφή της Apple: Η επίδραση του Figma AI Design

Η αλήθεια πίσω από το Machine Learning: Η αληθινή Τεχνητή Νοημοσύνη vs. η παγίδα της εξαπάτησης ML

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

Ακύρωση απάντησης

Most Popular

Έρχεται η Huawei P70 series και είναι πολύ μακριά από τον ανταγωνισμό

Ανάπτυξη εφαρμογών Android ενισχυμένη με την τεχνητή νοημοσύνη του Google Gemini

Εφαρμογή του gov.gr κατά της ακρίβειας για σύγκριση τιμών

Greek Live Channels και Live Streaming – Πως να παρακολουθείς δωρεάν Live Αγώνες

Last Articles

Κυνηγώντας το Τρόπαιο: Η Αγωνία της Awkwafina

Ρεκόρ διακινήσεων για το Google Photos στο Play Store

Ο ιδανικός φορητός υπολογιστής της Dell για όλη την οικογένεια στα 300 $

Συμφωνία 14 εκατομμυρίων δολαρίων της Microsoft για διακρίσεις στην Καλιφόρνια

Ανταγωνισμός στην τεχνολογία φωνητικών βοηθών: Ο αντίπαλος του GPT-4 από το Moshi Chat

Τι είναι το Moshi Chat;

Τι θα γίνει μετά με τον Μόσι;

Περισσότερα από το Tom’s Guide

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ Ακύρωση απάντησης

Most Popular

Last Articles

Τι

είναι το Moshi Chat;

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

Ακύρωση απάντησης