Αναρωτηθήκατε ποτέ πώς τα ρομπότ μπορούσαν να κάνουν πλοήγηση σαν έμπειρους επαγγελματίες; Το πείραμα Gemini AI της Google ασχολείται με αυτό με στυλ και εξυπνάδα!
Το πείραμα Gemini AI της Google επικεντρώθηκε στον εξοπλισμό ρομπότ με βελτιωμένες ικανότητες πλοήγησης χρησιμοποιώντας το σύστημα Gemini 1.
5
Pro. Αυτό το σύστημα διακρίνεται από την ικανότητά του να επεξεργάζεται μια τεράστια ποσότητα πληροφοριών με βάση τα συμφραζόμενα —μέχρι 1 εκατομμύριο διακριτικά— επιτρέποντας στα ρομπότ να ερμηνεύουν και να χρησιμοποιούν αποτελεσματικά ανθρώπινες οδηγίες, περιηγήσεις βίντεο και διάφορες εισόδους πολλαπλών μέσων για πλοήγηση.
Το πιο κρίσιμο χαρακτηριστικό του συστήματος Gemini 1.5 Pro είναι η ικανότητά του να χειρίζεται ένα τεράστιο μήκος περιβάλλοντος, το οποίο επιτρέπει στα ρομπότ να διατηρούν και να χρησιμοποιούν λεπτομερείς χωρικές πληροφορίες για εκτεταμένες περιόδους. Αυτή η δυνατότητα είναι ζωτικής σημασίας για την πλοήγηση σε πολύπλοκα και δυναμικά περιβάλλοντα χωρίς παραδοσιακές λύσεις χαρτογράφησης.
Πώς μπορεί το μακρύ παράθυρο περιβάλλοντος του Gemini 1.5 Pro να βοηθήσει τα ρομπότ να πλοηγηθούν στον κόσμο; 🤖
Ένα νήμα από τα τελευταία μας πειράματα. 🧵
pic.twitter.com/ZRQqQDEw98
— Google DeepMind (@GoogleDeepMind)
11 Ιουλίου 2024
Κατά τη διάρκεια του πειράματος, τα ρομπότ έλαβαν οδηγίες μέσω πολλαπλών αισθητηριακών καναλιών:
-
Ανθρώπινες οδηγίες
: Καθαρίστε λεκτικές εντολές και περιγραφικές ενδείξεις που καθοδηγούν τα ρομπότ σε συγκεκριμένες τοποθεσίες εντός ενός καθορισμένου χώρου. -
Περιηγήσεις βίντεο
: Οπτικές αναπαρασ
τάσεις
του περιβάλλοντος, που βοηθούν τα ρομπότ να δημιουργήσουν έναν νοητικό χάρτη και να κατανοήσουν τις χωρικές σχέσεις. -
Σκίτσα χαρτών και ηχητικές αναφορές
: Πρόσθετες ενδείξεις παρέχονται μέσω σκίτσων χαρτών σε λευκούς πίνακες, ηχητικών οδηγιών που αναφέρονται σε βασικές τοποθεσίες και οπτικών δεικτών όπως παιχνίδια ή κουτιά στρατηγικά τοποθετημένα στο περιβάλλον.
Το πείραμα διεξήχθη σε μια πραγματική επιχειρησιακή περιοχή που εκτείνεται σε πάνω από 9000 τετραγωνικά πόδια. Μέσα σε αυτόν τον χώρο, τα ρομπότ είχαν την αποστολή να εκτελούν ένα ευρύ φάσμα 57 συγκεκριμένων εργασιών. Αυτές οι εργασίες περιλάμβαναν διάφορες ενέργειες και λειτουργίες που απαιτούσαν από τα ρομπότ να πλοηγούνται αυτόνομα και αποτελεσματικά με βάση τις εισόδους που παρέχονται.
Πραγματοποιήσαμε τα ρομπότ σε μια περιήγηση σε συγκεκριμένες περιοχές σε ένα πραγματικό περιβάλλον, τονίζοντας βασικά μέρη που πρέπει να θυμηθούμε – όπως το “γραφείο του Lewis” ή “προσωρινό γραφείο”. Στη συνέχεια, τους ζητήθηκε να μας οδηγήσουν σε αυτές τις τοποθεσίες. 🏢
Δείτε περισσότερα. ↓
pic.twitter.com/Sptm6q31CL
— Google DeepMind (@GoogleDeepMind)
11 Ιουλίου 2024
Επιδόσεις και ποσοστό επιτυχίας των ρομπότ Gemini
Σύμφωνα με την Google
ευρήματα
, τα ρομπότ με δυνατότητα Gemini πέτυχαν ένα εντυπωσιακό ποσοστό επιτυχίας 90% στις 57 εργασίες που είχαν ανατεθεί. Αυτό το υψηλό ποσοστό επιτυχίας υπογραμμίζει την αποτελεσματικότητα του συστήματος Gemini 1.5 Pro στην ενίσχυση της αυτονομίας του ρομπότ και της λειτουργικής αποτελεσματικότητας σε πολύπλοκα περιβάλλοντα.
Πίσω από τις σκηνές, το σύστημα AI Gemini επεξεργάζεται τις
πολυ
τροπικές εισόδους που λαμβάνονται από το περιβάλλον. Δημιουργεί τοπολογικά γραφήματα—μια απλοποιημένη αναπαράσταση της χωρικής
συνδεσιμότητα
ς που βασίζεται σε καρέ βίντεο και οδηγίες με βάση τα συμφραζόμενα. Αυτά τα γραφήματα χρησιμεύουν ως χάρτες πλοήγησης που καθοδηγούν τα ρομπότ σε πραγματικό χρόνο, επιτρέποντάς τους να πλοηγούνται χωρίς την ανάγκη συνεχών εξωτερικών ενημερώσεων χαρτογράφησης.
Χ
ρειάζεστε μια ανακεφαλαίωση;
Η Google χρησιμοποιεί Gemini AI για να εκπαιδεύσει τα ρομπότ της για βελτιωμένη πλοήγηση και ολοκλήρωση εργασιών. Τα ρομπότ μπορούν να επεξεργάζονται εκτενείς πληροφορίες με το εκτεταμένο παράθυρο περιβάλλοντος του Gemini 1.5 Pro, επιτρέποντάς τους να ανταποκρίνονται σε οδηγίες φυσικής γλώσσας πιο αποτελεσματικά. Γυρίζοντας περιηγήσεις βίντεο σε περιβάλλοντα όπως σπίτια ή γραφεία, οι ερευνητές διδάσκουν στα ρομπότ να κατανοούν το περιβάλλον τους. Τα ρομπότ, εξοπλισμένα με Gemini, πέτυχαν ποσοστό επιτυχίας 90% σε 50+ εργασίες σε μια περιοχή 9.000+ τετραγωνικών ποδιών. Το Gemini βοηθά επίσης τα ρομπότ να σχεδιάζουν ενέργειες πέρα από την πλοήγηση, όπως να φέρουν φαγητό από το ψυγείο. Ενώ εξακολουθούν να υπάρχουν καθυστερήσεις επεξεργασίας 10–30 δευτερολέπτων ανά εντολή, η Google στοχεύει να προωθήσει περαιτέρω αυτές τις δυνατότητες σε μελλοντική έρευνα.
Πίστωση επιλεγμένης εικόνας:
Google DeepMind/X
VIA:
DataConomy.com

0