Αρχική






news





Η χρηματοδότηση του Data Lakehouse Onehouse: Τα 35 εκατομμύρια για την αξιοποίηση…

Η χρηματοδότηση του Data Lakehouse Onehouse: Τα 35 εκατομμύρια για την αξιοποίηση της επανάστασης του GenAI





Αυτές τις μέρες μετά βίας μπορείς να περάσεις μια ώρα χωρίς να διαβάσεις για τη γενετική τεχνητή νοημοσύνη. Ενώ βρισκόμαστε ακόμη στην εμβρυϊκή φάση του τι

κάποιοι έχουν μεταγλωττίσει

η «ατμομηχανή» της τέταρτης βιομηχανικής επανάστασης, δεν υπάρχει αμφιβολία ότι η «GenAI» διαμορφώνεται για να μεταμορφώσει σχεδόν κάθε κλάδο — από τη χρηματοδότηση και την υγειονομική περίθαλψη μέχρι τη νομοθεσία και πέρα ​​από αυτήν.

Οι καλές εφαρμογές που απευθύνονται στους χρήστες μπορεί να προσελκύουν το μεγαλύτερο μέρος της φανφάρας, αλλά οι εταιρείες που τροφοδοτούν αυτήν την επανάσταση επωφελούνται αυτήν τη στιγμή περισσότερο. Μόλις αυτόν τον μήνα, η εταιρεία κατασκευής τσιπ Nvidia

εν συντομία έγινε

η πιο πολύτιμη εταιρεία στον κόσμο, ένας τζιχαντέρ 3,3 τρισεκατομμυρίων δολαρίων που οδηγείται ουσιαστικά από τη ζήτηση για υπολογιστική ισχύ AI.


Αλλά εκτός από τις GPU (μονάδες επεξεργασίας γραφικών), οι επιχειρήσεις χρειάζονται επίσης υποδομή για τη διαχείριση της ροής δεδομένων — για αποθήκευση, επεξεργασία, εκπαίδευση, ανάλυση και, τελικά, ξεκλείδωμα του πλήρους δυναμικού της τεχνητής νοημοσύνης.

Μια εταιρεία που θέλει να επωφεληθεί από αυτό είναι

Onehouse

μια τρίχρονη καλιφορνέζικη startup που ιδρύθηκε από

Βινόθ Τσαντάρ

ο οποίος δημιούργησε τον ανοιχτό κώδικα

Απάτσι Χούντι

έργο ενώ υπηρετούσε ως αρχιτέκτονας δεδομένων στην Uber. Το Hudi φέρνει τα οφέλη του

αποθήκες δεδομένων

προς την

λίμνες δεδομένων

δημιουργώντας αυτό που έχει γίνει γνωστό ως “data lakehouse”, επιτρέποντας την υποστήριξη για ενέργειες όπως η δημιουργία ευρετηρίου και η εκτέλεση ερωτημάτων σε πραγματικό χρόνο σε μεγάλα σύνολα δεδομένων, είτε πρόκειται για δομημένα, μη δομημένα ή ημιδομημένα δεδομένα.

Για παράδειγμα, μια εταιρεία ηλεκτρονικού εμπορίου που συλλέγει συνεχώς δεδομένα πελατών που εκτείνονται σε παραγγελίες, σχόλια και σχετικές ψηφιακές αλληλεπιδράσεις θα χρειαστεί ένα σύστημα για να απορροφήσει όλα αυτά τα δεδομένα και να διασφαλίσει ότι είναι ενημερωμένα, κάτι που θα μπορούσε να τη βοηθήσει να προτείνει προϊόντα με βάση τις δραστηριότητα. Το Hudi επιτρέπει την απορρόφηση δεδομένων από διάφορες πηγές με ελάχιστο λανθάνοντα χρόνο, με υποστήριξη για διαγραφή, ενημέρωση και εισαγωγή (“upsert”), κάτι που είναι ζωτικής σημασίας για τέτοιες περιπτώσεις χρήσης δεδομένων σε πραγματικό χρόνο.

Το Onehouse βασίζεται σε αυτό με ένα πλήρως διαχειριζόμενο lakehouse δεδομένων που βοηθά τις εταιρείες να αναπτύξουν το Hudi. Ή, όπως το θέτει ο Chandar, «ξεκινά την απορρόφηση και την τυποποίηση δεδομένων σε ανοιχτές μορφές δεδομένων» που μπορούν να χρησιμοποιηθούν με σχεδόν όλα τα κύρια εργαλεία στην επιστήμη των δεδομένων, την τεχνητή νοημοσύνη και τα οικοσυστήματα μηχανικής μάθησης.

«Το Onehouse αφαιρεί τη δημιουργία υποδομής δεδομένων χαμηλού επιπέδου, βοηθώντας τις εταιρείες τεχνητής νοημοσύνης να επικεντρωθούν στα μοντέλα τους», δήλωσε ο Chandar στο TechCrunch.

Σήμερα, η Onehouse ανακοίνωσε ότι συγκέντρωσε 35 εκατομμύρια δολάρια σε ένα γύρο χρηματοδότησης της Σειράς Β καθώς φέρνει δύο νέα προϊόντα στην αγορά για να βελτιώσει την απόδοση της Hudi και να μειώσει το κόστος αποθήκευσης και επεξεργασίας στο

.

Κάτω στο (data) lakehouse

Διαφήμιση Onehouse στον πίνακα διαφημίσεων του

υ.

Συντελεστές εικόνας:

Onehouse

Ο Chandar δημιούργησε το Hudi ως εσωτερικό έργο εντός της Uber το 2016 και από τότε που η εταιρεία μετακίνησης

δώρισε το έργο

στο Ίδρυμα Apache το 2019, Hudi

έχει υιοθετηθεί

από το

όπως η Amazon

Disney και Walmart.

Ο Chandar άφησε την Uber το 2019 και, μετά από μια σύντομη θητεία στην Confluent, ίδρυσε την Onehouse. Η startup εμφανίστηκε από μυστικότητα το 2022 με χρηματοδότηση 8 εκατομμυρίων δολαρίων, και ακολούθησε αμέσως μετά με μια σειρά 25 εκατομμυρίων δολαρίων Series A. Και οι δύο γύροι συνοδηγήθηκαν από τους Greylock Partners και Addition.

Αυτές οι εταιρείες VC ένωσαν ξανά τις δυνάμεις τους για τη συνέχεια της Series B, αν και αυτή τη φορά, η Craft Ventures του

οδηγεί τον γύρο.

«Το data lakehouse γίνεται γρήγορα η τυπική αρχιτεκτονική για οργανισμούς που θέλουν να συγκεντρώσουν τα δεδομένα τους για να τροφοδοτήσουν νέες υπηρεσίες όπως ανάλυση σε πραγματικό χρόνο, προγνωστικό ML και GenAI», δήλωσε ο συνεργάτης της Craft Ventures, Michael Robinson.

Για το πλαίσιο, οι αποθήκες δεδομένων και οι

δεδομένων είναι παρόμοιες με τον τρόπο που χρησιμεύουν ως κεντρικός χώρος αποθήκευσης για τη συγκέντρωση δεδομένων. Αλλά το κάνουν με διαφορετικούς τρόπους: Μια αποθήκη δεδομένων είναι ιδανική για επεξεργασία και αναζήτηση ιστορικών, δομημένων δεδομένων, ενώ οι λίμνες δεδομένων έχουν αναδειχθεί ως μια πιο ευέλικτη εναλλακτική για την αποθήκευση τεράστιων ποσοτήτων ακατέργαστων δεδομένων στην αρχική τους μορφή, με υποστήριξη για πολλούς τύπους δεδομένα και ερωτήματα υψηλής απόδοσης.

Αυτό καθιστά τις λίμνες δεδομένων ιδανικές για φόρτους εργασίας τεχνητής νοημοσύνης και μηχανικής εκμάθησης, καθώς είναι φθηνότερο να αποθηκεύονται προ-μετασχηματισμένα ακατέργαστα δεδομένα και, ταυτόχρονα, να υποστηρίζονται πιο σύνθετα ερωτήματα, επειδή τα δεδομένα μπορούν να αποθηκευτούν στην αρχική τους μορφή.

Ωστόσο, η αντιστάθμιση είναι ένα εντελώς νέο σύνολο πολυπλοκοτήτων διαχείρισης δεδομένων, το οποίο κινδυνεύει να επιδεινώσει την ποιότητα των δεδομένων δεδομένης της τεράστιας ποικιλίας τύπων και μορφών δεδομένων. Αυτό είναι εν μέρει αυτό που η Hudi σκοπεύει να λύσει φέρνοντας ορισμένα βασικά χαρακτηριστικά των αποθηκών δεδομένων σε λίμνες δεδομένων, όπως π.χ.

ACID συναλλαγές

για την υποστήριξη της ακεραιότητας και της αξιοπιστίας των δεδομένων, καθώς και για τη βελτίωση της διαχείρισης μεταδεδομένων για πιο διαφορετικά σύνολα δεδομένων.

Διαμόρφωση αγωγών δεδομένων στο Onehouse
Διαμόρφωση αγωγών δεδομένων στο Onehouse.

Συντελεστές εικόνας:

Onehouse

Επειδή είναι έργο ανοιχτού κώδικα, κάθε εταιρεία μπορεί να αναπτύξει το Hudi. Μια γρήγορη ματιά στα λογότυπα στον ιστότοπο της Onehouse αποκαλύπτει μερικούς εντυπωσιακούς χρήστες: AWS, Google, Tencent, Disney, Walmart, ByteDance, Uber και Huawei, για να αναφέρουμε μια χούφτα. Αλλά το γεγονός ότι τέτοιες μεγάλες εταιρείες αξιοποιούν εσωτερικά το Hudi είναι ενδεικτικό της προσπάθειας και των πόρων που απαιτούνται για την κατασκευή του ως μέρος μιας εσωτερικής εγκατάστασης δεδομένων lakehouse.

«Ενώ η Hudi παρέχει πλούσια λειτουργικότητα για την απορρόφηση, τη διαχείριση και τη μετατροπή δεδομένων, οι εταιρείες πρέπει ακόμα να ενσωματώσουν περίπου μισή ντουζίνα εργαλεία ανοιχτού κώδικα για να επιτύχουν τους στόχους τους για ένα lakehouse δεδομένων ποιότητας παραγωγής», είπε ο Chandar.

Αυτός είναι ο λόγος για τον οποίο το Onehouse προσφέρει μια πλήρως διαχειριζόμενη, εγγενή στο cloud πλατφόρμα που απορροφά, μετασχηματίζει και βελτιστοποιεί τα δεδομένα σε ένα κλάσμα του χρόνου.

«Οι χρήστες μπορούν να θέσουν σε λειτουργία ένα ανοιχτό lakehouse δεδομένων σε λιγότερο από μία ώρα, με ευρεία διαλειτουργικότητα με όλες τις μεγάλες εγγενείς υπηρεσίες cloud, αποθήκες και μηχανές λιμνών δεδομένων», είπε ο Chandar.

Η εταιρεία ήταν διστακτική για να κατονομάσει τους εμπορικούς πελάτες της, εκτός από το ζευγάρι που ήταν καταχωρημένο

Οι περιπτωσιολογικές μελέτες

όπως ο Ινδικός μονόκερος Άπνα.

«Ως νέα εταιρεία, δεν κοινοποιούμε δημόσια ολόκληρη τη λίστα εμπορικών πελατών της Onehouse αυτήν τη στιγμή», είπε ο Chandar.

Με νέα 35 εκατομμύρια δολάρια στην τράπεζα, η Onehouse επεκτείνει τώρα την πλατφόρμα της με ένα δωρεάν εργαλείο που ονομάζεται Onehouse LakeView, το οποίο παρέχει παρατηρησιμότητα στη λειτουργικότητα του lakehouse για πληροφορίες σχετικά με στατιστικά πίνακα, τάσεις, μεγέθη αρχείων, ιστορικό χρονοδιαγράμματος και πολλά άλλα. Αυτό βασίζεται σε υπάρχουσες μετρήσεις παρατηρησιμότητας που παρέχονται από το βασικό έργο Hudi, δίνοντας επιπλέον πλαίσιο για τον φόρτο εργασίας.

«Χωρίς το LakeView, οι χρήστες πρέπει να αφιερώσουν πολύ χρόνο ερμηνεύοντας μετρήσεις και να κατανοήσουν βαθιά ολόκληρη τη στοίβα για να προκαλέσουν βασικά προβλήματα απόδοσης ή αναποτελεσματικότητα στη διαμόρφωση του αγωγού», είπε ο Chandar. “Το LakeView αυτοματοποιεί αυτό και παρέχει ειδοποιήσεις μέσω email για καλές ή κακές τάσεις, επισημαίνοντας τις ανάγκες διαχείρισης δεδομένων για τη βελτίωση της απόδοσης των ερωτημάτων.”

Επιπλέον, η Onehouse παρουσιάζει επίσης ένα νέο προϊόν που ονομάζεται Table Optimizer, μια διαχειριζόμενη υπηρεσία cloud που βελτιστοποιεί τους υπάρχοντες πίνακες για να επιταχύνει την απορρόφηση και τη μετατροπή δεδομένων.

«Ανοιχτό και διαλειτουργικό»

Δεν πρέπει να αγνοήσουμε τους μυριάδες άλλους μεγάλους παίκτες στον χώρο. Οι Databricks και Snowflake αυξάνονται

αγκαλιάζοντας το παράδειγμα του lakehouse

: Νωρίτερα αυτό το μήνα,

Τα Databricks φέρονται να εξαντλήθηκαν

1 δισεκατομμύριο δολάρια για την απόκτηση μιας εταιρείας που ονομάζεται Tabular, με σκοπό τη δημιουργία ενός κοινού προτύπου lakehouse.

Το Onehouse έχει μπει σίγουρα σε έναν καυτό χώρο, αλλά ελπίζει ότι η εστίασή του σε ένα «ανοιχτό και διαλειτουργικό» σύστημα που διευκολύνει την αποφυγή του κλειδώματος πωλητή θα το βοηθήσει να αντέξει στη δοκιμασία του χρόνου. Είναι ουσιαστικά υποσχόμενη τη δυνατότητα δημιουργίας ενός μόνο αντιγράφου δεδομένων καθολικά προσβάσιμο από σχεδόν οπουδήποτε, συμπεριλαμβανομένων των εγγενών υπηρεσιών Databricks, Snowflake, Cloudera και AWS, χωρίς να χρειάζεται να δημιουργηθούν ξεχωριστά σιλό δεδομένων σε καθεμία.

Όπως και με τη Nvidia στο πεδίο της GPU, δεν πρέπει να αγνοήσουμε τις ευκαιρίες που περιμένουν οποιαδήποτε εταιρεία στον χώρο διαχείρισης δεδομένων. Τα δεδομένα είναι ο ακρογωνιαίος λίθος της ανάπτυξης της τεχνητής νοημοσύνης και η έλλειψη επαρκών δεδομένων καλής ποιότητας είναι ένας σημαντικός λόγος

γιατί πολλά έργα τεχνητής νοημοσύνης αποτυγχάνουν

. Αλλά ακόμα και όταν τα δεδομένα υπάρχουν σε bucketloads, οι εταιρείες εξακολουθούν να χρειάζονται την υποδομή για να απορροφήσουν, να μετασχηματίσουν και να τυποποιηθούν ώστε να είναι χρήσιμα. Αυτό είναι

για το Onehouse και τους ομοίους του.

«Από την πλευρά της διαχείρισης και επεξεργασίας δεδομένων, πιστεύω ότι τα ποιοτικά δεδομένα που παρέχονται από μια σταθερή βάση υποδομής δεδομένων θα διαδραματίσουν κρίσιμο ρόλο στην εισαγωγή αυτών των έργων τεχνητής νοημοσύνης σε πραγματικές περιπτώσεις χρήσης παραγωγής — για να αποφευχθεί η εισροή/σκουπίδια έξω προβλήματα δεδομένων», είπε ο Τσαντάρ. «Αρχίζουμε να βλέπουμε τέτοια ζήτηση σε χρήστες data lakehouse, καθώς αγωνίζονται να κλιμακώσουν τις ανάγκες επεξεργασίας δεδομένων και ερωτημάτων για τη δημιουργία αυτών των νεότερων εφαρμογών τεχνητής νοημοσύνης σε δεδομένα εταιρικής κλίμακας».

VIA:

techcrunch.com








Marizas Dimitris


Marizas Dimitris

TechWar.GR — Ειδήσεις Τεχνολογίας, Gadgets, Ψυχαγωγία


Αφοσιωμένος λάτρης κινητών Samsung, ο Δημήτρης έχει εξελίξει μια ιδιαίτερη σχέση με τα προϊόντα της εταιρίας, εκτιμώντας τον σχεδιασμό, την απόδοση και την καινοτομία που προσφέρουν. Γράφοντας και διαβάζοντας τεχνολογικά νέα από όλο τον κόσμο.

ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ


Ακύρωση απάντησης



εισάγετε το σχόλιό σας!

παρακαλώ εισάγετε το όνομά σας εδώ