Η Alibaba έχει
αποκάλυψε τον σχεδιασμό του κέντρου δεδομένων του
για την εκπαίδευση LLM, η οποία προφανώς αποτελείται από ένα δίκτυο που βασίζεται σε Ethernet στο οποίο κάθε κεντρικός υπολογιστής περιέχει οκτώ GPU και εννέα NIC που η καθεμία έχει δύο θύρες 200 GB/sec.
Ο τεχνολογικός γίγαντας, ο οποίος προσφέρει επίσης ένα από τα καλύτερα μοντέλα μεγάλων γλωσσών (LLM) μέσω του
μοντέλο
υ Qwen, εκπαιδευμένο σε 110 δισεκατομμύρια παραμέτρους, λέει ότι αυτό το σχέδιο έχει χρησιμοποιηθεί στην παραγωγή για οκτώ μήνες και στοχεύει στη μεγιστοποίηση της χρήσης μιας GPU. Οι δυνατότητες PCIe αυξάνουν την ικανότητα αποστολής/λήψης του δικτύου.
Ένα άλλο χαρακτηριστικό που αυξάνει την
ταχύτητα
είναι η χρήση του NVlink για το δίκτυο εντός του κεντρικού υπολογιστή που παρέχει περισσότερο εύρος ζώνης μεταξύ των κεντρικών υπολογιστών. Κάθε θύρα στα NIC συνδέεται με διαφορετικό διακόπτη top-of-rack αποφεύγοντας ένα μόνο σημείο αστοχίας, μια σχεδίαση που η Alibaba αποκαλεί βελτιστοποιημένη για τις ράγες.
Κάθε pod περιέχει
15
.000 GPU
Απαιτείται ένας νέος τύπος δικτύου επειδή τα μοτίβα κίνησης στην εκπαίδευση LLM διαφέρουν από το γενικό υπολογιστικό νέφος λόγω χαμηλής εντροπίας και έντονης κίνησης. Υπάρχει επίσης μεγαλύτερη ευαισθησία σε σφάλματα και αστοχίες ενός σημείου.
“Με βάση τα μοναδικά χαρακτηριστικά της εκπαίδευσης LLM, αποφασίσαμε να δημιουργήσουμε μια νέα αρχιτεκτονική δικτύου ειδικά για την εκπαίδευση LLM. Θα πρέπει να εκπληρώσουμε τους ακόλουθους στόχους: επεκτασιμότητα, υψηλή
απόδοση
και ανοχή σφαλμάτων ενός ToR”, δήλωσε η εταιρεία.
Ένα άλλο κομμάτι της υποδομής που αποκαλύφθηκε ήταν ο μηχανισμός ψύξης. Καθώς κανένας πωλητής δεν μπορούσε να δώσει λύση για να διατηρήσει τα τσιπ κάτω από τους 105 C, τη
θερμοκρασία
στην οποία οι διακόπτες αρχίζουν να κλείνουν, η Alibaba σχεδίασε και δημιούργησε τη δική της ψύκτρα θαλάμου ατμού μαζί με τη χρήση περισσότερων κακών πυλώνων στο κέντρο των τσιπ που μεταφέρουν τη θερμότητα πιο αποτελεσματικά.
Ο σχεδιασμός για την εκπαίδευση LLM είναι ενσωματωμένος σε pods που περιέχουν 15.000 GPU και κάθε pod μπορεί να βρίσκεται σε ένα μόνο κέντρο δεδομένων. “Όλα τα κτίρια κέντρων δεδομένων σε λειτουργία στο Alibaba Cloud έχουν συνολικό περιορισμό ισχύος 18 MW και ένα κτίριο 18 MW μπορεί να φιλοξενήσει περίπου 15 K GPU. Σε συνδυασμό με το HPN, κάθε κτίριο στεγάζει τέλεια ένα ολόκληρο Pod, κάνοντας κυρίαρχους συνδέσμους μέσα στο ίδιο κτίριο.” έγραψε η Alibaba.
Η Alibaba έγραψε επίσης ότι αναμένει ότι οι παράμετροι του μοντέλου θα συνεχίσουν να αυξάνονται κατά τάξη μεγέθους τα επόμενα χρόνια από ένα τρισεκατομμύριο σε 10 τρισεκατομμύρια παραμέτρους και ότι η νέα αρχιτεκτονική της σχεδιάζεται να μπορεί να το υποστηρίξει και να αυξηθεί σε κλίμακα 100.000 GPU .
Μέσω
Το Μητρώο
VIA:
TechRadar.com/

0