Ένα νέο μοντέλο τεχνητής νοημοσύνης της κινεζικής εταιρείας DeepSeek χρησιμοποιεί τεχνικές που, σύμφωνα με ερευνητές, μπορούν να βελτιώσουν καθοριστικά την ικανότητα των συστημάτων να «θυμούνται».
Το μοντέλο οπτικής αναγνώρισης χαρακτήρων (OCR) που κυκλοφόρησε πρόσφατα λειτουργεί εξάγοντας κείμενο από μια εικόνα και μετατρέποντάς το σε λέξεις που μπορούν να αναγνωστούν από μηχανή. Είναι η ίδια τεχνολογία που χρησιμοποιείται σε εφαρμογές σάρωσης, μετάφραση κειμένου σε φωτογραφίες και πολλά εργαλεία προσβασιμότητας.
Το OCR είναι ήδη ένας ώριμος τομέας, με υψηλές επιδόσεις εδώ και χρόνια. Όμως το ενδιαφέρον με το μοντέλο της DeepSeek σύμφωνα με τους ειδικούς, δεν αφορά μόνο την ακρίβεια της OCR λειτουργίας, αλλά κυρίως τον τρόπο που το σύστημα αποθηκεύει και ανακαλεί πληροφορίες, αναφέρει το MIT Technology Review. Η βελτίωση του τρόπου με τον οποίο τα μοντέλα ΑΙ «θυμούνται» πληροφορίες θα μπορούσε να μειώσει την υπολογιστική ισχύ που χρειάζονται για να λειτουργήσουν, με αποτέλεσμα να μετριαστεί το μεγάλο (και αυξανόμενο) αποτύπωμα άνθρακα της τεχνητής νοημοσύνης.
Σαν να φωτογραφίζει σελίδες από βιβλίο
Σήμερα, τα περισσότερα μεγάλα γλωσσικά μοντέλα «σπάνε» το κείμενο σε χιλιάδες μικρές μονάδες που ονομάζονται tokens, προκειμένου να το μετατρέψουν σε αναπαραστάσεις που μπορούν να κατανοήσουν. Όμως όσο μια συνομιλία με έναν χρήστη γίνεται όλο και μακρύτερη, οι υπολογιστικές απαιτήσεις για να διατηρηθούν αυτά τα tokens αυξάνονται δραματικά. Αυτό μπορεί να κάνει το ΑΙ να ξεχάσει πράγματα που έχουν ειπωθεί και να μπερδέψει τις πληροφορίες, οδηγώντας στο πρόβλημα που αποκαλείται «context rot» (αποσύνθεση του πλαισίου συζήτησης).
Η νέα μέθοδος της DeepSeek προτείνει μια άλλη προσέγγιση: την αποθήκευση γραπτών πληροφοριών σε μορφή εικόνων, σχεδόν σαν να φωτογραφίζει σελίδες από βιβλίο. Αυτό επιτρέπει στο μοντέλο να διατηρεί σχεδόν τις ίδιες πληροφορίες, χρησιμοποιώντας πολύ λιγότερα tokens.
Οι ερευνητές περιγράφουν επίσης μια μορφή «ιεραρχικής συμπίεσης», που δεν διαφέρει από τον τρόπο με τον οποίο ξεθωριάζουν οι ανθρώπινες αναμνήσεις: το παλαιότερο ή λιγότερο κρίσιμο περιεχόμενο αποθηκεύεται σε μια ελαφρώς πιο «θολή» μορφή, προκειμένου να εξοικονομηθεί χώρος.
Η τεχνική μπορεί επίσης να χρησιμοποιηθεί για την παραγωγή περισσότερων δεδομένων εκπαίδευσης για μοντέλα τεχνητής νοημοσύνης. Οι προγραμματιστές μοντέλων αντιμετωπίζουν αυτή τη στιγμή σοβαρή έλλειψη ποιοτικού κειμένου για την εκπαίδευση των συστημάτων. Ωστόσο, το OCR της DeepSeek μπορεί να παράγει άνω των 200.000 σελίδων δεδομένων εκπαίδευσης την ημέρα σε μία μόνο GPU (μονάδα επεξεργασίας γραφικών).
Η DeepSeek, με έδρα το Χανγκζού της Κίνας, έχει αποκτήσει τη φήμη ότι σπρώχνει την έρευνα γύρω από την τεχνητή νοημοσύνη στα όριά της. Στις αρχές του χρόνου συγκλόνισε τον κλάδο με την κυκλοφορία του DeepSeek-R1, ενός συλλογιστικού μοντέλου ανοιχτού κώδικα που ανταγωνιζόταν τα κορυφαία δυτικά συστήματα σε απόδοση, παρά το γεγονός ότι χρησιμοποιούσε πολύ λιγότερους υπολογιστικούς πόρους.









