Υγεία

Αποκωδικοποιητής δημιουργεί συνθετική ομιλία για ανθρώπους που δεν μιλούν

17:03, 29 Απριλίου 2019

Ερευνητές στις ΗΠΑ δημιούργησαν μια συσκευή που εμφυτεύεται στον εγκέφαλο και αποκωδικοποιεί την εγκεφαλική δραστηριότητα, μετατρέποντας την αυτομάτως σε συνθετική ομιλία. Η νέα καινοτόμος συσκευή, που χρησιμοποιεί μεθόδους τεχνητής νοημοσύνης, υπόσχεται να επιταχύνει και να κάνει πιο φυσική την επικοινωνία μέσω συνθετικής ομιλίας, σε σχέση με ό,τι ήταν εφικτό έως τώρα, δίνοντας έτσι τη δυνατότητα να ακουστεί η (έστω τεχνητή) φωνή ανθρώπων που δεν μπορούν να μιλήσουν, όπως οι παράλυτοι και οι άνθρωποι με νευρολογικές βλάβες.

Η ομιλία φαίνεται απλή, αλλά στην πραγματικότητα είναι ένα από τα πιο πολύπλοκα πράγματα που κάνει ένας άνθρωπος, καθώς απαιτεί τον ακριβή και δυναμικό συντονισμό πολλών μυών της φωνητικής οδού. Πολλοί ασθενείς με νευρολογικές κυρίως παθήσεις (εγκεφαλικό τραύμα, εγκεφαλικό επεισόδιο, Πάρκινσον, πλάγια αμυοτροφική σκλήρυνση κ.α.) χάνουν τη δυνατότητα ομιλίας, όπως ήταν η διάσημη περίπτωση του Βρετανού επιστήμονα Στίβεν Χόκινγκ.

Για να επικοινωνήσουν, αναγκάζονται να εξαρτώνται από συσκευές που χρησιμοποιούν διεπαφές εγκεφάλου-υπολογιστή ή κινήσεις του κεφαλιού και των ματιών, προκειμένου να ελέγχουν έναν κέρσορα και να επιλέγουν γράμματα σε μια οθόνη, με ρυθμό -στην καλύτερη περίπτωση- έως δέκα λέξεις το λεπτό. Όμως η διαδικασία της επικοινωνίας είναι δύσκολη, επιρρεπής σε λάθη και πολύ πιο αργή από τον φυσιολογικό ρυθμό της ανθρώπινης ομιλίας (κατά μέσο όρο 100 ως 150 λέξεις το λεπτό).

Οι ερευνητές, με επικεφαλής τον καθηγητή νευροχειρουργικής Έντουαρντ Τσανγκ του Πανεπιστημίου της Καλιφόρνια στο Σαν Φρανσίσκο, οι οποίοι έκαναν τη σχετική δημοσίευση στο περιοδικό "Nature", ανέπτυξαν μια νέα μέθοδο που -με τη βοήθεια της τεχνικής της βαθιάς μηχανικής μάθησης και των τεχνητών νευρωνικών δικτύων- συνθέτει την ομιλία χρησιμοποιώντας εγκεφαλικά σήματα, τα οποία σχετίζονται με τις κινήσεις των σιαγόνων, του λάρυγγα, των χειλιών και της γλώσσας.

Αρχικά οι επιστήμονες κατέγραψαν με τη βοήθεια ηλεκτροδίων -στο πλαίσιο θεραπείας για επιληψία- τη δραστηριότητα του φλοιού του εγκεφάλου πέντε εθελοντών, καθώς αυτοί μιλούσαν. Με βάση αυτήν την καταγραφή, σχεδίασαν ένα σύστημα, το οποίο σε πρώτη φάση είναι σε θέση να αποκωδικοποιεί μόνο του τα νευρωνικά σήματα που ευθύνονται για τις επιμέρους κινήσεις της φωνητικής οδού. Σε δεύτερο στάδιο, ένας άλλος αλγόριθμος αναλαμβάνει να συνθέσει την ομιλία από αυτές τις αποκωδικοποιημένες κινήσεις.

Οι δοκιμές του αποκωδικοποιητή έδειξαν ότι οι ακροατές μπορούσαν εύκολα να καταλάβουν τη συνθετική ομιλία, παρόλο που αυτή είναι κατώτερη από τη φυσική ομιλία. Αρκετές έρευνες μέχρι σήμερα είχαν χρησιμοποιήσει μεθόδους τεχνητής νοημοσύνης για να «μεταφράσουν» τα εγκεφαλικά σήματα σε ακουστικά, ώστε να συνθέσουν ομιλία. Η νέα έρευνα, που δεν βασίζεται στα «μεταφρασμένα» ακουστικά σήματα, αλλά στη νευρωνική αποκωδικοποίηση των κινήσεων της φωνητικής οδού, φαίνεται να είναι πιο αποτελεσματική.

«Για πρώτη φορά δείξαμε ότι μπορούμε να αναδημιουργήσουμε ολόκληρες προτάσεις ομιλίας με βάση την εγκεφαλική δραστηριότητα ενός ατόμου. Έχουμε πια την τεχνολογία για να φτιάξουμε μια συσκευή που θα αξιοποιηθεί κλινικά για ασθενείς με απώλεια της ομιλίας τους», δήλωσε ο Τσανγκ.

Πάντως η συσκευή χρειάζεται ακόμη βελτίωση, προτού καταστεί δυνατό να αξιοποιηθεί κλινικά. Το μέλλον θα δείξει κατά πόσο είναι εφικτή αυτή η βελτίωση, ώστε η συνθετική ομιλία να πλησιάσει σε απόδοση τη φυσική. Επίσης μια μελλοντική πρόκληση αφορά εκείνους τους ανθρώπους που δεν έχουν χάσει μόνο τη φωνή τους, αλλά και την ικανότητα να παράγουν στη φωνητική οδό τους τις κινήσεις που σχετίζονται με την ομιλία τους.