Bibliographic Metadata

Title
ReadingBee Projekt: DNN-ASR für Bildungsanwendungen
Additional Titles
The ReadingBee Project: Using DNNs to Provide ASR for Educational Applications
AuthorEnsor, Alice
Thesis advisorSchefer-Wenzl, Sigrid
Published2018
Date of SubmissionAugust 2018
LanguageEnglish
Document typeBachelor Thesis
Keywords (DE)Artificial Neural Network / Automatic Speech Recognition / Acoustic Model / Activation Functions / Backpropagation / Convolutional Neural Network / Cost Functions / Child Speech / Deep Neural Networks / Education Applications / Feedforward Neural Networks / Gradient Descent / Hidden Markov Model / Language Model / Long Short-Term Memory / Multilayer Perceptrons / N-Language Model / Open-Source Deep Learning Tools / Recurrent Neural Networks / Rectified Linear Unit / Vocal Activity Detection / Vocal Tract Length Normalization / Word Error Rate
Keywords (EN)Artificial Neural Network / Automatic Speech Recognition / Acoustic Model / Activation Functions / Backpropagation / Convolutional Neural Network / Cost Functions / Child Speech / Deep Neural Networks / Education Applications / Feedforward Neural Networks / Gradient Descent / Hidden Markov Model / Language Model / Long Short-Term Memory / Multilayer Perceptrons / N-Language Model / Open-Source Deep Learning Tools / Recurrent Neural Networks / Rectified Linear Unit / Vocal Activity Detection / Vocal Tract Length Normalization / Word Error Rate
Restriction-Information
 _
Classification
Abstract (German)

Das Hauptziel dieses Bachelorprojekts ist die Ausbildung und Entwicklung eines tiefgründigen neuronalen Netzes (DNN), das auf einer bewährten, tiefgründigen Architektur basiert. Dieses trainierte Modell kann später die Google Cloud Speech API ersetzen, die derzeit von der ReadingBee-Anwendung für die automatische Spracherkennung (Automatic Speech Recognition, ASR) verwendet wird. Die ReadingBee-Anwendung ist eine Lern-App, die entwickelt wurde, um Kindern mit Leseschwierigkeiten zu helfen. Es wurde zuvor im Rahmen eines Wahlprojekts entwickelt. Dieses aktuelle Projekt zielt darauf ab, es zu erweitern, indem die Anwendung mit einem eigenen, speziell trainierten DNN-basierten ASR-System versehen wird, so dass es mit den einzigartigen Eigenschaften von Kinderstimmen umgehen kann. Andere Gründe für diese gewünschte Anpassung umfassen die Notwendigkeit, viele der Nachteile der Google Cloud Speech API einschließlich der hohen Latenzzeiten und Kosten zu lindern. Es wäre auch vorzuziehen, ein DNN-ASR-Modell zu haben, das direkt auf mobilen Geräten implementiert werden kann, so dass es auch ohne Internetverbindung eine Inferenz durchführen kann.

Zu diesem Zweck verwendet dieses Modell das DeepSpeech-Projekt von Mozilla, das eine Implementierung von Baidus bewährter ASR-Architektur auf TensorFlow darstellt. Dieses System wird dann anhand von Proben trainiert, die aus der Zielgruppe von ReadingBee gesammelt wurden, Proben, die speziell für Deep-Learning-Zwecke verarbeitet wurden. Darüber hinaus wird ein benutzerdefiniertes N-Gram-Sprachmodell basierend auf dem ReadseBee-Transkript konfiguriert, um die Genauigkeit der ASR zu erhöhen. Um auf ihre Wirksamkeit zuzugreifen, wird jedes konfigurierte Modell dann auf seine Wortfehlerrate (Worer Error Rate, WER) getestet, indem eine Inferenz unter Verwendung speziell vorbereiteter Test-Audiodateien durchgeführt wird. Die gleichen Methoden werden für die Google Cloud Speech-API zu Vergleichszwecken verwendet. All dies wird mit Hilfe von Open-Source-Tools und Bibliotheken durchgeführt, um zu demonstrieren, dass jeder Pädagoge mit ein wenig Programmier-Know-how DNN-basierte ASR für Bildungszwecke entwickeln kann.

Ursprünglich war es auch geplant, TensorFlow Lite und die Neural Network API (NNAPI) von Android zu verwenden, um den trainierten DNN direkt auf mobilen Geräten zu laden, um von der ReadingBee App verwendet zu werden. Dies ist jedoch aufgrund von Inkonsistenzen zwischen DeepSpeech und TensorFlow Lite. Diese On-the-Device-Implementierung sowie die weitere Optimierung des ASR-Modells werden als zukünftige Arbeit für das ReadingBee-Projekt gesehen.

Abstract (English)

This bachelor project’s primary purpose is to train and develop a speech-to-text Deep Neural Network (DNN) based on a proven deep-learning architecture. This trained model can later replace the Google Cloud Speech API which is currently used by the ReadingBee application for Automatic Speech Recognition (ASR). The ReadingBee application is an educational reading app developed to help children with reading difficulties. It was developed previously as part of an elective project. This current project aims to extend it by providing the application with its own custom-trained DNN-based ASR system, so that it can handle the unique characteristics of children’s voices. Other reasons for this desired adaptation include the need to alleviate many of the drawbacks of the Google Cloud Speech API including the high latency time and cost. It would also be preferable to have a DNN-ASR model that can be implemented directly on mobile devices so that it can perform inference even without an internet connection.

To do this, this model uses Mozilla’s DeepSpeech Project, which is an implementation of Baidu’s proven deep-learning ASR architecture on TensorFlow. This system is then trained using samples collected from ReadingBee’s target population, samples which have been especially processed for deep-learning purposes. Furthermore, a custom-made N-Gram language model based off ReadingBee’s transcript will be configured to help increase the ASR’s accuracy. To access their effectiveness, each configured model will be then tested for their Word Error Rate (WER) by performing inference using specially prepared testing audio files. The same methods will be used for the Google Cloud Speech API, for comparison purposes. All this will be done using only open-source tools and libraries, to demonstrate that any educator with a little bit of programming know-how can develop DNN-based ASR for educational purposes.

Originally, it was also planned to use TensorFlow Lite and Android’s Neural Network API (NNAPI) to load the trained DNN directly on mobile devices to be used by the ReadingBee app, but that is not possible at this time because of library inconsistencies between DeepSpeech and TensorFlow Lite. This on-the-device implementation, as well as further optimization of the ASR model, is seen as future work for the ReadingBee project.