A study of Arabic recognition accuracy using a fully diacritized corpus (Bukhari corpus)
Sultan Qaboos University
English abstract
The thesis focuses on the study of speech recognition for the Arabic language. The aim is to emphasize the importance of using a fully diacritized' Arabic corpus in Arabic speech recognition systems rather than a Romanized one. To achieve this aim a sample corpus of an old Arabic book called Sahih Al-Bukhari, was used. The sample corpus contains a fully diacritized Arabic text of the sayings of Prophet Mohammed, PBUH", and that is the reason, therefore, that it was chosen for the study. For its analysis, the study used an open source speech recognition engine called Sphinx 3 which is free, and is readily available online for researchers with all its documentation. After comparing the accuracy of the Arabic speech recognition system using the two types of Arabic corpuses -- Fully diacritized and Romanized text -- the study showed that better accuracy was achieved with fully diacritized Arabic corpus. This conclusion can be used as a first step towards finding other solutions for the challenges facing Arabic speech recognition, to encourage researchers to develop more studies in the Arabic speech recognition field, and to build more corpuses of Arabic language using old diacritic Arabic books. The findings of this study will also hopefully encourage Arab speaking universities to take more interest in establishing Arabic language resource centers that will provide more digital data, both audio and text, to be used in the studies of Arabic speech and text processing
Member of
Resource URL
Arabic abstract
سپهتم هذا المشروع في دراسة نظام التعرف الآلي على الكلام باللغة العربية، الهدف من هذا المشروع هو التأكيد على أهمية استخدام ذخيرة لغوية عربية مشكلة بالكامل في أجهزة التعرف الآلي على الكلام بدلا من استخدام ذخيرة عربية بحروف انجليزية، تم تحقيق هذا الهدف عن طريق تطوير ذخيرة لغوية تجريبية مبسطة عن طريق استخدام المحتوى اللغوي لكتاب من التراث العربي أسمه (صحيح البخاري) ولأول مرة، حيث يحتوي الكتاب على كلمات مشكلة بالكامل لكلام الرسول محمد (صلالله عليه وسلم )، تم استخدام الذخيرة اللغوية هذه التجربة اداء ودقة نظام ومحرك (سفينكس النسخة الثالثة) للتعرف الآلى على الكلام، وقد تم اختيار هذا المحرك للتجربة لتوفره مجانا للتنزيل مع كامل ملفاته التعليمية، لقد تم التوصيل عن طريق مقارنة دقة نظام التعرف الألى على الكلام العربي باستخدام النوعين المذكورين من الذخائر اللغوية أن استخدام الذخيرة اللغوية المشكلة بالكامل تعطي نتائج أفضل من الأخرى التي تم تجربتها في دراسات سابقة، هذه الخلاصة يمكن استخدامها كنقطة انطلاقة لايجاد المزيد من الحلول المشاكل التعرف الالي على الكلام العربي و التشجيع وتحفيز الباحثين في هذا المجال لعمل دراسات أكثر في هذا المجال ولتطوير ذخائر لغوية عربية مشكلة أكثر باستخدام كتب التراث العربي القديمة المشكلة بالكامل، بالإضافة الى ذلك فإن هذه الخلاصة يمكن أن تستخدم لتحفيز جامعات الدول العربية لتأسيس مراكز لتطوير وتوفير مصادر اللغة العربية لإضافة محتوى رقمي أكبر للغة العربية (نصا، وصوتا) لإستخدامها في دراسات برمجة الكلام والنص العربي.
Theses and Dissertations