وثيقة
Speaker recognition system for telephone lines.
الناشر
Sultan Qaboos University
ميلادي
2012
اللغة
الأنجليزية
الملخص الإنجليزي
Speaker recognition is a biometric modality that uses an individual's voice for the recognition purposes. The whole process relies on features influenced by both the physical structure of a person's vocal tract and the behavioural characteristics of individual speakers. A speaker recognition system typically consists of two main parts: feature extraction part and pattern matching part.
There are many applications that can make use of speaker recognition systems. Remote authentication using phone lines can be one of the popular applications for speaker recognition. The most crucial obstacle affecting the remote authentication through phone lines is the voice data clarity. Phone lines introduce random noise to speech data and hence making it difficult to correctly identify the speakers.
In this project, several experiments were conducted for the purpose of speaker identification, particularly for noisy data. The system was tested mainly with two publicly available speech databases: TIMIT and NTIMIT, TIMIT data was used twice; as a clear data and as a noisy data after adding fixed values of SNR. The techniques this project focuses on when it comes to feature extraction are MFCC and DCT-Cepstrum Histogram. In terms of pattern matching techniques, this project is concerned with GMM.
The speaker selection in this project was done in two manners: alphabetically and randomly. Moreover, detailed testing was done to obtain the optimal set of parameters in order to get the highest identification efficiency. That was done by fine-tuning three main parameters; number of Gaussians, number of Iterations and number of the Cepstral coefficients.
This thesis introduces the use of historical speech files in the speaker identification testing phase. Usage of one historical speech file achieved an identificati of 85% with a population size of 400 speakers from the NTIMIT. Increasing the number of re-used speech files to two increased the efficiency for the same population size to 96%.
المجموعة
URL المصدر
الملخص العربي
إن عملية التعرف الآلي على المتحدث تعتبر مقياس حيوي يستخدم صوت الفرد بهدف التعريف به وتمييزه. العملية برمتها تعتمد على ميزات وخصائص تتأثر بالتركيب التشريحي للمسالك الصوتيه بالإضافه للخصائص السلوكية للأفراد. ونظام التعرف الآلي على المتحدث يتكون من قسمين أو مرحلتين أساسيتين: مرحلة استخلاص المميزات ومرحلة توافق الأنماط هناك العديد من التطبيقات العملية التي قد تستفيد من عمليات التعرف الآلي للمتحدثين. وتعتبر عملية التثبت من الأشخاص عن بعد باستخدام أسلاك الهاتف واحده من اكثر هذه التطبيقات شيوعا. أكبر عقبة قد تواجه هذا التطبيق هي درجة الوضوح في الملفات الصوتية التي تنقلها أسلاك الهاتف. فمن المعروف أن خطوط الهاتف تعمل على إدخال ضجيج عشوائي على الملفات الصوتية التي تنقلها الأسلاك مما قد يجعل عملية التعرف الآلي على المتحدث ليست بالعملية السهلة في هذا المشروع تم إجراء العديد من تجارب التعرف الآلي على المتحدث باستخدام ملفات صوتية متأثرة بضجيج على وجه الخصوص. لقد تم اختبار النظام بشكل أساسي باستخدام نوعين من قواعد البيانات المعروفه وهما TIMIT و NTIMIT. الملفات الصوتيه من النوع TIMIT تم استخدامها مرتين: كملفات صوتية واضحة وخالية من الضجيج، ومرة أخرى بعد اضافة ضجيج بقيم ثابتة من SNR بالنسبة لتقنيات استخلاص البيانات فقد تم التركيز في هذا البحث على تقنيتين وهما تقنية MFCC وتقنية DCT - Cepstum Histogram.
أما بالنسبة لتقنيات توافق الأنماط فقد تم استخدام تقنية واحدة وهي GMM. تم اختيار المتحدثين من قواعد البيانات المستخدمة في هذا البحث بطريقتين مختلفتين: طريقة الإختيار الأبجدي وطريقة الإختيار العشوائي. كما وتم القيام باختبارات مفصله بغرض الوصول للمعاملات التي تحقق أعلى كفاءه للنظام وقد شمل ذلك ثلاثة معاملات أساسية وهي عدد المركبات العشوائية وعدد الدورات في مرحلة تمييز الأنماط وعدد معاملات تمثيل الطيف في مرحلة استخلاص المميزات .
هذا البحث يقدم طريقة جديده في عملية التعريف الآلي على المتحدثين وذلك عن طريق اعادة استخدام ملفات صوتيه تم استخدامها في مرحلة توافق الأنماط وتكوين نموذج خاص لكل متحدث. أن إعادة استخدام ملف صوتي واحد الى جانب اثنين من الملفات الصوتية الجديدة حقق نسبة كفاءة تعريف تصل الى 85% مع استخدام قاعدة البيانات NTIMIT من 4۰۰ متحدث بينما وصلت نسبة الكفاءة الى 96% عندما تم إعادة استخدام اثنين من الملفات الصوتية.
أما بالنسبة لتقنيات توافق الأنماط فقد تم استخدام تقنية واحدة وهي GMM. تم اختيار المتحدثين من قواعد البيانات المستخدمة في هذا البحث بطريقتين مختلفتين: طريقة الإختيار الأبجدي وطريقة الإختيار العشوائي. كما وتم القيام باختبارات مفصله بغرض الوصول للمعاملات التي تحقق أعلى كفاءه للنظام وقد شمل ذلك ثلاثة معاملات أساسية وهي عدد المركبات العشوائية وعدد الدورات في مرحلة تمييز الأنماط وعدد معاملات تمثيل الطيف في مرحلة استخلاص المميزات .
هذا البحث يقدم طريقة جديده في عملية التعريف الآلي على المتحدثين وذلك عن طريق اعادة استخدام ملفات صوتيه تم استخدامها في مرحلة توافق الأنماط وتكوين نموذج خاص لكل متحدث. أن إعادة استخدام ملف صوتي واحد الى جانب اثنين من الملفات الصوتية الجديدة حقق نسبة كفاءة تعريف تصل الى 85% مع استخدام قاعدة البيانات NTIMIT من 4۰۰ متحدث بينما وصلت نسبة الكفاءة الى 96% عندما تم إعادة استخدام اثنين من الملفات الصوتية.
قالب العنصر
الرسائل والأطروحات الجامعية