Document

Design and evaluation of a parallel DNA multiple sequence alignment (MSA) al gorithm

Publisher
Sultan Qaboos University
Gregorian
2015
Language
English
English abstract
ABSTRACT Multiple sequence alignment (MSA) is an essential procedure conducted in any study that compares biological sequences (DNA, RNA and protein). A variety of tasks in molecular biology, computational biology and bioinformatics depend on sequence alignment, and its quality affects the downstream analysis. The challenge in computing sequence alignments is the tradeoff between quality (i.e. accuracy) and efficiency. A variety of MSA methods have been developed and their main drawback is that the inore time-efficient the method, the lower is the accuracy of the produced alignment. Methods that produce accurate sequence alignments, known as exact algorithms, tend to have very high computational complexities and are impractical for aligning large number of sequences. Due to the significance of MSA accuracy in many biological studies and the insufficient accuracy of available MSA methods, there is a genuine need to develop a time-efficient solution that produces accurate MSA. One way to improve the efficiency of accurate methods is to deploy a number of processors working concurrently (in parallel) on the problem to reduce the computation time. In this research, an accurate parallel MSA solution is developed based on an exact pair-wise method: Needleman Wunsch (NW) algorithm. First, the NW algorithm is extended from pair-wise to multiple sequence alignment and then parallel solutions are designed using two well known parallel computing approaches: message passing and shared memory to improve the performance of our extended NW algorithm for MSA. Moreover, we conduct an analytical and experimental performance evaluations of the proposed solutions. The performance evaluation results have shown that the speedup improves substantially as the number of sequences increases. The improvement is higher for higher number of processes up to a certain limit. However, the speedup does not improve with longer sequences because the workload distribution among the processors is done across the number of sequences. Therefore, the designed parallel solutions in this study are efficiently adequate for applications that require aligning a large number of sequences accurately, such as Genome-wide association studies GWASs, using a large number of processors (such as large multicore systems or supercomputers(
Arabic abstract
الخلاصة
ترتيب السلاسل المتعددة أو ما يعرف ب (multiple sequence alignment MSA) هي عملية أساسية يتم تطبيقها في أي دراسة تهدف إلى مقارنة السلاسل البيولوجية (سواء كانت DNA أو RNA أو البروتين). تعتمد العديد من التجارب في علم الأحياء الجزيئي والحوسبي وفي المعلوماتية الحيوية على ترتيب السلاسل، وجودتها تؤثر على العمليات التحليلية اللاحقة التي تتضمنها هذه الحقول العلمية. إن التحدي في حوسبة السلاسل المتعددة يكمن في الموازنة بين كفاءة الأداء والمحافظة على جودة المخرجات. فقد تم تطوير العديد من طرق حوسية ترتيب السلاسل، ووجد أنه كلما زادت كفاءة الأداء تصبح الجودة (أي دقة ترتيب السلاسل) أقل، فيسبب ذلك خللا أساسية ومشتركة بين جميع هذه الطرق. تتطلب الطرق التي تعطي ترتيبا عالي الدقة مصادر حوسبية عالية، فتكون غير عملية لعدد كبير من السلاسل البيولوجية. وبسبب أهمية ترتيب السلاسل المتعددة في الكثير من دراسات علم الأحياء إلى جانب النقص في دقة الطرق المتاحة لترتيب السلاسل المتعددة فإن هناك حاجة ملحة إلى تطوير حل ذي كفاءة أداء عالية ينتج ترتيب سلاسل دقيقة. إحدى وسائل تحسين أداء هذه الطرق الدقيقة هي توظيف عدد من المعالجات التي تعمل بشكل متواز لإيجاد ترتيب السلاسل المتعددة وتقليص الوقت اللازم للحساب. في هذا البحث تم تطوير حل ذي كفاءة أداء عالية لإيجاد ترتيب السلاسل المتعددة MSA باستخدام الحوسبة المتوازية (parallel computing) وهو يعتمد على خوارزمية دقيقة لإيجاد ترتيب الزوج من السلاسل تعرف بخوارزمية Wunch- Needleman. أولا: قمت بتعميم خوارزمية Wunch- Needleman من ترتيب زوج واحد إلى عدد أكبر من السلاسل ومن ثم صمم حلولا ذات كفاءة أداء عالية باستخدام منهجين معروفين في الحوسبة المتوازية، وهما: تبادل الرسائل (message passing) والذاكرة المشتركة (shared memory)، وذلك لتحسين نسختنا المعممة من خوارزمية Wunch- Needleman علاوة على ذلك تم إجراء تقييم أداء تجريبي وتحليلي للحلول المقترحة. وأظهرت نتائج التقييم أن تسارع الأداء تحسن بشكل كبير بزيادة عدد السلاسل. هذا التحسن يزداد كلما زاد عدد المعالجات، ولكن إلى حد معين. مع ذلك لم يتحسن تسارع الأداء مع سلاسل أطول تتطلب ترتيبا دقيقا لعدد كبير من السلاسل. على سبيل المثال: دراسات الترابط الجيني ( Genome - wide association studies)- والتي تستخدم مع ذلك عددا كبيرا من المعالجات كالأنظمة متعددة النوى (multicore systems) أو الحواسيب فائقة السرعة (supercomputers).
Category
Theses and Dissertations

Same Subject

Theses and Dissertations
0
0
Al-Maqbaliyah, Manar Mohammed Awadh.
Sultan Qaboos University.
2021
Theses and Dissertations
2
0
Al-Sawafi, Mubarak Mohammed Said
Sultan Qaboos University
2003