وثيقة
Predicting deleterious single nucleotide polymorphism (SNPs) using machine learning
الناشر
Sultan Qaboos University
ميلادي
2016
اللغة
الأنجليزية
الملخص الإنجليزي
DNA mutations are an important source of human genome variability. Single Nucleotide Polymorphisins (SNP) are changes in DNA sequence that are present in more than one percent of the population. DNA comprises of two region coding DNA and noncoding DNA. Coding DNA is sopecifically referring to DNA that encodes proteins. However, much of DNA does not encode proteins that is called junk DNA. Nonsynonymous SNP must fall inside coding region of the DNA that changes the protein sequence. SNP may cause alteration in protein function, protein stability and causes future health consequences. Most of the SNPs doesn't have any effects or functions within the organism, and some others have side effects on our body such as the changes in the appearance of the cell, shape or color.
During the last decade, over 3 billion of nucleotides from human genomes have been released which is accompanied with other data from the HapMAP consortium and the human variation project which allow identifying tens of millions of SNPs in different regions. Current database of Single nucleotide polymorphisms (dbSNP) is the most comprehensive database of genetic variability; it contains about 51.8 million $NP depending on the position and occurrence.
Computer tools manipulate and analyze SNP effect. A predictor tool classifies the effect of SNP which cause disease or which lead normal effect. There are three main type of tools: sequence based tool, structure based tool and both. Sequence based tools analyze and manipulate using features that are extracted from a sequence amino acid for instance Sift, Panther and other. Structure based tools analyze and manipulate using feature that are extracted from three dimensional structure of protein. The third type uses both protein sequence and protein structure so it gathers strong point from both side such as SNP&GO and Polyphen2. However most of tools utilize one classification machine learning algorithm to predicts the SNP effect on protein function, This research implements a new prediction tool which classifies the effect of non synonymous SNP as disease or neutral SNP. It utilizes three well known machine learning algorithms to classify the effect of coding SNP: Support vector inachine, random forest and artificial neural network. Then, it ensembles these machine learning algorithms by two ensembles techniques: the greedy best selection and stacking ensemble. Then, it evaluates the prediction tool using distinct performance scores accuracy, sensitivity, and specificity. Finally, the prediction tools are compared with other study; and the experiments show that our prediction obtains better performance.
المجموعة
URL المصدر
الملخص العربي
توقع التأثيرات الضارة للطفرات الجينية تعدد أشكال النوكليوتيدات المفردة باستخدام خوارزميات تعلم الألة من فروع الذكاء الاصطناعي الباحث : صالح بن علي بن محمد الراشدي
ملخص الطفرات الجينية للحمض النووي مصدرا هاما من تغيرات الجينوم البشري. تعدد أشكال النوكليوتيدات المفردة (SNP) هو نوع من الطفرات. تعدد أشكال النوكليوتيدات المفردة (SNP) هو تغيير النوكليوتيدات واحد في تسلسل الحمض النووي الذي يتغير في تسلسل الحمض النووي الذي يحدث في أكثر من واحد في المئة من السكان. هو قد يسبب تغييرا في وظيفة البروتين والاستقرار البروتين ويسبب المرض. كذلك هو قد لا يكون لديها أي تأثير أو تطوير في الجسم. ولكن في بعض الأحيان قد يكون له أثار جانبية في الجسم مثل مظهر الخلية وشكلها أو لونها. خلال السنوات العشر الماضية، أكثر من 3000 مليار جين من النوكليوتيدات من الجينومات البشرية قد أصدرت. و قاعدة البيانات هذه بالاضاقة مع بيانات أخرى من مشروع التباين البشري (MAP) التي سمح لتحديد هوية لعشرات الملايين من النوكليوتيدات المفردة (SNP) في منطقة مختلفة من البروتين. وقاعدة البيانات الحالية من التوكليوتيدات واحد (DBSNP) هي التي اشتملت على عدد كبير من قواعد البيانات عن التباين الوراثي حوالي 51, 8 مليون ,ويعتمد عن مكان وقوعها . وبالتالي نحتاج لأداة حاسوبية تحليلية لاستخدام في تحليل هذه البيانات . أداة تنبؤ تصنف تأثير SNP من التي تسبب المرض أو التي تؤدي إلى تأثير طبيعي. وهناك ثلاث انواع من أدوات التنبؤ رئيسية: أدوات تعتمد على تسلسل البروتين ، و ادوات تعمد على الهيكل البروتين. أدوات تعتمد على الاثنين معي. ادوات التي تعتمد على تسلسل البروتين في تحليل واستخدام المواصفات التي يتم استخراجها من تسلسل الأحماض الأمينية على سبيل المثال Panther, Sift ، وغيرها. أدوات تعمد على الهيكل البروتين في تحليل والتنبؤ تستخدم مواصفات التي تم استخراجها من ثلاثة الأبعاد للبروتين. و ثالث ادوات التنبؤ يستخدم كلا من النوعين الأخرين لذلك يجمع نقطاط القوه من كلا الجانبين مثل GO & SNPS ، Plyphen وغيرها هذا البحث يصمم ويبرمج أداة تنبؤ الجديدة التي تصنف تأثير SNP على انها طبيعي او تأثير مرضي . تأثير طبيعي SNP تكون محايدة حيث يكون عندما لا يؤدي اختلاف في الأحماض الأمينية للمرض في المقابل، مرادفا SNP ليس محايدا عندما يؤدي اختلاف في الأحماض الأمينية للمرض. فإنه يستخدم ثلاثة خوارزميات تعلم الألة المتميزة التصنيف تأثير SNP: دعم آلة ناقلات، أشجار الغابات العشوائية والشبكة العصبية. وبالإضافة إلى ذلك، فإنه الفرق هذه الخوارزميات تعلم الألة من قبل اثنين من التقنيات الفرق: أفضل اختيار الجشع والتراص الفرقة. ثم، فإنه يقيم أداة التنبؤ بها باستخدام معدلات الأداء المتميزة مثل الدقة والحساسية والنوعية وغيرها. وأخيرا، يتم مقارنة الأدوات متنبئ مع دراسة أخرى وأنها تحصل على أداء أفضل.
ملخص الطفرات الجينية للحمض النووي مصدرا هاما من تغيرات الجينوم البشري. تعدد أشكال النوكليوتيدات المفردة (SNP) هو نوع من الطفرات. تعدد أشكال النوكليوتيدات المفردة (SNP) هو تغيير النوكليوتيدات واحد في تسلسل الحمض النووي الذي يتغير في تسلسل الحمض النووي الذي يحدث في أكثر من واحد في المئة من السكان. هو قد يسبب تغييرا في وظيفة البروتين والاستقرار البروتين ويسبب المرض. كذلك هو قد لا يكون لديها أي تأثير أو تطوير في الجسم. ولكن في بعض الأحيان قد يكون له أثار جانبية في الجسم مثل مظهر الخلية وشكلها أو لونها. خلال السنوات العشر الماضية، أكثر من 3000 مليار جين من النوكليوتيدات من الجينومات البشرية قد أصدرت. و قاعدة البيانات هذه بالاضاقة مع بيانات أخرى من مشروع التباين البشري (MAP) التي سمح لتحديد هوية لعشرات الملايين من النوكليوتيدات المفردة (SNP) في منطقة مختلفة من البروتين. وقاعدة البيانات الحالية من التوكليوتيدات واحد (DBSNP) هي التي اشتملت على عدد كبير من قواعد البيانات عن التباين الوراثي حوالي 51, 8 مليون ,ويعتمد عن مكان وقوعها . وبالتالي نحتاج لأداة حاسوبية تحليلية لاستخدام في تحليل هذه البيانات . أداة تنبؤ تصنف تأثير SNP من التي تسبب المرض أو التي تؤدي إلى تأثير طبيعي. وهناك ثلاث انواع من أدوات التنبؤ رئيسية: أدوات تعتمد على تسلسل البروتين ، و ادوات تعمد على الهيكل البروتين. أدوات تعتمد على الاثنين معي. ادوات التي تعتمد على تسلسل البروتين في تحليل واستخدام المواصفات التي يتم استخراجها من تسلسل الأحماض الأمينية على سبيل المثال Panther, Sift ، وغيرها. أدوات تعمد على الهيكل البروتين في تحليل والتنبؤ تستخدم مواصفات التي تم استخراجها من ثلاثة الأبعاد للبروتين. و ثالث ادوات التنبؤ يستخدم كلا من النوعين الأخرين لذلك يجمع نقطاط القوه من كلا الجانبين مثل GO & SNPS ، Plyphen وغيرها هذا البحث يصمم ويبرمج أداة تنبؤ الجديدة التي تصنف تأثير SNP على انها طبيعي او تأثير مرضي . تأثير طبيعي SNP تكون محايدة حيث يكون عندما لا يؤدي اختلاف في الأحماض الأمينية للمرض في المقابل، مرادفا SNP ليس محايدا عندما يؤدي اختلاف في الأحماض الأمينية للمرض. فإنه يستخدم ثلاثة خوارزميات تعلم الألة المتميزة التصنيف تأثير SNP: دعم آلة ناقلات، أشجار الغابات العشوائية والشبكة العصبية. وبالإضافة إلى ذلك، فإنه الفرق هذه الخوارزميات تعلم الألة من قبل اثنين من التقنيات الفرق: أفضل اختيار الجشع والتراص الفرقة. ثم، فإنه يقيم أداة التنبؤ بها باستخدام معدلات الأداء المتميزة مثل الدقة والحساسية والنوعية وغيرها. وأخيرا، يتم مقارنة الأدوات متنبئ مع دراسة أخرى وأنها تحصل على أداء أفضل.
قالب العنصر
الرسائل والأطروحات الجامعية