
Parallel execution methods over PACD XML/RDBMS mapping technique

Due to the recent trends in computer hardware, especially processors, parallel query execution is becoming widely important in modern XML databases. In addition, increasing amount of data and the demand for a fast query processing, the efficiency of database operations continues to be a challenging task. This thesis presents an approach for efficient execution of the XQueries over PACD's environment. This is to use a sort of parallel execution methods. The work done here considered three different methods; Simultaneous Multiple Branch Execution, Partitioned Single-Path Execution and the Hybrid Multiple Branch Execution. The Simultaneous Multiple-Branch Execution method works by dividing the branches among processes to reduce the waiting time produced by executing one branch after the other. The second method is the Partitioned Single Path Execution works over queries that have a single path of sequence of SQL statements. This method divides number of states among processes and these processes will execute their states in parallel and join the result in the end of the query to display the final result. The third method is the Hybrid Multiple-Branch Execution this method will consider combining the earlier two methods when facing queries with long branches. The Simultaneous Multiple-Branch Execution method will be applied on such queries due to the nature of this query (queries with branches). In addition, each branch will be handled by more than one process which will apply the Single-Path Execution method on each branch. This is done to reduce the workload on each braches by dividing the states in each branch among processes, which will be done for all branches, To test these methods, an experiment is conducted using three different databases categories (Wide databases (e.g DBLP), Deep databases (e.g TreeBank) and Average databases (eg XMark)) to measure the effect of the characteristics of the databases on the execution time. This experiment used same query types evaluated by PACD environment to compare the effect of adding the proposed methods on them and on the overall performance of PACD. Applying the proposed methods on different query types over different datasets showed an improvement in the execution time and as a result on the overall performance of PACD, In the future work, more investigation and work can be done on some of the query types that showed unpredicted outcomes to get better results. In addition, some consideration should be taken into account such as memory consumption, CPU usage and I/O operations workload. Also distributing the states among processes were done based on number of states in each query which can be further modified to include the workload into consideration as query optimization solution!
بسبب التطورات المتلاحقة في أجهزة الحاسب الآلي وخاصة المعالجات، أصبح تنفيذ الاستعلام المتوازي (parallel query executions) مهما على نطاق واسع في قواعد بيانات الاكس أم أل (XML DB). إضافة إلى ذلك فإن تزايد حجم البيانات والحاجة الى نظام معالجة استعلام أسرع، أدى إلى زيادة التحديات في مجال أنظمة قواعد البيانات. هذه الرسالة تقدم منهجا لتنفيذ الاستعلامات بفعالية على بيئة PACD مستخدمة في ذلك عدد من أنظمة التنفيذ المتوازي. تناولت هذه الدراسة ثلاث طرق مختلفة لبحث تأثير المعالجة المتزامنة للاستعلام وهي التنفيذ المتزامن للأفرع المتعددة والتنفيذ ذو المسار الواحد المجزا والتنفيذ الهجين للأفرع المتعددة. إن التنفيذ المتزامن للأفرع المتعددة يعمل بتقسيم الفروع على العمليات وذلك لتقليل وقت الانتظار الناتج من تنفيذ فزع واحد بعد الاخر الطريقة الثانية وهي التنفيذ ذو المسار الواحد المجزا يعمل على الاستعلامات ذو مساراتسلسلي واحد للغة الاستعلام الهيكلية (SQL). هذه الطريقة تقسم عددا من المراحل (States بين العمليات (Processes) وتقوم العمليات بتنفيذ هذه المراحل وتضم النتائج الفرعية في نهاية الاستعلام العرض النتيجة النهائية. أما الطريقة الثالثة فهي التنفيذ الهجين المتعدد الأفرع والتي تقوم بدمج الطريقتين السابقتين في حالة وجود استعلامات ذو افرع طويلة. التنفيذ المتزامن للأفرع المتعددة سيتم استخدامه في حالة هذه الاستعلامات وذلك بسبب طبيعة هذه الاستعلامات (استعلامات ذو أفرع). بالإضافة فان كل فرع سيتم التعامل معه باستخدام أكثر من عملية وهي تقوم بإستخدام طريقة المسار الواحد المجزا على كل فرع. يتم ذلك من اجل تخفيف العبء على كل فرع وذلك بتقسيم المراحل في كل فرع على العمليات والذي سيتم في كل الأفرع.
من أجل اختبار تلك الطرق تم القيام بتجربة عملية استخدمت فيها ثلاث قواعد بيانات مختلفة الأبعاد (قاعدة البيانات العريضة (DBLP) قاعدة البيانات العميقة (Treebank وقاعدة البيانات المتوسطة الابعاد (XMark) وذلك من اجل معرفة أثر خصائص قاعدة البيانات على وقت تنفيذ الاستعلام. استخدمت هذه التجربة نفس أنواع الاستعلامات التي استخدمت في عملية تقييم طريقة PACD وذلك لمقارنة أثر إضافة الطرق المقترحة عليها وعلى الأداء العام ل PACD.
أتضح من خلال التجربة أن تطبيق الطرق المقترحة على أنواع مختلفة من الاستعلامات حول قواعد بيانات مختلفة أظهرت تحسنا في وقت التنفيذ وفي الأداء العام ل PACD، ويمكن العمل مستقبلا على بعض أنواع الاستعلامات التي لم تظهر أي تحسن في وقت التنفيذ وذلك من أجل التوصل لنتائج أفضل. كما انه يمكن التطرق إلى تقييم بعض مؤشرات الأداء مثل استهلاك الذاكرة وعبء وحدة المعالجة المركزية وعمليات الادخال والإخراج. إضافة إلى ذلك فإنه يمكن توزيع المراحل على العمليات تم بناءا على عدد من المراحل في كل استعلام والذي يمكن تعديله ليشمل العبء الناتج عن كل مرحلة كحل لتحسين الاستعلام
