
Extending the 3D XML benchmark : adding the data dimension

Sultan Qaboos University
English abstract
XML benchmarks are tools used for measuring and evaluating the performance of new XML developments such as XML/RDBMS/00 mapping techniques and XML storages. The 3D XML benchmark (3D~XBench) extends the existing XML benchmarks by offering a mechanism to measure the impact of varying three characteristics (dimensions) of the underlying XML dataset: the size (number of nodes), the breadth (fanouts), and the depth (number of levels in the XML tree). The evaluation process is then done by executing pre-defined query-set over the benchmark's dataset members where the performance of the new development is compared against the performance of some existing techniques. Yet, none of the existing XML benchmarks seems to directly investigate the effect of sought data location on the query performance. This research is a step towards covering that aspect by investigating the rationale of adding the Data Dimension (DD) to the 3D-XBench testable features. For this, a new set of queries was added to the query-set of the 3D~XBench to test the effect of changing the location of the sought records. To evaluate the consequence of the new extension, the evaluation process of the 3D XML Benchmark was re-executed after formulating a new set of XQuery's to be added to the existing one. The entire new query-set is aimed to measure the effect of the sought data location on the query performance over different query type and mapping techniques using different XML database categories. The experimental results show that the Data Dimension (DD) has a sensible influence on the query elapsed time with respect of database structure (depth, breadth, size) and query categories. Also the performance of different mapping approaches (single vs. multiple) have produced different results for the same XQuery types when executed over different portions of each XML database. This implied that the added DD functionality should be well considered during any XML evaluation process, and thus DD can form the 4th dimension in the 3DX~Bench Benchmark. Finally, a further research can be carried out in this direction by investigating the effectiveness of the new extension on the Native XML databases management systems. This can be done by repeating what was done on the extended 3D XML benchmark to benchmark of the Native XML systems.
Arabic abstract
تعتبر معايير اختبار قواعد بيانات الأكس أم أل (XML Benchmarks) عبارة عن أدوات يتم من خلالها تقييم أداء التطويرات العلمية الجديدة التي تتم في هذا المجال والتي من أمثلتها طرق استخدام قواعد البيانات الجدولية والشيئية في تخزين ومعالجة البيانات المتوفرة في صيغة الأكس أم أل(XML). ويعتبر المعيار الثلاثي الأبعاد لإختبار قواعد بيانات الأكس أم أل ( 3D - XBench ) هو امتداد وتحسين للمعايير التي سبقته من خلال توفيره لإمكانية يتم من خلالها قياس تأثير ثلاث خصائص (أبعاد) رئيسية لذلك النوع من قواعد البيانات: بعد الحجم يقاس بعدد العناصر المدخلة)، العرض (يقاس بمتوسط عدد الأبناء لكل عنصر في القاعدة)، والعمق (يقاس بعدد المستويات المتداخلة في القاعدة). حيث تتم طريقة استخدام المعيار بعد ذلك بتشغيل مجموعة محددة من الإستعلامات (queries) لإستخلاص معلومات معينة من مجموعة قواعد بيانات يمثل كل منها خاصية أو أكثر من الخصائص الثلاثة المذكورة أعلاه، وتسجيل الوقت الذي يستغرقه كل استعلام حتى يعطي النتائج النهائية ليتم بعد ذلك التحكيم بين أفضلية الطرق المقارنة (compared XML techniques) وذلك من خلال مقارنة الوقت المستغرق لأكبر عدد ونوع من الاستعلامات المستخدمة في العملية.
ومن خلال الإطلاع على الدراسات السابقة في هذا المجال والمعايير المتوفرة لم يتبين لدينا وجود معیار معين تعرض لدراسة خاصية "تأثير موقع البيانات المستهدفة من قبل الإستعلام" على أداء الإستعلام نفسه. لذا، فإن هذه الدراسة تعد الأولى من نوعها التي تحاول أن تضيف تلك الخاصية الجديدة إلى مجموع الخصائص التي يوفرها المعيار الثلاثي الأبعاد ( 3D - XBench )؛ حيث تم إطلاق مسمى خاصية "بعد البيانات على الخاصية الجديدة. ونتيجة لتلك الإضافة التي طرأت على بنية المعيار فقد تم إضافة مجموعة إستعلامات جديدة إلى المجموعة التي تتوفر
مسبقا في البيئة التشغيلية للمعيار تمت برمجتها أساسا لإختبار مدى تأثير "بعد البيانات" على عملية إجراء الاستعلام
وللتحقق من مدى فاعلية الإضافة التي جرت على بنية المعيار الثلاثي الأبعاد (XBench-30)، فقد تم القيام بإجراء عملية تقييم للمعيار مع مواصفاته الجديدة بنفس الطريقة التي تم بها تقييم المعيار الأصلي قبل التطوير، وذلك من خلال إجراء تجربة عملية تم فيها استخدام نظامين يمثلان طرق تخزين بيانات الأكس أم أل في برامج قواعد البيانات الجدولية ( XML / RDBMS Mapping) ومقارنتهما باستخدام المعيار المطور حسب الوصف أعلاه. حيث أشارت نتائج التجربة أن عملية إضافة "بعد البيانات" إلى عملية المقارنة مع الأبعاد الثلاثة الأصلية، كان لها تأثير واضح على الوقت الذي يستغرقة إجراء كل استعلام. أيضا أوضحت النتائج أن أداء نوع النظام المستخدم في تخزين بيانات الأكس أم أل ( XML / RDBMS Mapping) يتأثر بالبعد الجديد، مما يعني أن البعد الجديد (أي بعد البيانات Data dimension) يمكن أن يشكل فرقا في جميع عمليات المقارنة وبالتالي يمكن أن يكون جزء من خصائص المعيار المذكور. وأخيرا، أوصت الدراسة إلى أنه يمكن إجراء المزيد من التجارب حول تأثير التطوير الجديد للمعيار الثلاثي الأبعاد ( 3D - XBench ) على عملية تقييم الأنظمة من خلال قياس تأثر متغيرات أخرى غير الوقت مثل CPU Usage و Memory Consumption و IO - Operations . كما يمكن إعادة إجراء عملية تقييم المعيار المستخدم في هذه الدراسة على أنظمة معالجة بيانات الأكس أم أل في بيئتها الأصلية (Native XML Techniques).
