Document

Recommendation sustem for restructuring websites by mining user access logs using path traversal patterns al gorithms.

Publisher
Sultan Qaboos University
Gregorian
2015
Language
English
English abstract
The continuous growth in the size and contents of web pages has led to increase the complexity in dealing with the information in a website. The implication of this growth results in having some popular pages being buried deep in the website hierarchy such that users by-pass several other pages before reaching the target page. As a consequence, users find it difficult to access the desired information in a simple and time-saving manner. Thus, developers have to manually reorganize their websites to provide users with highly demanded pages. Web mining offers great contributions to address users' difficulties and assist developers in restructuring their websites. Many research efforts have been conducted to extract useful information from a given website using its contents, structure and user access patterns. This research aims to propose and evaluate a recommendation system that mines user access log file to suggest efficient website restructuring. The raw data of user access log has been prepared and preprocessed using data preprocessing techniques (data cleaning, user and session identification, path completion) in order to be ready for the analysis by the proposed recommendation system to extract user access patterns for a given website. The proposed recommendation system is based on the existing recommendation system FTPW which stands for Frequency & Time based Page Weight algorithm. FTPW algorithm assigned a quantitative weight for each page in user access log by computing three parameters (frequency, time spent on page, page rank value). The frequency and time spent on page was computed from the analysis, of user access log. The standard page rank algorithm was used to measure the page rank value. It analyzed the hyperlink structure of a website and it stated that a page is important or popular if it has more incoming links. It gives static rank values in which the popular page tends to be popular. The proposed recommendation system modified the page rank algorithm that was used by FTPW through using number of visits instead of number of incoming links to a page. The experimental results and evaluation show that when using number of visits instead of number of incoming links, not always the page which has many number of incoming links is important. The importance of a page varies according to users' behavior. Thus, the suggested page rank algorithm gives dynamic results unlike static results in the standard page rank algorithm. The proposed recommendation system assigns quantitative weight to a page using (time spent on page and the value of the suggested page rank algorithm). Also, it considers the depth or level of website hierarchy as a parameter. Therefore, the pages which gain high weight value and are located at higher depth (level 3 or above) can be recommended for restructuring process of a website. The proposed recommendation system will improve the accessibility and reachability to highly demanded pages using a short-cut links to the recommended pages.
Arabic abstract
يؤدي النمو المتواصل لأحجام صفحات الانترنت ومحتوياتها الى زيادة التعقيد في التعامل مع المعلومات الموجودة في المواقع الإلكترونية. كما يؤدي هذا النمو المتزايد إلى وجود بعض الصفحات المهمة للمستخدم في عمق هيكلة أو بنية الموقع مما خلق صعوبة في كيفية الوصول السريع إلى هذه الصفحات المهمة بحيث أن المستخدمين يمرون بصفحات أخرى قبل الوصول إلى الصفحات المنشودة. و كنتيجة لهذا النمو المتسارع يواجه المستخدمون صعوبة في الوصول مباشرة إلى الصفحات المطلوبة بصورة سهلة وسريعة في نفس الوقت. ولذلك وجب على المطورين اعادة هيكلة هذه المواقع يدويا لتزويد المستخدمين بالصفحات الأكثر أهمية الحاجتهم.
توفر الشبكة العنكبوتية معلومات خام يمكن من خلالها إيجاد حلول مناسبة لمثل هذه المشكله هذه المعلومات الخام يمكن استغلالها في مجال تعدين البيانات لتقديم حلول مناسبة تساعد المختصين او المطورين في اعادة هيكلة مواقعهم الإلكترونية و بالتالي تسهل عملية الوصول لهذه الصفحات من قبل المستخدمين. وفي هذا الإطار، أجريت العديد من الجهود البحثية لاستخراج معلومات مفيدة عن الصفحات الأكثر أهمية للمستخدمين من موقع محدد عن طريق استخدام و تحلیل محتوياته، والهيكل العام للموقع وأنماط دخول المستخدم أيضا. تهدف هذه الدراسة إلى تطوير و تقييم نظام توصيات لإعادة هيكلة المواقع الإلكترونية بكفاءة والذي يهدف إلى تعدين البيانات الخام المتوفرة في ملفات سجل وصول المستخدمين الموجودة في الخادم المستضيف للموقع. قبل البدء في تطبيق الخوارزمية المقترحة، يجب أن تكون البيانات الخام المستخلصة من سجل وصول المستخدمين معالجه و ذات جاهزية بحيث يمكن التعامل معها و الإنتفاع منها لأستخراج معلومات قيمة متعلقة بالصفحات المهمة للمستخدم و من ثم تحليل أنماط المستخدمين و تحديد و استخراج الصفحات الأكثر أهمية المستخدمين التي يوصي بها لإعادة هيكلة الموقع. نظام التوصيات المقترح مبني على خوازمية سابقة و التي تدعي ب (FTPW algorithm). تمثلت آلية عمل نظام التوصيات السابق بإيجاد وزن کمي لكل صفحة مدونة في سجل وصول المستخدمين و ذلك بحساب الوقت المستغرق في كل صفحة و عدد الزيارات في الصفحة المستخرجة من سجل وصول المستخدمين. وايضا حساب قيمة رتبة الصفحة باستخدام خوارزمية رتبة الصفحه (page rank algorithm) الذي يعتبر سر نجاح شركة جوجل و الذي يتمثل بتحليل الروابط التشعبية القادمة للصفحة (استخدام الهيكل العام للموقع ) و الذي ينص بأن الصفحة التي تملك أكثر روابط تشعبية قادمة لها تكسب أكثر رتبة أو أهمية. اشارات النتائج السابقة الخوارزمية رتبة الصفحة بان الصفحات الأكثر أهمية تبقى أكثر أهمية بسبب ثبات الروابط التشعبية (بناءا على الهيكل العام للموقع). كذالك تم استخدام البنية الهيكلية للصفحة (عمق الصفحة) لتحديد الصفحات التي بحاجة إلى إعادة هيلكه. على سبيل المثال، إذا كانت الصفحة تملك وزن كمي كبير و موجودة في المستوى الأول لهيكلة الموقع ، فهذه الصفحة ليست بحاجة لإعادة هيكلة. بينما العكس اذا كانت الصفحة تملك وزن کمي كبير و تقع في عمق هيكلة الموقع، فهذي الصفحة بحاجة لإعادة هيكلة نظام التوصيات المقترح ركز على استخدام الزيارات الفعلية للصفحة عوضا عن الروابط التشعبية لقياس رتبة الصفحة بعد ذلك تم تقييم و مقارنة نتائج نظام التوصيات المقترح بالخوارزمية الموجوده مسبقا و تشير النتائج بأنه عند استخدام الزيارات الفعلية الصفحة ليس دائما الصفحات التي تملك أكبر عدد من الروابط التشعبية القادمة! ليها هي الأكثر أهمية، حيث تقاس الأهمية للصفحة حسب عدد الزيارات الصفحة بغض النظر كم عدد الروابط التشعبية القادمة للصفحة و الذي يضمن نتائج ديناميكية في قياس رتبة الصفحة بعكس النتائج الثابتة في خوارزمية رتبة الصفحة الأساسية (السابقه). يعمل النظام المقترح على تحسين امكانية الوصول إلى الخدمات والمعلومات المطلوبة في موقع محدد و ذلك من خلال عمل روابط مختصرة للصفحات التي اوصى بها نظام التوصيات المقترح.
Category
Theses and Dissertations