Document

Auto discovery of user access patterns on the Web for intelligent search engine.

Publisher
Sultan Qaboos University
Gregorian
2002
Language
English
English abstract
The Internet and particularly its collection of multimedia services known as World Wide Web is rapidly growing. Many Web sites are appearing over a small period of time that puts a strain on the search engines as their technology tries to keep with the growth. The information obtained by the search engines as response to search goals and queries issued by the users of the Web do not seem to be as relevant as they should. Search engines need better and more efficient techniques to provide relevant information to the users. One of the technique is to incorporate intelligent techniques such as heuristics and pattern matching in the design of future search engines to provide them the ability to discover user access patterns, build user interest models and use these models to automatically acquire relevant information from the Web. Moreover, these additional techniques would help search engines to conduct theme-based search as opposed to keyword-based search. It is this later approach to search, which prevents the engines from spanning the entire web when looking for pages. The reason is that keyword-based search puts lots of strain on the spider due to (1) ultra large number of servers and pages on the web, and (2) inefficiency of the keyword based search which breaks down when designers include intentionally duplicate words to attain higher ranking by the search engines. This project is an initial step towards future theme-based search engines. The framework proposed presents a design for a clustering system for Web searching, which produces a user model. This model can be given to future intelligent search engines (ISE) to automatically fetch pages and documents considered of regular interest to the user. The model is constructed using several pattern matching and clustering techniques, along with several heuristics to control the mining of Web pages during the clustering process. To test the usefulness of our framework, we conducted several experimental analyses. The results were encouraging and seem to show that the clustering techniques we used are in line with other similar techniques.
Arabic abstract
خدمة الإنترنت وخصوصا خدمات الوسائط المتعددة المتوفرة والمعروفة بأسم شبكة المعلومات الدولية في توسع وتطور مستمر حيث تظهر كثير من صفحات الإنترنت في وقت قياسي قصير مما يضع عبئ كبير على محركات البحث. وهذه المحركات عبارة عن تكنولوجيا تواكب التوسع الهائل الذي يحدث في فترات زمنية قصيرة.
والمعلومات التي تظهرها محركات البحث ليست بالدقة المطلوبة التي يجب أن تكون لأن محركات البحث تحتاج إلى تكتيكات اكثر فاعلية لتعطي المستخدم معلومات اقرب ما تكون مما يطلبه. وواحدة من هذه التكتيكات تعمل على تجميع وإدماج التكتيكات الذكية مثل المساعدة على كشف النماذج التي يحتذى بها والنماذج المتشابهة في التصاميم المستقبلية لمحركات البحث لتكون قابلة لاستكشاف النماذج المختلفة التي يطلبها المستخدم. بناء نماذج لأهتمامات المستخدم واستخدام هذه النماذج لاعطاء المعلومات المطلوبة بطريقة تلقائية من الإنترنت. علاوة على ذلك هذه التكتيكات ستساعد محركات البحث في إرشادها إلى موضوع البحث مقارنة باستخدام علامات البحث، حيث إن استخدام تكتيك موضوع البحث سوف يبحث مواضيع وليس كلمات مما يوفر كثير من الوقت الضائع في البحث عن صفحات الإنترنت بالشبكة. والسبب في ذلك أن استخدام نظام كلمات البحث يضع كثير من الضغط على شبكة الإنترنت وذلك راجع اللاتي:
١. العدد الكبير من أجهزة الخادم وكذلك الصفحات الهائلة المتوفرة بالشبكة ۲. عدم فعالية كلمات البحث التي يضعها المصممين مكررا عمدا لتحقيق مستوى عالي بواسطة محركات البحث.
ان مشروع البحث بإدخال الموضوع هو الخطوة المستقبلية للحصول على أداء أفضل وهيكل العمل المقدم يعرض تصاميم لمجموعة أنظمة محركات بحث الإنترنت والتي تنتج عنه نماذج للمستخدمين.
هذه النماذج يمكن أن تعطي لمحركات البحث الذكية المستقبلية التي يمكن أن تجلب صفحات او ملفات تراعي اهتمامات المستخدم وهذه النماذج تشيد باستخدام نماذج مختلفة ومتشابهة او مجموعة طرق تقنية فعالة مع توجيهات مختلفة تساعد على الكشف بضبط صفحات الإنترنت خلال عملية التجميع. ولاختبار فائدة هيكل العمل، قمنا باختبارات تحليلية وكانت النتائج مشجعة وكانت مجموعة التقنيات التي استخدمت على نفس مستوى التقنيات المستخدمة حاليا.
Category
Theses and Dissertations