Document
Conceptual indexing for scientific publication
Publisher
Sultan Qaboos University
Gregorian
2013
Language
English
Subject
English abstract
Abstract
The large volume of scientific literature being published today requires the development of new techniques for efficient management and classification of publications. There exist a huge gap between the stored data at digital libraries" databases and the knowledge that could be extracted from these data. Moreover there is a lack in categorizing or classifying scientific publications based on a well known classification scheme. Also, finding documents more efficient when search results are organized into topical categories than when they are presented with a standard ranked list. Therefore, there is a need to develop a solution for such obstacle, We reviewed the literature, analyzed the existing classification approaches. Then we came up with a solution that can be used to classify a scientific publication into its most related classes or categories. We proposed three methodologies that use TF-IDF in different forms based on ACM Computing Classification System version, 1998 which was mostly used for classifying scientific publications by leading organizations such as ACM, and IEEE. The first proposed approach or hypothesis is PublicationBased which applies TF IDF on all documents based on ACMC and stores result of all keywords in all ACMC classes that have these keywords. The second approach is called NodeBased which is used to compute TF-IDF on each ACMC class separately since frequency of keywords vary from class to class and may be important in some class only. The third approach is called HyperedBased which is used to calculate TF-IDF with assumption that each ACMC class is a single document.
We have evaluated the three approaches using around 86,000 publications extracted from ACM digital library and stored in a rational database. To measure the precision for each proposed approach, we evaluated the solution by randomly selecting classified publications from our database. We have used different factors to compute the precision of our solution by considering the number of publications in each classification node. After the experimental analysis we found that, increasing the number of publications in the classification nodes can improve the precision. For the classification nodes that have smaller number of publications, the precision decreases
Sponsorship
Thesis
Member of
Resource URL
Arabic abstract
إن الكمية الهائلة من المنشورات العملية التي يتم نشرها في الوقت الحالي تحتاج إلى طرق وتقنيات حديثة التعامل الأمثل مع كمية المعلومات المتوفرة فيها بالاضافة إلى الحاجة الملحة لتصنيف هذه المنشورات. أيضا، هنالك ندرة في التقسيمات والتصنيفات العلمية الموجودة حاليا والمستخدمة في تصنيف الوثائق والمنشورات العلمية بناء على أساس علمي عالمي معتمد، لذلك هنالك حاجة ملحة لتصميم وتطوير حلول تقنية لمعالجة مثل هذه التحديات. لقد قمنا بمراجعة شاملة للتقنيات والتصنيفات العلمية الموجودة والمستخدمة حاليا، وقمنا بتوفير حلول تقنية تسهم في تقسيم وتصنيف المنشورات العملية بناء على ACM Computing Classification System (1998 ,ACMC) وهو نظام تصنيفات علمي معتمد عالمية في أغلب بيوت الخبرة العلمية مثل IEEE، و ACM. تستخدم الحلول أشكال مختلفة من تقنية TF- IDF والمستخدمة في الإحصائيات الكلمات وتكرارها في المنشورات العلمية، بالإضافة إلى أنه مستخدم في بعض محركات البحث العلمية الحل المقترح الأول يسمى PublicationBased والذي يطبق تقنية TF - IDFعلى جميع المنشورات العلمية المصنفة بناء عل ACMC بدون التطرق إلى التصنيف على وجه الخصوص، بينما الحل المقترح الثاني يسمى NodeBased والذي يقوم بتطبيق تقنية TF- IDF على جميع المنشورات في كل تصنيف على حدى في نظام التصنيفات المتبع. الحل المقترح الثالث يسمى HyperedBased وهو يجمع بين الحل المقترح الأول والثاني، حيث يقوم بتطبيق تقنية TF- IDF على أساس أن جميع المنشورات العلمية في تصنيف معين، هي منشور علمي مستقل. لقد قمنا بتقييم الحلول المقترحة بإستخدام حوالي 86000 منشور علمي مصنف حسب نظام التصنيفات العلمي ACMC حيث قمنا بإختيار المنشورات العلمية بصورة عشوائية للتأكد من أن الحلول المقترحة قادرة على تصنيف المنشورات بناء على الملخص فقط بعد الانتهاء من التحليل التجريبي، وجدنا أنه بزيادة عدد المنشورات العلمية في كل تصنيف ترتفع دقة الحلول المقترحة، بينما تنخفض الدقة في التصنيفات التي تحتوي على عدد أقل من المنشورات العلمية.
Category
Theses and Dissertations