Document

تصنيف الأنشطة غير القانونية على شبكة تور باستعمال التقنية الهجينة.

Publisher
أكاديمية السلطان قابوس لعلوم الشرطة.
Gregorian
2022-09
Language
Arabic
English abstract
With the freedom offered by the Deep Web, people have the opportunity to express themselves freely and discretely, and sadly, this is one of the reasons why people carryout illicit activities there. In this work, a novel dataset for DarkWeb active domains known as crawler DB is presented. To build the crawler-DB, The Onion Routing network (Tor) was sampled, and then a web crawler capable of crawling into links was built. The link addresses that are gathered by the crawler are then classified automatically into five classes. The algorithm built in this study demonstrated good performance as it achieved an accuracy of 85%. A popular text representation method was used with the proposed crawler-DB crossed by two different supervised classifiers to facilitate the categorization of the Tor concealed services. The results of the experiments conducted in this study show that using the Term Frequency-Inverse Document Frequency (TF IDF) words representation with linear support vector classifier achieves 91% of 5 folds cross validation accuracy when classifying a subset of illegal activities from crawler-DB, while the accuracy of Naïve Bayes was 80.6%. The good performance of the linear SVC might support potential tools to help the authorities in the detection of these activities. Moreover, outcomes are expected to be significant for both practical and theoretical aspects and they may pave the way for further research.
Member of
ISSN
2412-8317
Citation
الجبوري, عباس فاضل، والشمري, محمد خلف الله (2022). تصنيف الأنشطة غير القانونية على شبكة تور باستعمال التقنية الهجينة. الأمانة، أكاديمية السلطان قابوس لعلوم الشرطة. نزوى، عمان، (39)، 133-141.
Arabic abstract
توفر حريــة الويب العميق مكانا آمنا حيث يمكن للأشخاص التعبير عن أنفسهم دون الكشف عن هويتهم، ً ولكن يمكنهم أيضا القيام بأنشطة غير قانونية. في هذا البحث نقــدم مجموعة بيانات جديــدة لمجالات الويب المظلم النشــطة، والتي نســميها قاعدة بيانات الزاحف. قمنا ببناء قاعدة بيانات الزاحف عن طريق أخذ عينات لشــبكة تور، وصممنا زاحف ويــب للزحف إلى الروابط بتسمية كل عنوان إلى خمسة فئات، وذلك ببناء خوارزمية (وضع العلامات التلقائية) لوضع العلامات التلقائية بدلً من وضع العلامات اليدوية على مجموعة البيانات. حققت الخوارزمية المقترحة دقة تصل إلى 85 .٪ وبتوظيف قاعدة بيانات الزاحف، استعملنا اسلوباً معروفاً لتمثيل النص عبر مصنفين مختلفين.
Category
Journal articles