وثيقة
Phishing attack detection : a comparative study of fully connected networks, long short term memory and convolutional neural networks on the EuRepoC dataset.
المصدر
Master's thesis
عناوين أخرى
اكتشاف هجمات التصيد الاحتيالي : دراسة مقارنة للشبكات المتصلة بالكامل والشبكات العصبية التلافيفية باستخدام بيانات المستودع الوروبي للحوادث السيبرانية
الدولة
Oman
مكان النشر
Muscat
الناشر
Sultan Qaboos University
ميلادي
2024
اللغة
الأنجليزية
الموضوع
نوع الرسالة الجامعية
Master's thesis
الملخص الإنجليزي
The rapid growth of networks has significantly impacted people,
corporations, and governments. However, this expansion has also been
accompanied by a sharp rise in cybercrime events, underscoring the
necessity of putting strong security measures in place to protect electronic
data. Among the various techniques used, Phishing is the leading approach
for unlawfully obtaining critical information from online users. This
deceptive practice commonly involves fraudulent attempts through emails
and counterfeit websites. Phishers employ diverse tactics and strategies,
enabling them to execute sophisticated phishing attacks, where attackers
mimic official websites to collect personal information from online users.
The objective of our study to analyze the effectiveness of fully connected
networks and convolutional neural networks in phishing detection and
improve reliability by reducing false positives and negative analyses, which
can help cyber security specialists detect whether a URL is phishing or
normal.
We began by collecting data from EuRepoC. Subsequently, the gathered
data undergoes various stages, including cleaning and preparation.
Following this, we implemented an embedding layer to embed words and
characters into low-dimensional vectors in both models. Next, we
constructed fully connected networks (FCNs), Long Short Term Memory
(LSTMs) and convolutional neural network (1D-CNNs) models. The
subsequent steps involve training each model and evaluating their
respective results.
The data analysis reveals that fully connected networks (FCNs) achieve
an 82% accuracy and 86% of long short term memory (LSTMs) in
identifying phishing URLs, whereas convolutional neural networks
VII
demonstrate a higher accuracy of 98%. Regarding precision, fully connected
networks perform at 82%, with a 96% recall and an 88% f1-score and long
short term memory perform 99% precision, with an 81 % recall and an 89
f1-score.Conversely, convolutional neural networks exhibit a precision of
99% and maintain a high 98% for f1-score and 100 % recall.
Examining false positives and false negatives, fully connected networks
exhibit a 4 %( FN), and 55 %( FP) occurrence, while long short term memory
show 19 % (FN) , and 2 % (FP).Finally, convolutional neural networks show
minimal instances with 11 % false positives and 0 % false negatives.
Additionally, the area under ROC curve indicates a 71% performance for
FCN, a 90 % LSTM, and 98% for 1D-CNN.
الملخص العربي
لقد أثر النمو السريع للشبكات بشكل كبير على الاشخاص والشركات والحكومات. ومع ذلك، فقد صاحب هذا التوسع أيضا ارتفاع حاد في حوادث الجرائم الالكترونية، مما يؤكد ضرورة وضع تدابير أمنية قوية لحماية البيانات الالكترونية. من بين التقنيات المختلفة المستخدمة، يعد التصيد الاحتيالي الطريقة الاساسية للحصول بشكل غير قانوني على معلومات حساسة من مستخدمي الانترنت. تتضمن هذه الممارسة الخادعة عادةً محاوالت احتيال عبر رسائل البريد الالكتروني والمواقع الالكترونية المزيفة. يستخدم المتصيدون تكتيكات واستراتيجيات مختلفة، تمكنهم من تنفيذ هجمات تصيد معقدة، حيث يحاكي المهاجمون مواقع الويب الرسمية لجمع المعلومات الشخصية من المستخدمين عبر الانترنت. تهدف دراستنا إلى تحليل فعالية الشبكات المتصلة بالكامل والشبكات العصبية التلافيفية في اكتشاف التصيد الاحتيالي وتحسين الموثوقية عن طريق تقليل الايجابيات والسلبيات الكاذبة، مما يمكن أن يساعد محترفي الامن السيبراني على اكتشاف ما إذا كان محدد موقع الموارد الموحد هو تصيد احتيالي أم عادي . نحن نهدف إلى دراسة المقارنة بين الشبكات المتصلة بالكامل والشبكات العصبية التلافيفية للكشف عن التصيد الاحتيالي، وزيادة دقة وموثوقية اكتشاف التصيد الاحتيالي، وتقليل التحليل الايجابي والسلبي الكاذب. بدأنا بجمع البيانات من المستودع الاوروبي للحوادث السيبرانية. ثم تمر البيانات المجمعة بمراحل مختلفة، بما في ذلك التنظيف والتحضير. قمنا بتنفيذ طبقة تضمين لتضمين الكلمات والاحرف في ناقلات منخفضة الابعاد في كلا النموذجين. بعد ذلك، قمنا ببناء شبكات متصلة بالكامل ونماذج شبكات عصبية تلافيفية. وتشمل الخطوات اللاحقة تدريب كل نموذج وتقييم نتائجه. يقارن التحليل فعالية الشبكات المتصلة بالكامل والشبكات العصبية التلافيفية في تحديد محدد موقع الموارد الموحد للتصيد الاحتيالي. تتفوق الشبكات العصبية التلافيفية على الشبكات المتصلة بالكامل بدقة أعلى تصل إلى ،%95 ودقة ،%96 واستدعاء ،%95 بينما تحقق الشبكات المتصلة بالكامل دقة ،%81 ودقة ،%80 واستدعاء .%84 تظهر الشبكات المتصلة بالكامل انخفا ًضا في معدل الايجابية الكاذبة بنسبة ،%19 بينما تظهر الشبكات العصبية التلافيفية ح ًدا أدنى لإليجابيات الكاذبة بنسبة %0.04 والسلبيات الكاذبة بنسبة .%0.05 تشير المنطقة الموجودة أسفل المنحنيات المميزة لتشغيل جهاز الاستقبال إلى أداء قوي للشبكات العصبية التلافيفية بنسبة ،%96 متفوقة على الشبكات المتصلة بالكامل بنسبة .%82 بشكل عام، تؤكد النتائج الاداء المتفوق للشبكات العصبية التلافيفية في تحديد محددات الموارد الموحدة للتصيد مقارنة بالشبكات المتصلة بالكامل، مع انخفاض معدل حدوث الايجابيات والسلبيات الكاذبة .
قالب العنصر
الرسائل والأطروحات الجامعية