Studi Komparasi Pengaruh Dataset dan Algoritma Machine Learning untuk Pendeteksian Malware PDF

Wiharja, Salman Abdul Jabbaar (2024) Studi Komparasi Pengaruh Dataset dan Algoritma Machine Learning untuk Pendeteksian Malware PDF. Digital Zone: Jurnal Teknologi Informasi & Komunikasi, 15 (1). pp. 80-93. ISSN 2477-3255

[img] Text
TA_ART_TEKOM_2006053_SK.pdf

Download (590kB)
[img] Text
TA_ART_TEKOM_2006053_ART.pdf
Restricted to Staf Perpustakaan

Download (1MB) | Request a copy

Abstract

Penelitian ini menyajikan pendekatan inovatif untuk mendeteksi PDF berbahaya melalui algoritme pembelajaran mesin, dengan fokus pada perluasan dataset Evasive-PDFMal2022. Tujuannya adalah untuk meningkatkan akurasi pendeteksian PDF berbahaya dengan memperkaya dataset, menambah representasi dan keragamannya, dan mengembangkan alat praktis - sebuah situs web - untuk mengekstraksi dan mendeteksi PDF berbahaya. Metodologi ini melibatkan pembaruan dan perluasan dataset dengan PDF berbahaya tambahan yang bersumber dari CVE dan Exploit-db, bersama dengan PDF tidak berbahaya dari berbagai sumber. Fitur-fitur tersebut kemudian diekstraksi menggunakan alat PDFID, dan 20 fitur ini berfungsi sebagai fondasi untuk mengimplementasikan algoritme K-Nearest Neighbor (KNN), Random Forest, dan Random Committee. Hasilnya menunjukkan bahwa model yang dilatih dengan dataset yang diperluas mencapai akurasi 99% yang luar biasa, melampaui kinerja model yang hanya mengandalkan dataset Evasive-PDFMal2022. Selain itu, penelitian ini secara signifikan meningkatkan representasi dan keragaman dataset sambil memberikan solusi praktis dalam bentuk situs web yang dirancang untuk mengekstraksi dan mendeteksi PDF berbahaya. ------------- This research presents an innovative approach to detecting malicious PDFs through machine learning algorithms, focusing on the expansion of the Evasive-PDFMal2022 dataset. The objective is to enhance the accuracy of detecting malicious PDFs by enriching the dataset, augmenting its representation and diversity, and developing a practical tool—a website—for extracting and detecting malicious PDFs. The methodology involves updating and enlarging the dataset with additional malicious PDFs sourced from CVE and Exploit-db, along with non-malicious PDFs from diverse origins. Features are then extracted using the PDFID tool, and these 20 features serve as the foundation for implementing K-Nearest Neighbor (KNN), Random Forest, and Random Committee algorithms. The outcomes demonstrate that the model trained with the expanded dataset achieves a remarkable 99% accuracy, surpassing the performance of models relying solely on the Evasive-PDFMal2022 dataset. Additionally, this research significantly enhances the representation and diversity of the dataset while delivering a practical solution in the form of a website tailored for the extraction and detection of malicious PDFs

Item Type: Article
Uncontrolled Keywords: Machine learning, PDF, Malware, Random forest, Random committee.
Subjects: Q Science > QA Mathematics > QA75 Electronic computers. Computer science
Q Science > QA Mathematics > QA76 Computer software
T Technology > T Technology (General)
T Technology > TA Engineering (General). Civil engineering (General)
Divisions: UPI Kampus cibiru > S1 Teknik Komputer
Depositing User: Salman Abdul Jabbaar Wiharja
Date Deposited: 23 Aug 2024 04:21
Last Modified: 23 Aug 2024 04:21
URI: http://repository.upi.edu/id/eprint/120281

Actions (login required)

View Item View Item