Wiharja, Salman Abdul Jabbaar (2024) Studi Komparasi Pengaruh Dataset dan Algoritma Machine Learning untuk Pendeteksian Malware PDF. Digital Zone: Jurnal Teknologi Informasi & Komunikasi, 15 (1). pp. 80-93. ISSN 2477-3255
Text
TA_ART_TEKOM_2006053_SK.pdf Download (590kB) |
|
Text
TA_ART_TEKOM_2006053_ART.pdf Restricted to Staf Perpustakaan Download (1MB) | Request a copy |
Abstract
Penelitian ini menyajikan pendekatan inovatif untuk mendeteksi PDF berbahaya melalui algoritme pembelajaran mesin, dengan fokus pada perluasan dataset Evasive-PDFMal2022. Tujuannya adalah untuk meningkatkan akurasi pendeteksian PDF berbahaya dengan memperkaya dataset, menambah representasi dan keragamannya, dan mengembangkan alat praktis - sebuah situs web - untuk mengekstraksi dan mendeteksi PDF berbahaya. Metodologi ini melibatkan pembaruan dan perluasan dataset dengan PDF berbahaya tambahan yang bersumber dari CVE dan Exploit-db, bersama dengan PDF tidak berbahaya dari berbagai sumber. Fitur-fitur tersebut kemudian diekstraksi menggunakan alat PDFID, dan 20 fitur ini berfungsi sebagai fondasi untuk mengimplementasikan algoritme K-Nearest Neighbor (KNN), Random Forest, dan Random Committee. Hasilnya menunjukkan bahwa model yang dilatih dengan dataset yang diperluas mencapai akurasi 99% yang luar biasa, melampaui kinerja model yang hanya mengandalkan dataset Evasive-PDFMal2022. Selain itu, penelitian ini secara signifikan meningkatkan representasi dan keragaman dataset sambil memberikan solusi praktis dalam bentuk situs web yang dirancang untuk mengekstraksi dan mendeteksi PDF berbahaya. ------------- This research presents an innovative approach to detecting malicious PDFs through machine learning algorithms, focusing on the expansion of the Evasive-PDFMal2022 dataset. The objective is to enhance the accuracy of detecting malicious PDFs by enriching the dataset, augmenting its representation and diversity, and developing a practical tool—a website—for extracting and detecting malicious PDFs. The methodology involves updating and enlarging the dataset with additional malicious PDFs sourced from CVE and Exploit-db, along with non-malicious PDFs from diverse origins. Features are then extracted using the PDFID tool, and these 20 features serve as the foundation for implementing K-Nearest Neighbor (KNN), Random Forest, and Random Committee algorithms. The outcomes demonstrate that the model trained with the expanded dataset achieves a remarkable 99% accuracy, surpassing the performance of models relying solely on the Evasive-PDFMal2022 dataset. Additionally, this research significantly enhances the representation and diversity of the dataset while delivering a practical solution in the form of a website tailored for the extraction and detection of malicious PDFs
Item Type: | Article |
---|---|
Uncontrolled Keywords: | Machine learning, PDF, Malware, Random forest, Random committee. |
Subjects: | Q Science > QA Mathematics > QA75 Electronic computers. Computer science Q Science > QA Mathematics > QA76 Computer software T Technology > T Technology (General) T Technology > TA Engineering (General). Civil engineering (General) |
Divisions: | UPI Kampus cibiru > S1 Teknik Komputer |
Depositing User: | Salman Abdul Jabbaar Wiharja |
Date Deposited: | 23 Aug 2024 04:21 |
Last Modified: | 23 Aug 2024 04:21 |
URI: | http://repository.upi.edu/id/eprint/120281 |
Actions (login required)
View Item |