Pengembangan Model Klasterisasi Topik Hadis Bukhari Muslim Menggunakan BERT dengan Penambahan Fitur Semantik
DOI:
https://doi.org/10.31294/ijcs.v4i2.8931Keywords:
Klasterisasi Hadis, Fitur Semantik, BERTOPIC, NLPAbstract
Klastering hadis merupakan tugas penting dalam studi Islam, mengingat sifat korpus hadis yang luas dan kompleks. Pendekatan pengelompokan tradisional sering kali kesulitan untuk menangkap konteks semantik yang mendalam dalam hadis, yang menyebabkan pengelompokan topik menjadi kurang akurat. Kemajuan terkini dalam Natural Language Processing (NLP), seperti model Bidirectional Encoder Representations from Transformers (BERT), telah menunjukkan hasil yang menjanjikan dalam mengatasi tantangan ini dengan menyediakan penyematan kontekstual yang kaya. Namun, penggunaan BERT secara tunggal dapat mengabaikan fitur linguistik yang penting, yang berpotensi membatasi kinerja pengelompokan. Studi ini mengusulkan model pengelompokan yang disempurnakan untuk koleksi hadis Sahih Bukhari dan Sahih Muslim, yang mengintegrasikan penyematan BERT dengan fitur semantik tambahan, termasuk panjang teks, Term Frequency (TF), dan Inverse Document Frequency (IDF). Dengan menggunakan kerangka BERTopic, pendekatan ini menangkap hubungan yang bernuansa antara hadis, yang memberikan hasil pengelompokan yang lebih akurat secara kontekstual. Eksperimen menunjukkan bahwa metode terintegrasi ini secara signifikan meningkatkan kinerja pengelompokan, seperti yang ditunjukkan oleh silhouette score dengan nilai -0.1 dan davies-bouldin index 2.6. Sedangkan tanpa terintegrasi menunjukkan nilai rendah dengan silhouette score dengan nilai -0.145 dan davies-bouldin index 6.6. Sehingga pengembangan ini menawarkan metode yang lebih tepat untuk pengelompokan topik dalam studi Islam, yang memfasilitasi organisasi dan pemahaman yang lebih baik tentang teks hadis.
References
Aluri, L., & Latha, D. (2023). HSFO: Hunter Sail Fish Optimizer Enabled Deep Learning for Single Document Abstractive Summarization Based on Semantic Role Labelling for Telugu Text. https://doi.org/10.21203/rs.3.rs-2889668/v1
Aminah, N., Maryati, M., Bachtiar, M., & Ashpandi. (2025). Hadis Tentang Konsep Manajemen Pengorganisasian Pendidikan Islam Dalam Perspektif Hadits. Ijis, 1(1), 98–106. https://doi.org/10.62567/ijis.v1i1.633
Asy’ari, A. H., Muzakki, M. H., & Hanafi, M. (n.d.). Clusterization Model of Hadith Topic in Bukhari Muslim Hadith using BERT Algorithm.
Dodda, R., & Alladi, S. B. (2024). BERT-based Document Clustering: Unveiling Semantic Patterns in 20News Group, Reuters, and BBC Sports Corpora. https://doi.org/10.22541/au.171506422.20645846/v1
George, L., & Sumathy, P. (2023). An Integrated Clustering and BERT Framework for Improved Topic Modeling. International Journal of Information Technology, 15(4), 2187–2195. https://doi.org/10.1007/s41870-023-01268-w
Gerritse, E. J. (2022). Entity-Aware Transformers for Entity Search. https://doi.org/10.48550/arxiv.2205.00820
Hua, L. (2024). Integrating Clustering and Semantic Similarity for MAUDE Database Dimensionality Reduction. https://doi.org/10.1101/2024.12.03.24318439
Imana, Y., Kosasih, E., & Mardi, I. (2024). Madrasah Hadits Dan Sejarah Perkembangannya: Menghubungkan Tradisi Dengan Inovasi Dalam Studi Islam Kontemporer. Cakrawala, 1(2), 141–149. https://doi.org/10.63142/cakrawala.v1i2.68
Li, W. J., Liu, Y., Deng, K., & Wu, X. (2024). POS‐HC: A Part‐of‐Speech Hierarchical Clustering Approach for Normative Texts Partition. https://doi.org/10.20944/preprints202402.1575.v1
Liu, T., Yu, H., & Blair, R. H. (2022). Stability Estimation for Unsupervised Clustering: A Review. Wiley Interdisciplinary Reviews Computational Statistics, 14(6). https://doi.org/10.1002/wics.1575
Maulida, F. (2023). The Concept of Political Ethics in Islam (Perspective of Hadith From Sahih Bukhari and Sahih Muslim). Aqwal Journal of Qur an and Hadis Studies, 4(2), 198–212. https://doi.org/10.28918/aqwal.v4i2.1901
Mudding, A. A. (2024). Mengungkap Opini Publik: Pendekatan BERT-based-caused Untuk Analisis Sentimen Pada Komentar Film. Journal of System and Computer Engineering (Jsce), 5(1), 36–43. https://doi.org/10.61628/jsce.v5i1.1060
Murfi, H., Agung, Y. J., Nurrohmah, S., Satria, Y., Za’in, C., & Rahayu, D. (2024). Eigenspace-Based Fuzzy C-Means With Large Language Model BERT for Topic Detection. https://doi.org/10.21203/rs.3.rs-3637575/v1
Riantika, P. A. (2023). Analisis Keutamaan Sedekah Dan Infak Berdasarkan Hadis Yang Diriwayatkan Oleh Imam Bukhari Dan Imam Muslim. Jurnal Hibrul Ulama Jurnal Ilmu Pendidikan Dan Keislaman, 5(2), 76–82. https://doi.org/10.47662/hibrululama.v5i2.522
Rinjani, C. (2021). Metode Reward Dan Punishment Dalam Pendidikan Islam Perspektif Hadis Bukhari Dan Muslim. Ruhama Islamic Education Journal, 4(2), 185–204. https://doi.org/10.31869/ruhama.v4i2.2918
Rohman, F. (2021). Tujuan Pendidikan Islam Pada Hadis-Hadis Populer Dalam Shahihain. Ta Dibuna Jurnal Pendidikan Islam, 10(3), 367. https://doi.org/10.32832/tadibuna.v10i3.5107
Shen, X., Sun, Y., Zhang, C., Yang, C., Qin, Y., Zhang, W., Nan, J., Che, M., & Gao, D. (2024). Double-Target Self-Supervised Clustering With Multi-Feature Fusion for Medical Question Texts. Peerj Computer Science, 10, e2075. https://doi.org/10.7717/peerj-cs.2075
Subakti, A., Murfi, H., & Hariadi, N. (2022). The Performance of BERT as Data Representation of Text Clustering. Journal of Big Data, 9(1). https://doi.org/10.1186/s40537-022-00564-9
Yang, Y. (2024). Comparative Analysis of Strategies of Knowledge Distillation on BERT for Text Matching. Applied and Computational Engineering, 51(1), 112–118. https://doi.org/10.54254/2755-2721/51/20241188
Aluri, L., & Latha, D. (2023). HSFO: Hunter Sail Fish Optimizer Enabled Deep Learning for Single Document Abstractive Summarization Based on Semantic Role Labelling for Telugu Text. https://doi.org/10.21203/rs.3.rs-2889668/v1
Aminah, N., Maryati, M., Bachtiar, M., & Ashpandi. (2025). Hadis Tentang Konsep Manajemen Pengorganisasian Pendidikan Islam Dalam Perspektif Hadits. Ijis, 1(1), 98–106. https://doi.org/10.62567/ijis.v1i1.633
Asy’ari, A. H., Muzakki, M. H., & Hanafi, M. (n.d.). Clusterization Model of Hadith Topic in Bukhari Muslim Hadith using BERT Algorithm.
Dodda, R., & Alladi, S. B. (2024). BERT-based Document Clustering: Unveiling Semantic Patterns in 20News Group, Reuters, and BBC Sports Corpora. https://doi.org/10.22541/au.171506422.20645846/v1
George, L., & Sumathy, P. (2023). An Integrated Clustering and BERT Framework for Improved Topic Modeling. International Journal of Information Technology, 15(4), 2187–2195. https://doi.org/10.1007/s41870-023-01268-w
Gerritse, E. J. (2022). Entity-Aware Transformers for Entity Search. https://doi.org/10.48550/arxiv.2205.00820
Hua, L. (2024). Integrating Clustering and Semantic Similarity for MAUDE Database Dimensionality Reduction. https://doi.org/10.1101/2024.12.03.24318439
Imana, Y., Kosasih, E., & Mardi, I. (2024). Madrasah Hadits Dan Sejarah Perkembangannya: Menghubungkan Tradisi Dengan Inovasi Dalam Studi Islam Kontemporer. Cakrawala, 1(2), 141–149. https://doi.org/10.63142/cakrawala.v1i2.68
Li, W. J., Liu, Y., Deng, K., & Wu, X. (2024). POS‐HC: A Part‐of‐Speech Hierarchical Clustering Approach for Normative Texts Partition. https://doi.org/10.20944/preprints202402.1575.v1
Liu, T., Yu, H., & Blair, R. H. (2022). Stability Estimation for Unsupervised Clustering: A Review. Wiley Interdisciplinary Reviews Computational Statistics, 14(6). https://doi.org/10.1002/wics.1575
Maulida, F. (2023). The Concept of Political Ethics in Islam (Perspective of Hadith From Sahih Bukhari and Sahih Muslim). Aqwal Journal of Qur an and Hadis Studies, 4(2), 198–212. https://doi.org/10.28918/aqwal.v4i2.1901
Mudding, A. A. (2024). Mengungkap Opini Publik: Pendekatan BERT-based-caused Untuk Analisis Sentimen Pada Komentar Film. Journal of System and Computer Engineering (Jsce), 5(1), 36–43. https://doi.org/10.61628/jsce.v5i1.1060
Murfi, H., Agung, Y. J., Nurrohmah, S., Satria, Y., Za’in, C., & Rahayu, D. (2024). Eigenspace-Based Fuzzy C-Means With Large Language Model BERT for Topic Detection. https://doi.org/10.21203/rs.3.rs-3637575/v1
Riantika, P. A. (2023). Analisis Keutamaan Sedekah Dan Infak Berdasarkan Hadis Yang Diriwayatkan Oleh Imam Bukhari Dan Imam Muslim. Jurnal Hibrul Ulama Jurnal Ilmu Pendidikan Dan Keislaman, 5(2), 76–82. https://doi.org/10.47662/hibrululama.v5i2.522
Rinjani, C. (2021). Metode Reward Dan Punishment Dalam Pendidikan Islam Perspektif Hadis Bukhari Dan Muslim. Ruhama Islamic Education Journal, 4(2), 185–204. https://doi.org/10.31869/ruhama.v4i2.2918
Rohman, F. (2021). Tujuan Pendidikan Islam Pada Hadis-Hadis Populer Dalam Shahihain. Ta Dibuna Jurnal Pendidikan Islam, 10(3), 367. https://doi.org/10.32832/tadibuna.v10i3.5107
Shen, X., Sun, Y., Zhang, C., Yang, C., Qin, Y., Zhang, W., Nan, J., Che, M., & Gao, D. (2024). Double-Target Self-Supervised Clustering With Multi-Feature Fusion for Medical Question Texts. Peerj Computer Science, 10, e2075. https://doi.org/10.7717/peerj-cs.2075
Subakti, A., Murfi, H., & Hariadi, N. (2022). The Performance of BERT as Data Representation of Text Clustering. Journal of Big Data, 9(1). https://doi.org/10.1186/s40537-022-00564-9
Yang, Y. (2024). Comparative Analysis of Strategies of Knowledge Distillation on BERT for Text Matching. Applied and Computational Engineering, 51(1), 112–118. https://doi.org/10.54254/2755-2721/51/20241188
Yulianingsih, Y., & Nursihah, A. (2021). Prophetic Parenting: Ide, Spirit Dan Kontekstualisasi Hadis-Hadis Pendidikan Anak. (Japra) Jurnal Pendidikan Raudhatul Athfal (Japra), 4(2), 1–18. https://doi.org/10.15575/japra.v4i2.15724
Zhou, Y., Song, C., Li, J., Wu, Z., Bian, Y., Su, D., & Meng, H. (2021). Enhancing Word-Level Semantic Representation via Dependency Structure for Expressive Text-to-Speech Synthesis. https://doi.org/10.48550/arxiv.2104.06835
Downloads
Published
Issue
Section
License
Copyright (c) 2025 Ahmad Hasyim Asy'ari, Muhammad Hanafi

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.







