Analisa Prompt Engineering pada Large Language Model dengan Retrieval-Augmented Generation untuk Informasi Obat dan Vitamin

Authors

  • Imam Haromain Sekolah Tinggi Teknologi Terpadu Nurul Fikri
  • Sirojul Munir Sekolah Tinggi Teknologi Terpadu Nurul Fikri
  • Amalia Rahmah Sekolah Tinggi Teknologi Terpadu Nurul Fikri

DOI:

https://doi.org/10.31294/ijcs.v4i2.10005

Keywords:

LLM, Obat dan Vitamin, Prompt Engineering, RAG, Rouge dan BERTScore

Abstract

Penelitian ini bertujuan melakukan analisa efektivitas dua gaya prompt, yaitu prompt bebas (zero-shot) dan prompt terbimbing (few-shot), pada model Large Language Model (LLM) berbasis Retrieval-Augmented Generation (RAG) dengan topik spesifik kesehatan, yaitu obat dan vitamin. Metode penelitian yang digunakan adalah eksperimen dengan menguji respons model terhadap sepuluh pertanyaan yang dirancang berdasarkan dokumen PDF dari sumber terpercaya, seperti Kementerian Kesehatan dan WHO. Proses ini bertujuan untuk mengevaluasi sejauh mana model mampu memberikan jawaban yang relevan, akurat, serta sesuai konteks ketika diberi perbedaan gaya prompt. Evaluasi kualitas jawaban dilakukan menggunakan dua metrik populer dalam Natural Language Processing, yaitu BERTScore untuk menilai kesesuaian semantik, dan ROUGE untuk mengukur kesesuaian tekstual. Hasil penelitian menunjukkan bahwa prompt bebas menghasilkan skor BERTScore yang cukup baik (Precision 69,74%, Recall 70,97%, F1 70,30%), namun cenderung rendah pada ROUGE. Sebaliknya, prompt terbimbing menunjukkan peningkatan kinerja, baik pada BERTScore (Precision 70,23%, Recall 73,32%, F1 71,64%) maupun ROUGE. Hasil penelitian menunjukan, penggunaan prompt terbimbing lebih efektif dalam menjaga keseimbangan antara kesesuaian semantik dan tekstual, sehingga berpotensi mendukung pengembangan sistem informasi kesehatan berbasis LLM secara lebih andal dan praktis.

References

Albert, G. D., & Voutama, A. (2025). Pengembangan Chatbot Berbasis PDF Menggunakan Local Retrieval-Augmented Generation (RAG) Dan Ollama. Jurnal Informatika Dan Teknik Elektro Terapan, 13(2). https://doi.org/10.23960/jitet.v13i2.6361

Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2023). A Survey on Evaluation of Large Language Models. J. ACM, 37, 1–45. https://doi.org/https://doi.org/10.48550/arXiv.2307.03109

Dongyeop Jang, & Chang-Eop Kim. (2023). Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare. ArXivLabs: Experimental Projects with Community Collaborators.

Holmes, J., Liu, Z., Zhang, L., Ding, Y., Sio, T. T., McGee, L. A., Ashman, J. B., Li, X., Liu, T., Shen, J., & Liu, W. (2023). Evaluating Large Language Models on a Highly-specialized Topic, Radiation Oncology Physics. https://doi.org/10.3389/fonc.2023.1219326

Kuka, V. (2025, March 6). Technique #3: Examples in prompts: From zero-shot to few-shot. Learn Prompting. https://learnprompting.org/docs/basics/few_shot?utm_source=chatgpt.com

Lee, S., Lee, D. Y., Im, S., Kim, N. H., & Park, S.-M. (2023). Clinical Decision Transformer: Intended Treatment Recommendation through Goal Prompting. http://arxiv.org/abs/2302.00612

Lester, B., Al-Rfou, R., & Constant, N. (2021). The Power of Scale for Parameter-Efficient Prompt Tuning. Empirical Methods in Natural Language Processing. https://doi.org/https://doi.org/10.48550/arXiv.2104.08691

Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H., & Neubig, G. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. 1–46. https://doi.org/https://doi.org/10.48550/arXiv.2107.13586

Meskó, B. (2023). Prompt Engineering as an Important Emerging Skill for Medical Professionals: Tutorial. Journal of Medical Internet Research, 25, e50638. https://doi.org/10.2196/50638

Qaulan, M. A., Wahyuni, & Adytia, P. (2025). Pengembangan Chatbot Berbasis AI untuk Mendukung Pelayanan Perpustakaan . Tematik : Jurnal Teknologi Informasi Komunikasi (e-Journal), 12(1), 23–30.

Rizky, M. A. (2025). Analisis Efektivitas Dua Jenis Gaya Prompt dalam Model LLM Berbasis RAG. Jurnal Komtika (Komputasi dan Informatika), 9(1), 76–86. https://doi.org/10.31603/komtika.v9i1.13488

Shah, K., Xu, A. Y., Sharma, Y., Daher, M., McDonald, C., Diebo, B. G., & Daniels, A. H. (2024). Large Language Model Prompting Techniques for Advancement in Clinical Medicine. Journal of Clinical Medicine, 13(17), 5101. https://doi.org/10.3390/jcm13175101

Singhal, K., Azizi, S., Tu, T., Mahdavi, S. S., Wei, J., Chung, H. W., Scales, N., Tanwani, A., Cole-Lewis, H., Pfohl, S., Payne, P., Seneviratne, M., Gamble, P., Kelly, C., Babiker, A., Schärli, N., Chowdhery, A., Mansfield, P., Demner-Fushman, D., … Natarajan, V. (2023). Large language models encode clinical knowledge. Nature, 620(7972), 172–180. https://doi.org/10.1038/s41586-023-06291-2

Lubis, T. U. B. (2024). Question answering system menggunakan large language models (LLM) dan LangChain (Studi kasus: UU Kesehatan). [Skripsi, Universitas Islam Negeri Sultan Syarif Kasim Riau].

Wang, J., Shi, E., Yu, S., Wu, Z., Ma, C., Dai, H., Yang, Q., Kang, Y., Wu, J., Hu, H., Yue, C., Zhang, H., Liu, Y., Pan, Y., Liu, Z., Sun, L., Li, X., Ge, B., Jiang, X., … Zhang, S. (2023). Prompt Engineering for Healthcare: Methodologies and Applications. JOURNAL OF LATEX CLASS FILES, 14, 1–18. https://doi.org/https://doi.org/10.48550/arXiv.2304.146

Downloads

Published

2025-10-29