Pengembangan Chatbot AI Berbasis Large Language Model (LLM) LangChain dengan Retrieval-Augmented Generation (RAG) pada Customer Service di PT. Telemedia Prima Nusantara

Moh Wildan Haikhal · 062140832958
Program Sarjana Terapan D-IV Manajemen Informatika · Jurusan Manajemen Informatika
Politeknik Negeri Sriwijaya · Tahun 2025

Abstrak

Penelitian ini bertujuan mengembangkan chatbot AI berbasis Large Language Model (LLM) dengan integrasi LangChain dan Retrieval-Augmented Generation (RAG) untuk meningkatkan layanan pelanggan di PT Telemedia Prima Nusantara. Metode pengembangan menggunakan CRISP-DM, meliputi tahapan pemahaman bisnis, pemahaman data, persiapan data, pemodelan, evaluasi, dan deployment. Metode pengumpulan data dilakukan melalui observasi proses layanan, wawancara dengan tim internal, analisis dokumen FAQ, dokumentasi alur pengiriman invoice dan status pembayaran dari sistem Mixradius, riwayat percakapan pelanggan di WhatsApp, serta dokumen teknis internal lainnya. Data tambahan dikumpulkan melalui feedback pengguna internal saat evaluasi sistem dan eksperimen chatbot berbasis interaksi langsung, menggunakan metrik BLEU, ROUGE, dan waktu respons untuk pengukuran performa.

Metode pemecahan masalah menggunakan pendekatan Retrieval-Augmented Generation (RAG) yang diorkestrasi dengan framework LangChain. Informasi dikumpulkan dari basis data vektor menggunakan FAISS, kemudian diolah oleh GPT-3.5 Turbo untuk menghasilkan jawaban. Komponen Skill Router diterapkan untuk klasifikasi intensi dan pengaturan jalur pemrosesan. Hasil evaluasi menunjukkan chatbot mampu memberikan jawaban dengan akurasi 93,33%, BLEU-2 sebesar 0,518, ROUGE-L sebesar 0,683, dan waktu respons rata-rata 1,55 detik. Hasil penelitian ini menunjukan sistem terbukti efektif dalam menjawab pertanyaan pelanggan secara otomatis, efisien, dan kontekstual. Rekomendasi pengembangan selanjutnya mencakup perluasan basis pengetahuan, deteksi intensi otomatis, eskalasi ke agen manusia, integrasi monitoring, serta optimalisasi embedding dan vector store alternatif.

Kata Kunci: Chatbot AI, Large Language Model (LLM), LangChain, Retrieval-Augmented Generation (RAG), Customer Service, CRISP-DM.

Abstract

This research aims to develop an AI chatbot based on Large Language Model (LLM) with LangChain and Retrieval-Augmented Generation (RAG) integration to improve customer service at PT Telemedia Prima Nusantara. The development method uses CRISP-DM, which includes the stages of business understanding, data understanding, data preparation, modeling, evaluation, and deployment. Data collection methods were carried out through observation of service processes, interviews with internal teams, analysis of FAQ documents, documentation of invoice delivery and payment status from the Mixradius system, customer conversation history on WhatsApp, and other internal technical documents. Additional data was collected through internal user feedback during system evaluation and experiments with a chatbot based on direct interaction, using BLEU, ROUGE, and response time metrics for performance measurement.

The problem-solving method employed the Retrieval-Augmented Generation (RAG) approach, orchestrated using the LangChain framework. Information was collected from the vector database using FAISS, then processed by GPT-3.5 Turbo to generate answers. The Skill Router component was applied for intent classification and processing path configuration. Evaluation results show that the chatbot can provide answers with 93.33% accuracy, a BLEU-2 score of 0.518, a ROUGE-L score of 0.683, and an average response time of 1.55 seconds. These findings demonstrate that the system is effective in automatically, efficiently, and contextually answering customer questions. Further development recommendations include expanding the knowledge base, automatic intent detection, escalation to human agents, monitoring integration, and optimization of alternative embedding and vector stores.

Keywords: AI Chatbot, Large Language Model (LLM), LangChain, Retrieval-Augmented Generation (RAG), Customer Service, CRISP-DM.

BAB I — PENDAHULUAN

1.1 Latar Belakang

Era digital yang terus berkembang ini menciptakan kecerdasan buatan (Artificial Intelligence) sebagai fondasi utama dalam transformasi layanan pelanggan. Perusahaan-perusahaan berlomba mengadopsi teknologi terkini untuk meningkatkan efisiensi dan kualitas pelayanan. Salah satu solusi teknologi yang semakin banyak digunakan adalah chatbot berbasis AI, yang memungkinkan interaksi otomatis dan real-time antara pelanggan dan sistem tanpa keterlibatan langsung manusia.

Lee, et. al, (2024) menjelaskan bahwa integrasi chatbot dengan model bahasa besar atau Large Language Models (LLM) mampu meningkatkan kualitas respons dalam percakapan, terutama saat dikombinasikan dengan pendekatan Retrieval-Augmented Generation (RAG). Pendekatan ini memungkinkan chatbot untuk mengambil informasi dari sumber eksternal secara cerdas sebelum membentuk jawaban, menghasilkan tanggapan yang lebih akurat, kontekstual, dan terkini. Bhat, et. al, (2024) menjelaskan bahwa teknologi ini terbukti meningkatkan keakuratan jawaban chatbot dan menurunkan risiko informasi yang keliru, khususnya dalam konteks domain-spesifik.

PT Telemedia Prima Nusantara, sebagai penyedia layanan internet, menghadapi tantangan dalam memberikan layanan pelanggan yang cepat, konsisten, dan personal, khususnya melalui platform komunikasi seperti WhatsApp. Saat ini, sebagian besar proses komunikasi dua arah masih dilakukan secara manual, termasuk dalam menjawab pertanyaan umum, pengecekan status layanan, dan pengiriman tagihan. Hal ini dapat menyebabkan keterlambatan respon dan menurunkan kepuasan pelanggan. Sebagai solusi, pengembangan chatbot AI berbasis arsitektur modular diperkenalkan. Sistem ini terdiri dari beberapa komponen utama: Baileys sebagai jembatan komunikasi WhatsApp, FastAPI sebagai backend server, serta LangChain untuk pengelolaan RAG dan integrasi dengan GPT-3.5 Turbo. Di antara komponen ini, Skill Router berperan penting dalam mengklasifikasikan maksud pesan pengguna (intent) dan menentukan jalur pemrosesan yang sesuai untuk menghasilkan jawaban yang optimal.

Vidivelli et al, (2024) menjelaskan bahwa arsitektur ini memungkinkan sistem untuk menjawab berbagai pertanyaan seperti FAQ, pengecekan status pembayaran, dan permintaan invoice secara otomatis, sekaligus menjaga fleksibilitas untuk ekspansi layanan di masa depan. Basis pengetahuan internal perusahaan (FAQ dan dokumentasi layanan) disimpan dalam vektor database seperti FAISS atau Weaviate, yang memungkinkan pencarian semantik berbasis konteks untuk mendukung sistem RAG. Berdasarkan latar belakang di atas, penulis akan melakukan penelitian dengan judul “Pengembangan Chatbot AI berbasis Large Language Model (LLM) Langchain dengan Retrieval-Augmented Generation (RAG) pada Customer Service di PT Telemedia Prima Nusantara.”

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan, permasalahan yang akan dibahas dalam penelitian ini adalah: Bagaimana merancang dan mengembangkan Chatbot AI berbasis Large Language Model (LLM) dengan integrasi LangChain dan Retrieval-Augmented Generation (RAG) yang mampu menjawab pertanyaan pelanggan secara relevan dan kontekstual di PT Telemedia Prima Nusantara?

1.3 Batasan Masalah

Agar penulisan Tugas Akhir ini lebih terarah, ruang lingkup penelitian dibatasi pada hal-hal berikut:

1.4 Tujuan dan Manfaat Penelitian

Tujuan:

Manfaat:

1.5 Sistematika Penulisan

Penelitian ini terdiri dari lima bab: Pendahuluan (latar belakang, rumusan masalah, batasan, tujuan dan manfaat, sistematika); Tinjauan Pustaka (landasan teori dan state of the art); Metodologi Penelitian (tahapan CRISP-DM, waktu dan tempat, pengumpulan data, pengembangan dan pemecahan masalah, analisis kebutuhan); Hasil dan Pembahasan (gambaran objek, analisis kebutuhan, perancangan sistem, hasil pengembangan dan pengujian); Penutup (kesimpulan dan saran).

BAB II — TINJAUAN PUSTAKA

2.1 Landasan Teori

2.1.1 Large Language Model (LLM) — Model yang digunakan adalah GPT-3.5 Turbo, sebuah LLM berbasis arsitektur transformer dari OpenAI. LLM memiliki kemampuan memproses bahasa alami dalam jumlah besar, memahami konteks, menyusun kalimat, dan berinteraksi secara real-time. Model ini mengandalkan mekanisme attention (scaled dot-product attention) untuk memetakan hubungan antar token dalam kalimat. Perhitungan attention dilakukan dengan dot product antara vektor query dan key, dibagi akar kuadrat dimensi key, lalu disalurkan ke softmax. Rumus scaled dot-product attention:

\[ \mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V \]

dengan \(Q\) = matriks Query, \(K\) = matriks Key, \(V\) = matriks Value, \(d_k\) = dimensi key matrix. Arsitektur transformer memiliki kompleksitas komputasi \(O(n^2 \cdot d)\), dengan \(n\) = panjang urutan (sequence length) dan \(d\) = dimensi vektor. Pemilihan GPT-3.5 Turbo didasarkan pada efisiensi komputasi, fleksibilitas konteks, dan keakuratan hasil untuk chatbot layanan pelanggan.

2.1.2 Retrieval-Augmented Generation (RAG) — RAG menggabungkan proses retrieval dari sumber data eksternal (basis pengetahuan, dokumen) dengan proses generation menggunakan LLM. Alur kerja: pertanyaan pengguna di-embed menjadi vektor; dilakukan pencarian dokumen relevan dari vector database (cosine similarity atau euclidean distance); dokumen top-k digabungkan ke dalam prompt dan dikirim ke LLM untuk menghasilkan respons. Dengan demikian jawaban lebih akurat, faktual, dan kontekstual serta mengurangi hallucination.

2.1.3 Rule-Based Text Preprocessing — Meliputi lowercasing, penghapusan karakter non-alfabet, stopword removal, tokenisasi, serta stemming/lemmatization. Tujuannya menyamakan format dan mengurangi noise agar embedding dan pencocokan semantik lebih optimal.

2.1.4 Document Embedding dan Mean Pooling — Teks diubah menjadi representasi vektor (embedding) menggunakan model seperti text-embedding-ada-002. Untuk dokumen, digunakan mean pooling: nilai rata-rata dari seluruh vektor token dalam satu segmen. Rumus mean pooling:

\[ \vec{v}_{\mathrm{dokumen}} = \frac{1}{n} \sum_{i=1}^{n} \vec{w}_i \]

dengan \(\vec{w}_i\) = embedding token ke-\(i\) dan \(n\) = jumlah total token. Embedding disimpan di vector database (FAISS/Weaviate) untuk similarity search.

2.1.5 Similarity Search — Setelah pertanyaan dan dokumen di-embed, kesamaan diukur dengan cosine similarity atau euclidean distance. Cosine similarity mengukur kemiripan arah antara dua vektor (nilai dalam rentang [0, 1], mendekati 1 = sangat mirip):

\[ \mathrm{CosineSimilarity}(A, B) = \frac{A \cdot B}{\|A\| \|B\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \cdot \sqrt{\sum_{i=1}^{n} B_i^2}} \]

Euclidean distance mengukur jarak geometris; nilai lebih kecil berarti lebih mirip:

\[ d(A, B) = \sqrt{\sum_{i=1}^{n} (A_i - B_i)^2} \]

Pencarian dilakukan di FAISS dengan algoritma ANN (Approximate Nearest Neighbor).

2.1.6 Chatbot — Sistem yang berinteraksi dengan manusia melalui bahasa alami. Dapat diklasifikasikan: rule-based, retrieval-based, dan generative-based. Chatbot berbasis LLM-RAG menggabungkan retrieval dari knowledge base dengan kemampuan generatif LLM, sehingga jawaban akurat, kontekstual, dan faktual—sangat cocok untuk layanan pelanggan.

2.2 State of the Art

Awalnya chatbot rule-based digunakan untuk pertanyaan sederhana, namun tidak memadai untuk variasi pertanyaan yang luas. LLM seperti GPT-3.5 memungkinkan jawaban lebih fleksibel dan alami, tetapi memiliki keterbatasan pada pertanyaan domain-spesifik. Pendekatan RAG menggabungkan pencarian informasi berbasis vektor dari sumber eksternal dengan kemampuan generatif LLM. Penelitian Rosari et al. (2024) pada chatbot konsultasi keamanan siber menunjukkan peningkatan akurasi dan kepuasan pengguna. Benita et al. (2024) menerapkan RAG dalam chatbot e-commerce dengan peningkatan akurasi hingga lebih dari 85%. Penelitian ini mengimplementasikan RAG dan LangChain secara spesifik pada layanan pelanggan berbasis WhatsApp di sektor ISP (PT Telemedia Prima Nusantara), dengan keunikan penggunaan LangChain, FAISS/Weaviate, dan pengujian menggunakan data FAQ perusahaan riil.

BAB III — METODOLOGI PENELITIAN

3.1 Tahapan Penelitian (CRISP-DM)

Tahapan penelitian mengikuti CRISP-DM: (1) Business Understanding — identifikasi masalah layanan pelanggan di PT Telemedia Prima Nusantara (komunikasi manual via WhatsApp, keterlambatan respon, beban kerja staf, inkonsistensi jawaban); (2) Data Understanding — eksplorasi data primer (observasi, wawancara, feedback internal) dan data sekunder (FAQ, histori chat WhatsApp, data transaksi/Mixradius); (3) Data Preparation — text preprocessing (lowercase, penghapusan tanda baca, stopword removal, tokenisasi, lemmatization/stemming), segmentasi data berdasarkan kategori dan intensi; (4) Modeling — pembangunan arsitektur RAG: embedding dengan text-embedding-ada-002, penyimpanan ke FAISS/Weaviate, pencocokan dengan cosine similarity, prompt dinamis ke GPT-3.5 Turbo via LangChain; (5) Evaluation — pengujian dengan metrik BLEU, ROUGE, waktu respons, dan umpan balik pengguna; (6) Deployment — implementasi di VPS Ubuntu dengan Supervisor, integrasi WhatsApp via Baileys, operasi 24 jam.

3.2 Waktu dan Tempat Penelitian

Penelitian dilaksanakan selama kurang lebih tiga bulan (10 Maret 2025 – 10 Juni 2025) di PT Telemedia Prima Nusantara, Komplek Pulogadung Permai, Jl. Soekarno Hatta No.99 A Blok L, RT.055/RW.010, Karya Baru, Kec. Alang-Alang Lebar, Kota Palembang, Sumatera Selatan 30151.

3.3 Metode Pengumpulan Data

Data primer: observasi proses layanan pelanggan, wawancara dengan staf customer service, feedback pengguna internal saat evaluasi, eksperimen chatbot (interaksi langsung) dengan metrik BLEU, ROUGE, dan waktu respons.

Data sekunder: dokumen FAQ, dokumentasi alur invoice dan status pembayaran (Mixradius), riwayat percakapan WhatsApp, dokumen teknis internal lainnya.

3.4 Metode Pemecahan Masalah

Penelitian ini menggunakan pendekatan RAG yang diorkestrasi dengan framework LangChain. RAG menggabungkan retrieval (pengambilan informasi dari basis pengetahuan) dan generation (pembentukan jawaban dengan LLM).

Gambar 3.1 Arsitektur RAG
Gambar 3.1 Arsitektur Retrieval-Augmented Generation (Sumber: Shailja Gupta et al., 2024)
Gambar 3.2 Arsitektur LangChain
Gambar 3.2 Arsitektur LangChain dalam sistem chatbot (Sumber: Shailja Gupta et al., 2024)

Alur: penerimaan pesan WhatsApp → preprocessing teks → embedding pertanyaan → similarity search di vector store (FAISS/Weaviate) → penyusunan prompt dengan konteks top-k → generasi jawaban dengan GPT-3.5 Turbo → pengiriman respons ke pengguna. Skill Router digunakan untuk klasifikasi intensi dan pengaturan jalur pemrosesan. Evaluasi meliputi:

\[ \mathrm{Waktu\,Respons}\,(ms) = T_1 - T_0 \]

Target ideal < 2000 ms (2 detik).

3.5 Analisis Kebutuhan Sistem

Flowchart sistem yang berjalan: Layanan pelanggan manual via WhatsApp; staf mencari informasi (FAQ, status pembayaran, invoice) secara manual dan menjawab. Kelemahan: respon tidak konsisten, keterlambatan, beban kerja tinggi, tidak ada riwayat pencarian otomatis.

Gambar 3.3 Flowchart sistem yang berjalan
Gambar 3.3 Flowchart sistem yang berjalan

Flowchart sistem yang diusulkan: Chatbot LLM-RAG terintegrasi WhatsApp (Baileys) dan LangChain. Alur: terima pesan → preprocessing → embedding → similarity search di vector DB → prompt ke GPT-3.5 Turbo → respons kontekstual ke pengguna. Keunggulan: jawaban otomatis, akurat, konsisten; pencarian semantik; pengurangan beban staf.

Gambar 3.4 Flowchart sistem yang diusulkan
Gambar 3.4 Flowchart sistem yang diusulkan

Spesifikasi perangkat keras dan lunak: Ubuntu Server 22.04 LTS, RAM 32 GB, penyimpanan 128 GB (SSD/HDD), CPU 4 cores atau lebih, koneksi internet stabil. Perangkat lunak: Python 3.13, LangChain, OpenAI API (GPT-3.5 Turbo), FAISS/Weaviate, Baileys (Node.js), Process Manager (Supervisor/PM2). Library Python: openai, langchain, weaviate-client, faiss-cpu, pandas, tiktoken, uvicorn, fastapi.

BAB IV — HASIL DAN PEMBAHASAN

4.1 Gambaran Umum Objek Penelitian

Objek penelitian adalah PT Telemedia Prima Nusantara, penyedia layanan internet (ISP) di Palembang. WhatsApp digunakan sebagai kanal komunikasi utama. Sebelum chatbot, proses layanan dilakukan manual oleh staf: pelanggan mengirim pesan, staf mencari informasi dan mengetik jawaban. Dampaknya: waktu lama, inkonsistensi jawaban, beban kerja tinggi, keterlambatan.

4.2 Analisis Kebutuhan

Kebutuhan fungsional: (1) Menerima pesan dari pengguna WhatsApp via Baileys; (2) Preprocessing teks (pembersihan, tokenisasi, lemmatization); (3) Embedding pertanyaan dengan text-embedding-ada-002; (4) Pencarian dokumen relevan di vector DB (cosine similarity); (5) Penyusunan prompt dinamis (LangChain); (6) Generasi jawaban dengan GPT-3.5 Turbo; (7) Pengiriman respons ke pengguna; (8) Penyimpanan log interaksi; (9) Fallback jika tidak ada dokumen relevan.

Kebutuhan non-fungsional: Ketersediaan 24 jam (Supervisor di VPS); waktu respons cepat (maks. 2 detik); privasi dan keamanan data; skalabilitas; modularitas dan maintainability; kompatibilitas dengan API eksternal; logging dan monitoring.

4.3 Perancangan Sistem

Gambar 4.1 Perancangan sistem
Gambar 4.1 Perancangan sistem

Data pipeline: Sumber data: histori percakapan pelanggan (ekspor chat WhatsApp) dan dokumen layanan (FAQ, panduan teknis). Ekstraksi teks dari PDF dengan PyMuPDF/PyPDF2. Preprocessing: text cleaning, RecursiveCharacterTextSplitter (chunk 500–800 token, overlap 20), tokenisasi (tiktoken). Embedding dengan text-embedding-ada-002 (dimensi 1536), penyimpanan ke FAISS/Weaviate.

Gambar 4.2 Data pipeline
Gambar 4.2 Data pipeline

Algoritma sistem: Pesan WhatsApp → preprocessing → embedding pertanyaan. Pencocokan dengan vector store menggunakan cosine similarity antara vektor pertanyaan \(Q\) dan vektor dokumen \(D\):

\[ \mathrm{CosineSimilarity}(Q, D) = \frac{Q \cdot D}{\|Q\| \cdot \|D\|} \]

Dokumen dengan skor tertinggi (top-k) → prompt dinamis + konteks → GPT-3.5 Turbo → respons. Conversation Buffer Window Memory (LangChain) menyimpan konteks percakapan terakhir. Fallback jika similarity sangat rendah.

Gambar 4.3 Conversation Buffer Window Memory
Gambar 4.3 Conversation Buffer Window Memory

4.4 Hasil Pengembangan

Sistem chatbot beroperasi langsung melalui WhatsApp tanpa antarmuka web/desktop. Setiap pesan diproses otomatis: preprocessing, embedding, retrieval, prompt, pemanggilan API GPT-3.5 Turbo, respons ke WhatsApp. Parameter (chunk size, overlap, top-k, preprocessing) dikonfigurasi di server. Sistem dilengkapi log percakapan dan buffer memory untuk konteks. Chatbot mampu menjawab pertanyaan status pembayaran, permintaan invoice, dan FAQ umum secara otomatis melalui WhatsApp.

4.4.1 & 4.4.2 Hasil Pengujian dan Analisa

Pengujian dilakukan melalui WhatsApp dengan 6 topik pertanyaan, masing-masing 5 variasi (total 30 pertanyaan). Evaluasi manual (akurasi) dan metrik BLEU-2, ROUGE-L, serta waktu respons.

Tabel 4.1 — Hasil Pengujian Pertanyaan (dengan Text Preprocessing, Top-K = 3, Chunk Size = 800)

NoTopik PertanyaanVariasiJawaban SesuaiJawaban Tidak SesuaiAkurasi per Topik (%)
1Cara cek status pembayaran550100,00
2Permintaan salinan invoice550100,00
3Informasi reset modem/koneksi54180,00
4Waktu aktif layanan setelah pembayaran54180,00
5Alamat kantor & operasional550100,00
6Tindakan saat internet lambat/gangguan jaringan54180,00
Total3027390,00

Tabel 4.2 — Pengujian Dengan dan Tanpa Text Preprocessing

NoPreprocessingChunk sizeOverlapTop-KAkurasi (%)
1Ya50050283,33
2Ya800150393,33
3Tidak50050250,00
4Tidak800150390,00

Sumber: Diolah peneliti pada 10 Juni 2025.

Dengan text preprocessing dan parameter chunk_size=800, overlap=150, top-k=3, akurasi mencapai 93,33%. Tanpa preprocessing akurasi turun signifikan; parameter yang lebih besar tetap meningkatkan hasil.

Tabel 4.3 — Hasil Pengujian BLEU-2 dan ROUGE-L (rata-rata)

Nilai rata-rata BLEU-2: 0,518; ROUGE-L: 0,683. Menunjukkan jawaban chatbot secara leksikal dan semantik mendekati jawaban referensi.

Tabel 4.4 — Hasil Pengujian Waktu Respons

Rata-rata waktu respons: 1,55 detik (di bawah target 2 detik). Chatbot responsif untuk penggunaan real-time di WhatsApp.

BAB V — PENUTUP

5.1 Kesimpulan

  1. Sistem chatbot berhasil dikembangkan dan terintegrasi melalui WhatsApp (Baileys), dengan pemrosesan otomatis: preprocessing, embedding, retrieval vektor, generasi respons GPT-3.5 Turbo.
  2. Penerapan text preprocessing secara signifikan meningkatkan akurasi (dari 50% menjadi 93,33% saat preprocessing diaktifkan).
  3. Vector database FAISS dan cosine similarity berhasil mengidentifikasi dokumen relevan; respons chatbot kontekstual dan berbasis informasi aktual perusahaan.
  4. Evaluasi BLEU-2 (0,518) dan ROUGE-L (0,683) menunjukkan jawaban mendekati referensi secara leksikal dan semantik.
  5. Sistem responsif (rata-rata 1,55 detik), memenuhi standar layanan pelanggan berbasis teks. Chatbot terbukti mampu menjawab berbagai pertanyaan umum pelanggan secara otomatis dan efisien serta mendukung transformasi digital di PT Telemedia Prima Nusantara.

5.2 Saran

  1. Perluasan basis pengetahuan agar chatbot dapat menjawab lebih banyak jenis pertanyaan (teknis/kompleks); integrasi data dari sistem informasi perusahaan secara real-time.
  2. Penerapan deteksi intensi berbasis machine learning untuk skill routing yang lebih presisi (misalnya teknis vs. administratif).
  3. Fallback escalation ke agen manusia jika similarity sangat rendah atau pengguna tidak puas berulang kali.
  4. Integrasi monitoring dan feedback pengguna untuk pembelajaran dari kegagalan dan deteksi kesalahan jawaban.
  5. Eksperimen model embedding baru (misalnya text-embedding-3-small) dan vector store alternatif (Qdrant, Milvus) untuk performa dan skala besar.

Daftar Pustaka

Daftar pustaka lengkap beserta format sitasi terdapat pada dokumen PDF tugas akhir. Beberapa referensi utama: Lewis et al. (2020) — RAG for knowledge-intensive NLP; LangChain documentation; OpenAI embeddings guide; Lee et al. (2023), Benita et al. (2024), Burgan et al. (2024), Vidivelli et al. (2024), serta jurnal dan prosiding terkait chatbot, RAG, dan LLM.