Anche tu puoi dotare facilmente i tuoi dipendenti di Fleet
Concentrati sulla tua crescita scegliendo la nostra soluzione chiavi in mano.
Approcci di implementazione per i sistemi di conoscenza basati su AI
Quando si integra la conoscenza interna all’interno di applicazioni di intelligenza artificiale, emergono tre approcci principali:
Prompt Context – Caricare tutte le informazioni rilevanti nella finestra di contesto e sfruttare il prompt caching.
Retrieval-Augmented Generation (RAG) – Utilizzare gli embedding testuali per recuperare solo le informazioni più pertinenti per ogni query.
Fine-Tuning – Addestrare un modello di base per adattarlo meglio a esigenze specifiche.
Ogni approccio presenta vantaggi e compromessi:
Prompt Context è il più semplice da implementare, non richiede infrastrutture aggiuntive e beneficia dell’aumento delle dimensioni della finestra di contesto (che oggi può raggiungere centinaia di migliaia di token). Tuttavia, può diventare costoso con input molto grandi e rischia il sovraccarico di contesto.
RAG riduce l’uso di token recuperando solo frammenti rilevanti, rendendolo efficiente per basi di conoscenza di grandi dimensioni. Tuttavia, richiede la manutenzione di un database di embedding e la regolazione dei meccanismi di recupero.
Fine-Tuning offre la personalizzazione più profonda, migliorando la qualità e l’efficienza delle risposte, ma richiede molte risorse, tempo e aggiornamenti continui del modello.
Perché abbiamo scelto il Prompt Context
Per le nostre esigenze attuali, il Prompt Context è stata la scelta più pratica:
Permette un ciclo di sviluppo rapido senza necessità di infrastrutture aggiuntive.
Le ampie finestre di contesto (oltre 100k token) sono sufficienti per la nostra base di conoscenza compatta.
Il prompt caching aiuta a ridurre latenza e costi.
Prompt caching: strutturare il prompt per l’efficienza
Abbiamo imparato rapidamente che senza un caching del prompt ben progettato, le conseguenze possono essere rilevanti:
Impatto sui costi: ogni richiesta dovrebbe inviare l’intera finestra di contesto (potenzialmente decine o centinaia di migliaia di token) al provider AI, aumentando in modo significativo i costi API. Per applicazioni ad alto volume, questo può diventare rapidamente insostenibile.
Problemi di latenza: elaborare da zero prompt molto lunghi a ogni richiesta aggiunge tempi di elaborazione notevoli — spesso diversi secondi per richiesta — peggiorando l’esperienza utente.
Quasi tutti i provider AI offrono un sistema di caching per i prompt, ma è necessario sapere come strutturarli correttamente per trarne vantaggio. La documentazione di OpenAI lo spiega chiaramente:
“Le cache funzionano solo per corrispondenze esatte di prefisso all’interno di un prompt. Per sfruttare i benefici del caching, inserisci i contenuti statici — come istruzioni ed esempi — all’inizio del prompt, e posiziona le parti variabili, come le informazioni specifiche dell’utente, alla fine. Questo vale anche per immagini e strumenti, che devono essere identici tra una richiesta e l’altra.”
Questo significa che dovevamo collocare tutti gli elementi dinamici — come query utente o dati di sessione — in fondo al prompt, mantenendo le istruzioni statiche e gli esempi in cima. Altrimenti, anche piccoli cambiamenti avrebbero impedito alla cache di funzionare, generando ricalcoli inutili e costi extra.
Per applicazioni ricche di contesto come la nostra, implementare un prompt caching efficace non è stato solo un’ottimizzazione, ma una condizione essenziale per rendere la soluzione sostenibile dal punto di vista tecnico ed economico.
Finestre di contesto enormi: una rivoluzione
Un altro motivo per cui abbiamo scelto di continuare con il Prompt Context è che le finestre di contesto stanno diventando sempre più grandi. I modelli più recenti di OpenAI supportano oltre 128.000 token, più che sufficienti per includere l’intera nostra base di conoscenza. I modelli Gemini di Google spingono ancora oltre, arrivando fino a 2 milioni di token — abbastanza da contenere diversi libri in un unico prompt.
Con questi progressi, il principale svantaggio del Prompt Context — lo spazio limitato — sta diventando sempre meno rilevante.
Il futuro: un approccio ibrido
Anche se il Prompt Context funziona bene per noi oggi, sappiamo che non potrà scalare all’infinito. Man mano che la nostra base di conoscenza crescerà, prevediamo di combinare RAG (per una maggiore efficienza) e Fine-Tuning (per risposte più specializzate). Ma per ora, mantenere la semplicità si è rivelata la scelta più giusta.
