AI Chatbots

LLMQnA servisa konfigurācijas parametri

Metadata (Metadati)

Nosaka metadatu iestatījumus, tostarp filtrēšanas nosacījumus.

Metadatus var izmantot šādos gadījumos:

Pievienojot zināšanu bāzei failu ar noteiktiem metadatiem, lai faila tekstu varētu filtrēt (sk. 2. un 3. lietojumu).
Meklējot tekstu tikai tādos fragmentos/failos, kuru metadati ir norādīti.
Runājot ar asistentu, izmantot tikai tādus fragmentus/failus, kuru metadati ir norādīti.

"Metadata":{"shop":"true","services":"true","and_or":"and","exclude":{"ChunkNr":"8","public":"true"}}

Failu meklēšanai metatagu vērtības var būt saraksti.
Pēc noklusējuma filtri tiek apvienoti ar loģisko operatoru "or". Lai izmantotu "and", tas jānorāda ar metatagu "and_or" (šis ir izvēles tags).
Markdown konteksta failos #, ## un ### tiek interpretēti kā teksta segmentu atdalītāji, un to vērtības tiek pievienotas metadatiem kā H1:xxx, H2:yyy, H3:zzz.
Rinda ar #### somekey:somevalue tiek pievienota metadatiem kā somekey:somevalue, bet rinda tikai ar #### nozīmē obligātu segmenta sadalījumu.

Threshold (Slieksnis)

Ar kosinusu līdzību nosaka līdzības slieksni starp lietotāja ievadīto tekstu un segmentiem zināšanu bāzē, izslēdzot segmentus, kas pārsniedz norādīto vērtību. Kosinusa līdzība ir robežās no 0.0 līdz 2.0. Jo mazāka vērtība, jo segmenti ir līdzīgāki.

"Similarity":{"metric":"cosine_sim","threshold":"0.75"}

Debug (Atkļūdošana)

Iespējo vai atspējo atkļūdošanas režīmu. Ja vērtība ir "true", metodei chat tiek atgriezta visa uzvedne ar kontekstu un vēsturi atslēgā "LLMinput" un sarunas vēsture – atslēgā "history".

"Debug":"true"

LLM (Lielais valodas modelis)

Norāda izmantošanai alternatīvu valodas modeli, ja tīmekļa pakalpojums startēts ar diviem iespējamiem modeļiem - 'gpt-35-turbo' un 'gpt-4o'. (Ja Web servisu startējot neuzrāda alternatīvo modeli, šai opcijai nav nozīmes)

"LLM":"gpt-4o"

DifferentLLM (Cits LLM modelis)

Norāda izmantošanai citu valodas modeli:

"DifferentLLM":{"model":"gpt-4o","version":"xxx", "azure_deployment":"xxx", "azure_endpoint":"https://xxx.openai.azure.com/","api_key":" "}

UseKeywords (Atslēgvārdu izmantošana)

Vērtības: "true" vai "false" (noklusējums ir "true"). Iespējo meklēšanu un filtrēšanu pēc atslēgvārdiem papildus semantiskajai meklēšanai segmentu atlasē un filtrēšanā.

"UseKeywords":"true"

Language (Valoda)

Norāda valodu atslēgvārdu apstrādei.

"Language":"en"

HyDe (Hipotētiskais dokuments – eksperiments)

Izmanto hipotētisko dokumentu, lai uzlabotu jautājuma izpratni. Vērtība var būt "true" vai "false" (noklusējuma vērtība ir "false"). Ja iestatīta uz "true", vispirms, izmantojot lielo valodas modeli (LLM), tiek ģenerēta informācija, kas varētu palīdzēt atbildēt uz jautājumu. Pēc tam no vektoru datubāzes tiek izvēlēti semantiski līdzīgi segmenti šim ģenerētajam hipotētiskajam segmentam, nevis segmenti, kas ir līdzīgi pašam jautājumam.

"HyDe":"true"

ChunkSize (Segmenta lielums)

Nosaka, cik lieli faila segmenti jāveido, sadalot failus apstrādei.

"ChunkSize":"1024"

SmartChunking (Gudrā dalīšana segmentos)

Pēc dažādām teksta pazīmēm (uzskaites vienības, rindkopas un citi elementi) nosaka nākamā segmenta sākumu. Pēc noklusējuma iespēja ir ieslēgta ar vērtību "true".

"SmartChunking":"false"

FilterReferences (Atsauču filtrēšana)

Atsauču filtrēšana. Ļauj filtrēt atsauces apstrādātajā saturā. Ja iestatīts uz "true" (noklusējuma vērtība ir "false"), tiek atgrieztas tikai tās atsauces, kas, balstoties uz kosinusa līdzību, ir semantiski līdzīgas atbildei. Atsauces, kas nav izmantotas atbildes ģenerēšanā, tiek izslēgtas.

"FilterReferences":"true"

MultiQuestions (Vairāki jautājumi – eksperiments)

Ja nevar atbildēt uz jautājumu, tas tiek sadalīts vairākos jautājumos un atbildēts atsevišķi. Nodrošina, ka pārāk sarežģīti jautājumi tiek sadalīti mazākos apakšjautājumos, lai iegūtu labākus rezultātus. Ja iestatīts uz "true" (noklusējuma vērtība ir "false"), un konteksts nesatur pietiekamu informāciju atbildei, lielais valodas modelis sadalīs ievadi vairākās daļās un sniegs atbildi uz katru daļu atsevišķi.

"MultiQuestions":"true"

ExtractPictures (Attēlu iegūšana)

Attēlu izvilkšana no PDF failiem atsevišķā mapē. Nodrošina, ka PDF failos atrastie attēli tiek saglabāti atsevišķi. Metode getpictures vēlāk automātiski saglabā visus attēlus apmācības apakšskatā “Resursi” un izveido saites zināšanu bāzes dokumentā kā atsauces uz virtuālā asistenta resursu mapi.

"ExtractPictures":"true"

UseSummary (Kopsavilkuma lietošana – eksperiments)

Ģenerē faila kopsavilkumu un pievieno to segmenta metadatiem, kā arī, sagatavojot atbildes kontekstu, ievieto pirms faila segmentiem. No faila satura tiek izveidots kopsavilkums un pievienots atbildes kontekstam.

"UseSummary":"true"

Pdf2md (Markdown iegūšanai no PDF, izmantojot dažādus rīkus)

Norāda rīku, kas tiek izmantots PDF pārveidošanai markdown formātā.

type (rīki, ko izmanto, piekļūstot caur API izsaukumiem: 'gemini', 'llamacloudparse', 'docintelligence', 'mistral' vai izmantojot Python bibliotēkas: 'markerpdf', 'pymupdf4llm', 'docling')
model (tikai tad, ja type ir 'gemini' vai 'mistral')
key (tikai tad, ja type ir 'gemini', 'llamacloudparse', 'docintelligence' vai 'mistral'). API izsaukumiem nepieciešamas pieejas atslēgas, ko var iegūt pie pakalpojuma nodrošinātājiem:
- ‘gemini’ atslēga no https://aistudio.google.com/app/apikey;
- 'mistral' atslēga no https://admin.mistral.ai/organization/api-keys;
- 'llamacloudparse' atslēga no https://cloud.llamaindex.ai/;
- ‘docintelligence’ atslēga no https://azure.microsoft.com/en-us/products/ai-services/ai-document-intelligence
endpoint (tikai tad, ja type ir 'docintelligence')

Config parametra piemēri (ja 'ExtractPictures' ir 'true', attēli no PDF faila tiek saglabāti kā atsevišķi faili un tos var izgūt ar metodi getPictures):

{"ExtractPictures":"true","Pdf2md":{"type":"gemini","model":"gemini-2.0-flash","key":"<GOOGLE_API_KEY>"}}
{"Pdf2md":{"type":"llamacloudparse","key":"<LLAMA_CLOUD_API_KEY>"}}
{"ExtractPictures":"true","Pdf2md":{"type":"mistral","model":"mistral-ocr-latest","key":"<MISTRAL_API_KEY>"}}
{"ExtractPictures":"true","Pdf2md":{"type":"docintelligence","endpoint":"<AZURE_DOCINTELLIGENCE_ENDPOINT>","key":"<AZURE_DOCINTELLIGENCE_KEY>"}}
{"ExtractPictures":"true","Pdf2md":{"type":"markerpdf"}}
{"ExtractPictures":"true","Pdf2md":{"type":"pymupdf4llm"}}
{"ExtractPictures":"true","Pdf2md":{"type":"docling"}}

Metadata (Metadati)​

Threshold (Slieksnis)​

Debug (Atkļūdošana)​

LLM (Lielais valodas modelis)​

DifferentLLM (Cits LLM modelis)​

UseKeywords (Atslēgvārdu izmantošana)​

Language (Valoda)​

HyDe (Hipotētiskais dokuments – eksperiments)​

ChunkSize (Segmenta lielums)​

SmartChunking (Gudrā dalīšana segmentos)​

FilterReferences (Atsauču filtrēšana)​

MultiQuestions (Vairāki jautājumi – eksperiments)​

ExtractPictures (Attēlu iegūšana)​

UseSummary (Kopsavilkuma lietošana – eksperiments)​

Pdf2md (Markdown iegūšanai no PDF, izmantojot dažādus rīkus)​