Datu kvalitāte failos. Zināšanu bāze
Automātiskā teksta ģenerēšana darbojas, pēc noteikta algoritma un atslēgvārdiem meklējot lietotāja jautājumam līdzīgus segmentus (fragmentus) esošajā zināšanu bāzes tekstā un izveidojot no tiem atbildi, tāpēc ģenerēšanas rezultāti ir cieši saistīti ar zināšanu bāzē ievietotās informācijas kvalitāti, ko var vērtēt pēc satura un struktūras.
Saturs
Labāki rezultāti iegūstami, ja zināšanu bāzes teksts ir
- Precīzi un tieši formulēts valodas līdzekļu lietojumā un vārdu atlasē; pietuvināts iespējamajiem lietotāju jautājumiem un sagaidāmajām atbildēm.
- Cilvēki sagaida, ka mākslīgais intelekts spēs izsecināt vairāk, nekā norādīts tekstā – lielākoties tas nenotiek. Pieņemsim, ka zināšanu bāzes failā ir teikums: “Mūsu pasaule: uguns, zeme, gaiss, ūdens.” Ja lietotājs tērzēšanā pavaicā: “Nosauc četrus elementus!” – automātiskā ģenerēšana atbildi neizveidos. Savukārt, ja zināšanu bāzē būs teikums: “Pasauli veido četri elementi: uguns, zeme, gaiss un ūdens,” – atbilde tiks ģenerēta.
- Otrs piemērs cieši saistīts ar gaidām par to, ka mākslīgais intelekts tiek galā ar vispārinošiem jēdzieniem, kas šobrīd tā nav. Pieņemsim, ka zināšanu failā ir teikums: “Pie zemes elementa pieder akmeņi un ieži”. Ja tērzēšanā lietotājs pavaicās: “Pie kāda elementa pieder laukšpats?” – mākslīgais intelekts tikpat labi var sniegt atbildi par gaisa, nevis zemes elementu, jo par laukšpatu tam nekas nav zināms. Tāpat no mākslīgā intelekta nevar gaidīt cilvēciski pašsaprotamus spriedumus. Piemēram, ja zināšanu bāzē būs norādes par to, kas jāveic, lai iegūtu jaunu formastērpu, lietotāja jautājums: "Man ir saplīsuši zābaki, ko darīt?" – tomēr netiks atbildēts.
- Reizēm tiek sagaidīts, ka automātiskā teksta ģenerēšana spēs izvērtēt apjomīgu datu daudzumu un ģenerēs ļoti precīzu, jēgpilnu un specifisku atbildi, iekļaujot sīkākās nianses un atrunas, tomēr tā nenotiek. Ja zināšanu bāzē tiek ievietoti vispārīgi likumdošanas akti, bet tērzēšanā pavaicāts jautājums, kura atbilde pieprasa vairāku dokumentu analīzi – nav teikts, ka izveidotajā atbildē tiks pieminētas visas likuma nianses no visiem dokumentiem.
- Ar pilnu aprakstošo informāciju un skaidrojumu.
- Piemērs. Ja zināšanu bāzes failā ir daudz dažādu tabulu bez nosaukumiem vai atsauču uz attēliem bez sīkākiem paskaidrojumiem, lietotājam vaicājot jebkādu jautājumu par tabulas vai attēla saturu, atbilde netiks sniegta, jo automātiskajam teksta ģenerēšanas risinājumam nebūs nekādu teksta norāžu, kā meklēt segmentus ar vajadzīgajiem datiem. Ja vēlamies, lai tiktu sniegta informācija par attēliem vai tabulām, tām der pievienot aprakstošu informāciju par saturu.
Struktūra
- Segmenti. Lai iegūtu automātiski ģenerētu atbildi uz lietotāja jautājumu, lielajam valodas modelim tiek nosūtīts pieprasījums ar pēc līdzības ticamākajiem zināšanu bāzes informācijas fragmentiem jeb segmentiem. Proti, iegūtās atbildes pareizība ir cieši saistīta ar to, vai pieprasījumā ir iekļuvis vajadzīgais informācijas segments no zināšanu bāzes.
Kad zināšanu bāzei tiek pievienots jauns fails, tas tiek automātiski sadalīts segmentos. Sadalījumu segmentos var aplūkot faila cilnē Segmenti (arī noklikšķinot uz lupas ikonas, ja failam pievienots tags “public”). Automātiski jauns segments tiek sākts arī ar katru virsrakstu, kas noformēts, tā sākumā ievietojot atsauces tagus (#, ## vai ###). Tomēr mēdz būt, ka jēdzieniski viena veida informācija ir sadalīta pa vairākiem segmentiem. Piemēram, vienas rindkopas pirmais teikums pielikts pie iepriekšējā segmenta, bet atlikusī rindkopa atrodas nākamajā segmentā vai arī, ja ir garāks uzskaitījums, pirmās vienības atrodas vienā segmentā ar paskaidrojošo ievadteikumu, bet pārējās vienības – nākamajā segmentā bez paskaidrojuma. Citkārt jēdzieniski pilnīgi atšķirīga informācija apvienota vienā segmentā. Šajos gadījumos pieprasījumā tiks atlasīti nepareizi vai nepilnīgi segmenti, un automātiskā ģenerēšana sniegs nekorektas atbildes. Tomēr manuāli iespējams segmentu robežas mainīt, ievietojot jauna segmenta sākuma pazīmi – četrus atsauces tagus (####) jaunā rindā virs atdalāmā teksta. Šī ir arī ieteicamā metode, kā papildināt zināšanu bāzi ar jēdzieniski patstāvīgiem vienkāršiem jautājumiem ar atbildēm.
- Piemēram:
####
Kāda ir jūsu adrese?
Mūsu adrese ir Vienības gatve 4a.
####
Cik jums gadu?
Uzņēmums ir dibināts 2024. gadā.
- Noformējuma elementi. Lai dati būtu vieglāk pārlūkojami un arī labāk apstrādājami (īpaši tabulu gadījumā), tos ieteicams formatēt. Noformēšanai lietojama markdown sintakse. Dažus piemērus var skatīt šajā rakstā: Virtuālā asistenta tekstu formatēšana
Ieteikumi darbā ar datiem
1. Datu faila pievienošana. Zināšanu bāzē var pievienot dažādu formātu failus (word, pdf utt.), vietnē saturs tiks saglabāts kā markdown fails. Pirms faila ievietošanas vietnē var arī izmēģināt saturu pārkonvertēt markdown formātā, ko piedāvā dažādi tiešsaistes rīki un spraudņi – iespējams, faila formatējums būs pilnīgāks un atbilstošāks konkrētā faila vajadzībām.
2. Pārskatīšana. Sākotnējie dati var būt dažādas kvalitātes, turklāt neviens konvertēšanas rīks nedod ideālu rezultātu, īpaši ja failā papildu tekstam ir daudz citas informācijas – tabulas, attēli un grafiki – tādēļ faila saturs ir jāpārskata: vai viss vajadzīgais ir ielasījies, pārkonvertējies un aizvien atrodas gala datos.
3. Attēlu apstrāde. Ja oriģinālajā failā bijis attēls, kas nav pieejams tīmeklī, to var ievietot vietnes apakšskatā Resursi un uz jauno attēla saiti (noklikšķināt uz attēla ar peles labo klikšķi un “Kopēt attēla adresi”) atsaukties zināšanu bāzes failā.
Piemēram:

4. Testēšana. Kad ir pievienots un sakārtots jauns fails, ir vērts veikt testēšanu, uzdodot jautājumus par dokumenta tematu – šādā veidā iespējams saprast, vai tiek sniegtas korektas atbildes, un pārskatīt, vai nav vajadzīgi labojumi segmentu dalījumā.
Uzturēšana
- Zināšanu bāzē ieteicams turēt tikai aktuālos datus un dzēst novecojušo un neaktuālo informāciju.
- Mainīgos datus ieteicams ievietot atsevišķā failā, lai tos būtu ērtāk regulāri atrast un labot.
Svarīgi! Automātiskās ģenerēšanas atbildes katru reizi var atšķirties, tās mēdz būt kļūdainas vai nepilnīgas.