Skip to main content
AI Chatbots

Žinių bazės failų duomenų kokybė

Automatinis teksto generavimas veikia ieškant panašių segmentų (ištraukų) esamos žinių bazės tekste ir iš jų pagal tam tikrą algoritmą ir raktinius žodžius sukuriant atsakymą į vartotojo klausimą. Taigi, generavimo rezultatai yra glaudžiai susiję su žinių bazėje esančios informacijos kokybe, kurią galima įvertinti turinio ir struktūros požiūriu.

TURINYS

Geresni rezultatai bus tada, jei žinių bazės tekste bus…

…taikliai parinktos kalbos priemonės ir žodžiai, artimi tikėtiniems vartotojų klausimams ir atsakymams

  • Žmonės tikisi, kad dirbtinis intelektas sugebės atsakyti daugiau, nei parašyta tekste, tačiau dažniausiai taip nėra. Tarkime, žinių bazėje bus sakinys: „Mūsų pasaulis: ugnis, žemė, oras, vanduo“. Jei vartotojas pokalbio metu paprašys: „Išvardink keturis elementus!“, virtualusis asistentas nesugeneruos atsakymo. O jei žinių bazėje bus sakinys: „Mūsų pasaulį sudaro keturi elementai: ugnis, žemė, oras ir vanduo“, atsakymas bus sugeneruotas.
  • Kitas pavyzdys yra glaudžiai susijęs su lūkesčiais, kad dirbtinis intelektas susidoroja su apibendrinančiomis sąvokomis, o šiuo metu taip nėra. Tarkime, žinių bazės faile yra sakinys: „Žemės elementui priklauso uolienos ir akmenys“. Jei pokalbio metu vartotojas klausia: „Kuriam elementui priklauso skalūnai?“, dirbtinis intelektas gali atsakyti ne apie žemės, o apie oro elementą, nes jis nieko nežino apie skalūnus.
  • Kartais tikimasi, kad generatyvinis dirbtinis intelektas sugebės įvertinti didelius duomenų kiekius ir sukurti labai tikslų, prasmingą ir konkretų atsakymą, su visais niuansais ir išlygomis, tačiau taip nėra. Jei į žinių bazę įtraukta teisės aktų, ir pokalbio metu užduodamas klausimas, į kurį norint atsakyti reikia išanalizuoti kelis dokumentus, sugeneruotame atsakyme, greičiausiai, nebus paminėta visa reikalinga informacija iš visų dokumentų.

…išsamios aprašomosios informacijos ir paaiškinimų

Pavyzdys. Jei žinių bazės faile yra daug skirtingų lentelių be pavadinimų arba paveikslėlių nuorodų be išsamesnių paaiškinimų, vartotojui uždavus bet kokį klausimą apie lentelės ar paveikslėlio turinį, atsakymas nebus pateiktas, nes automatinio teksto generavimo sprendimas neturės jokių tekstinių nurodymų, kaip ieškoti segmentų su reikiamais duomenimis. Norint, kad informacija apie paveikslėlius ar lenteles būtų pateikta atsakymuose, žinių bazėje reikėtų įtraukti aprašomosios informacijos apie jų turinį.

STRUKTŪRA

  • Segmentai. Generuojant atsakymą į vartotojo klausimą, užklausa siunčiama didžiajam kalbos modeliui su žinių bazėje esančiais panašiausiais tikėtinais informacijos fragmentais (segmentais). Gauto atsakymo teisingumas pirmiausia susijęs su tuo, ar į užklausą buvo įtrauktas tinkamas žinių bazės informacijos segmentas.

Kai į žinių bazę įtraukiamas naujas failas, jis automatiškai suskirstomas į segmentus. Segmentaciją galima peržiūrėti failo redagavimo skirtuke Segmentai (taip pat spustelėjus padidinamojo stiklo piktogramą, jei failas pažymėtas žyma „public“ (viešas). Naujas segmentas taip pat automatiškai pradedamas, kai pavadinimas suformatuojamas prieš jį įtraukiant grotažymes (#, ## arba ####).

Tačiau dažnai pasitaiko, kad konceptualiai to paties tipo informacija išskaidoma į kelis segmentus. Pavyzdžiui, vienos pastraipos pirmas sakinys pridedamas prie ankstesnio segmento, o likusi pastraipos dalis yra kitame segmente arba, jei tekste yra ilgesnis sąrašas, pirmieji punktai yra viename segmente su aiškinamuoju įžanginiu sakiniu, o kiti punktai – kitame segmente be paaiškinimų. Gali būti ir taip, kad konceptualiai visiškai skirtinga informacija sujungiama į vieną segmentą. Tokiais atvejais formuojant užklausą didžiajam kalbos modeliui bus pasirinkti neteisingi arba neišsamūs segmentai, ir automatinio generavimo sprendimas pateiks neteisingus atsakymus.

Norint išvengti tokių situacijų, segmentų ribas galima keisti rankiniu būdu, naujoje eilutėje virš atskiriamo teksto įterpiant naujo segmento pradžios požymį – keturias grotažymes (####). Šis būdas taip pat naudotinas, kai į žinių bazę įtraukiami konceptualiai nesusiję paprasti klausimai su atsakymais.

Pavyzdys:


####

Koks jūsų adresas?

Mūsų adresas Jasinskio g. 12.

####

Kiek jums metų?

Bendrovė įsteigta 2024 m.

  • Dizaino elementai. Formatavimas rekomenduojamas tam, kad duomenis būtų lengviau peržiūrėti ir apdoroti (ypač lentelių atveju). Formatavimui turėtų būti naudojama „markdown“ sintaksė. Keletą pavyzdžių rasite šiame straipsnyje: Virtualiojo asistento tekstų formatavimas.

Patarimai dėl darbo su duomenimis

  1. Duomenų failo pridėjimas. Į žinių bazę galima pridėti įvairių formatų („Word“, PDF ir kt.) failus. Jų turinys bus išsaugotas kaip „markdown“ failas. Failas gali būti konvertuotas į „markdown“ formatą prieš įkeliant jį į platformą. Tai galima padaryti naudojant įvairius internetinius įrankius ir įskiepius – tokiu būdu failo formatavimas bus išsamesnis ir labiau atitiks konkrečius poreikius.
  2. Peržiūra. Pirminiai duomenys gali būti įvairios kokybės, ir jokia konvertavimo priemonė neužtikrina tobulų rezultatų, ypač jei faile be teksto yra daug kitos informacijos – lentelių, paveikslėlių, grafikų. Todėl reikia peržiūrėti failo turinį: ar viskas, ko reikia, buvo nuskaityta, konvertuota ir liko galutiniuose duomenyse.
  3. Vaizdų apdorojimas. Jei pradiniame faile buvo paveikslėlis, kurio nėra internete, jį galima padėti platformos rodinyje Ištekliai ir žinių bazės faile pateikti nuorodą į naują paveikslėlį (paveikslėlio nuorodą gausite dešiniuoju pelės mygtuku spustelėję paveikslėlį rodinyje „Ištekliai“ ir pasirinkę „Copy image address“ (Kopijuoti paveikslėlio adresą).

Pavyzdys:

![1 pav.](https://va.tilde.com/api/prodk8sboticecr0/media/staging/icecream4985161_1280.png)
  1. Testavimas. Pridėjus ir sutvarkius naują failą, reikėtų atlikti testavimą užduodant klausimus apie dokumento turinį – taip pamatysite, ar gaunate tinkamus atsakymus, ir galėsite peržiūrėti, ar reikia koreguoti segmentavimą.
Svarbu!

Automatiškai generuojami atsakymai kiekvieną kartą gali skirtis, gali būti neteisingi arba neišsamūs.