Axtarış sistemlərinin səmərəliliyinin artırılması metodları analiz edilib

18 Aprel 2019 - 15:00 | Konfranslar, İclaslar

AMEA İnformasiya Texnologiyaları İnstitutunda 2 saylı şöbənin “Axtarış sistemlərinin səmərəliliyinin artırılması metodlarının analizi: problemlər və yanaşmalar” mövzusuna həsr olunmuş elmi seminarı keçirildi.

Məruzəni institutun dissertantı Süleyman Süleymanzadə təqdim edərək informasiya axtarışı nəzəriyyəsinin (Information Retrieval, IR) əsas ideyalarını diqqətə çatdırdı. O, IR sistemlərin əsas komponentlərini təsvir edərək bildirdi ki, böyük mətn kolleksiyaları içərisindən istifadəçilərin sorğularına relevant olan sənədlərin tapılması ənənəvi IR sistemlərinin əsas məqsədidir: “Axtarış vasitələri IR sistemlərin əsasını təşkil edir. Tətbiq sahələrindən asılı olaraq axtarış proqramlarının vertikal və desktop, axtarışı analitika ilə əlaqələndirən sistemlər, ümumi məqsədli axtarış sistemləri kimi müxtəlif növləri mövcuddur”.

S.Süleymanzadə informasiya axtarış sistemlərinin indeksləşmə və axtarış kimi iki mühüm funksiyanı yerinə yetirdiyini qeyd etdi. Bildirdi ki, indeksləşmə sənədlərin və sorğuların vahid formada təsvirini həyata keçirir, axtarış funksiyası isə sənədlərin və sorğuların verilmiş vahid formada təsviri əsasında sənədlərin sorğulara relevantlığını qiymətləndirir: “Relevantlıq ədədi qiymətdir, ədəbiyyat mənbələrində RSV (retrieval status value) qiyməti kimi istifadə olunur. IR sistemi kolleksiyadakı hər bir sənədin sorğuya relevantlığını hesablayır və onları hesablanmış RSV qiymətlərinin azalması ardıcıllığı ilə ranqlaşdırır”.

Məruzəçi informasiya axtarış sistemləri üçün çox sayda etalon arxitekturaların təklif olunduğunu söylədi. Onun sözlərinə görə, informasiya axtarış sisteminin birinci məsələsi sənədlərin ilkin emalını həyata keçirməkdir. Sənədlərdə onun hər bir komponenti axtarış sisteminin ayrı-ayrı vahidləridir və bu komponentlər seçmə yolu ilə başlığa, xülasə və ya sənədin mətninə görə axtarış aparmağa imkan verir.

O, informasiya axtarışı sahəsində çox sayda klassik modellərin olduğunu söylədi, Boolean IR Model, Vector Space, Okapi BM25, statistik dil, ehtimal IR modelləri, neyron şəbəkələr kimi modellər haqqında geniş məlumat verdi. Qeyd etdi ki, Bul modelində term-sənəd insidentlik matrisindən istifadə olunur. Bu matrisdən istifadə etməklə verilmiş termi özündə birləşdirən bütün sənədləri və sənəddə təsvir olunan bütün termləri asanlıqla tapmaq mümkündür. Məruzəçi Bul modellərinin çatışmazlıqlarından söz açaraq qeyd etdi ki, o sənədlərin ranqlaşdırılmasını həyata keçirmir. Bundan əlavə, Bul modeli termlərin sənəddə rastgəlmə tezliyini nəzərə almır.  

Onun sözlərinə görə, sənədlərin sorğulara relevantlığını qiymətləndirmək üçün istifadə olunan termlər kontent təsviredicilərdir, onlar sənədlərə təyin edilir və bu proses indeksləşmə adlanır: “Termlərin dərəcəsini göstərmək üçün onlara çəkilər təyin edilir. Belə termlər çəkili termlər, onu həyata keçirən proses isə termlərin çəkiləndirilməsi adlanır. Termlərin loqarifmik tezlikli çəkiləndirmə, TF-IDF, BM25 kimi üsulları hazırda geniş tətbiq olunur”. 

S.Süleymanzadə qeyd etdi ki, axtarışın effektivliyini qiymətləndirmək üçün “precision” və “recall” kimi iki parametrdən istifadə olunur. “Precision” tapılmış sənədlərin neçə hissəsinin istifadəçinin sorğusuna relevant olduğunu, “recall” isə kolleksiyadakı relevant sənədlərin nə qədər hissəsinin tapıldığını ifadə edir. 

O, informasiya axtarışı sahəsində işlənmiş metodların effektivliyinin “Cranfield”, “Reuters Corpus Volume I” (RCV1), “OHSUMED”, “TREC” kimi məşhur bazalarda test edildiyini bildirdi.

Sonda məruzə ətrafında müzakirələr aparıldı, suallar cavablandırıldı.

© Bütün hüquqlar qorunur. Xəbərlərdən istifadə edərkən www.ict.az saytına istinad zəruridir.