“Big Data” problemləri

07 Aprel 2015 - 14:30 | Müsahibələr, çıxışlar
“Big Data” problemləri

“Big Data” problemləri və ya “3V” konsepsiyası. Böyük verilənlərin problemləri əsasən çox sürətlə böyüyən böyük həcmli informasiyanın real vaxt rejimində emalı, axtarışı, təsnifatlandırılması, analizi ilə bağlıdır. Tətbiq olunduğu sahələrdən asılı olmayaraq böyük verilənləri təsvir etmək üçün ümumi xarakteristikalar mövcuddur. Bu xarakteristikalar böyük verilənlərin əsas problemlərini özündə əks etdirməklə üç əsas qrupa bölünür: həcm (volume), sürət (velocity) və müxtəliflik (variety). İngilisdilli mənbələrdə bunu “3V” də adlandırırlar. Bu parametrlərin konvergensiyası böyük verilənləri təyin etməyə və digər verilənlərdən fərqləndirməyə kömək edir. Bu model ilk dəfə 2001-ci ildə D.Laney tərəfindən verilmişdir. O, “böyük verilənlər” terminini istifadə etməsə də, elektron kommersiyada bir tendensiyanı: verilənlərin idarə edilməsinin daha vacib, daha çətin olacağını əvvəlcədən xəbər vermiş və daha sonra verilənlərin idarə edilməsində verilənlərin ölçüsünü, ötürülmə sürətini və müxtəlifliyini əsas problem kimi təyin etmişdir.

Bu xarakteristikalar isə ümumilikdə “big data” texnologiyalarının əsas konsepsiyasını təşkil edir. Bu konsepsiya çox böyük sürətlə və müxtəlif mənbələrdən toplanan çox böyük həcmdə verilənləri daha səmərəli istifadə etmək, saxlamaq, analiz edərək ondan daha qiymətli informasiyanı əldə etmək ideyasını özündə əks etdirir. Qeyd etmək lazımdır ki, analitiklər bəzən “5V” kimi təsvir edilən dördüncü - həqiqilik (veracity) və beşinci - dəyər (value) xarakteristikalarını da qeyd edirlər.

Həcm. Həcm böyük verilənlərin ən əsas xarakteristikasıdır. Aydındır ki, böyük verilənlər çox böyük informasiya massivlərinin toplanması ilə xarakterizə olunur ki, bu da istənilən təşkilatlaрın qarşılaşdığı problemdir. Hazırda BV-nin miqyası terabaytlardan zetabaytlara qədər həcm ilə xarakterizə olunur (on il əvvəl informasiyanın həcmi terabaytlarla, daha sonra peta və ekzabaytlar, hazırda isə zetabaytlarla ölçülməkdədir). Həcm problemi ilk növbədə saxlama problemi yaradır ki, bu da genişmiqyaslı saxlama və paylanmış emal tələb edir. Bu gün saxlama məsələsinin həllində informasiyanın qurğular arasında miqrasиyasını həyata keçirən bir sıra texnologiyalar: DAS (Direct-Attach-Storage), NAS (Network Attached Storage), SAN (Storage Area Networks), HSM (Hierarchical Storage Management), ILM (Information Life-cycle Management)) mövcuddur. Son zamanlar isə saxlama qurğularının yaddaş tutumunun artması, çoxsaylı kompüterlərin (server, kompüter və s.) hesablama və yaddaş resurslarının klasterləşməsi və virtuallaşdırılmasını həyata keçirməklə, verilənlərin emalı və yadda saxlanılmasına xidmət edən “grid” və “cloud computing” texnologiyalarının tətbiqi saxlama sahəsindəki problemləri demək olar ki, aradan qaldıra bilmişdir. Həcmindən asılı olaraq BV üç qrupa bölünür:

- Tez (sürətli) verilənlər (Fast Data) - onların həcmi terabaytlarla ölçülür;

- Böyük analitika (Big Analytics) - onların həcmi petabaytlarla ölçülür;

- Dərinə nüfuzetmə (Deep Insight) - onların həcmi ekzabaytlarla və zetabaytlarla ölçülür.

Qruplar bir-birindən yalnız verilənlərin həcminə görə deyil, həm də onların keyfiyyətli emalına görə fərqlənirlər. Statistik rəqəmlərdə əks olunan verilənlərin həcmi bir daha mütəxəssisləri bu sahədə yeni metod və alətlərin işlənməsinə sövq edir.

Sürət. Həcm artdıqca, emal üçün də çox böyük sürət tələb olunur. Burada iki hal nəzərdə tutulur. Birinci, yeni verilənlər böyük sürətlə generasiya olunur, mövcudlar yenilənir və toplanır. İkincisi, sürət zaman problemi kimi dəyərləndirilir və mövcud emal texnologiyalarının verilənləri real vaxtda analiz etmək imkanına malik olması ilə izah olunur. Bu işdə verilənlərin relyasiya idarəetmə sistemləri kifayət deyildir. Bu məsələdə şəbəkənin ötürücülük qabiliyyəti də xüsusi əhəmiyyət daşıyır.

Müxtəliflik. Müxtəliflik BV-nin təbii özəlliklərindəndir. BV ilə işləmək ancaq verilənləri saxlamaq üçün böyük həcmli qurğular deyil, eyni zamanda böyük hesablama gücü də tələb edir. Əsas problem ondan ibarətdir ki, məlumatların əksəriyyəti çox vaxt müxtəlif mənbələrdən (e-poçt, sosial şəbəkələr, GPS - koordinatları, müxtəlif sensorlardan, veb-saytlar və s.) müxtəlif formatlarda daxil olur və müxtəlif indeksləşmə sxemi istifadə olunur. Ənənəvi relyasiya verilənlər bazasının sətir və sütunlarında ifadə olunmuş strukturlaşdırılmış (məsələn, maliyyə verilənləri) verilənlərlə bərabər, informasiyalar strukturlaşdırılmamış - mətn, video-audio fayllar, təsvirlər və s. tiplərdə olur. Bu tip verilənlər isə dünyada bütün informasiyanın 80-90%-ni təşkil edir. Bunları sadəcə olaraq, bir araya yığmaq və birgə emal etmək və analiz üçün uyğun şəklə salmaq çox çətin olur.

Toplanan məlumatların həqiqiliyi də önəmlidir. Çünki əsasında qərar qəbul edəcəyimiz verilənlər nə qədər dəqiq və ya şübhəlidir? Məsələn, ötürücülər vasitəsilə alınan verilənlər daha etibarlıdır, nəinki sosial media verilənləri.

Digər bir faktor isə BV-nin dəyər yaratması xüsusiyyətinin olub-olmamasıdır. BV əlavə dəyər yaratmırsa, “məlumat zibilliyi”nə çevrilir. Məhz “big data”-nın xüsusilə biznes qurumları tərəfindən diqqətdə olması əlavə dəyər yaratma xüsusiyyətinə görədir. Buna görə də bu faktor marketinq xarakteristikası kimi qiymətləndirilir. Çünki informasiyanın qiyməti ancaq bizim onu necə istifadə etməyimizlə təyin olunur.

Özündə son dərəcə faydalı informasiyanı daşıyan, adi relyasiya bazalarının emal edə bilmədiyi yüzlərlə terabayt və ekzabayt həcmində mətn, təsvirlər, audio-video və s. tip strukturlaşdırılmamış informasiyanın toplanması və idarə edilməsi, saxlanması, təhlükəsizliyi, axtarışı, analizi (analitik hesabatların generasiyası və vizuallaşdırılması, proqnozlaşdırma) və s. kimi məsələlərin həllində yeni texnologiyalar, yanaşmalar, daha mükəmməl analiz üsulları tələb edir.

“Big data” analitikası. Biz hazırda ekzabayt və zetabaytlarla böyük verilənlər axınının istehsalını təmin etmiş elm, texnika və texnologiyaların geniş yayıldığı erada yaşaйırıq. Elmi sahədə böyük verilənlər artır, çünki indi elmi tədqiqatlar nəzəri düşüncələrdən daha çox elmi eksperimentlərə köklənmişdir. Bu eksperimentlərin nəticəsində (əsasən fizika, astronomiya və tibb kimi elmi sahələrdə) isə çox böyük həcmdə rəqəmsal verilənlər yaranır. Söhbət, LHS (Large Hydron Collider), LSST (Large Synoptic Survey Telescope), Hubble teleskopu və s. kimi petabaytlarla informasiya verən layihələrdən gedir. Biznes sahəsində BV massivi yaranır, ona görə ki, hazırda insan fəaliyyətinin böyük hissəsi İnternetdədir, onlayn rejimdədir. Zaman keçdikcə, verilənlərin həcminin artması və real zamanda onların analizinə olan tələbat BV-nin ən əsas problemlərindən sayılan böyük verilənlərin analitikasının (Big Data Analytics) yaranmasına gətirib çıxardı. “Big Data Analytics” daha böyük və mürəkkəb massivlərə tətbiq edildiyindən kəşf edən analitika (Discovery Analytics) və izah edən analitika (Exploratory Analytics) terminlərindən də istifadə edilir. Necə adlandırılmasından asılı olmayaraq, mahiyyət eynidir - qərar qəbul edən şəxsləri müxtəlif proseslər haqqında məlumatlarla təmin edən əks əlaqəni yaratmaq.

Məlumdur ki, analiz müxtəlif parametrlər, xarakteristikalar, hadisələr və s. arasındakı korrelyasiyanı tapmağa, təsnifat və analitik hesabatlar və bunun əsasında proqnozların verilməsinə imkan verir. Bu aspektdən müasir texnologiyalar verilənlərdəki informasiyanın yeni biliklərə çevrilməsinə və ya biliklərin əldə edilməsinə imkan verməlidirlər. BV-in saxlanması, emalı və analizi üçün böyük hesablama gücü, miqyaslılığı təmin edən arxitektur yanaşmalar, vahid infrastruktur tələb olunur.

BV mövzusu yeni olduğundan, onun ətrafında çoxlu mübahisələr mövcuddur. Məsələn, biznes analitika və BV analitikası arasındakı fərq. Biznes analitika ilə böyük verilənlərin analitikası eyni məqsədə xidmət etsələr də, onlar üç aspektə görə bir-birindən fərqlənirlər:

- BV, onun tərifinə uyğun olaraq, daha böyük həcmdə informasiyanın emalı üçün nəzərdə tutulur.

- BV daha sürətlə alınan (bəzən nəticələrin veb səhifənin yüklənməsindən də sürətli formalaşdırılması) və dinamik dəyişən məlumatların emalı üçün nəzərdə tutulur.

- BV strukturlaşdırılmamış məlumatların emalı üçün nəzərdə tutulur.

Biznes analitika müəyyən zaman çərçivəsində biznes tərəfindən əldə olunan nəticələrin analizinin təsvir olunma prosesidir. Halbuki, böyük verilənlərin sürətli emalı və analizi gələcəkdən xəbər verməyə imkan verir, gələcək üçün biznesə tövsiyələr təklif etməyə qadirdir.

Mütəxəssislər böyük verilənlərin analizində iki yanaşmanı qeyd edirlər: saxlamaq və analiz etmək (store and analyze); analiz etmək və saxlamaq (analyze and store). Birinci halda verilənlərə analitik alətləri tətbiq etməzdən əvvəl tranzaksiya sistemlərindən (OLTP - Online Transaction Processing) alınan xam verilənlər emal olunur və xəzinəyə (datawarehouse) yüklənir. Məhz bu prinsip əsasında yaradılmış ənənəvi analitik həllər (OLAP - Online Analytical Processing) böyük verilənlərin analizi üçün nəzərdə tutulmadığından, uyğunsuzluq meydana çıxır.

Məlumdur ki, superkompüterlər saniyədə böyük sayda (flops) hesab əməliyyatlarını yerinə yetirmək imkanına malikdirlər və ancaq strukturlaşdırılmış verilənlərlə işləyərkən faydalıdırlar. Bu da superkompüterlərin tətbiqləri üzərinə məhdudiyyətlər qoyur. Onlar daha çox elmin bitib-tükənmədiyi modelləşdirmədə səmərəlidir. Con Hopkins Уniversitetinin professoru, astronom A.Şali elmdə kompüterlərin tətbiqini ancaq hesablamaların sürətləndirilməsində deyil, böyük verilənlərin üzərində analitik işlərin təkmilləşdirilməsində görür. Onun fikrincə, elmdə və texnikada “scop” sonluğu ilə bitən (məsələn, mikroskop, teleskop, periskop, intraskop və s.) çoxlu sayda qurğular vardır. İndi də verilənlər axınının analizi üçün bir hipotetik qurğu lazımdır ki, o verilənləri xüsusi saxlanc yerlərində toplamadan, yığım yerinə daha yaxın yerdə dərhal emal etsin. Şali bu qurğunu “DataScope” adlandırır. Superkompüterlərdən fərqli olaraq, “DataScope” eksperimental verilənlərlə işləmək məqsədi daşıyır. Şali və onun həmkarı Cim Qrey verilənlərin müasir elmdə rolu və eksperimental verilənlərin həcmi ilə elmi üsulların qarşılıqlı münasibətinin təkamülünə baxmışlar. Onlar elmdə istifadə olunan hesablama sistemlərində çoxnüvəli prosessorların hesablama gücü ilə saxlama sistemlərinin potensialı arasında disbalans olduğunu qeyd edirlər. Məqalədə onlar həmçinin elmdə verilənlərin rolunun üç postulatını verirlər: 1) elmi tədqiqatlar daha çox eksperimental verilənlərlə işləməyə yönəlir; 2) verilənlərin emalı problemləri miqyaslaşmanın tətbiqi ilə şərtləndirilir; 3) verilənləri hesablamaya deyil, hesablamaları verilənlərə yaxınlaşdırmaq lazımdır. Ümumiyyətlə, petabаytlarla verilənlər massivlərinin emalının zəruriliyi “Data - İntensive Computing” yanaşmasını ortaya çıxarmışdır ki, bu, “hesablamalar deyil, verilənlər daha əsas sərvətdir” anlamına gəlir. Postulatların realizasiyası yolunda emal olunan verilənlərin həcmi operativ yaddaşın ölçüsünü keçərsə, onda ən məhsuldar saxlama sisteminin qoşulması kömək edə bilər. Problemin həlli kimi onlar həm də disk, prosessor və şəbəkə ilə işləyən miqyaslılıq arxitekturuna malik infrastruktur təklif edirlər.

Böyük verilənlərin analizi sahəsində ROLAP (Relational On-Line Analytical Processing), MOLAP (Multi-Dimensional On-Line Analytical Processing), HOLAP (Hybrid Online Analytical Processing) kimi ən müasir texnologiyalar mövcuddur. Bunlardan hansısa birinin seçilməsi verilənlərin yenilənməsindən asılıdır.

Həddindən artıq böyük verilənlərlə işləyərkən səhv etməmək və çoxsaylı sorğuları vaxtında cavablandırmaq üçün statistik və daha dərin analitik təhlilлər üçün yeni-yeni metod və alqoritmlərin işlənməsi gərəkdir. Əlbəttə, verilənlərin çox da sadə olmayan analizi üsulları mövcuddur, lakin mətn, video və audio informasiyaların analizi ciddi problemdir. Problemin həllinə nail olmaq üçün daha mükəmməl nəzəri və praktik üsullara ehtiyac vardır.

BV-nin analizində əsas məsələlərdən biri də nəticələrin təqdim olunması - vizuallaşdırmadır. Verilənlər həddindən çox olduqda, daha münasib və uyğun şəkildə vizuallaşdırmaq çətin olur. Yeni üsul və mexanizmlər lazımdır.

İnformasiyanın hamısı faydalı olmadığından, böyük verilənlərin seçilməsi çox vacibdir. “IDC”-nin tədqiqatında 2012-ci ildə saxlanılan bütün informasiyanın (898 ekzabayt) təxminən 18%-nin (158 ekzabayt) böyük verilənlər kateqoriyasına düşdüyü göstərilir və bu informasiyadan cəmi 3% faydalı verilənlər kimi analiz olunur.

Böyük həcm, sürət və mürəkkəblik kimi xarakteristikalarla təyin olunan böyük verilənləri mövcud metodologiyalarla və ya alətlərlə idarə etmək və onlardan faydalı informasiyanı əldə etmək böyük verilənlərin analizində ciddi problemdir. Strukturlaşdırılmamış verilənlərin (mətn, aidio, video və s.) daha dərin intellektul analizi (mining) və analizin nəticələrinin vizuallaşdırılması BV analitikanın əsas məsələlərindəndir. Problemin həllində data mining texnologiyaları sinfindən olan klassifikasiya, klasterləşdirmə, neyron şəbəkələr və s. kimi üsullar tətbiq olunur.

“Data science”. “O’Reilly Radar” jurnalında nəşr olunan “Verilənlər haqqında elm nədir?” (What is Data Science?) məruzəsinin müəllifi Mayk Lukidis yazırdı: “Gələcək, verilənləri məhsula çevirə biləcək insan və kompaniyalara məxsus olacaq”. Bu deyim məşhur bir kəlamı yada salır: “Kim informasiyaya malikdirsə, o da dünyaya sahibdir”. Bu gün bu aforizmə bir az düzəliş vermək olar: “Dünyanı verilənlərə və onların analizi texnologiyalarına malik olanlar idarə edir”. İnformasiyanın alınması üsullarına sahib olmaq verilənlər haqqında elm (data science) adlanır. Purdue Universitetinin professoru, statistika, verilənlərin vizuallaşdırılması, maşın təlimi sahəsində tanınmış mütəxəssis Uilyam Klivlend tərəfindən təklif edilmiş “data science” termininин yaranması (2001) ilə “data scientist” adlanan mütəxəssislərə tələbat bu kateqoriyadan olan kadrların hazırlanmasına marağı stimullaşdırmışdır. Təsadüfi deyildir ki, təxminən həmin vaxtdan da Elm və Texnika üçün Məlumat Komitəsi (CODATA - International Council for science: Committee on Data for Science and Technology) - elm və texnika üçün ədədi verilənlərin toplanması, qiymətləndirilməsi və saxlanılması üzrə beynəlxalq şuranın “Data Science Journal”ı (2002-ci ildən) nəşr olunmaqdadır.

“Data science” termini hərfi mənada “verilənlər haqqında elm” kimi tərcümə olunmamalıdır. Çünki, ingilis dilində “science”sözü ancaq “elm” deyil, həm də “bacarıq”, “məharət”, “qabiliyyət” deməkdir. Demək ki, bu bilik və bacarıqlara əsaslanan elmdir. Verilənlər haqqında elm ənənəvi informatikadan başlayaraq riyaziyyata qədər müxtəlif sahələr üzrə bacarıq və vərdiş tələb edir. Bu sahə ilə məşğul olmaq üçün “data scientist” adlanan daha təkmilləşmiş mütəxəssislərə ehtiyac vardır. 2013-cü ildən başlayaraq Dandi Universitetində (Şotlandiya), Oklend Universitetində (Yeni Zelandiya), London İmperial Kollecində, Cənubi Kaliforniya Universitetində, Vaşinqton, Berkli, Nyu-York уniversitetlərində verilənlər haqqında magistr proqramları tədris olunur. Bu problem təhsil məsələsidir.

“Big Data” texnika və texnologiyaları. “Big Data” texnologiyalarının yaranmasını şərtləndirən əsas amillər hər şeydən əvvəl verilənlərin həcminin çox böyük sürətilə artması-eksponensial inkişafla ifadə olunan “informasiya partlayışı” ilə əlaqədardır. İnformasiyanın həddindən artıq çoxalması informasiya yükü problemi yaradır. Bu gün “informasiya partlayışı”nın xarakterik nümunələri çoxdur. Bu nümunələr haqqında bir qədər sonra danışacağıq.

İkincisi, biznes strukturlarda biznes-proseslərin informasiyalaşdırılması elmi təşkilatlarda ölçmələrin aparılmasında yeni imkanların yaranması, dövlət qurumlarında, həmçinin ictimai kommunikasiya şəbəkələrində xidmətlərin sayının və funksionallığının artması ilə bağlıdır. Yəni, bu o vaxta təsadüf edir ki, real-vaxt rejimində müxtəlif formatlı çox böyük ölçülü verilənlər massivini emal edə bilən İT həllər yaradılmış və korporativ istifadəçilər üçün əlçatan olmuşdur. Sürətlə artan verilənlərin öhdəsindən gəlmək məqsədi ilə İT sahəsinin nəhənglərindən olan “Google” şirkəti tərəfindən “File System Google” və “MapReduce” proqram-aparat platforma yaradılmışdır. Bunun əsasında açıq kodlu “Apache Hadoop” və “Hadoop File System” proqram təminatları işlənmiş və bununla da BV texnologiyalarının əsası qoyulmuşdur.

Üçüncü, bir qədər əvvəldə qeyd olunduğu kimi, BV artıq Amerika və bir sıra qərb dövlətlərində elmi ictimaiyyət, biznes-cəmiyyətləri, hökumət strukturları tərəfindən neft qədər strateji resurs kimi dəyərləndirilir, bu sahədəki problemlərə çox böyük önəm verilir.

IDC mütəxəssisləri isə əsas amilləri “hard” disklərin qiymətinin ucuzlaşması, sensor texnologiyaların genişlənməsi, bulud (cloud) texnologiyaların və verilənlərin saxlanmasının virtuallaşdırılması və infrastrukturlarının köməyi ilə informasiya resursлarına əlyetərliyin mümkünlüyü, eyni zamanda innovativ tətbiqi əlavələr və analitik alətlərin mövcud olması ilə əlaqələndirirlər.

Böyük verilənlərin emalı onlardan faydalı informasiyanı əldə etmək üçün son dərəcə səmərəli hesablama gücü və mükəmməl analitik imkanlara malik texnologiyalar tələb edir. Hazırda böyük həcmli verilənlərin saxlanılması, idarə olunması, analizi və vizuallaşdırılması üçün “IBM”, “Oracle”, “Microsoft”, “SAS”, “SAP”, “HP”, “Teradata”, “EMC” və s. kimi informasiya texnologiyaları nəhəngləri tərəfindən paralel emalı təmin edən müxtəlif proqram-aparat həlləri mövcuddur. Dünyada çoxlu sayda informasiya sistemlərinin (axtarış, GMail, Google Maps, Google Earth, Big Query və s.) yaradıcısı “Google” şirkəti tərəfindən 2004-cü ildə “MapReduce” paylanmış hesablama modeli təqdim olunmuşdur. Bu model BV üzərində paralel proqramlaşdırmanın əsasıdır. Onun əsas ideyası, böyük və mürəkkəb verilənləri kiçik hissələrə bölməklə emal etməkdir. MapReduce-un işi iki mərhələdən (Map və Reduce) ibarətdir. “Map” mərhələsində giriş verilənləri ilkin emal üçün əsas qovşağa (master node) göndərilir və orada digər kömpüterlər (worker node) arasında paylanılır. “Reduce” mərhələsində əsas qovşaq emal olunmuş verilənləri işçi qovşaqlardan toplayır və onun əsasında məsələnin həllinin nəticəsi formalaşdırılır.

Böyük verilənlərin de-fakto standartı hesab olunan “Apache Software Fondation”-un layihəsi Hadoop (2005-ci ildə Doug Cutting və Mike Cafarella tərəfindən yaradılıb. Hadoop adı da Cutting-in azyaşlı oğlunun oyuncaq filinin adı ilə bağlıdır.) daha geniş yayılmış texnologiyadır, paylanmış hesablama mühitində böyük verilənlərin emalı və analizi üçün əsas platformadır, “MapReduce” modelinin açıq kodlu (open access) sistemidir və 1000 qovşaqdan çox miqyaslaşmanı təmin edir. Hadoop iki əsas komponentdən ibarətdir: “Hadoop MapReduce” və “Hadoop Distributed File System” (HDFS). Burada “MapReduce” paralel hesablamalara, “HDFS” paylanmış fayl sistemi isə verilənlərin idarə edilməsinə cavab verir.

NoSQL (Not Only SQL) bu gün BV aləminin əsası hesab olunur və verilənlərin idarə edilməsinin miqyaslılıq (scalability), əlyetərlilik (availability) və verilənlərin uyğunlaşdırılması (consistency) kimi problemlərinin həllində tətbiq olunur. Ədəbiyyatlarda paylanmış sistemlərin bu üç xüsusiyyəti Berkli universitetinin professoru Eric Brewer tərəfindən təklif olunmuş “CAP” (Consistency, Availability i Partition Tolerance) teoremi kimi də tanınır.

Ənənəvi informasiya xəzinələri çoxölçülü analiz (OLAP), klassifikasiya, klasterizasiya və s. alətlər dəstini təqdim edir, bu gün isə operativ yaddaşda terabaytlarla informasiyanın analitik emalı üçün “SAP” kompaniyasının “HaNa” (High-performance Analytic Appliance), “Oracle” kompaniyasının “Oracle Exalytics”, “Oracle Exadata” məhsulları mövcuddur. Bundan başqa, “Netezza”, “Teradata”, “Greenplum” və s. kompaniyalarının ənənəvi relyasiya verilənlərinin idarə edilməsi sistemi əsasında terabaytlar və ekzabaytlarla verilənləri səmərəli emal edən proqram-aparat alətləri vardır.

Müasir İT faktorları: böyük verilənlər, analitika və bulud texnologiyalarını bu gün bir-birindən ayrı təsəvvür etmək mümkün deyildir. Genişmiqyaslı və çoxsəviyyəli saxlama sistemlərinə artan diqqət və tələbat, bulud texnologiyalarının real olaraq mövcudluğu, həm də BV-nin analitikasına marağı artırmışdır. Qeyd etmək lazımdır ki, bulud texnologiyaları böyük hesablamaların aparılmasında son dərəcə müvəffəqiyyətli yanaşmalardandır. Burada böyük həcmli rəqəmsal informasiya IaaS (Infrastructure as a service), PaaS (Platform as a service), SaaS (Software as a service) “bulud” xidmətləri vasitəsi ilə mərkəzləşdirilmiş qaydada idarə olunur və saxlanılır.

İstənilən sistem layihələndirilərkən əvvəlcədən müəyyən prinsiplər müəyyənləşdirilməlidir.

Big Data sistemləri layihələndirilərkən aşağıdakı prinsiplər nəzərə alınmalıdır:

- Yaxşı arxitektur və strukturlar lazımdır. Yaxşı və uyğun arxitektur olmadan “Big Data” problemi effektiv həll oluna bilməz.

- Müxtəlif analitik metodlar dəstəklənməlidir. “Big Data” kompleks məsələləriin həllinin tələb edir, onları bir və ya bir neçə metodun köməyilə həll etmək mümkün deyildir.

- Bütün ölçüləri dəstəkləyən vahid həll yoxdur.

Analitika verilənlərə yaxınlaşdırılmalıdir. Bütün verilənləri bir mərkəzə toplamaq mümkün deyildir. Analiz texnologiyalarını verilənlərə yaxınlaşdırmaq lazımdır.

RAM-da verilənlərin emalı paylanmış şəkildə olmalıdır.

Verilənlər paylanmış şəkildə saxlanmalıdır.

Emal və verilənlər bлokları arasında koordinasiya olmalıdır.

“Big data” texnologiyalarının tətbiq sahələri və faydaları

Böyük verilənlərin də digər texnologiyalar kimi iki tərəfi: zərərləri və faydaları vardır. Birinci ilə mübarizə edərkən, ikincini yaddan çıxarmaq olmaz. “İnformasiya sunamisi” adlandırılan heterogen xam verilənlər cəmiyyətin bütün sahələrini kökündən dəyişə biləcək təsirə malik bilik mənbəyidir. Ona görə də yeni-yeni elmi kəşflərə imza atmaq, iqtisadi inkişafa nail olmaq, innovasiyaları stimullaşdırmaq məqsədi ilə bu verilənlər biliyə çevrilməlidir. BV texnologiyalarının faydasını göstərmək üçün 2009-cu ildə BMT-nin “Global Puls” təşəbbüsünü qeyd etmək lazımdır. Məqsəd böyük verilənlərin imkanlarından istifadə etməklə BMT və onun partnyorlarına dayanıqlı inkişaf üçün yeni yanaşmaların axtarılmasına kömək etməkdir. Təşəbbüs çərçivəsində bir çox layihələr işlənilməkdədir.

Hər şeydən əvvəl BV korporativ maraqlar baxımından biznes-proseslərin səmərəliliyini artırmağa imkan verir. BV-nin toplanması və analizinin köməyi ilə gəlirləri və xərcləri optimal idarə etmək, maliyyə göstəricilərini yaxşılaşdırmaq və şəffaflığı yüksəltmək mümkündür. Telemetrik qurğular vasitəsi ilə “insan-maşın” və “maşın-maşın” kimi ikitərəfli qarşılıqlı əlaqə nəticəsində müxtəlif mənbələrdən və müxtəlif formatlarda (strukturlaşdırılmamış, zəif strukturlaşdırılmış və strukturlaşdırılmamış) toplanan verilənlərin birgə analizi və onlardan yeni biliklərin və faydalı məlumatların əldə olunması yeni elmi kəşflərin edilməsində, dövlət, hökumət təşkilatları və özəl kompaniyalarda mühüm qərarların qəbul edilməsində, hüquq qaydalarının qorunmasında, sosial təminat, milli təhlükəsizlik, səhiyyə məsələlərində çox önəmlidir. Böyük verilənlərin analizi istehlakçıların alıcılıq qabiliyyətini öyrənməklə marketinq işlərinin yaxşılaşdırılmasına, insanların gizli davranışlarını üzə çıxarmaq, məqsəd və niyyətlərini anlamaq, onların digər insanlarla, ətraf mühitlə qarşılıqlı əlaqəsini başa düşməkdə kömək edə bilər.

BV-dən savadlı şəkildə istifadə edildikdə, hadisələrə operativ və dəqiq reaksiya göstərmək, düzgün qərar vermək mümkündür. Vətəndaşlarına xidmət etməkdə, milli problemlərin (səhiyyə, terrorizm, iş yerlərinin yaradılması, təbii fəlakətlər və s.) həllində və təhlükələri əvvəlcədən aşkarlamaqda hökуmətin bu texnologiyadan istifadəsi vacibdir. Böyük verilənlər maliyyə sektorunda milli səviyyədə iqtisadi riskləri daha yaxşı anlamaq, siyasətçiləri və tənzimləyici orqanları istiqamətləndirmək və risk sistemlərini daha yaxşı idarə etməkdə kömək ola bilər. Tibbi aspektdən BV-in analitikası səhiyyə sistemində inqilabi dəyişikliklərə imkan verir. Əməliyyatların səmərəliliyinin yaxşılaşdırылması xəstəlik epidemiyalarını əvvəlcədən söyləməyə, səhiyyə sahəsinə xərcləri optimallaşdırmağa, kliniki sınaqların mоnitorinqinin keyfiyyətini yaxşılaşdırmağa kömək edə bilər.

Qeyd olunan üstünlüklərə baxmayaraq, verilənlər çoxaldıqca, onlardan istifadə edən subyektlərin sayı da çoxalır. Verilənlərin əksəriyyəti fərdi məlumat olduğundan xüsusi mühafizə oluнmalıdır. İnsanların xəbəri olmadan onların haqqındakı verilənlərin analiz olunması etik və hüquqi cəhətdən yolverilməzdir.

Əks-əlaqə iqtisadiyyatı və proqnozlar. Qeyd olunduğu kimi, verilənlər hər il həndəsi silsilə ilə artmaqdadır. Proqnozlar isə bu prosesin hələ davam edəcəyindən xəbər verir. Bu baxımdan BV-nin saxlanılması, idarə edilməsi və analitikası sahəsində tədqiqatçıların və praktiklərin yaxın illərdə məşğul olacaqları problemlər çoxdur: arxitektura, analitika və mining, vizuallaşdırma, faydalı verilənlərin aşkarlanması, müxtəlif tip verilənlərin inteqrasiyası və s.-dir.

Maddi (xammal) və qeyri-maddi (verilənlər və ya informasiya) resursların emalının inteqrasiya olunduğu “informasiya iqtisadiyyatı və ya rəqəmsal iqtisadiyyat” dövründə iqtisadiyyat (bütün tarixi dövrlərdə olduğu kimi) bazar vasitəsilə reallaşdırılan əks-əlaqə olmadan mövcud ola bilməz. Əlbəttə, bazar əks-əlaqə üçün yeganə vasitə deyildir. Əks-əlaqə prinsipi əsasında yaradılan sistemlər ayrılıqda götürülmüş təşkilatı deyil, həm də bütövlükdə milli iqtisadiyyatı kökündən dəyişə bilər. “Big data” texnologiyaları bazarı istehsalçıların proqram, aparat təminatı və xidmət üzrə satışdan əldə etdikləri gəlirlərlə ölçülür. Gəlirlər hazırda milyaрd dollarla ölçülür. “IDC” və “IIA” (International Institute of Analytics), “Wikibon” cəmiyyətinin tədqiqatları diqqət çəkir. “Wikibon”un tədqiqatında dünyada “big data” texnologiyaları bazarının həcminin (2012-ci ildə proqram, aparat təminatı, xidmət üzrə) 5 milyard dollardan bir qədər artıq təşkil etdiyi, 2014-cü ildə 16,1 milyard dollar olduğu göstərilir. Bunlardan proqram təminatı 24%, xidmətlər 29%, saxlama sistemləri isə 45% təşkil edir. “IDC”-nin tədqiqatında isə göstərir ki, dünyada big data texnologiyaları bazarın həcmi hər il 31.7% artaraq 2016-cı ildə 23.8 milyaрd dollar təşkil edəcəkdir.

2012-2017-ci illər ərzində gəlirlərin 50.1 milyard dollar olacağı proqnozlaşdırılır. “Wikibon”un 2013-cü ildəki tədqiqatında (70 kompaniya üzrə) dünyada “Big data” texnologiyaları nəhənglərinin gəlirləri göstərilmişdir. Tədqiqatdan göründüyü kimi, böyük verilənlər bazarına “IBM” ($1,368 milyon), “HP” ($869 milyon) və “Dell” ($652 milyon) kompaniyaları liderlik edir. Həmin tədqiqatda həmçinin göstərilir ki, 2015-ci ildə bu sahədə 4,4 milyon ИT iş yerlərinin yaradılması gözlənilir, onlardan 1,9 milyonu ABŞ-da olacaqdır.

“Big Data” - nəzəri düşüncələr deyil, yetişmiş texniki inqilabın simvoludur, böyük informasiya massivlərini istifadə etməyə imkan verən yeni nəsil texnologiyadır. “Big data” təkcə yeni nəsil proqram təminatı sənayesinin əsas gücü deyil, həm də kreativ iqtisadiyyatın əsas elementidir.

Məkrufə Hacırəhimova,

AMEA İnformasiya Texnologiyaları İnstitutunun layihə baş mühəndisi, texnika üzrə fəlsəfə doktoru

“Rabitə dünyası” qəzeti, 3 aprel 2015-ci il