Их өгөгдөл (Англи: Big Data [ˈbɪɡ ˈdeɪtə] ) гэж уламжлалт өгөгдөл боловсруулах системүүдийн хэрээс хэтэрсэн асар том хэмжээний өгөгдөл, түүнтэй холбоотой бүх ойлголтуудыг нэгтгэсэн ойлголт юм. Үүнд: өгөгдлийн шинжилгээ, цуглуулах, боловсруулах, хайлт хийх, хуваалцах, түгээх, хадгалах, дамжуулах, нууцлал зэрэг ойлголтууд багтана.

Их өгөгдлийн хэрэглээний нэг хэлбэр нь бизнесийн тандан шинжилгээ (Англи: Business intelligence буюу BI, Бий-Ааи) юм. Энэ нь шийдвэр гаргалтыг илүү сайжруулж, дэмжих өгөгдлүүдийг олборлох, хувиргах, нэгтгэх, дүрслэх, шинжлэх, тайлбарлахад зориулсан олон төрлийн аппликэйшн программууд, туршлага, технологиудыг агуулсан мэдээллийн систем юм.

Ойлголт засварлах

Бүтэцлэгдсэн, хагас бүтэцлэгдсэн болон бүтэцлэгдээгүй эх үүсвэрүүдээс бий болсон төрөл бүрийн өгөгдлийг их өгөгдөл гэнэ.

Бүтэцлэгдсэн өгөгдөл нь тодорхой загварын дагуу үүссэн, тогтмол шинжүүдтэй учраас боловсруулахад хялбар, ойлгомжтой байдаг. Ийм төрлийн өгөгдлийг ихэвчлэн SQL -ээр боловсруулдаг. Бүтэцлэгдээгүй өгөгдөл нь урьдчилан зохион байгуулагдаагүй, өгөгдлийн сан удирдах системээр үүсгэгдээгүй текст, мультмедиа төрлийн өгөгдлийг агуулсан файл юм. Харин хагас бүтэцлэгдсэн өгөгдөл нь тодорхой хэмжээгээр зохион байгуулагдсан боловч өгөгдлийн сан удирдах системээр үүсгэгдээгүй юм. Эдгээр өгөгдлүүд нь олон нийтийн мэдээлийн сайтуудад оруулж байгаа сэтгэгдэл, зарлал, вэб сайтын лог, зураг, дуу видео үйлчлүүлэгчдийн худалдан авалтын бүртгэл , гар утас, төрөл бүрийн мэдрэгч төхөөрөмжүүд болон камер, байгууллагын автожуулалтын систем зэргээс үүсэж байгаа бөгөөд ихэнх хувь нь бүтэцлэгдээгүй хэлбэрээр үүсэж байна. Их өгөгдөл нь өөрөө цэгцэрсэн, давхцалгүй, бодит цагийн мэдээлэл байх ёстой. Одоо цагт нийт дата төвүүдийн 5% нь л их хэмжээгээр оролддог.

Их өгөгдөл гэдэгт data warehouse, data mining гэсэн ойлголтууд хамаардаг.

Data warehouse нь мэдээллийн агуулах гэсэн үг. Өөрөөр хэлбэл үнэн, худал болон бодит цагийн (reaл time), өнгөрсөн цагийн гэсэн янз бүрийн төлөв байдалд байгаа датаг хадгалж бааз үүсгэж байдаг.

Data mining нь аналитик хэлбэрээр судалгаа хийх чиглал рүү явдаг. Гэхдээ алины онцлог нь өнгөрсөн цаг дээр судалгаа хийгддэг. Тиймээс шийдвэр гаргаж, трендийг тодорхойлохдоо data mining-г ашиглаж байгаа хэрэг юм.

Их өгөгдлийн хамгийн гол онцлог нь бодит цагийн цэгцэрсэн, давхцалгүй өгөгдөл байдаг. Бодит цагийн гэхээр серверийн дэд бүтцэд миллисекундын зөрүүтэй орж ирж байгаа өгөгдлийг хэлнэ. Монгол улсын төрийн байгууллагад хамгийн анх их өгөгдлөөр хөгжүүлэлт хийж гарч ирсэн зүйл бол ТҮЦ машин юм. Их өгөгдөл бол том хэмжээтэй дататай харьцах тухай цогц ойлголт юм. Өөрөөр хэлбэл уламжлалт дата боловсруулах системүүдийн хэрээс хэтэрсэн асар том хэмжээний дата, түүнтэй холбоотой бүх ойлголтуудыг нэгтгэсэн концепци юм. Үүнд датаг шинжлэх, олж авах, боловсруулах, хайлт хийх, хуваалцах, түгээх, хадгалах, дамжуулах, визуалчлах, нууцлал зэрэг ойлголтууд багтана.

Яагаад их өгөгдөл гэдэг нэр томъёо гарч ирэх болсон ойлголтыг дараах баримтуудаар жишээ болгон тайлбарлая.

  • Датаны өсөлт маш их эрчимтэй явагдаж байгаа ба 2020 он гэхэд манай дэлхийн хүн бүр, секунд тутамд 1.7 мегабайт дата үүсгэж байх болно.
  • Тэр үед өнөөгийн дижитал ертөнцийн нийт дата 4.4 Зеттабайтаас 44 Зеттабайт буюу 44 их наяд Гигабайт болж нэмэгдэнэ.
  • 2015 оны наймдугаар сард , анх удаа 1 тербум хүн нэг өдөр Фейсбүүкт орсон байна.
  • 2020 онд бүх датаны гуравны нэг нь Клоуд орчинд хадгалагдана.
  • Төвлөрсөн биш тооцоолох арга бодит хэрэглээ болно. Google -н нэг хайлтын хүсэлтэнд 0.2 секундээс богино хугацаанд хариу өгөхийн тулд 1000 компьютер зэрэг боловсруулалт хийдэг.

Их өгөгдлийн шинж чанар засварлах

 
Их өгөгдлийг тодорхойлох голлох гурван шинж
 

Шинж чанарыг тодорхойлохдоо англи хэлний V үсгээр эхлэсэн үгсийг хэрэглэдэг.

Өгөгдлийн хэмжээ (Volume)

Өгөгдлийг их өгөгдөл мөн эсэхийг тодорхойлоход түүний эзэлж буй хэмжээ маш чухал. Өгөгдөл анх KB, MB, GB-аар хэмжигддэг байсан бол одоо TB, EB,ZB,YB гэсэн хэмжигдэхүүнээр хэмжигдэхүйц өссөөр байна. Өөрөөр хэлбэл техник технологийн хөгжилтэй шууд хамааралтайгаар өгөгдлийн хэмжээ өссөөр байна.

Өгөгдлийн хурд (Velocity)

Уг шинж нь өгөгдлийн хурдтай холбоотойгоор гарч ирдэг бөгөөд түүнийг хоёр өнцгөөс авч үздэг. Эхнийх нь шинэ өгөгдөл нэмэгдэх үед түүнийг ашиглаж байсан газар, байгууллагууд уг өөрчлөлтийг цаг алдалгүй хийх. Өөрөөр хэлбэл судалгаа, шинжилгээнд ашиглагдаж байгаа өгөгдлийг бодит буюу хугацааны хоцрогдолгүй шинэчлэх нь их өгөгдлийн бас нэг шинж юм. Хоёр дах нь өгөгдлийг боловсруулахад зарцуулах хугацаа гэж ойлгогдож болох бөгөөд их өгөгдөлтэй холбоотойгоор түүнийг хэрхэн хурдан боловсруулах гэсэн асуудал тулгардаг байна.

Өгөгдлийн төрөл (Variety)

Өгөгдөл нь өгөгдлийн сан, excel, тескт, csv гэх мэт олон төрлөөр хадгалагдсан байдаг. Төрөл бүрийн хэлбэрээр оршин байдаг бөгөөд эдгээрээс их өгөгдөл үүсдэг байна. Тиймээс их өгөгдөл нь зөвхөн бүтэцлэгдсэн өгөгдөлд бус бүх төрлийн өгөгдөлд анхаарлаа хандуулдаг.

Цаашид дараах шинж чанарууд Их өгөгдлийн ойлголтод нэмэгдэж яригдах болно.

  • Үнэ цэнэ (Value) - хуримтлагдаж буй өгөгдлүүд нь бүгд эргээд үнэ цэн, өгөөж өгөхүйц байх.
  • Үнэн зөв (Veracity) - хуримтлагдаж буй өгөгдлүүд нь бүгд үнэн зөв, бодитой байх.
  • Дүрслэл (Visualization) - асар их хэмжээний өгөгдлийг ойлгомжтой болгохын тулд визуал дүрслэл буюу хувиргалт хийх.
  • Хувьсах байдал (Viscosity) - энэ нэр томьёог зарим үед өгөгдлийн хоцрогдол эсвэл хоцрогдлын хугацааг тодорхойлоход ашигладаг.
  • Тархалт (Virality) - өгөгдөл тархах хурд эсвэл давтамж.

Эдгээр шинжүүдтэй холбоотой асуудлуудыг уламжлалт өгөгдлийн сан удирдах системээр шийдвэрлэхэд хэцүү, бүр боломжгүй байдаг учраас Oracle, HP, Microsoft, IBM гэсэн томоохон компаниуд их өгөгдөлтэй холбоотой арга технологиудад анхаарлаа хандуулж байна.

Их өгөгдлийг үүсгэх нь засварлах

  1. Нийгмийн сүлжээ (бид бүгд өгөгдөл үүсгэдэг)
  2. Шинжлэх ухааны хэрэгсэл (бүх төрлийн өгөгдлийг цуглуулдаг)
  3. Мобайл төхөөрөмжүүд (бүх объектуудыг цаг үргэлж хянадаг)
  4. Мэдрэгч технологи, сүлжээ (бүх төрлийн өгөгдлийг хэмжинэ)