Обьект танилт

Объектыг таних гэдэг нь тодорхой ангиллийн семантик объект (хүн, барилга, машин гэх мэт) дижитал зураг, видеог таниж илрүүлэхтэй холбогдсон компьютерийн хараа, дүрс боловсруулах ажиллагаанд суурилсан технологи юм. Обьектийг таних ажиллагаанд одоогоор сайтар судлагдсан салбар нь нүүр царай, явган хүний хөдөлгөөнийг таних чиглэлүүд багтдаг. Обьект таних ажиллагаа нь компьютерийн харааны гол аргаар зураг авах, видео тандалт хийх хэрэглээ өргөн хөгжиж байна.

OpenCV-ийн Deep Neural Network модулиар (dnn) YOLOv3 загварыг COCO мэдээллийн санд сурган энгийн 80 объектыг илрүүлсэн байдал.

Хэрэглээ

Энэ таних ажиллагаа нь нүүр таниж хадгалах, хайсан царайг олох, видео объектийг сегментчлэх зэрэг компьютерийн харааны салбаруудад өргөн ашиглагдаж байна. Үүнд гол нь объектыг хянах, жишээлбэл хөл бөмбөгийн тэмцээний үеэр бөмбөг үзэх, бейсболын цохиурын хөдөлгөөнийг хянах, видеонд байгаа хүнийг хянах зэрэгт ашигладаг .

Гол ухагдахуун

Аливаа объект өөрийн гэсэн ангиллаа илэрхийлдэг тусгай шинж чанартай байдаг жишээ нь бүх тойрог нь дугуй байдаг. Обьектын ангиллыг илрүүлэх нь эдгээр онцгой шинж чанаруудыг ашигладаг. Жишээлбэл, дугуй дурсийг хайхдаа төв цэгээсээ тодорхой ижил зайд байрлах хүрээтэй объектыг хайдаг. Үүнтэй адилаар квадрат дүрсийг хайхдаа булангийн хооронд перпендикуляр, хажуугийн уртууд нь тэнцүү байх шаардлагатай. Үүнтэй төстэй аргыг нүүрний танихад ашигладаг бөгөөд нүд, хамар, уруулаа олж авах боломжтой бөгөөд арьсны өнгө, нүдний хоорондох зай зэрэг онцлог шинжүүдийг олж болно.

Арга зүй

Обьектийг олж илрүүлэх аргууд нь ерөнхийдөө машин сургалтанд суурилсан арга эсвэл гүнзгий суралцах суурилсан аргад хоёуланд нь ордог. Машин сургалтын аргын хувьд эхлээд дараах аргуудын аль нэгийг ашиглан онцлог шинжүүдийг тодорхойлж, дараа нь ангилахдаа вектор дэмжих машин (SVM) гэх мэт техникийг ашиглах шаардлагатай болдог. Нөгөө талаар, гүнзгийрүүлэн судлах арга барилууд нь объектуудыг эцсийн эцэст илрүүлэх чадварыг тодорхой шинж чанаргүйгээр хийх боломжтой байдаг бөгөөд эдгээр нь ихэвчлэн convolutional neural networks (CNN) дээр суурилдаг.

Машин сургалтын арга:
- Viola – Jones нь Haar функцэд суурилсан объект илрүүлэх хүрээ
- Хувь хүний хувьсах шинж чанар (SIFT)
- Чиглүүлсэн градиент шинж чанаруудын гистограм ^[1]
Гүнзгийрүүлэн сурах хандлага:
- Бүс нутгийн саналууд (R-CNN, ^[2] Хурдан R-CNN, ^[3] Илүү хурдан R-CNN ^[4] )
- Нэг удаагийн MultiBox илрүүлэгч (SSD) ^[5]
- Та зөвхөн нэг л харах боломжтой (YOLO) (You only look once) ^[6]

Бусад холбоотой

Текномо-Фернандес алгоритм

Ашигласан материал

↑ "Histograms of oriented gradients for human detection" (PDF). Computer Vision and Pattern Recognition. 1. 2005.
↑ "Rich feature hierarchies for accurate object detection and semantic segmentation" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014.
↑ "Fast R-CNN" (PDF). Proceedings of the IEEE International Conference on Computer Vision. 2015.
↑ "Faster R-CNN" (PDF). Advances in Neural Information Processing Systems. 2015.
↑ SSD: Single shot multibox detector. October 2016.
↑ "You only look once: Unified, real-time object detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

"Object Class Detection". Vision.eecs.ucf.edu. Retrieved 2013-10-09.
"ETHZ - Computer Vision Lab: Publications". Vision.ee.ethz.ch. Retrieved 2013-10-09.

Гадаад холбоосууд

[1] "Histograms of oriented gradients for human detection" (PDF). Computer Vision and Pattern Recognition. 1. 2005.

[2] "Rich feature hierarchies for accurate object detection and semantic segmentation" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014.

[3] "Fast R-CNN" (PDF). Proceedings of the IEEE International Conference on Computer Vision. 2015.

[4] "Faster R-CNN" (PDF). Advances in Neural Information Processing Systems. 2015.

[5] SSD: Single shot multibox detector. October 2016.

[6] "You only look once: Unified, real-time object detection". Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

[1]

[2]

[3]

[4]

[5]

[6]