Энэ өгүүлэл эсвэл өгүүллийн хэсгийг монгол хэл рүү орчуулах хэрэгтэй байна. Хэрэв үүнийг нэг сарын дотор орчуулахгүй бол арилгагдах тухай хэлэлцэгдэх болно. |
Стандарт нь N-грам загварийн нь нэг үндсэн асуудал нь тухайн загвар ямар нэг корпусаар заавал сургагдах ёстой байдаг ба ямар ч сургалтын корпус төгсгөлгүй биш элемэнттэй учираас зарим хэлний хүлээн зөвшөөрөгдсөн, төгс төгөлдөр гэж хүлээн зөвшөөрөгддөг загвар хүртэл тодорхой хэмжээний тархалттай байдаг. Цаашилбал, магадлалын тоо тэгтэй тэнцүү эсвэл маш бага үед үед Хамгийн их боломжийг тооцоолох арга нь муу үр дүн гаргадаг. Хэрвээ тухайн хэлний үгсийн санд байдаг боловч туршилтын олонлогт байхгүй үгсийг хэрхэн шийдэх вэ? Уг өмнөн үзэгдээгүй үзэгдэлээс болоод хэлний загварийн тэг магадлалтай болгохгүйн тулд илүү олон давтамжтай үзэгдэлийн магадалалын массаас бага зэргийг авч уг үзэгдэлрүү өгдөг. Уг аргийг тэгшилэх эсвэл бууруулах арга гэж нэрлэдэг. Тухайлбал нэгээр нэмэгдүүлэж тэгшилэх, K тоогоор нэмэгдүүлэж тэгшилэх, салгах арга, Kneser-Ney тэгшилэх гэх мэт. Жишээлбэл: Дараах үгсийн сантай корпус авч үзье. Жишээ корпус:
"JOHN READ MOBY DICK MARY READ A DIFFERENT BOOK SHE READ A BOOK BY CHER"
Дараах томьёог ашиглана хэлний загварийг тооцолоё:
Жишээ магадлал:
=
Энд * - аар эхлэл болон төгсгөлийг тэмдэглэв.
Жишээ магадлал:
=
Хоёрдах жишээн дээр нэг магадлал тэг байгаа учираас үржвэр болох нийт магадлал тэг болж байгаа. Тийм учираас хэлний загварийг зөв тооцоолохын тулд бид тэгшилэх, бууруулах зэрэг аргуудыг ашигладаг.
Хамгийн энгийн тэгшилэх арга бол биграмийн тоог нормачилахаасаа өмнө нэг нэгээр нэмэгдүүлэх арга юм. Тэг байсан бол 1, 1 байсан бол 2 гэх мэтээр бүх тооцоолсон тоонууд нэмэгдэнэ гэсэн үг юм. Уг алгоритмийг Лапласийн тэгшилэх арга гэж нэрлэдэг. N грамийн загварчлалын үед Лапласийн арга нь тийм ч сайн үр дүн үзүүлдэггүй. Гэхдээ уг тэгшилэх арга бусад олон аргийн үндэс суурь нь болж өгсөн. Мөн текст ялгах аргуудын үндэс суурь болсон. Лапласийн тэгшилэх аргийг нэг грамын магадлал дээр эхлээд авч үзье. Уг томёонд нэг грамийн магадлалийн тоо, нь бүх N үгийн стандарчуулсан тоо юм.
Лапласийн тэгшилэх арга нь бүх тооцолосон тоонууд дээр нэгээр нэмдэг. Тийм учираас бас нэгээр нэмэгдүүлэх арга гэж нэрлэх нь бий. Нэгэнь V нь үгсийн сангийн үгийн тоо ба нэгээр нэмэгдэж байгаа тул V үзэгдэлийн нэмэгдсэн тоог хуваагдагчид тохируулаж тооцоолох хэрэгтэй. (Хэрвээ хуваагдагчийн тоо нэмэгдээгүй бол P-ийн утга ямар болох вэ?)
Бид N-ийг нормалжуулсанаар -ийг -ийн магадлал болгож чадна. Уг аргатай хамааралтайгаар тэгтэй тэнцүү биш магадлалийн массаас тэг магададлалийн тооцолсон тоог хасж болно. Үүийг хямдруулах буюу бууруулах гэнэ. Тийм учираас буурсан тоог гэж бичихгүйгээр ориганаль тооцоолсон тоог буурсан тооцоолсон тооны харьцааг гэж тэмдэглэж чадна:
Харин доорх биграм магадлалийн хувьд:
Лапласийн арга ийм болно:
Дээр авсан жишээгээ ашиглаж үүн дээ нэгээр нэмэгдүүлэх арга хэрэглэвэл дараах байдалтай болно:
Зөвхөн нэгээр биш үүнтэй адилаар K-аар нэмэгдүүлэж бас болно. Уг аргийн K-аар нэмэгдүүлэх арга гэнэ. Томёо нь ийм болно:
K-аар нэмэгдүүлэх нь текст ялгах зэрэг ажилд үр нөлөө сайтай байдаг.
Good-Turing
Katz-ийн тэгшилэлт буюу буцаалтын арга
засварлах
Каtz-ийн тэгшилэлтийг биграм дээр ашиглавал:
Katz-ийн тохируулсан тоо:
нь сонгогдсон учираас нь:
болно. Нормалчилал хийснээр зөв болсон нь:
болно.