Теперь с нуля легко сделать автоматический переводчик с русского на белорусский
Фото: gemeration.by
Большая часть современных систем машинного перевода использует параллельные корпусы. Параллельный корпус — это значительное количество текстов на двух языках, в нашем случае — тексты по-белорусски и их переводы на русский. По такому корпусу система может автоматически изучить, какое слово или фраза в одном языке соответствует слову или фразе в другом. Такой корпус на основе текстов Еврорадио решил сделать программист Антон Брыль:
"Не для каждого языка можно что-то готовое взять из интернета и начать ставить эксперименты. В какой-то момент я понял, что у вас очень много двуязычного текста, который ничто не мешает превратить в такой корпус. Я пустил на это несколько выходных дней и этот корпус собрал. Теперь желающие могут делать переводчик или проводить эксперименты по автоматическому переводу. Взяв такой корпус, можно сделать переводчик с нуля".
Работает это приблизительно так: представьте большое количество параллельных предложений — предложение по-русски и то же самое по-белорусски. Если посчитать, какое русское слово чаще всего встречается напротив какого-то белорусского, получится обычный белорусско-русский словарь. Если взять не только слова, но и фразы и конструкции, получится словарь более широкого плана: автоматическая таблица соответствий между языками. Это базовая идея того, как работает статистический автоматический перевод.
Для многих западноевропейских языков для этого используются, в частности, документы Европарламента, которые переводятся на все языки государств-членов. Теперь такой корпус есть и для белорусского языка.
Корпус Еврорадио — это более 100 тысяч пар предложений, поэтому перевод должен получиться приличного качества. Мы призываем пользоваться корпусом и обращаться к нам, если найдутся ошибки. Такой корпус позволит белорусскому языку гораздо комфортнее чувствовать себя в большом мире машинного перевода.