Студенти та співробітники ХНУРЕ презентують набір даних Multi30k-uk на другому воркшопі з Ukrainian Natural Language Processing.

Share:

Студенти та співробітники ХНУРЕ презентують набір даних Multi30k-uk на другому воркшопі з  Ukrainian Natural Language Processing. Вони підготували розширення мультимодальних корпусів Flickr30k та Multi30k для української мови.

Створення україномовного набору даних виконувалось зусиллями працівників і студентів кафедри програмної інженерії Харківського національного університету радіоелектроніки. В результаті підготовлений і перевірений паралельний корпус українською мовою, що містить 30 тисяч описів зображень.
Створений набір даних буде корисний при навчанні мультимодальних, мультимовних моделей для задач генерації описів зображення, генерації зображень, класифікації даних, що містять і текст і зображення та інших задач пов’язаних з мультимодальними даними.

Для інформації: Flickr30k є мультимодальним набором з описом англійською мовою, Multi30k – перекладений німецькою мовою, далі цей датасет був перекладений французькою, чеською, турецькою мовами.
В результаті кропіткої роботи збільшується кількість публічних ресурсів українською мовою, які доступні для задач штучного інтелекту. Датасет доступний за посиланням https://huggingface.co/datasets/turuta/Multi30k-uk

Цей результат вдалось отримати завдяки учасникам процесу перекладання: Єрохіну А.Л., Туруті О.П., Бабію А.С, Туруті О.В., Сайчішиній Н., Максименко Д., Ярош М., Возгриві Г. та підтримці зав. кафедри програмної інженерії Дудар З.В.
Даний проект був виконаний завдяки обміну науковими ідеями та знаннями в рамках участі працівників кафедри в  проекті COST Action 18231.

Другий воркшоп з  Ukrainian Natural Language Processing проходить в м. Дубровнік (Хорватія) 5 травня 2023 року, з можливістю гібридної участі. Спікер доповіді “Extension Multi30K: Multimodal Dataset for Integrated Vision and Language Research in Ukrainian” магістр кафедри програмної інженерії Сайчишина Н.