Автоматичний інструмент дослідження термінології: видобуток і опрацювання термінів із забезпеченням взаємнооднозначної транслітерації

Насамперед буде розроблено взаємнооднозначні кирилично-латиничні транслітераційні програми для української та литовської мов на базі загальнодоступного інструменту транслітерації Майкрософт. Українська частина включатиме перетворення за допомогою двох транслітераційних таблиць: загальної, яка використовує латинські літери без діакритичних знаків (коди ASCII 0 – 127), і еквівалентної славістичної таблиці з діакритичними знаками, яка більше орієнтована на слов’янську графічну практику. Щоб забезпечити транслітерацію староукраїнських текстів, програма охоплюватиме також літери s, ȥ, ѹ, ϖ, ъ, ы, ѣ, ѥ, ω, ѧ, ѩ, ѫ, ѭ, ѯ, ѱ, ѳ, ѵ, ё, џ, ў, j, û, ê, ô, ŷ, які не вживаються в сучасному українському алфавіті. Литовська частина базуватиметься на системі транслітерації Ноя Шемлі (https://www.omniglot.com/conscripts/lca.htm). Створені програми буде випробувано на відповідних текстових масивах і виправлено.

Після перевірки програмного забезпечення буде створено транслітераційну сторінку на офіційному сайті Державної науково-технічної бібліотеки України (https://dntb.gov.ua). На основі транслітераційних програм буде створено онлайновий транслітератор для української та литовської мов. Цей інструмент буде випробувано і, в разі потреби, виправлено.

Наступним кроком буде вироблення інструменту пошуку термінів на основі нейронних мереж.

Спочатку буде проаналізовано роботу наявних безплатних онлайнових інструментів видобутку термінів (https://termnet.eu/terminology-tools), які слугуватимуть зразком для українського інструменту. Буде створено відповідну програму для української мови. Цей інструмент буде натреновано, звалідовано і випробувано на авторських текстах і на інших відкритих текстових даних відповідної тематики. Програма буде визначати лексичні одиниці (слова і словосполучення) в науково-технічних і загальномовних текстах, які є можливими термінами, і видавати три списки: (1) список нових кандидатів на терміни, які трапилися вперше; (2) список перевірених раніше термінів, які наявні у відповідній базі; (3) список неправильних термінів, які раніше вже були відзначені як хибні. Для цих вихідних даних буде забезпечено опцію транслітерації латиницею для легшого їх включення в інші засоби опрацювання текстів.

На офіційному вебсайті ДНТБ України (https://dntb.gov.ua) буде розміщено онлайновий транслітератор для української та литовської мов, а також автоматичний інструмент для видобутку та опрацювання термінів. Транслітераційний інструмент буде включати загальну та славістичну системи транслітерації, а також староукраїнські літери. Це значно полегшить виконання операцій, пов’язаних із пошуком та передачею інформації в бібліотечній справі та інформаційних науках.

Стан проєкту: Завершено.