Автоматичний інструмент дослідження термінології: видобуток і опрацювання термінів із забезпеченням взаємнооднозначної транслітерації

Короткий зміст проекту, очікувані результати

Насамперед буде розроблено взаємнооднозначні кирилично-латиничні транслітераційні програми для української та литовської мов на базі загальнодоступного інструменту транслітерації Майкрософт. Українська частина включатиме перетворення за допомогою двох транслітераційних таблиць: загальної, яка використовує латинські літери без діакритичних знаків (коди ASCII 0 – 127), і еквівалентної славістичної таблиці з діакритичними знаками, яка більше орієнтована на слов’янську графічну практику. Щоб забезпечити транслітерацію староукраїнських текстів, програма охоплюватиме також літери s, ȥ, ѹ, ϖ, ъ, ы, ѣ, ѥ, ω, ѧ, ѩ, ѫ, ѭ, ѯ, ѱ, ѳ, ѵ, ё, џ, ў, j, û, ê, ô, ŷ, які не вживаються в сучасному українському алфавіті. Литовська частина базуватиметься на системі транслітерації Ноя Шемлі (https://www.omniglot.com/conscripts/lca.htm). Створені програми буде випробувано на відповідних текстових масивах і виправлено.

Після перевірки програмного забезпечення буде створено транслітераційну сторінку на офіційному сайті Державної науково-технічної бібліотеки України (https://dntb.gov.ua). На основі транслітераційних програм буде створено онлайновий транслітератор для української та литовської мов. Цей інструмент буде випробувано і, в разі потреби, виправлено.

Наступним кроком буде вироблення інструменту пошуку термінів на основі нейронних мереж.

Спочатку буде проаналізовано роботу наявних безплатних онлайнових інструментів видобутку термінів (https://termnet.eu/terminology-tools), які слугуватимуть зразком для українського інструменту. Буде створено відповідну програму для української мови. Цей інструмент буде натреновано, звалідовано і випробувано на авторських текстах і на інших відкритих текстових даних відповідної тематики. Програма буде визначати лексичні одиниці (слова і словосполучення) в науково-технічних і загальномовних текстах, які є можливими термінами, і видавати три списки: (1) список нових кандидатів на терміни, які трапилися вперше; (2) список перевірених раніше термінів, які наявні у відповідній базі; (3) список неправильних термінів, які раніше вже були відзначені як хибні. Для цих вихідних даних буде забезпечено опцію транслітерації латиницею для легшого їх включення в інші засоби опрацювання текстів.

На офіційному вебсайті ДНТБ України (https://dntb.gov.ua) буде розміщено онлайновий транслітератор для української та литовської мов, а також автоматичний інструмент для видобутку та опрацювання термінів. Транслітераційний інструмент буде включати загальну та славістичну системи транслітерації, а також староукраїнські літери. Це значно полегшить виконання операцій, пов’язаних із пошуком та передачею інформації в бібліотечній справі та інформаційних науках.

Література

  1. Vakulenko, Maksym O. 2019. Calculation of Semantic Distances between Words: From Synonymy to Antonymy. In: Journal of Quantitative Linguistics 26 (2): 116-128.
  2. Vakulenko, Maksym. 2018. From Terminology-Vocabulary to Terminology-Science: A Ukrainian Trend [monograph]. LAP. 120 pp.
  3. Lazarev, V.S., Nazarovets, S.A. 2018.Don’t dismiss non-English citations. In:Nature 556 (7700): 174.
  4. Вакуленко М. О. Українська термінологія: комплексний лінгвістичний аналіз: [монографія]. Івано-Франківськ : Фоліант, 2015. 361 с., іл.
  5. Vakulenko, Maksym O. 2015. Practical transcription and transliteration: Eastern-Slavonic view. In: Govor 32 (1): 35-56.
  6. Janavičius, Arvydas Juozapas; Žilinskas, Kęstutis. The general solution of the Schrödinger equation for bound states // Canadian Journal of Physics. Ottawa : NRC Research Press. ISSN 0008-4204. 2013, Vol. 91, No. 5, p. 378-381.
  7. Sakalauskas, Leonidas; Žilinskas, Kęstutis. Power Plant Investment Planning by Stochastic Programming // Technological and economic development of economy. ISSN 1392-8619. 2010, vol.16, no.4.
  8. Giedrimas, Vaidas; Sakalauskas, Leonidas; Neimantas, Marius; Žilinskas, Kęstutis; Barauskas, Nerijus; Valčiukas, Remigijus. Wiki-based stochastic programming and statistical modeling system for the cloud // International Journal of Advanced Computer Science & Applications. Bradford : The Science and Information (SAI). ISSN 2158-107X. eISSN 2156-5570. 2016, Vol. 7, iss. 3, p. 218-223.
  9. Janavičius, Arvydas Juozapas; Jurgaitis, Donatas; Žilinskas, Kęstutis. Semi-relativistic equation solutions for bound states of the heaviest nuclei // International Journal of Modern Engineering Research (IJMER). ISSN 2249-6645. 2018, Vol. 8, iss. 4, p. 1-9.
  10. Žilinskas, Kęstutis. Two-stage stochastic linear programming by a series of Monte-Carlo estimators // Computational Science and Techniques. Klaipėda : Klaipėda University. eISSN 2029-9966. 2014, Vol. 2, no. 2, p. 289-312.

Стан проекту

Подано (українсько-литовський проект на 2020-2021 рр.)