Телефон для справок: (044) 521-23-51|gntb@gntb.gov.ua

Автоматический инструмент исследования терминология: добыча и обработка сроков с покрытием взаемнооднозначнои транслитерации

Краткое содержание проекта, ожидаемые результаты

Прежде всего будет разработан взаемнооднозначни кириллических-латиничный транслитерации программы для украинского и литовского языков на базе общедоступного инструмента транслитерации Microsoft. Украинская часть будет включать преобразования с помощью двух транслитерации таблиц: общей, которая использует латинские буквы без диакритических знаков (коды ASCII 0 – 127), и эквивалентной славистической таблицы с диакритическими знаками, которая больше ориентирована на славянскую графическую практику. Чтобы обеспечить транслитерацию староукраинских текстов, программа будет охватывать также буквы s, ȥ, ѹ, π, ъ, ы, ять, ѥ, ω, ѧ, ѩ, ѫ, ѭ, ѯ, ѱ, ѳ, ѵ, ё, џ, ў, j, û, ê, ô, ŷ, которые не употребляются в современном украинском алфавите. Литовская часть будет базироваться на системе транслитерации Ноя Шемла (https://www.omniglot.com/conscripts/lca.htm). Созданные программы будет испытано на соответствующих текстовых массивах и исправлено.
После проверки программного обеспечения будет создан транслитерации страницу на официальном сайте Государственной научно-технической библиотеки Украины (https://dntb.gov.ua). На основе транслитерации программ будет создан онлайновый транслитератор для украинского и литовского языков. Этот инструмент будет испытано и, в случае необходимости, исправлено.
Следующим шагом будет выработка инструмента поиска сроков на основе нейронных сетей.
Сначала будет проанализирована работа имеющихся бесплатных онлайновых инструментов добычи терминов (https://termnet.eu/terminology-tools), которые будут служить образцом для украинского инструмента. Будет создана соответствующая программа для украинского языка. Этот инструмент будет натренированно, звалидовано и испытано на авторских текстах и ​​на других открытых текстовых данных соответствующей тематики. Программа будет определять лексические единицы (слова и словосочетания) в научно-технических и общеязыковой текстах, которые являются возможными сроками, и выдавать три списка: (1) список новых кандидатов на сроки, которые случились впервые; (2) список проверенных ранее сроков, которые имеются в соответствующей базе; (3) список неправильных терминов, которые ранее уже были отмечены как ложные. Для этих выходных данных будет обеспечен опцию транслитерации латиницей для легкого их включения в другие средства обработки текстов.
На официальном веб-сайте ГНТБ Украины (https://dntb.gov.ua) будет размещено онлайновый транслитератор для украинского и литовского языков, а также автоматический инструмент для добычи и обработки сроков. Транслитерационной инструмент будет включать общую и славистической системы транслитерации, а также староукраинские буквы. Это значительно облегчит выполнение операций, связанных с поиском и передачей информации в библиотечном деле и информационных наук.

Литература

  1. Vakulenko, Maksym O. 2019. Calculation of Semantic Distances between Words: From Synonymy to Antonymy. In: Journal of Quantitative Linguistics 26 (2): 116-128.
  2. Vakulenko, Maksym. 2018. From Terminology-Vocabulary to Terminology-Science: A Ukrainian Trend [monograph]. LAP. 120 pp.
  3. Lazarev, V.S., Nazarovets, S.A. 2018.Don’t dismiss non-English citations. In:Nature 556 (7700): 174.
  4. Вакуленко М. О. Українська термінологія: комплексний лінгвістичний аналіз: [монографія]. Івано-Франківськ : Фоліант, 2015. 361 с., іл.
  5. Vakulenko, Maksym O. 2015. Practical transcription and transliteration: Eastern-Slavonic view. In: Govor 32 (1): 35-56.
  6. Janavičius, Arvydas Juozapas; Žilinskas, Kęstutis. The general solution of the Schrödinger equation for bound states // Canadian Journal of Physics. Ottawa : NRC Research Press. ISSN 0008-4204. 2013, Vol. 91, No. 5, p. 378-381.
  7. Sakalauskas, Leonidas; Žilinskas, Kęstutis. Power Plant Investment Planning by Stochastic Programming // Technological and economic development of economy. ISSN 1392-8619. 2010, vol.16, no.4.
  8. Giedrimas, Vaidas; Sakalauskas, Leonidas; Neimantas, Marius; Žilinskas, Kęstutis; Barauskas, Nerijus; Valčiukas, Remigijus. Wiki-based stochastic programming and statistical modeling system for the cloud // International Journal of Advanced Computer Science & Applications. Bradford : The Science and Information (SAI). ISSN 2158-107X. eISSN 2156-5570. 2016, Vol. 7, iss. 3, p. 218-223.
  9. Janavičius, Arvydas Juozapas; Jurgaitis, Donatas; Žilinskas, Kęstutis. Semi-relativistic equation solutions for bound states of the heaviest nuclei // International Journal of Modern Engineering Research (IJMER). ISSN 2249-6645. 2018, Vol. 8, iss. 4, p. 1-9.
  10. Žilinskas, Kęstutis. Two-stage stochastic linear programming by a series of Monte-Carlo estimators // Computational Science and Techniques. Klaipėda : Klaipėda University. eISSN 2029-9966. 2014, Vol. 2, no. 2, p. 289-312.

Состояние проекта

Подано (украинский-литовский проект на 2020-2021 гг.)

2019-09-30T12:42:04+00:00