Методы извлечения терминов в научных текстах (на материале статей по направлению науки о земле)

https://doi.org/10.26907/2658-3321.2023.6.3.388-396

Авторы

Ключевые слова:

терминология, извлечение терминов, тематическое моделирование, научная коммуникация

Аннотация

Статья посвящена описанию теоретических и прикладных положений первоначального этапа работы по автоматическому извлечению терминов из научных текстов. Данный этап работы является частью государственного задания научной лаборатории лингво-педагогических исследований по теме «Лингвосемиотическая гетерогенность научной картины мира: теоретическое и лингводидактическое описание». Цель исследования заключается в извлечении терминов из подготовленного корпуса научных текстов, относящихся к определенной предметной области. Для этого был использован корпус научных текстов по направлению Науки о Земле, подготовленный методом случайной выборки при помощи приложения Semantic Scholar. Извлечение терминов при помощи автоматической обработки текстов (АОТ) является перспективным направлением исследования, так как позволяет упростить процесс создания терминосистем или составления онтологии для узкоспециализированных предметных областей. В условиях быстро меняющегося потока информации данный вид работы с текстами, безусловно остается актуальным направлением и позволяет быстрее и эффективнее обрабатывать большие объемы материалов. Однако, необходимо отметить, что автоматическое извлечение терминов (АОТ) не всегда является точным и может содержать ошибки. Поэтому, важно проводить дополнительную проверку и корректировку полученных результатов. Перспективы исследования связаны с совершенствованием существующих инструментов автоматической обработки текстов (АОТ). Кроме этого, анализ извлеченных терминов позволил нам сформировать основу для дальнейших практических исследований по созданию цифрового продукта (цифровой модели определенных терминосистем) для хранения, систематизации и использования терминосистем по определённой узкоспециализированной предметной области.

Список литературы

  1. Дементьева Я.Ю., Бручес Е.П., Батура Т.В. Извлечение терминов из текстов научных статей. Программные продукты и системы/Software & Systems. 2022;35(4):689–697. DOI: 10.15827/0236-235X.140.689-697
  2. Большакова Е.И., Семак В.В. Комбинирование методов для извлечения терминов из научно-технического текста. Интеллектуальные системы. Теория и приложения. 2021;25(4):239–242.
  3. Grishman R. Information Extraction. In: The Handbook of Computational Linguistics and Natural Language Processing. A. Clark, C. Fox, and S. Lappin (Eds). WileyBlackwell; 2010. Pp. 515–530.
  4. Бручес Е. П., Батура Т. В. Метод автоматического извлечения терминов из научных статей на основе слабо контролируемого обучения. Вестник НГУ. Серия: Информационные технологии. 2021;19(2):5–16. DOI 10.25205/1818-7900-2021-19-2-5-16
  5. Рогачева В. Э. Методы извлечения терминологических единиц из корпуса сопоставимых текстов. Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2017;(2):118–122.
  6. Eckart de Castilho R., Mújdricza-Maydt, É.,et al. A Web-based Tool for the Integrated Annotation of Semantic and Syntactic Structures. In Proceedings of the LT4DH workshop at COLING. Osaka, Japan.
  7. Шейко А.М. Инструменты прикладной лингвистики в контроле качества перевода. Казанский лингвистический журнал. 2023;6(2):282–293. DOI26907/2658-3321.2023.6.2.282-293.

Библиографические ссылки

References

Dement`eva Ya.Yu., Bruches E.P., Batura T.V. Terms extraction from texts of scien-tific papers. Programmny`e produkty` i sistemy`/Software & Systems. 2022;35(4):689–697. DOI: 10.15827/0236-235X.140.689-697 (In Russ.)

Bol`shakova E.I., Semak V.V. Combining methods to extract terms from scientific and technical text. Intellektual`ny`e sistemy`. Teoriya i prilozheniya. 2021;25(4):239–242. (In Russ.)

Grishman R. Information Extraction. The Handbook of Computational Linguistics and Natural Language Processing. A. Clark, C. Fox, and S. Lappin (Eds). WileyBlackwell; 2010. Pp. 515–530.

Bruches E. P., Batura T. V. Method for Automatic Term Extraction from Scientific Articles Based on Weak Supervision. Vestnik NGU. Seriya: Informacionny`e texnologii. 2021;19(2):5–16. DOI 10.25205/1818-7900-2021-19-2-5-16 (In Russ.)

Rogacheva, V. E`. Methods of extracting terminological units from the corpus of comparable texts. Vestnik Voronezhskogo gosudarstvennogo universiteta. Seriya: Lingvistika i mezhkul`turnaya kommunikaciya. 2017;(2):118–122. (In Russ.)

Eckart de Castilho R., Mújdricza-Maydt, É.,et al. A Web-based Tool for the Inte-grated Annotation of Semantic and Syntactic Structures. In Proceedings of the LT4DH workshop at COLING. 2016. Osaka, Japan (In Eng.)

Sheiko A.M. Language technology toolsin translation quality assurance. Kazan Lin-guistic Journal. 2023;6(2):282–293. DOI 10.26907/2658-3321.2023.6.2.282-293. (In Russ.)

Загрузки

Опубликован

2023-09-20

Выпуск

Раздел

Филология. Теоретическая, прикладная и сравнительно-сопоставительная лингвисти