Сравнительно-сопоставительный анализ лингвистических ресурсов для проведения корпусного анализа текстов

Авторы

  • А. В. Дмитриев Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация https://orcid.org/0000-0003-3632-793X
  • Е. С. Крупнова Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация https://orcid.org/0009-0007-3127-2737

DOI:

https://doi.org/10.34680/VERBA-2024-3(13)-24-35

Ключевые слова:

корпусная лингвистика, лингвистические корпуса, корпусный менеджер, стилистический анализ текста

Аннотация

В статье рассматривается основная задача корпусной лингвистики – корпусный анализ письменных текстов на естественном языке с помощью лингвистических ресурсов, которые используются для её решения. Корпусный анализ подразумевает метод исследования языка, который использует большие коллекции текстов или корпуса для получения статистических и лингвистических данных о языке. Лингвистические ресурсы, такие как словари, тезаурусы, грамматические базы данных значительно расширяют возможности и точность корпусного анализа. Помимо этого, корпусная лингвистика занимается созданием корпусных менеджеров, которые обрабатывают тексты и выполняют функции составления конкорданса, поиска ключевых слов, коллокаций и другие. В работе кратко описывается функционал программ WMatrix, WordSmith, GATE, AntConc и Sketch Engine, а также проводится сравнительно-сопоставительный анализ их характеристик. В результате сделан вывод о том, что ряд программ отличается набором функций, параметрами сохранения данных, форматом входного текста и доступностью. Кроме того, перечисляются направления их использования в научно-практической деятельности. Лингвистические ресурсы могут быть полезны для стилистического анализа текстов, изучения лингвистических особенностей авторского стиля, обучения иностранному языку, например, грамматике или лексике, в компьютерной лексикографии, дискурс-анализе и в других направлениях. Рассмотренные инструменты не только повышают точность анализа, но и расширяют возможности, интегрируясь в программные инструменты для автоматизации корпусного анализа. Выбор подходящего инструмента для проведения исследования зависит от объёма и глубины анализа текста.

Скачивания

Данные скачивания пока недоступны.

Биографии авторов

А. В. Дмитриев, Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация

кандидат филологических наук, доцент
e-mail: avd84@list.ru

Е. С. Крупнова, Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация

магистр, специалист по учебно-методической работе
e-mail: krupnalena@mail.ru

 

Литература

Большакова, Е. И., Клышинский, Э. С., Ландэ, Д. В., Носков, А. А., Пескова, О. В., Ягунова, Е. В (2011) Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учебное пособие. Москва: МИЭМ.

Захаров, В. П. (2005) Корпусная лингвистика: учебно-методическое пособие. Санкт-Петербург: Изд-во СПбГУ.

Котюрова, И. А. (2020) Корпусные исследования с помощью сервиса Antconc в условиях работы в вузе. Язык и культура, 52, 36–50. DOI: 10.17223/19996195/52/3

Кротова, Е. Б. (2019) Sketch Engine для лингвистических исследований. Германистика сегодня: материалы Международной практической конференции, 16-17 октября 2018 г., Казань. Казань: Изд-во Казан. ун-та. 107–112.

Крупнова, Е. С. (2024) Корпусный анализ темы «голод» во время блокады Ленинграда и составление частотного словаря. Второй Международный молодёжный конкурс научных проектов «Стираем границы»: сборник материалов. Москва: РГУ им. А. Н. Косыгина. 143–146.

Николаев, И. С., Митренина, О. В., Ландо, Т. М. (редакторы) (2016) Прикладная и компьютерная лингвистика: коллективная монография. 2-е изд. Москва: ЛЕЛАНД.

Палийчук, Д. А. (2022) Корпусные технологии в изучении коллокаций (на примере сервисов «AntConc» И «SketchEngine»). Studia Humanitatis, 2, 13–14.  URL: https://cyberleninka.ru/article/n/korpusnye-tehnologii-v-izuchenii-kollokatsiy-na-primere-servisov-antconc-i-sketchengine

AntConc: бесплатный набор инструментов для корпусного анализа, позволяющий конкордансировать и анализировать текст // Сайт Лоуренса Энтони: официальный сайт. URL: https://www.laurenceanthony.net/software/antconc/

Программа Sketch Engine // Sketch Engine: официальный сайт. URL: https://www.sketchengine.eu/

Рубайло, А. В., Косенко, М. Ю. (2016) Программные средства извлечения информации из текстов на естественном языке. Альманах современной науки и образования, 12 (114), 87–92.

Шамова, Н. А. (2021) Сравнительно-сопоставительный анализ корпусных инструментов (на примере работы с корпусами кинодискурса). Вестник Нижегородского государственного лингвистического университета им. Н. А. Добролюбова, 53, 82–95. DOI: 10.47388/2072-3490/lunn2021-53-1-82-95

Fischer-Starcke B. (2010) Corpus Linguistics in Literary Analysis: Jane Austen and her Contemporaries. London; New York: Continuum.

Leech, G., Short, M.  (2007) Style in Fiction: A Linguistic Introduction to English Fictional.  

London; New York: Longman. URL: https://sv-etc.nl/styleinfiction.pdf

Mahlberg M. (2012). Corpus Stylistics and Dickens’s Fiction. New York: Routledge

Mahlberg, M. (2012). The corpus stylistic analysis of fiction – or the fiction of corpus stylistics? Corpus Linguistics and Variation in English. Availability: Published, 75, 77–95. DOI: 10.1163/9789401207713_008

McIntyre, D. (2015) Towards an integrated corpus stylistics.  Topics in Linguistics, 16 (1), 59–69.  URL: https://topling.ukf.sk/index.php/topling/article/view/22/22. DOI: http://dx.doi.org/10.2478/topling-2015-0011

Rayson, P. (2009) Wmatrix: a Web-based Corpus Processing Environment. Computing Department, Lancaster University. URL: http://ucrel.lancs.ac.uk/wmatrix/

Wmatrix tutorial (for version 5). Documentation: Step-by-step instructions using a case study of linguistic analysis of political party manifestos for the UK General Election (updated November 2022).  URL: https://ucrel.lancs.ac.uk/wmatrix/tutorial/

Wmatrix tutorial (for version 6). Documentation: Step-by-step instructions on the example of linguistic analysis of political party manifestos for the UK General Election (updated in June 2023). URL: https://ucrel.lancs.ac.uk/wmatrix/tutorial6/

Introduction to WordSmith Tools. WordSmith site.   URL: https://lexically.net/downloads/version_64_8/HTML/index.html

Опубликован

2024-10-30

Как цитировать

Дмитриев, А. В. ., & Крупнова, Е. С. (2024). Сравнительно-сопоставительный анализ лингвистических ресурсов для проведения корпусного анализа текстов. Verba, (3 (13), 24–35. https://doi.org/10.34680/VERBA-2024-3(13)-24-35

Выпуск

Раздел

Теоретическое осмысление новаций, проблем и перспектив