Компьютерные технологии в лингвистике

Авторы

  • В. А. Белов Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация https://orcid.org/0000-0002-4173-2000

DOI:

https://doi.org/10.34680/VERBA-2024-3(13)-8-23

Ключевые слова:

компьютерная лингвистика, корпусная лингвистика, коллокация, языковая частотность, дистрибутивные модели, мера ассоциативности, языковые модели, анализ тональности

Аннотация

В статье представлен анализ современных исследований в области компьютерной и корпусной лингвистики. Актуальность работы связана с тем, что данные сферы бурно развиваются, поэтому важно представить на русском языке нализ возможностей и достижений компьютерной лингвистики. В работе используются теоретические методы исследования. Статья состоит из двух разделов: в первой рассматриваются основные исследования в области корпусной лингвистики, во второй – кратко представлены достижения компьютерной лингвистики. Отмечается, что корпусные данные стали важным источником информации для лингвистических работ разной проблематики: они используются в работах по изучению лексической семантики, грамматики, дискурса, истории языка, идиостиля автора, а также для решения практических задач, связанных с переводом и обучением языку. В целом работы, выполненные с применением корпусных данных, можно отнести к функциональным. Они часто основываются на дистрибутивном (тезаурусном) подходе к значению. Компьютерная лингвистика представляет широкую область исследования, находящуюся на стыке лингвистики, математики и информационных технологий. Достижения современной компьютерной лингвистики используются для решения практических задач (автоматическое порождение и восприятия текста, индексация и анализ информации). Для автоматизации речи используются формальные модели описания, предполагающие последовательный графематический (фонологический), морфологический, синтаксический, семантический и дискурсивный анализ. Современные языковые модели, которые чаще всего обучаются на специальных корпусах, также применяются для решения лингвистических задач.

Скачивания

Данные скачивания пока недоступны.

Биография автора

В. А. Белов, Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Российская Федерация

доктор филологических наук, доцент
e-mail: belov.vadim.a@gmail.com

 

Литература

Балашов, Е. А., Баранов, А. Н., Добровольский, Д. О., Киселева, К. Л., Козеренко, А. Д., Коробова, М. М., Михайлов, М. Н., Осокина, Е. А., Фатеева, Н. А., Федорова, Л. Л., Шарапова, Е. В. (2021). Корпусная модель идиостиля Достоевского. Москва: ЛЕКСРУС.

Белов, В. А. (2020). Семантические исследования организации и функционирования ментального лексикона. Научный диалог, 8, 29–51. DOI: 10.24224/2227-1295-2020-8-29-51

Венцов, А. В., Касевич, В. Б. (2003). Проблемы восприятия речи. Москва: Едиториал УРСС.

Виноградов, В. В. (1977). Фразеология. Семасиология. Лексикология и лексикография: избранные труды. Москва: Наука. 118–16.

Горелов, И. Н., Седов, К. Ф. (2001). Основы психолингвистики: учебное пособие. 3-е изд., перераб. и доп. Москва: Лабиринт.

Добровольский, Д. О. (2003). Корпус параллельных текстов и литературный перевод. Научно-техническая информация. Серия 2: Информационные процессы и системы, 10, 13–18.

Добровольский, Д. О., Левонтина, И. Б. (2009). Русское нет, немецкое nein, английское no: сопоставительное исследование семантики на базе параллельных корпусов. Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог 2009». 8(15). Москва: РГГУ. 97–101.

Добрушина, Н. Р. (2009). Корпусная методика обучения русскому языку. Национальный корпус русского языка: 2006–2008. Новые результаты и перспективы. Санкт-Петербург: Нестор-История. 338–351.

Евгеньева, А. П. (ред.) (1999). Словарь русского языка: в 4-х т. Москва: Русский язык.

Залесская, В. В. (2014). Программа выявления в тексте двучленных статистически значимых осмысленных коллокаций (на материале русского языка). Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Труды XVII Всероссийской объединенной конференции «Интернет и современное общество» (IMS-2014), Санкт-Петербург, 19–20 ноября 2014 года.  Санкт-Петербург: Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики. 283–289. URL: https://ojs.itmo.ru/index.php/IMS/article/download/267/263

Зализняк, А. А., Левонтина, И. Б., Шмелев, А. Д. (2005). Ключевые идеи русской языковой картины мира. Москва: Языки славянской культуры.

Захаров, В. П., Богданова, С. Ю. (2020). Корпусная лингвистика: учебник. 3-е изд., перераб. Санкт-Петербург: Издательство Санкт-Петербургского университета.

Камшилова, О. Н., Беляева, Л. Н. (2023). Машинный перевод в эпоху цифровизации: новые практики, процедуры и ресурсы. Terra Linguistica, 14 (1), 41–56. DOI: 10.18721/JHSS.14105

Кибрик, А. А., Плунгян, В. А. (2002). Функционализм. Современная американская лингвистика: фундаментальные направления / под редакцией: А. А. Кибрика, И. М. Кобозевой, И. А. Секериной. 2-е изд, испр. и доп. Москва: Едиториал УРСС.  276–339.

Литвинова, Т. А., Паничева, П. В. (2024). Индивидуальные различия в ассоциативном значении слова сквозь призму языковой модели и семантического дифференциала. Научный результат. Вопросы теоретической и прикладной лингвистики, 10(1), 61–93. DOI: 10.18413/2313-8912-2024-10-1-0-5

Лукашевич, Н. В., Левчик, А. В. (2016). Создание лексикона оценочных слов русского языка РуСентилекс. Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2016): материалы VI международной научно-технической конференции, Минск, 18-20 февраля 2016 года. Минск: БГУИР. 377–382.

Ляшевская, О. Н. (2016). Корпусные инструменты в грамматических исследованиях русского языка. Москва: Языки славянской культуры: Рукописные памятник Древней Руси.

Плунгян, В. А. (2007). Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики. Национальный корпус русского языка и проблемы гуманитарного образования: материалы международной научной конференции, Москва 19-20 апреля 2007 г. Москва: Высшая школа экономики.  64–66.

Радбиль, Т. Б. (2024). Выявление оценочного потенциала нейтрального слова в поэзии (по данным поэтических интернет-корпусов). Критика и семиотика, 1, 138–157. DOI: 10.25205/2307-1753-2024-1-138-157

Романов, А. С., Васильева, М. И., Куртукова, А. В., Мещеряков, Р. В. (2018). Анализ тональности текста с использованием методов машинного обучения. R. Piotrowski'sReadingsin Language Engineering and AppliedLinguistics: Proceedings, Saint Petersburg, November 27, 2017.  Saint Petersburg: Creative Commons CCО. 86–95.

Рубцова, Ю. (2012). Автоматическое построение и анализ корпуса коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора. Инженерия знаний и технологии семантического веба, 1, 109–116.

Рычкова, Л. В., Киеня, С. Н. (2010). Корпусные технологии в преподавании РКИ. Этнокультурный и социолингвистический аспекты в теории и практике преподавания языков в негуманитарных вузах: сборник научных статей. Минск: Белорусский национальный технический университет. 32–43.

Рюкова, А. Р. (2024). Корпусно-ориентированные исследования языка: краткий обзор достижений и трудностей. Russian Linguistic Bulletin, 1 (49), 24. DOI: 10.18454/RULB.2024.49.17

Савчук, С. О., Архангельский, Т. А., Бонч-Осмоловская, А. А., Донина, О. В., Кузнецова, Ю. Н., Ляшевская, О. Н., Орехов, Б. В., Подрядчикова, М. В. (2024). Национальный корпус русского языка 2.0: новые возможности и перспективы развития. Вопросы языкознания, 2,  7–34. DOI: 10.31857/0373-658X.2024.2.7-34

Софронова, Е. В. (2024). AutomatedSentiment Analysis ofFeminitivesinthe Russian Language: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде»; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа) / Digital Linguistics (International Educational Program)». Санкт-Петербург: Санкт-Петербургский политехнический университет Петра Великого. DOI 10.18720/SPBPU/3/2024/vr/vr24-5826. Авторизованным пользователям СПбПУ.

Чеботырёва, К. А. (2024). Применение корпусной технологии в процессе обучения паремиологическим единицам школьников профильных классов: автореферат диссертации на соискание ученой степени кандидата педагогических наук: специальность 5.8.2.  Нижний Новгород: Нижегородский государственный лингвистический университет им. Н. А. Добролюбова.

Чилингарян, К. П. (2021). Корпусная лингвистика: теория VS методология. Вестник Российского университета Дружбы народов. Серия. Теория языка. Семиотика. Семантика, 12 (1), 196–218. DOI: 10.22363/2313-2299-2021-12-1-196-218

Baker, M. (1995). Corpora in translation studies: An overview and some suggestions for future research. Target: International Journal of Translation Studies, 7(2), 223–243. DOI: 10.1075/target.7.2.03bak.

Burgess, C., Lund, K. (2000). The dynamics of meaning in memory. Cognitive dynamics: Conceptual and representational change in humans and machines. Mahwah: Lawrence Erlbaum Associates Publishers. 117–156.

Bybee, J. (2002). Word frequency and context of use in the lexical diffusion of phonetically conditioned sound change. Language Variation and Change, 14, 261–290. DOI: 10.10170S0954394502143018

Firth, J. R. (1957). Papers in Linguistics, 1934–1951. London, etc.: Oxford University Press.

Church, K., Hanks, P. (1996). Word association norms, mutual information, and lexicography. Computational Linguistics, 16(1), 22–29. DOI: 10.3115/981623.981633

Hilpert, M., Gries, S. (2009). Assessing frequency changes in multistage diachronic corpora: Applications for historical corpus linguistics and the study of language acquisition. Literary and Linguistic Computing,  24 (4),  385–401. DOI: 10.1093/llc/fqn012

Jurafsky, D., Martin, J. (2024). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Stanford. 

Landauer, Th., Foltz, P., Laham, D. (1998). An introduction to latent semantic analysis. Discourse Processes, 25 (2-3), 259–284. DOI: 10.1080/01638539809545028

Levelt, W. (1989). Speaking: From Intention to Articulation. Cambridge: MIT Press.

Miller, G., Beckwith, R., Fellbaum, C. (1990). Introduction to WordNet: An On-line Lexical Database. International Journal of Lexicography, 3(4), 235–244. DOI: 10.1093/ijl/3.4.235

Rogers, T. (2008). Computational models of semantic memory. The Cambridge Handbook of Computational Psychology. Cambridge: Cambridge University Press. 226–267. DOI: 10.1017/CBO9780511816772.012

Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press.

Smadja, F. McKeown, K., Hatzivassiloglou, V. (1996). Translating Collocations for Bilingual Lexicons: A Statistical Approach. ComputationalLinguistics, 22(1), 1–38.

Teubert, W., Cermakova, A. (2007). Corpus Linguistics: A Short Introduction. London: Bloomsbury Academic.

Tognini-Bonelli, E. (2001). Corpus Linguistics at Work. Philadelphia: John Benjamins Publishing.

Mcenery, T., Hardie, A. (2011). Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press.

Zanettin, F. (2014). Translation-driven corpora: Corpus resources for descriptive and applied translation studies.  London; New-York: Routledge. DOI: 10.4324/9781315759661. (Vol. 14: Translation-Driven Corpora)

Опубликован

2024-10-30

Как цитировать

Белов, В. А. . (2024). Компьютерные технологии в лингвистике. Verba, (3 (13), 8–23. https://doi.org/10.34680/VERBA-2024-3(13)-8-23

Выпуск

Раздел

Теоретическое осмысление новаций, проблем и перспектив