Семинар “Унификация систем грамматической разметки в корпусах тюркских языков”

Новости » Семинар “Унификация систем грамматической разметки в корпусах тюркских языков”

Семинар “Унификация систем грамматической разметки в корпусах тюркских языков”.

В условиях глобализации и интеграции научных исследований особую значимость приобретают вопросы унификации систем обозначения грамматических категорий, в первую очередь, для групп родственных языков. Анализ сложившейся ситуации показывает, что в тюркской корпусной лингвистике пока не сформировались общие принципы лингвистической разметки текстов. В перспективе это приведет к значительным затруднениям при проведении сравнительных исследований, а также при разработке тюркских параллельных корпусов, многоязычных систем обработки текста и решения других теоретических и прикладных задач.
В настоящее время для языков тюркского семейства практически не имеется единой системы разметки и даже единых стандартов обозначений морфем и морфологических категорий, несмотря на их структурную близость. Эта ситуация с тюркскими языками обсуждалась на конференции “Компьютерная обработка тюркских языков”, проходившая 2-4 октября 2014 г. в Астане (Казахстан). Одни и те же морфологические категории в разных тюркских языках обозначаются по-разному. Разработчики используют системы обозначений, заимствованные из других групп языков, которые не всегда корректно отражают специфические особенности языков тюркского семейства, поэтому разработка системы разметки именно для этой группы языков является на сегодняшний день достаточно актуальной. Следует отметить, что унификация необходима не только в рамках тюркских языков, но и в более широком масштабе: схожие явления в разноструктурных языках также должны обозначаться по возможности одинаково и по единым правилам. За основу могут быть приняты Лейпцигские правила глоссирования, по сути, уже ставшие определенным стандартом для типологов.
Таким образом, проведение семинара “Унификация систем грамматической разметки в корпусах тюркских языков” весьма актуально. К работе семинара планируется привлечь широкий круг специалистов-разработчиков тюркских электронных корпусов, лингвистов-типологов, а также лингвистов, имеющих богатый опыт в разработке и унификации систем обозначений для других групп языков. В их число входят такие известные ученые, как В.А. Плунгян, Е.В. Рахилина, С.Г. Татевосов и др.
Унификация систем корпусной разметки не является тривиальной практической задачей, а требует также и теоретического переосмысления многих традиционных грамматических описаний и выработки предложений по их унификации, поэтому для повышения результативности семинар планируется провести в 2 этапа: заочный и очный.
На заочном этапе (до начала семинара):

  • формируется рабочая группа участников,
  • устанавливаются контакты с разработчиками тюркских электронных корпусов,
  • создается страница семинара, на которой выставляются рабочие материалы,
  • проводится предварительный анализ существующих систем обозначений и вырабатываются предложения по унификации.


На сегодняшний день идет формирование рабочей группы участников семинара. Мы рады сообщить, что руководителем рабочей группы согласился быть Владимир Александрович Плунгян, а также в состав рабочий группы входят Айрат Рафизович Гатиатуллин (координатор семинара), Булат Эрнестович Хакимов, Тимофей Александрович Архангельский (координатор московской группы).
Все предложения по участникам для включения в состав рабочей группы просим направлять координаторам семинара.

Очный этап будет включать выступления с докладами, а также круглый стол по обсуждению подготовленных материалов. Тезисы докладов объемом до 4 страниц текста принимаются до 15 декабря 2013г. Планируется публикация материалов до начала семинара.

Рабочие языки семинара – русский, английский, татарский.