UniTurk' 2014

Конференции и семинары » UniTurk' 2014

English version


В условиях глобализации и интеграции научных исследований особую значимость приобретают вопросы унификации систем обозначения грамматических категорий, в первую очередь, для групп родственных языков. Анализ сложившейся ситуации показывает, что в тюркской корпусной лингвистике пока не сформировались общие принципы лингвистической разметки текстов. В перспективе это приведет к значительным затруднениям при проведении сравнительных исследований, а также при разработке тюркских параллельных корпусов, многоязычных систем обработки текста и решении других теоретических и прикладных задач.

В настоящее время для тюркских языков практически нет единой системы разметки и даже единых стандартов обозначений морфем и морфологических категорий, несмотря на их структурную близость. Эта ситуация с тюркскими языками обсуждалась на конференции “Компьютерная обработка тюркских языков”, проходившей 2-4 октября 2013 г. в Астане (Казахстан). Одни и те же морфологические категории в разных тюркских языках обозначаются по-разному. Разработчики используют системы обозначений, созданные для других языков, которые не всегда корректно отражают специфические особенности тюркских языков, поэтому разработка системы разметки именно для этой группы языков является на сегодняшний день достаточно актуальной. Следует отметить, что унификация необходима не только в рамках тюркских языков, но и в более широком масштабе: схожие явления в разноструктурных языках также должны обозначаться по возможности одинаково и по единым правилам. За основу могут быть приняты Лейпцигские правила глоссирования, по сути, уже ставшие определенным стандартом для типологов.

НИИ «Прикладная семиотика» Академии наук Республики Татарстан выступает с инициативой проведения научно-практического семинара “Унификация систем грамматической разметки в корпусах тюркских языков (семинар UniTurk)”. К работе семинара планируется привлечь широкий круг специалистов-разработчиков тюркских электронных корпусов, лингвистов-типологов, а также лингвистов, имеющих богатый опыт в разработке и унификации систем обозначений для других групп языков.

Унификация систем корпусной разметки не является тривиальной практической задачей, а требует также и теоретического переосмысления многих традиционных грамматических описаний и выработки предложений по их унификации, поэтому для повышения результативности семинар планируется провести в 2 этапа: заочный и очный.

На заочном этапе (до начала семинара):

  • формируется рабочая группа участников,
  • устанавливаются контакты с разработчиками тюркских электронных корпусов,
  • создается страница семинара, на которой выставляются рабочие материалы,
  • проводится предварительный анализ существующих систем обозначений и вырабатываются предложения по унификации.

В настоящее время идет формирование рабочей группы участников семинара.

Мы рады сообщить, что руководителем рабочей группы согласился быть Владимир Александрович Плунгян, а также в состав рабочий группы входят Айрат Рафизович Гатиатуллин (координатор семинара), Булат Эрнстович Хакимов, Тимофей Александрович Архангельский (координатор московской группы). Все предложения по участникам для включения в состав рабочей группы просим направлять координаторам семинара.

Очный этап будет включать выступления с докладами, а также круглый стол по обсуждению подготовленных материалов.

Тезисы докладов объемом до 4 страниц текста принимаются до 8 января 2014 года. Планируется публикация материалов до начала семинара.

Рабочие языки семинара – русский, английский, татарский.



Доступные для скачивания материалы:
Требования по оформлению тезисов
Система грамматической аннотации, используемой для электронного корпуса татарского языка “Туган тел”
Система грамматических обозначений, используемая в корпусах миноритарных тюркских языков, разрабатываемых под руководством Анны Владимировны Дыбо
Система разметок, используемая в электронном корпусе казахского языка