Корпусная лингвистика

p

Корпусная лингвистика — это прикладная дисциплина, которая превращает набор текстов в инструмент для исследований и автоматизации. Если вы решили разработать собственный корпус (для университета, издательства или NLP-проекта), важно понимать, как выглядит полный путь клиента: от первой заявки до регулярного использования. В этом руководстве мы разберём все этапы — оплату, сроки, установку, обучение и постпроектную поддержку. Вы получите чёткий план действий и сможете контролировать процесс на каждом шаге.

Этап 1. Первичная консультация и согласование технического задания

Первым делом вам нужно заполнить бриф на сайте. В нём указываются: типы текстов (научные, художественные, юридические), язык, объём (количество слов или документов), а также функции — морфологическая разметка, синтаксический парсинг или поиск по коллокациям. Специалист связывается с вами в течение 24 часов, чтобы уточнить детали. На основе брифа составляется прототип технического задания (ТЗ). Это бесплатный этап: вы не платите за консультацию, но утверждение ТЗ запускает процесс разработки. Пример типового ТЗ:

Этап 2. Расчёт стоимости и выбор тарифа

После утверждения ТЗ вы получаете коммерческое предложение. Стоимость зависит от трёх параметров: объём корпуса (до 500 тыс. слов — базовый тариф, до 10 млн — профессиональный), сложность разметки (только морфология или полный синтаксический парсер) и сроки (стандарт — 30 рабочих дней, экспресс — 15 дней). Оплата проводится в два этапа: 50% предоплата после подписания договора, остаток — после сдачи корпуса. Способы оплаты: банковский перевод (для юрлиц с НДС) или карта (для ИП). Важно:

Этап 3. Разработка и установка корпуса на ваш сервер

После получения предоплаты команда приступает к сборке корпуса. Процесс занимает от 2 до 4 недель в зависимости от объёма. Вы получаете доступ к репозиторию (GitLab), где видны этапы: сбор текстов, лемматизация, разметка, сборка индекса для поиска. По готовности — установка на ваш сервер (Linux или Windows). Это может быть:

  1. Локальная установка (ваш сервер, управление через SSH).
  2. Облачный инстанс (AWS, Яндекс.Облако) — мы берём на себя настройку безопасности.
  3. Готовый Docker-образ с инструкцией по развёртыванию за 10 минут.
После установки мы проводим тестовый запуск: загружаем 100 случайных запросов и проверяем скорость ответа (цель — не более 0,3 секунды на запрос).

Этап 4. Обучение команды и передача документации

Для эффективной работы мы проводим два вебинара по 60 минут. На первом — интерфейс поиска, синтаксис запросов (регулярные выражения, CQL), сохранение результатов. На втором — администрирование: добавление новых текстов, обновление разметки, резервное копирование. Вы получаете:

После обучения мы принимаем заявки на доработку интерфейса — до 10 часов доработок включены в тариф.

Этап 5. Техническая поддержка и гарантии

Гарантийный срок — 12 месяцев с момента установки. В течение этого периода вы получаете:

После гарантии можно продлить поддержку — базовый пакет (до 10 инцидентов в год) или расширенный (с выездной настройкой сервера). Важно: мы не предоставляем SLA без договора, но среднее время реакции — 2 часа.

Этап 6. Результаты и примеры использования

После всех этапов вы получаете полностью рабочий инструмент. Примеры из нашей практики:

  1. Университет: корпус диалектов Сибири (450 тыс. слов) — студенты используют для курсовых по фонетике.
  2. Издательство: корпус редакторских правок (1,2 млн знаков) — выявление типичных ошибок авторов.
  3. IT-компания: корпус технической документации — обучение модели для генерации ответов.
В каждом случае срок от заявки до первого запроса — не более 45 рабочих дней. Прозрачные этапы и фиксированные цены позволяют избежать скрытых платежей.

Чтобы начать, оставьте заявку на странице «Консультация». В течение дня вам придёт письмо с формой ТЗ. Согласование — 2-3 дня, после чего мы запускаем разработку. Это путь, который прошли уже 78 проектов — от научных лабораторий до коммерческих редакций.

Добавлено: 25.04.2026