Корпусная лингвистика

Корпусная лингвистика — это прикладная дисциплина, которая превращает набор текстов в инструмент для исследований и автоматизации. Если вы решили разработать собственный корпус (для университета, издательства или NLP-проекта), важно понимать, как выглядит полный путь клиента: от первой заявки до регулярного использования. В этом руководстве мы разберём все этапы — оплату, сроки, установку, обучение и постпроектную поддержку. Вы получите чёткий план действий и сможете контролировать процесс на каждом шаге.
Этап 1. Первичная консультация и согласование технического задания
Первым делом вам нужно заполнить бриф на сайте. В нём указываются: типы текстов (научные, художественные, юридические), язык, объём (количество слов или документов), а также функции — морфологическая разметка, синтаксический парсинг или поиск по коллокациям. Специалист связывается с вами в течение 24 часов, чтобы уточнить детали. На основе брифа составляется прототип технического задания (ТЗ). Это бесплатный этап: вы не платите за консультацию, но утверждение ТЗ запускает процесс разработки. Пример типового ТЗ:
- Корпус русскоязычных научных статей по лингвистике (200 000 словоформ).
- Морфологическая разметка с использованием pymorphy2.
- Поисковый интерфейс с фильтрацией по году, автору и части речи.
- Экспорт результатов в форматах CSV и JSON.
- Анализ коллокаций и частотности.
Этап 2. Расчёт стоимости и выбор тарифа
После утверждения ТЗ вы получаете коммерческое предложение. Стоимость зависит от трёх параметров: объём корпуса (до 500 тыс. слов — базовый тариф, до 10 млн — профессиональный), сложность разметки (только морфология или полный синтаксический парсер) и сроки (стандарт — 30 рабочих дней, экспресс — 15 дней). Оплата проводится в два этапа: 50% предоплата после подписания договора, остаток — после сдачи корпуса. Способы оплаты: банковский перевод (для юрлиц с НДС) или карта (для ИП). Важно:
- В стоимость входит лицензия на использование корпуса в некоммерческих целях.
- Обновление текстовой базы (до 10% от объёма) — бесплатно в течение первого года.
- Аудит данных (проверка на дубли, орфографические ошибки) — включён.
Этап 3. Разработка и установка корпуса на ваш сервер
После получения предоплаты команда приступает к сборке корпуса. Процесс занимает от 2 до 4 недель в зависимости от объёма. Вы получаете доступ к репозиторию (GitLab), где видны этапы: сбор текстов, лемматизация, разметка, сборка индекса для поиска. По готовности — установка на ваш сервер (Linux или Windows). Это может быть:
- Локальная установка (ваш сервер, управление через SSH).
- Облачный инстанс (AWS, Яндекс.Облако) — мы берём на себя настройку безопасности.
- Готовый Docker-образ с инструкцией по развёртыванию за 10 минут.
Этап 4. Обучение команды и передача документации
Для эффективной работы мы проводим два вебинара по 60 минут. На первом — интерфейс поиска, синтаксис запросов (регулярные выражения, CQL), сохранение результатов. На втором — администрирование: добавление новых текстов, обновление разметки, резервное копирование. Вы получаете:
- PDF-руководство на 40 страниц (с примерами запросов).
- Видеозапись вебинаров (доступ на 12 месяцев).
- Шпаргалку с 20 типовыми запросами (например, «найти все существительные в творительном падеже после глаголов движения»).
Этап 5. Техническая поддержка и гарантии
Гарантийный срок — 12 месяцев с момента установки. В течение этого периода вы получаете:
- Бесплатное исправление ошибок в разметке (если обнаружено расхождение более 5% с эталоном).
- Консультации по электронной почте (ответ в течение 4 часов в рабочие дни).
- Критические обновления (например, совместимость с новой версией Python).
Этап 6. Результаты и примеры использования
После всех этапов вы получаете полностью рабочий инструмент. Примеры из нашей практики:
- Университет: корпус диалектов Сибири (450 тыс. слов) — студенты используют для курсовых по фонетике.
- Издательство: корпус редакторских правок (1,2 млн знаков) — выявление типичных ошибок авторов.
- IT-компания: корпус технической документации — обучение модели для генерации ответов.
Чтобы начать, оставьте заявку на странице «Консультация». В течение дня вам придёт письмо с формой ТЗ. Согласование — 2-3 дня, после чего мы запускаем разработку. Это путь, который прошли уже 78 проектов — от научных лабораторий до коммерческих редакций.
Добавлено: 25.04.2026
