Реальная безопасность: Суверенный ИИ: а где данные для обучения моделей для кибербезопасности в масштабе всей страны?

понедельник, 4 мая 2026 г.

Суверенный ИИ: а где данные для обучения моделей для кибербезопасности в масштабе всей страны?

8 августа 2024 года Путин подписал Федеральный закон № 233-ФЗ об обезличенных данных. Минцифры разработало подзаконные акты. С 1 сентября 2025 года компании обязаны передавать обезличенные данные в государственную информационную систему. Это реальный прогресс — но сам Минцифры объясняет: платформа нужна чтобы понять, какие маршруты автобусов перегружены и где строить школы. Для кибербезопасности эта база не предназначена.

А где же данные для обучения моделей для кибербезопасности?

Каждый месяц на конференциях — от PHDays до Сетевой безопасности — звучит одно и то же: «нам нужен суверенный ИИ в ИБ». Никто не задаёт следующий вопрос. На каких данных его учить?

И я сегодня этот вопрос задам сам себе и поищу ответ.

Что мы вообще строим

Прежде чем говорить о данных — скажем о цели. Суверенный ИИ в кибербезопасности — это не чат-бот который отвечает на вопросы аналитика. Это автономная система, которая самостоятельно проводит тест на проникновение в защищаемую сеть, находит уязвимости которые ещё никто не знает, разбирает инциденты без участия человека и в реальном времени обновляет защиту по всей инфраструктуре страны. Китайская 360 Digital Security Group строит именно это. Американские лаборатории строят именно это. Без такой системы Россия остаётся в позиции вечно догоняющего — вне зависимости от количества конференций и деклараций.

Эта система требует одного: данных. Много данных. Реальных. Размеченных.

Вопрос видоизменился: где взять данные в нужном объёме и качестве?

Как учится искусственный интеллект

Один абзац для тех кто далёк от машинного обучения. ИИ не программируют вручную. Его обучают на примерах. Тысячи раз показывают: вот вредоносный файл, вот нормальный; вот атака, вот обычный трафик. Модель сама находит закономерности. Чем больше реальных примеров — тем точнее система. Чем менее реальные примеры — тем больше ложных срабатываний и пропущенных атак. Нет данных — нет обучения. Это не мистика, так работает математика.

Чего именно не хватает

Первое — архив реальных сетевых инцидентов. Когда происходит кибератака, сетевое оборудование фиксирует весь трафик в специальный файл — дамп сетевого трафика. Это сырой материал для обучения: модель видит как выглядит реальная атака в потоке данных и учится её распознавать. В России действует государственная система обнаружения кибератак — ГосСОПКА. Новые приказы ФСБ обязали важные объекты государственной инфраструктуры — электростанции, банки, больницы, заводы — передавать структурированные журналы событий в течение трёх часов после инцидента. Это шаг вперёд. Но структурированная запись о событии — это не то же самое что сырой дамп трафика пригодный для обучения модели. Разница — как между справкой о ДТП и видеозаписью с регистратора: первое говорит что произошло, второе показывает как именно. И этого пока не хватает.

Второе — национальный репозиторий вредоносных программ. Чтобы научить ИИ распознавать вирусы и трояны, нужна огромная коллекция реальных образцов вредоносного кода. История здесь поучительная. Создание публичного антивирусного сканера предусмотрели ещё в нацпрограмме «Цифровая экономика» в 2017 году. На реализацию выделили 90 миллионов рублей. В 2023–2024 годах АНО «НТЦ ЦК» при Минцифры публично анонсировало «Мультисканер» — российский аналог американского VirusTotal, который принадлежит Google. В июне 2025 года на сайте сервиса появилась заглушка: «функционирование приостановлено в связи с отсутствием финансирования». Собственные закрытые репозитории есть у Kaspersky и BI.ZONE — но единого национального стандарта и единой базы нет. Каждый хранит своё. А нужна единая база.

Третье — архив русскоязычного фишинга. Фишинг — это мошеннические письма и сайты которые выглядят как настоящие, чтобы украсть пароли или деньги. Для обучения детектора нужны тысячи реальных примеров: письма, поддельные страницы, мошеннические домены. Часть этого есть у Сбербанка, часть у Group-IB — которая работает из Сингапура. Часть писем есть у компаний, который занимаются антифишингом. Национального архива нет.

Четвёртое — граф угроз на русском языке. ФСТЭК ведёт банк данных угроз (БДУ) — каталог известных уязвимостей. До декабря 2025 года угрозы связанные с искусственным интеллектом там вообще не упоминались. 23 декабря 2025 года в БДУ наконец появился отдельный раздел по угрозам ИИ-систем — это первый шаг. Но как отметили аналитики, риски связанные с качеством обучающих данных туда не вошли. До полноценного графа угроз с атрибуцией конкретных группировок и машиночитаемым форматом — годы работы, если начать прямо сегодня.

Пятое — телеметрия от российских систем защиты. Современные системы безопасности — системы сбора журналов событий (SIEM) и системы защиты конечных устройств (EDR) — постоянно фиксируют всё что происходит в сети. MaxPatrol, RuSIEM, PT NAD собирают эти данные. Они остаются внутри периметра каждого отдельного заказчика. Microsoft и CrowdStrike годами собирают такую телеметрию от миллионов клиентов в единое облако, переобучают модели каждую неделю и получают обратную связь когда модель ошибается — это база их превосходства. Российские вендоры работают вслепую в рамках локальных установок у каждого клиента. Здесь проблема в первую очередь юридическая.

Шестое — данные с форумов киберпреступников. XSS.is и Exploit.in — русскоязычные закрытые форумы где продаётся доступ к взломанным сетям, обсуждаются инструменты атак и публикуются украденные базы данных. Систематического мониторинга этих площадок с накоплением структурированных данных нет ни у одной государственной структуры.

Седьмое — архив социальной инженерии. Телефонные мошенники давно используют психологические сценарии: звонят от имени банка, ФСБ, Минздрава. Записи реальных звонков и сценарии таких разговоров лежат по архивам банков и операторов связи — никак не структурированные, недоступные для обучения ИИ-детектора. Противник уже использует искусственный интеллект для подделки голоса, а обучить систему распознавания не на чем, потому что примеры атак не собраны.

Восьмое — данные с киберсоревнований. CTF (Capture The Flag) — это соревнования по взлому, где участники атакуют учебные системы в контролируемой среде. AI Cyber Games — соревнования где алгоритмы соревнуются в поиске уязвимостей. Оба формата дают идеальный материал для обучения: каждый шаг атакующего задокументирован, заранее известно что является атакой, а что нет — именно это нужно модели чтобы учиться. Соревнования уровня Positive Hack Days проводятся ежегодно. Эти данные не агрегируются нигде.

Девятое — данные с киберполигонов. Киберполигон — это изолированная цифровая среда которая имитирует реальную инфраструктуру: завод, банк, электростанция. На полигоне специалисты отрабатывают атаки и защиту в условиях приближенных к боевым. «Киберполигон» Positive Technologies генерирует контролируемые сценарии где заранее известно что именно произошло — это идеальный обучающий материал. Каждый полигон хранит эти данные у себя и никуда не передаёт.

Десятое — размеченные данные. Сырые журналы событий не обучают ИИ сами по себе. Их нужно разметить: вот атака, вот её тип, вот на каком этапе цепочки взлома она находится, вот кто за ней стоит. Разметка одного сложного целевого инцидента занимает у опытного аналитика несколько дней. Нет ни программы подготовки таких специалистов, ни единого стандарта разметки, ни финансирования этой работы. Все обсуждают сбор данных — и забывают что без разметки это дорогостоящая свалка логов.

Здесь важна асимметрия. Массовый фишинг модель поймает даже на синтетических учебных данных — паттерны простые и повторяющиеся. Ценность национальной библиотеки не в этом. Она в редких многоэтапных целевых атаках на объекты государственной инфраструктуры, где каждый инцидент уникален и правильный ответ — что именно произошло, какой инструмент использовался, какой этап взлома — известен только тем кто его расследовал. Без таких данных модель будет отлично ловить спам — и пропускать целевые атаки на «Росатом» или «Транснефть».

Что уже делается — и почему этого недостаточно

Важно не впасть в другую крайность. Очень многое делается. Данные в России собираются. ГосСОПКА аккумулирует структурированные журналы событий от объектов КИИ. Positive Technologies генерирует размеченные сценарии на киберполигоне. Kaspersky и BI.ZONE ведут собственные репозитории вредоносного кода. В академической среде — ИТМО, МИФИ — есть попытки собирать датасеты для задач обнаружения вторжений. Проблема не в полном отсутствии данных. Проблема в том, что они лежат в изолированных хранилищах, в разных форматах, с разной степенью детализации — и никто не отвечает за их сведение в единую национальную библиотеку пригодную для обучения суверенного ИИ.

Угроза самой библиотеке

Централизованная библиотека киберугроз сама становится главной мишенью. Об этом важно сразу позаботиться.

Отравление данных — это не теория. Если в национальный репозиторий намеренно подсунуть искажённые примеры, модель научится считать атаки определённого типа нормальным трафиком. Группировка уровня Lazarus получает иммунитет: система защиты натренирована их не замечать. Один отравленный датасет — и многомиллиардные инвестиции в суверенный ИИ работают против своих создателей.

Вторая угроза — извлечение секретов из обученной модели. Если в обучающие данные попали журналы событий с фрагментами паролей или схемой сети объекта КИИ, эту информацию можно математически извлечь из готовой модели — даже не имея доступа к исходным данным. Простое удаление поля «имя пользователя» не защищает. Нужна специальная технология обезличивания встроенная в архитектуру с первого дня. Примечательно что новый закон об обезличивании запрещает совместное хранение исходных и обезличенных данных — но не описывает технических методов защиты от извлечения информации из весов модели. Это разные задачи.

Национальная библиотека должна проектироваться с учётом атак на саму себя с самого начала. Не как доработка после запуска.

Почему этот вопрос до сих пор не закрыт

Четыре причины.

Культурная: ИБ-компании конкурируют, а не сотрудничают — данные это конкурентное преимущество.

Правовая: 149-ФЗ создаёт юридические риски при любой передаче данных об инцидентах, даже обезличенных — хотя экспериментальные правовые режимы по 331-ФЗ уже позволяют отдельные исключения.

Инфраструктурная: нет единой технической площадки, доверенного оператора, стандарта форматов обмена.

Управленческая: задача сбора данных для обучения ИИ в кибербезопасности не входит в мандат ни одного ведомства. Минцифры строит платформу для городских данных. ФСТЭК регулирует инфраструктуру. ФСБ лицензирует средства защиты. Запрос повис в воздухе не потому что все бездействуют — а потому что никому формально не поручено его закрыть. И кто же может дать такое поручение?

Что нужно поручить

Нужен единый межведомственный центр с мандатом на Национальную библиотеку киберугроз — с бюджетом, сроками и измеримым результатом в виде объёма собранных и размеченных данных. Не Минцифры и не ФСТЭК по отдельности — а координирующая структура с участием ФСБ, ФСТЭК и отраслевых игроков. Провал Мультисканера показал: без персональной ответственности конкретного человека и непрерывного финансирования деньги уходят без результата.

Нужна экономическая причина обмена, а не только регуляторная палка. Positive Technologies отдаёт терабайт размеченной телеметрии — и получает приоритетный доступ к дообученной общей модели раньше рынка. Kaspersky делится образцами вредоносного кода — и получает квоту на вычислительные мощности национального кластера. Именно так устроены отраслевые центры обмена данными об угрозах в авиации и финансовом секторе на Западе: добровольный обмен начинается когда он выгоден, а не когда он обязателен.

Нужен стандарт обмена. Единый машиночитаемый формат описания угроз, адаптированный под российские требования — как обязательное условие государственного контракта, а не рекомендация которую игнорируют.

Нужна программа разметки данных. Финансируемая государством, с едиными таксономиями, с карьерным треком для специалистов. Иначе лучшие уйдут в коммерцию — зарплатой без статуса и перспективы людей не удержать.

Нужна защита для тех кто делится. Сейчас компания которая раскрыла информацию об инциденте рискует проверкой регулятора. Пока этот риск существует — никакого добровольного обмена не будет. Механизм защиты добросовестного раскрытия требует серьёзной правовой проработки, но начинать надо сейчас параллельно с инфраструктурой.

Государство движется в правильном направлении. Закон об обезличенных данных заработал с 1 сентября 2025 года. ФСТЭК впервые добавила угрозы ИИ в БДУ. НКЦКИ расширяет полномочия. Между всеми этими инициативами есть вопрос размером с национальную библиотеку киберугроз — и пока никто не назначен ответственным за его закрытие.

Каждый день без централизованного сбора — это данные потерянные навсегда. Инцидент 2023 года который не попал в датасет сегодня не попадёт в него никогда.

Давайте проведем форум, чтобы обсудить где взять данные для обучения ИИ.

Подписывайтесь на канал Топ Кибербезопасности Батранкова в Telegram и MAX

понедельник, 4 мая 2026 г.