понедельник, 4 мая 2026 г.

Полный список данных для обучения ИИ в кибербезопасности

Ниже будет объяснение для обывателя: каждый пункт раскрыт простым языком, без сложных терминов и жаргона. Это эксперимент - напишите, если вам понравилось.

1. Сетевые данные (что происходит в кабелях и эфире)

1.1. Сырые дампы трафика (pcap)

Что это: Полная запись всего, что передаётся по сети — как «видеорегистратор» всего цифрового движения. Пакеты, байты, заголовки.
Зачем ИИ: Чтобы научиться распознавать атаку по её «почерку» в реальном времени. Особенно новые виды вторжений, которых нет в базах сигнатур.
Для обывателя: Представьте, что каждая кибератака оставляет след, как отпечаток пальца. Сырые дампы — это как раз те самые отпечатки.

1.2. NetFlow / IPFIX (сжатая телеметрия)

Что это: Сводная статистика — кто с кем соединялся, когда, сколько передал данных, какие протоколы использовал. Без самого содержимого.
Зачем ИИ: Быстро замечать аномалии: внезапный всплеск трафика из отдела бухгалтерии в ночь, массированную отправку данных наружу.
Для обывателя: Если сырой дамп — это видеозапись, то NetFlow — это короткий отчёт: «водитель выехал из гаража, ехал 5 минут, передал 2 ГБ, вернулся». По отчёту тоже можно понять, что что-то не так.

1.3. DNS-телеметрия

Что это: Список всех запросов, которые компьютеры делают к доменной системе (DNS), чтобы превратить имя сайта в IP-адрес.
Зачем ИИ: Многие вирусы используют «генераторы случайных доменов» (DGA) — каждые несколько минут стучатся на новый, случайно сгенерированный адрес. ИИ учится их вычислять.
Для обывателя: Представьте, что ваш компьютер постоянно звонит на какие-то левые номера, каждый раз разные. DNS-телеметрия записывает эти звонки.

1.4. Метаданные зашифрованного трафика (JA3/JA4, TLS-отпечатки)

Суверенный ИИ: а где данные для обучения моделей для кибербезопасности в масштабе всей страны?

8 августа 2024 года Путин подписал Федеральный закон № 233-ФЗ об обезличенных данных. Минцифры разработало подзаконные акты. С 1 сентября 2025 года компании обязаны передавать обезличенные данные в государственную информационную систему. Это реальный прогресс — но сам Минцифры объясняет: платформа нужна чтобы понять, какие маршруты автобусов перегружены и где строить школы. Для кибербезопасности эта база не предназначена.

А где же данные для обучения моделей для кибербезопасности?

Каждый месяц на конференциях — от PHDays до Сетевой безопасности — звучит одно и то же: «нам нужен суверенный ИИ в ИБ». Никто не задаёт следующий вопрос. На каких данных его учить?

И я сегодня этот вопрос задам сам себе и поищу ответ.

Что мы вообще строим

Прежде чем говорить о данных — скажем о цели. Суверенный ИИ в кибербезопасности — это не чат-бот который отвечает на вопросы аналитика. Это автономная система, которая самостоятельно проводит тест на проникновение в защищаемую сеть, находит уязвимости которые ещё никто не знает, разбирает инциденты без участия человека и в реальном времени обновляет защиту по всей инфраструктуре страны. Китайская 360 Digital Security Group строит именно это. Американские лаборатории строят именно это. Без такой системы Россия остаётся в позиции вечно догоняющего — вне зависимости от количества конференций и деклараций.

Эта система требует одного: данных. Много данных. Реальных. Размеченных.

Вопрос видоизменился: где взять данные в нужном объёме и качестве?

Как учится искусственный интеллект

Один абзац для тех кто далёк от машинного обучения. ИИ не программируют вручную. Его обучают на примерах. Тысячи раз показывают: вот вредоносный файл, вот нормальный; вот атака, вот обычный трафик. Модель сама находит закономерности. Чем больше реальных примеров — тем точнее система. Чем менее реальные примеры — тем больше ложных срабатываний и пропущенных атак. Нет данных — нет обучения. Это не мистика, так работает математика.


Чего именно не хватает