- Индивидуально для вас
- Обезличенно для всех
- Рекомендация по шаблону
- Режим мышления чат-бота
- Помощник, но не лучший друг
- Неуемный аппетит ИИ
- Минимизация рисков
Индивидуально для вас
Персональные данные (ПД) – ФИО, контакты, документы и др. – позволяют точно идентифицировать человека. Это самая чувствительная информация, вокруг которой постоянно идут споры, и регуляторы пытаются максимально ее защитить, иногда – попросту ограничив доступы, тогда как для ИТ-сферы она жизненно необходима. Сегодня любой сервис, где надо зарегистрироваться, чтобы получать услуги (покупка еды или товаров, просмотр фильмов и т. п.), должен быть занесен в официальный реестр операторов данных. Это касается как крупного бизнеса вроде «Яндекса», Wildberries и других, так и небольших стартапов, разрабатывающих новые технологии и сервисы.
Зачем пользователю делиться чувствительной информацией о себе, в целом понятно: он хочет (хотя в современном мире такое уже, скорее, жизненная необходимость) получать персональные услуги через цифровые сервисы. Это актуально как для бизнес-сервисов, так и для государственных. В частности, Единая система идентификации и аутентификации (ЕСИА) возникла более 10 лет назад именно как централизованная платформа для «доступа куда угодно откуда угодно». Прежде всего – на платформу «Госуслуги», которая существенно упростила большое количество бюрократических процедур для граждан.
Взаимодействие государства и бизнеса в этой сфере часто становится не только инструментом синергии, но и камнем преткновения. Да, компании могут использовать инструменты ЕСИА на своих платформах и упростить процедуру работы с чувствительной информацией о пользователях, но государство диктует «правила поведения» для фирм, работающих с ПД. С сентября, например, для них будет действовать требование передавать обезличенные данные в государственную информационную систему (ГИС).
Обезличенно для всех
С точки зрения технологий куда более интересны обезличенные и агрегированные сведения. С одной стороны, требования к работе с ними намного мягче, потому что ничьи ПД не ставятся под угрозу (по крайней мере, напрямую), с другой – зачастую таким образом компании получают намного больше технологических возможностей.
От перфокарт до ИИ: как за полвека изменился главный инструмент взаимодействия человека и технологий
Канонический пример – информация о дорожных пробках на электронной карте (знак «светофор» с балльной системой). Они вычисляются в том числе благодаря сведениям о количестве сотовых сигналов и скорости их перемещения, то есть тому, что фактически отслеживают операторы связи относительно каждого человека. Но сервисы навигации не получают данные конкретно о вашем мобильном – они видят картинку «в целом» и с помощью алгоритмов определяют загруженность маршрута.
Таких примеров вагон и маленькая тележка: владельцы сайтов собирают информацию о посещаемости, длительности нахождения и проч.; магазины – о спросе на товары и предпочтениях различных групп (мужчин или женщин, детей или взрослых, жителей городов или маленьких сел и т. д.). Обезличенные данные с камер используются для оптимизации логистики, трафика в городах. Список можно продолжать.
Но есть и некая «промежуточная зона». ML-директор Positive Technologies Андрей Кузнецов в беседе с «Профилем» объясняет: «Наиболее ценны структурированные данные о поведении и предпочтениях (просмотры, покупки, взаимодействия) и контекстуальный контент (запросы, отзывы, коммуникации). Бизнес использует их для персонализации сервисов, прогнозной аналитики (спрос, отток клиентов), оптимизации процессов и создания новых продуктов».
С одной стороны, эта информация уже о конкретном гражданине: что именно предпочитает, как работает с тем или иным сайтом. С другой – под определение ПД она не подходит: формально идентифицировать человека по поведению или предпочтениям нельзя. И вот тут на первый план выходит самая обсуждаемая технология 2020-х – искусственный интеллект и машинное обучение, а вместе с ними – самые сложные этические и регуляторные дилеммы.
Рекомендация по шаблону
Дело в том, что практически за всю современную персонализацию отвечают ИИ-алгоритмы. Но они, как правило, не анализируют связь между конкретным идентифицированным человеком и его действиями. Вместо этого они сравнивают миллионы поведенческих паттернов. Условно: ИИ видит и запоминает, что вы предпочитаете некие конкретные товары. Также он понимает, что тысячи других пользователей, которые тоже выбирают эти товары, любят еще и вон те, другие. А значит, и вам, скорее всего, та продукция тоже будет интересна.
Так вы получаете умные персонализированные ленты товаров на маркетплейсе, фильмов в онлайн-кинотеатрах, публикаций в соцсетях – фактически чего угодно. Но не потому, что вы, допустим, Иван Иванов, а вследствие того, что ведете себя определенным образом, схожим с действиями тысяч других людей. Работает простая цикличная схема: больше пользователей – больше данных – более умные алгоритмы – более высокое качество продукта – больше пользователей.
«Для ИИ-моделей эти данные – «топливо» для обучения, тонкой настройки под задачи и повышения релевантности ответов (например, в чат-ботах или рекомендательных системах), – продолжает Андрей Кузнецов. – Если идет речь о современных ИИ-ассистентах вроде ChatGPT, то основную ценность представляют узкоспециализированные знания в специфичных отраслях, таких как медицина или промышленность».
Более того, современные алгоритмы уже не требуют постоянного и прямого вовлечения человека: они сами собирают сведения, сами их обрабатывают и выдают более или менее корректный результат. А дальше, как говорится, дело техники: чем больше данных получает ИИ, тем он лучше и точнее работает – конечно, при условии, что есть достаточно производительное оборудование.
Режим мышления чат-бота
Главный вопрос к большинству ИИ-инструментов, которые сегодня взаимодействуют то ли с агрегированными, то ли с персональными данными: а как именно они функционируют? Программисты часто не могут на него ответить, и не потому, что не понимают собственный алгоритм. Просто ИИ давно сам работает с информацией в таких объемах, которые человек не способен осилить.
Этот аспект – непрозрачность, то есть непонимание логики действий алгоритма – во многом ограничивает возможности развития ИИ. Особенно это заметно в Европе, поскольку там один из самых строгих в западном мире законов о защите данных – General Data Protection Regulation (GDPR). Проблемы и претензии к ИИ в контексте GDPR обсуждаются ежемесячно.
Не просто так в современных чат-ботах добавлен режим «мышления». Конечно, он лучше решает некоторые специфичные задачи, но он еще и демонстрирует, как именно нейросеть размышляла над ответом, какие источники смотрела и к каким выводам пришла, то есть становится более «прозрачным».
Помощник, но не лучший друг
Популярность ИИ-ассистентов и умных чат-ботов растет с огромной скоростью: по итогам 2024 года этот рынок оценивался в $8,27 млрд с прогнозом роста до $29,5 млрд к 2029-му (данные The Business Research). Количество пользователей самого популярного сервиса – ChatGPT – к июлю 2025-го составило более 400 млн в неделю.
Спроси по-человечески: как нейросети изменят систему поиска информации в интернете
Столь стремительное масштабирование технологии – палка о двух концах. Сами по себе сервисы требуют ПД только для стандартной аутентификации, как и огромное количество сайтов в интернете. Но вот затем пользователи начинают «рассказывать» ИИ сведения, которыми делиться не следует, – и личные, и рабочие. Причем алгоритмы порой натренированы таким образом, чтобы подталкивать пользователя и дальше сообщать подобную информацию, ведь так повышается качество ответа. Надежность хранения данных при этом под большим вопросом.
«К чат-ботам надо относиться как к очень быстрому сотруднику на аутсорсе, – советует технический руководитель департамента управления поверхностью атаки (Attack Surface Management) компании F6 Николай Степанов. – Вы можете присылать ему свои задачи, спрашивать и просить помочь, но не стоит делиться конфиденциальной информацией, секретными документами, ключами шифрования и тому подобным. Все, что должно оставаться внутри компании, должно остаться внутри компании».
Аналогичную рекомендацию можно дать и для частного ИИ-общения: не стоит доверять чат-боту информацию, которую вы не доверили бы любому постороннему человеку. Андрей Кузнецов напоминает: все, что попало в ИИ, может быть использовано для его обучения. Эксперт рекомендует писать туда только то, чем вы готовы «поделиться с миром».
Само собой, остаются актуальными стандартные правила безопасности, о них «Профилю» рассказала директор по цифровому маркетингу корпоративного бизнеса «МегаФона» Екатерина Гаммель. Главное – не предоставлять устройствам и программам доступ к ненужным для их функционала данным. «Важно устанавливать сильные пароли и двухфакторную аутентификацию, регулярно обновлять программное обеспечение и применять защитные решения, – перечисляет эксперт. – Перед тем как делиться информацией, следует внимательно изучить политику конфиденциальности и условия использования, чтобы понимать, зачем нужны и как будут защищены предоставленные данные».
Неуемный аппетит ИИ
В сфере ИИ особняком стоит еще один весьма щепетильный аспект: отношения с владельцами данных – авторами контента, разработчиками кода, создателями патентов и др. Уже не первый год идут нешуточные баталии, которые в эпоху генеративных ИИ-моделей вроде ChatGPT и DeepSeek особенно обострились.
Чтобы ИИ становился умнее и точнее, ему «скармливают» все доступные данные подряд. Часто в эти наборы попадают, например, статьи, повести, фотографии, т. е. результат интеллектуальной деятельности, за которую авторы получают деньги. Как следствие, использование такого контента для ИИ приводит к судебным разбирательствам. Подобных случаев уже не один десяток. Из недавнего – группа авторов подала иск против Microsoft за то, что она обучала свой ИИ на пиратских версиях книг.
Впрочем, не за горами проблема посерьезнее. Уже с прошлого года ИИ-эксперты говорят о том, что данные для обучения ИИ скоро закончатся: человечество попросту не успевает производить контент с той скоростью, с которой его обрабатывают алгоритмы. А значит, непонятно, на чем алгоритмы будут обучаться дальше.
Минимизация рисков
И все же нельзя сказать, что пользователь остается один на один со страшными большими (в буквальном смысле) моделями, от которых неизвестно чего ожидать. Помимо непрерывного регулирования и законодательных ограничений существуют инструменты, применяемые самими разработчиками для того, чтобы ИИ-алгоритмы не узнали о вас ничего лишнего.
Эксперты, с которыми «Профиль» обсудил вопрос, называют одни и те же техсредства. Это, в частности, дифференциальная приватность (добавление «шума» для защиты отдельных записей при сохранении общей статистики, объясняет Андрей Кузнецов), работа с синтетическими данными (искусственно созданными, но реалистичными наборами), а также федеративное обучение (работа с моделями непосредственно на устройствах либо на серверах в закрытом контуре).
Упреждающая защита: кому и зачем нужны учения в сфере информационной безопасности
Последнее, к слову, стало одним из главных трендов. Крупные ИТ-разработчики предлагают все больше ИИ-моделей формата mini, которые можно развернуть локально на серверах компании или даже на персональных устройствах – ноутбуках и смартфонах. Таким образом и сам ИИ, и все его знания будут находиться в закрытом контуре, недоступном ни для разработчика, ни для кого-либо постороннего.
Есть и гибридный формат: Apple, например, начиная с прошлого года дополнительный акцент делает на надежности своих облачных серверов. Якобы пользователи могут смело задействовать возможности генеративного ИИ на устройствах компании: данные ей будут передаваться, но останутся в полной безопасности. Пока, правда, схема работает по принципу «нет ИИ – нет проблем».
Екатерина Гаммель («МегаФон») рассказала о применяемых компанией принципах дифференциальной приватности. «Мы работаем только с массивом обезличенных данных, не содержащих чувствительную информацию. Для оператора наиболее востребованными являются данные о пользовательском поведении. Они используются для улучшения клиентского сервиса и развития технологий защиты», – объяснила эксперт.
Целью подобных мероприятий, уточняет Андрей Кузнецов (Positive Technologies), является не полный отказ от данных, а минимизация рисков и гарантия конфиденциальности на всех этапах работы с ИИ. «Это позволяет масштабировать модели, сохраняя доверие пользователей и соответствие регуляторным нормам (например, в GDPR)», – резюмирует он.
Мошенники в погоне за данными
Стоит ли напоминать, что в получении информации заинтересованы также мошенники. Николай Степанов (компания F6) перечисляет наиболее востребованные преступниками типы данных – это прежде всего аккаунты и сведения о банковских картах, а также персональные данные (ПД) для фишинговых или социально-инжиниринговых атак.
Мошенники, по статистике МВД, придумывают все больше хитроумных схем, в которых ПД даже не играют ключевую роль. Например, изучают открытую информацию о достижениях человека и на основе ее используют рычаги давления, позволяющие с большей вероятностью выудить нужные им сведения.
«ИИ принес новую проблему: злоумышленники научились подделывать голоса людей. Поэтому, если вам звонят с незнакомого номера и просят поговорить, лучше всего сбросить звонок, – напоминает эксперт. – Даже минуты речи достаточно для создания дипфейка, который может использоваться, чтобы обмануть ваших близких или сотрудника банка».