В ведомстве уточнили, что метод уже внедрили в созданную авторами систему. Им смогут пользоваться в региональном управлении, экстренных службах, аналитических центрах или даже в научных проектах, где важна не только скорость обработки информации, но и ее достоверность, подчеркнули разработчики.
В Минобрнауки пояснили, что соцсети могут стать надежным источником для изучения общественных настроений. Тем не менее стандартные подходы в использовании LLM сталкиваются с тем, что такие модели склонны к генерации правдоподобной, но фактически недостоверной информации.
Ученые выделили три варианта последовательности шагов, на которых LLM взаимодействует с реальными данными: прямой запрос – самый простой, но наименее стабильный. Второй – конвейер с предварительным извлечением ключевых слов, на основе которых формулируются темы. В третьем – кластерном – тексты преобразуются в векторы с помощью LLM, группируются по схожести, а затем каждая группа кластеров обобщается отдельно.
В Минобрнауки отметили, что эксперименты проводились на двух реальных наборах данных из домовых чатов. Первый подход зарекомендовал себя на небольших объемах данных, однако пострадал от вариативности формулировок и низкой прослеживаемости. Второй обеспечил неплохой баланс между стабильностью и точностью, особенно при средних объемах данных. Кластерный подход продемонстрировал отличные результаты на большом наборе данных: 100% стабильность и 94% прослеживаемости.
Исследование подтвердило, что эффективность и надежность LLM при мониторинге соцсетей сильно зависят от архитектуры обработки данных, подчеркнули в министерстве.