16.10.2024 20:13 Егор Гордеев

В России разработали систему поиска научных публикаций с помощью нейросети

В "Курчатовском институте" и МФТИ разработали систему поиска научных публикаций по большим базам статей исходя из их смысла с помощью нейросетевых моделей

В России разработали новую систему поиска научных публикаций по большим базам статей, исходя из их смысла, с помощью нейросетевых моделей.

Работу выполнили специалисты НИЦ "Курчатовский институт" и МФТИ. Ее результаты опубликованы в журнале "Физика элементарных частиц и атомного ядра".

Как отметили авторы, объясняя актуальность работы, сейчас темпы роста объема научной информации требуют новых инструментов, которые дают ученым возможность искать и отбирать публикации на интересующие их темы.

Новые методы для улучшения точности поиска разрабатываются постоянно. При этом современные цифровые методы поиска научных публикаций содержат не только текстовые запросы и анализ цитирований, но и более сложные алгоритмы.

При ранжировании статей ведущие мировые специализированные поисковые системы учитывают и ключевые слова, и данные о цитированиях одних статей другими. Именно это дает возможность найти наиболее релевантные материалы. Также они могут анализировать частоту, с которой статьи друг друга цитируют. Такой подход позволяет лучше выделять наиболее актуальные для конкретной научной области темы, идеи и концепции.

Российские ученые разработали систему семантического поиска статей по "большим базам научных публикаций на основе информации о внешнем цитировании с использованием нейросетевых моделей", пояснили авторы.

Лаборант-исследователь Курчатовского комплекса НБИКС-природоподобных технологий Дарья Доровских пояснила, что нынешние методы поиска учитывают только частоту совместного цитирования. А разработанная ей и ее коллегами система предлагает новый подход к поиску по научным публикациям. Она учитывает краткие описания результатов работ, используемых при цитировании одних статей другими.

"При обучении нейросетевой модели мы использовали базу англоязычных научных публикаций по биомедицине PubMed Central объемом 7,6 млн статей", – сообщила Доровских.

При разработке из архива научных публикаций извлекались данные о цитировании. Это текст авторского упоминания ключевых результатов другой работы и ссылка на нее. После этого исследователи, используя нейросетевую модель BERT, создали векторные представления этих упоминаний – то есть такие представления, которые позволяют хранить семантику (смысловое значение) слов в понятном для компьютера виде. Векторы на основе соседних слов в тексте фиксируют информацию о значении слова.

Созданный прототип поискового сервиса определяет именно семантический контекст и позволяет находить научные публикации по коротким описаниям. Система, в частности, может быстро найти статьи, даже если они не полностью соответствуют ключевым словам поискового запроса, однако заданной теме соответствуют.

Веб-интерфейс выполнен на основе языка программирования Python с использованием библиотек Flask и React для поиска статей.

Получившуюся систему протестировали на различных запросах. Одни составляли вручную, другие автоматически выбирались из текста статей.

Как показали результаты, продукт показал более высокую точность, чем традиционные методы. Система находит релевантные статьи быстрее и эффективнее. Ученые заверили, что есть возможность доработать прототип системы с учетом особенностей сферы, куда предполагается внедрять такой сервис.

Читайте на смартфоне наши Telegram-каналы: Профиль-News, и журнал Профиль. Скачивайте полностью бесплатное мобильное приложение журнала "Профиль".

Метки: IT

Новости СМИ2

Рекомендательный сервис