R1-Searcher++: как ИИ научится самому добывать и запоминать знания

22 мая 2025 года команда учёных из Народного университета Китая и других институтов опубликовала исследование (https://arxiv.org/abs/2505.17005) «R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning» .

Они создали новый способ, который учит ИИ думать как человек: сначала использовать свои знания, а затем обращаться к внешним источникам, только если нужно. Давайте разберёмся, как это работает и почему это круто!

Проблема, которую решали
Большие языковые модели (LLMs), такие как ChatGPT или Qwen, хранят знания в своих параметрах, но:
— часто галлюцинируют (придумывают факты),
— не умеют "искать", если чего-то не знают,
— и не запоминают информацию, которую "нашли" при помощи поиска.

Большинство решений в виде RAG (Retrieval-Augmented Generation) добавляют поиск, но:
— перегружают модель внешними документами,
— не учат использовать собственные знания,
— не развивают способность к самостоятельному обучению.

Что предложили?
Модель R1-Searcher++ обучают работать по-человечески:

Сначала подумай: достаточно ли внутреннего знания?

Если нет — поищи внешнюю информацию.

Запомни найденное — используй его в будущем как своё.

Как это устроено?

Два этапа обучения:

SFT Cold-start
Модель обучают «поведению»:
— Разделять, где знание своё (<internal>), а где извне (<external>, <document>).
— Правильно оформлять ответы.

Обучение с подкреплением (Reinforcement Learning)
Через специальную систему наград модель учится:
— Оптимально сочетать свои знания и поиск
— Стремиться к кратким и точным ответам
— Не обращаться к поиску без необходимости
— Запоминать найденную информацию для повторного использования

Что получилось?
Модель тестировали на 4 мультихоповых QA-датасетах:
HotpotQA, 2Wiki, Musique, Bamboogle — задачи, где ответ требует цепочки рассуждений и поиска.

R1-Searcher++ показала:

+4.3% к качеству ответов по сравнению с предыдущим RL-бейзлайном

–42.9% количества поисковых запросов

Лучшую обобщающую способность — справилась даже с онлайн-поиском по Google, несмотря на то, что обучалась на локальной базе (Wikipedia 2019)

Что важно?
Модель научилась:

Самостоятельно решать, когда обращаться к поиску, а когда — полагаться на свои знания

Запоминать информацию, полученную извне

Становиться умнее в процессе обучения — без постоянного дообучения от человека

Это исследование — шаг к следующему поколению ИИ, где модели не просто воспроизводят заученное, а умеют рассуждать, добывать и накапливать знания самостоятельно.

R1-Searcher++ показывает, что LLM могут становиться умнее не за счёт постоянной донастройки, а через самообучение в процессе взаимодействия с миром. Это приближает нас к действительно адаптивному, рациональному искусственному интеллекту.

#AIWiz #ИскусственныйИнтеллект #технологии

Нет комментариев

Новые комментарии

Для того чтобы оставить комментарий, войдите или зарегистрируйтесь

Следующая публикация