
22 мая 2025 года команда учёных из Народного университета Китая и других институтов опубликовала исследование (
https://arxiv.org/abs/2505.17005) «R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning» .
Они создали новый способ, который учит ИИ думать как человек: сначала использовать свои знания, а затем обращаться к внешним источникам, только если нужно. Давайте разберёмся, как это работает и почему это круто!

Проблема, которую решалиБольшие языковые модели (LLMs), такие как ChatGPT или Qwen, хранят знания в своих параметрах, но:
— часто галлюцинируют (придумывают факты),
— не умеют "искать", если чего-то не знают,
— и не запоминают информацию, которую "нашли" при помощи поиска.
Большинство решений в виде RAG (Retrieval-Augmented Generation) добавляют поиск, но:
— перегружают модель внешними документами,
— не учат использовать собственные знания,
— не развивают способность к самостоятельному обучению.
Что предложили?Модель R1-Searcher++ обучают работать по-человечески:

Сначала подумай: достаточно ли внутреннего знания?

Если нет — поищи внешнюю информацию.

Запомни найденное — используй его в будущем как своё.

Как это устроено?

Два этапа обучения:
SFT Cold-startМодель обучают «поведению»:
— Разделять, где знание своё (<internal>), а где извне (<external>, <document>).
— Правильно оформлять ответы.
Обучение с подкреплением (Reinforcement Learning)Через специальную систему наград модель учится:
— Оптимально сочетать свои знания и поиск
— Стремиться к кратким и точным ответам
— Не обращаться к поиску без необходимости
— Запоминать найденную информацию для повторного использования
Что получилось?Модель тестировали на 4 мультихоповых QA-датасетах:
HotpotQA, 2Wiki, Musique, Bamboogle — задачи, где ответ требует цепочки рассуждений и поиска.
R1-Searcher++ показала:
+4.3% к качеству ответов по сравнению с предыдущим RL-бейзлайном

–42.9% количества поисковых запросов
Лучшую обобщающую способность — справилась даже с онлайн-поиском по Google, несмотря на то, что обучалась на локальной базе (Wikipedia 2019)
Что важно?Модель научилась:

Самостоятельно решать, когда обращаться к поиску, а когда — полагаться на свои знания

Запоминать информацию, полученную извне

Становиться умнее в процессе обучения — без постоянного дообучения от человека

Это исследование — шаг к следующему поколению ИИ, где модели не просто воспроизводят заученное, а умеют рассуждать, добывать и накапливать знания самостоятельно.
R1-Searcher++ показывает, что LLM могут становиться умнее не за счёт постоянной донастройки, а через самообучение в процессе взаимодействия с миром. Это приближает нас к действительно адаптивному, рациональному искусственному интеллекту.
#AIWiz #ИскусственныйИнтеллект #технологии
Нет комментариев