Исследователи Google разработали и протестировали методы, которые позволили им обучить языковую модель, имеющую 1,6 триллиона параметров. Для сравнения, самая известная языковая модель — GPT-3 от OpenAI имеет 175 миллиардов параметров.
Согласно данным Google, модель Switch-C с 1,6 триллиона параметров на сегодняшний день является самой большой в своем классе, и в 4 раза превышает параметры предыдущей модели, разработанной Google (T5-XXL). Она имела 395 миллиардов параметров.
Описывая свою работу, исследователи Google заявили, что крупномасштабное обучение на основе простой архитектуры — наиболее эффективный путь к созданию мощных моделей ИИ. Простые архитектуры, поддерживаемые большими наборами данных и подсчетом параметров, превосходят гораздо более сложные алгоритмы. Однако эффективное крупномасштабное обучение требует чрезвычайно больших вычислительных ресурсов.
Присоединяйтесь — мы покажем вам много интересного
Присоединяйтесь к ОК, чтобы подписаться на группу и комментировать публикации.
Нет комментариев