По предварительным подсчетам, OpenAI использовала 10 тыс. графических процессоров Nvidia A100 для обучения своей модели GPT-3 и еще больше процессоров Nvidia H100 для обучения своих моделей GPT-4 и GPT-4o. К обоим этим ускорителям у Китая доступа официально нет – Nvidia пришлось создать упрощенные и менее производительные их аналоги, чтобы обойти экспортные ограничения властей США и наладить их продажи в Китай.
Возможно, обошлось без Nvidia
Какие именно ускорители использовала
01.ai для обучения своей языковой модели, компания тщательно скрывает. Но она подчеркивает, что было задействовано именно 2000 устройств, что в разы меньше по сравнению с масштабами Open AI.
Не исключено, что
01.ai пришлось считаться с санкциями и отказаться от использования топовых ускорителей Nvidia. На это указывает и сумма, про которую говорил Кай-Фу Ли. Один ускоритель Н100 стоит в пределах $30 тыс., так что если бы применялись именно они, то затраты
01.ai на обучение своей сети составили бы не $2 млн, а втрое больше.
С другой стороны, Кай-Фу Ли заявил, что его компания успела закупить ускорители Nvidia с большим запасом (хотя конкретные модели он не раскрыл). Таким образом, что-то в его словах может оказаться ложью – или размер вложений, или то, что у
01.ai есть запас ускорителей.
Никаких секретов
Кай-Фу Ли сообщил также, какие именно его компания предприняла, чтобы добиться озвученного им результата. Как пишет Tom’s Hardware, для повышения производительности своей модели
01.ai 2сосредоточилась на сокращении узких мест в своем процессе вывода, построила многослойную систему кэширования и разработала отдельный механизм вывода для оптимизации скорости и распределения ресурсов» (reducing the bottlenecks in its inference process by turning computational demands into memory-oriented tasks, building a multi-layer caching system, and designing a specialized inference engine to optimize speed and resource allocation).
Результатом этого стало ощутимое снижение расходов на вывод в сравнении аналогичными языковыми моделями – до уровня $0,1 за 1 млн токенов. На фоне конкурирующих моделей это примерно в 30 раз меньше.
«Когда у нас всего 2000 графических процессоров, команда должна определиться, как их можно использовать, – сказал Кай-Фу Ли. – Я, как генеральный директор, должен выяснить, как расставить приоритеты, и тогда нам придется не только ускорить обучение, но и быстро сделать вывод. Таким образом, наш вывод разрабатывается путем выявления узких мест во всем процессе, пытаясь превратить вычислительную проблему в проблему памяти, создавая многослойный кэш, создавая определенный механаизм вывода и т. д. Но в конечном итоге стоимость нашего вывода составляет $0,1 за 1 млн токенов».
Источник
Нет комментариев