На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

iXBT.com

34 подписчика

Свежие комментарии

  • Иван Николаев22 марта, 9:23
    Японцы одновременно выпустили три лимитированных серии. Вот кросстрек, плюс импреза, плюс леворг. Кросстрек, конечно,...Представлен новый...
  • Юрий Стенякин27 июля, 8:33
    А если учесть что компания официально ушла с российского рынка то преимущества спорныПредставлена нова...
  • Mikhail Stepanov14 июля, 7:52
    Ха-ха! В то время, как российская гиперзвуковой ракета летит со скоростью около 20 тыс. км. В час!США успешно испыт...

Кластер обучения нейросети Llama 3 405B фиксировал сбои ускорителей Nvidia H100 примерно раз в шесть часов

Современные большие нейросети обучаются на системах с огромным количеством компонентов. А чем больше компонентов, тем выше вероятность отказа. Свежий отчёт Meta* содержит информацию о том, что компания сталкивалась со сбоями ускорителей Nvidia H100 примерно раз в три часа. 

фото: Nvidia

Во время обучения модели Llama 3 405B на кластере, содержащем 16 384 ускорителя Nvidia H100 80 ГБ, в течение 54 дней было зафиксировано 419 сбоев, то есть в среднем один сбой каждые три часа.

В 58,7% случаев виноваты были либо графические процессоры, либо их память HBM3. В целом сбои в таких сложных системах — это норма, и вопрос скорее в способности специалистов справляться с этими сбоями. В случае Meta* команда сохранила более 90% эффективного времени обучения.

 

Проблемные GPU были идентифицированы с помощью специализированных инструментов. Эти инструменты приоритизировали проблемные коммуникации, обеспечивая эффективное обнаружение и своевременное разрешение отстающих GPU, что гарантировало минимизацию замедлений, поддерживая общую эффективность обучения. 

* Meta признана в России экстремистской организацией, её деятельность запрещена.  

Ссылка на первоисточник
Рекомендуем
Популярное
наверх