Компания Alibaba Group представила QwenLong-L1 – новую архитектуру, позволяющую большим языковым моделям (LLM) эффективно обрабатывать чрезвычайно длинные входные данные. Эта разработка открывает новые возможности для корпоративных приложений, требующих анализа обширных документов, таких как подробные корпоративные отчёты, многостраничные финансовые ведомости или сложные юридические контракты.
До недавнего времени способность больших моделей с рассуждениями (LRM) к работе с длинными текстами оставалась серьёзной проблемой. Хотя прогресс в области обучения с подкреплением (RL) значительно улучшил их навыки решения задач, эффективность таких моделей значительно снижалась при обработке текстов, превышающих 4000 токенов. Разработчики QwenLong-L1 в своей статье отмечают, что это ограничение препятствует практическому применению LRM в областях, требующих взаимодействия с обширными базами знаний, например, в научных исследованиях.

Ключевое отличие …
Свежие комментарии