DeepSeek
Китайская компания DeepSeek, занимающаяся искусственным интеллектом (ИИ), вызвала шок в технологическом сообществе, запустив свои модели искусственного интеллекта настолько эффективно, что они могут не только конкурировать, но и использовать преимущества передовых продуктов американских компаний, таких как OpenAI и Anthropic.
Основанная в 2023 году, компания DeepSeek достигла своих результатов, заняв лишь часть денег и вычислительных мощностей своих конкурентов.
Модель «рассуждений» R1 от DeepSeek, выпущенная на прошлой неделе, вызвала волнение среди исследователей, шок среди инвесторов и реакцию тяжеловесов искусственного интеллекта. В этот четверг, 28 января, компания представила модель, которая может работать как с изображениями, так и с текстом.
Так что же делал DeepSeek и как он это делал?
Что сделал DeepSeek
В декабре компания DeepSeek запустила свою модель V3. Это очень мощная «стандартная» большая языковая модель, которая работает на уровне, аналогичном GPT-4o от OpenAI и Claude 3.5 от Anthropic.
Хотя эти модели подвержены ошибкам и иногда выдумывают свои собственные факты, они могут выполнять такие задачи, как ответы на вопросы, написание эссе и генерация компьютерного кода. В некоторых тестах на решение проблем и математическое мышление они набирают больше баллов, чем среднестатистический человек.
Стоимость обучения V3 составила около 5,58 миллиона долларов. Это намного дешевле, чем, например, GPT-4, разработка которого обошлась более чем в 100 миллионов долларов.
DeepSeek также утверждает, что обучил V3 с использованием около 2000 специализированных компьютерных чипов, в частности, графических процессоров H800 производства NVIDIA. Опять же, это число намного ниже, чем у других компаний, которые, возможно, использовали до 16 000 самых мощных чипов H100.
20 января DeepSeek выпустила еще одну модель, названную R1. Это модель, называемая «рассуждением», которая пытается решать сложные проблемы шаг за шагом. Эти модели, по-видимому, лучше справляются со многими задачами, требующими контекста и имеющими множество взаимосвязанных частей, таких как понимание прочитанного и стратегическое планирование.
Модель R1 — это модифицированная версия V3, модифицированная с помощью метода, называемого обучением с подкреплением. R1, по-видимому, работает на том же уровне, что и o1 от OpenAI, который был запущен в прошлом году.
DeepSeek также использовал ту же технику для создания «рациональных» версий небольших моделей с открытым исходным кодом, которые могут работать на домашних компьютерах.
Этот запуск вызвал огромный всплеск интереса к DeepSeek, повысив популярность приложения чат-бота на базе V3 и вызвав массовое падение цен на акции технологических компаний, поскольку инвесторы переоценивают сектор искусственного интеллекта. На момент написания статьи производитель чипов NVIDIA потерял около 600 миллиардов долларов.
Как это удалось DeepSeek
Достижения DeepSeek заключаются в достижении большей эффективности: получение хороших результатов с меньшими затратами ресурсов. В частности, разработчики DeepSeek первыми применили два метода, которые могут быть приняты исследователями ИИ в более широком смысле.
Первый связан с математической идеей под названием «разреженность». Модели ИИ имеют множество параметров, которые определяют их реакцию на входные данные (в V3 их около 671 миллиарда), но лишь небольшая часть этих параметров используется для заданных входных данных.
Однако предугадать, какие параметры понадобятся, непросто. DeepSeek использовал для этого новую технику, а затем обучил только эти параметры. В результате его модели нуждались в гораздо меньшем обучении, чем при традиционном подходе.
Другой трюк связан с тем, как V3 хранит информацию в памяти компьютера. DeepSeek нашел умный способ сжатия соответствующих данных, чтобы упростить их хранение и быстрый доступ к ним.
DeepSeek встряхнул многомиллиардную индустрию искусственного интеллекта. Роберт Уэй/Shutterstock
Что это значит
Шаблоны и методы DeepSeek были выпущены под бесплатной лицензией MIT, что означает, что любой может загрузить и изменить их.
Хотя это может быть плохой новостью для некоторых компаний, занимающихся искусственным интеллектом, чья прибыль может быть снижена из-за существования мощных моделей, доступных бесплатно, это отличная новость для сообщества исследователей искусственного интеллекта в целом.
В настоящее время многие исследования в области искусственного интеллекта требуют доступа к огромному количеству вычислительных ресурсов. Такие исследователи, как я, которые работают в университетах (или где-либо еще, кроме крупных технологических компаний), имеют ограниченные возможности для проведения тестов и экспериментов.
Более эффективные модели и методы меняют ситуацию. Эксперименты и разработки теперь могут стать для нас значительно проще.
Для потребителей доступ к ИИ также может стать дешевле. Больше моделей ИИ могут работать на собственных устройствах пользователей, таких как ноутбуки или телефоны, а не работать «в облаке» за абонентскую плату.
Для исследователей, у которых уже много ресурсов, большая эффективность может иметь меньший эффект. В связи с этим остается неясным, поможет ли подход DeepSeek создавать модели с лучшей общей производительностью или просто более эффективные модели.

0 Comments
Recommended Comments
There are no comments to display.