Китайският разработчик на изкуствен интелект DeepSeek обяви, че е похарчил 294 000 долара за обучението на своя модел R1 - сума, която е значително по-ниска от публично известните разходи на водещи американски компании. Данните бяха публикувани в рецензирана статия в престижното научно списание Nature, излязла в сряда, и се очаква да подновят дебата за мястото на Пекин в глобалната надпревара за развитие на AI технологии.
Компанията, базирана в Ханджоу, за първи път оповестява конкретна оценка за разходите по обучението на модела. Според публикацията, R1 - фокусиран върху логическо разсъждение - е бил обучаван с помощта на 512 графични процесора Nvidia H800.
Обучението на големи езикови модели (LLM), които стоят в основата на чатботове с изкуствен интелект, включва значителни разходи за работа на мощни чипови клъстери в продължение на седмици или месеци, за да се обработят огромни обеми текст и код.
Главният изпълнителен директор на OpenAI Сам Алтман заяви през 2023 г., че обучението на базови модели е струвало „много повече" от 100 милиона долара, макар компанията му да не е разкривала точни числа.
Ниската цена, обявена от DeepSeek, предизвика интерес и безпокойство на пазарите още през януари, когато компанията представи по-евтини AI системи, което доведе до разпродажба на технологични акции заради опасения, че новите модели могат да застрашат доминацията на лидери като Nvidia.
Някои твърдения на DeepSeek за разходите и използваните технологии бяха поставени под въпрос от американски компании и официални лица. H800 чиповете, споменати в публикацията, са специално проектирани от Nvidia за китайския пазар след като САЩ забраниха износа на по-мощните H100 и A100 към Китай през октомври 2022 г.
Американски представители твърдят, че DeepSeek разполага с „големи количества" H100, придобити след въвеждането на ограниченията, но Nvidia заяви, че компанията е използвала законно придобити H800, а не H100.
В придружаващ документ към статията в Nature DeepSeek за първи път признава, че притежава A100 чипове и ги е използвала в подготвителните етапи на разработката. След тази фаза, R1 е бил обучаван общо 80 часа върху клъстер от 512 H800 чипа.
© 2019 MenTrend. Всички права са запазени.
Забранява се възпроизвеждането изцяло или отчасти на материали и публикации, без предварително съгласие на редакцията; чл.24 ал.1 т.5 от ЗАвПСП не се прилага; неразрешеното ползване е свързано със заплащане на компенсация от ползвателя за нарушено авторско право, чийто размер ще се определи от редакцията.
Съвет за електронни медии: Адрес: гр. София, бул. "Шипченски проход" 69, Тел: 02/ 9708810, E-mail: [email protected], https://www.cem.bg/
Четете още