Китайский DeepSeek Coder становится первой моделью кодирования с открытым исходным кодом, превзошедшей GPT-4 Turbo📈
Он поддерживает более 300 языков программирования и превосходит по производительности современные модели с закрытым исходным кодом, включая GPT-4 Turbo, Claude 3 Opus и Gemini 1.5 Pro📈
Новая модель имеет расширенное контекстное окно размером 128 КБ и показала превосходную производительность в различных тестах, включая MBPP+, HumanEval и Aider.
☝🏻Единственной моделью, которой удалось превзойти предложение DeepSeek по нескольким тестам, была GPT-4o , получившая немного более высокие оценки.
DeepSeek добился этих успехов благодаря предварительному обучению модели на обширном наборе данных из 6 триллионов токенов, полученных в основном из GitHub и CommonCrawl.
Модель доступна на GitHub по лицензии MIT, что позволяет неограниченное коммерческое и исследовательское использование, а доступ к ней также можно получить через Hugging Face или платформу API DeepSeek.
DeepSeek-Coder-Base-33B significantly outperforms existing open-source code LLMs. Compared with CodeLLama-34B, it leads by 7.9%, 9.3%, 10.8% and 5.9% respectively on HumanEval Python, HumanEval Multilingual, MBPP and DS-1000. Surprisingly, our DeepSeek-Coder-Base-7B reaches the performance of CodeLlama-34B. And the DeepSeek-Coder-Instruct-33B model after instruction tuning outperforms GPT-3.5-turbo on HumanEval and achieves comparable result with GPT-3.5-turbo on MBPP.
При ближайшем рассмотрении єта штука прошлогодняя, хотя последний коммит бьіл 2 месяца назад
@kunsun, Всмысле поцаны из закрытых компаний просто берут и пользуются тем что открыто, если это имеет смысл. Все лучшие идеи, по этому обойти их на бесплатной козе невозможно и даже близко.