Дискуссия Новая   686

США

27 янв 2025 в 20:15   DeC
КИТАЙСКИЙ DEEPSEEK НАНЕС УЩЕРБ АМЕРИКАНСКИМ ТЕХНОЛОГИЧЕСКИМ АКЦИЯМ НА СУММУ $1 ТРЛН, РАЗРУШИЛ АКЦИИ СЕКТОРА ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Непонимающий

  • +3.07 / 59
    • 59
  • АУ


Предыдущая дискуссия:

<< DeepSeek
 
Следующая дискуссия:

DeepSeek >>

ОТВЕТЫ (4)
 
 
  Старгородский ( Слушатель )
27 янв 2025 в 22:12
Доигрались пиндосы со своими санкциями и получили в обратку))))))))) Китайцы - хорошие ученики.

  • +2.19 / 38
    • 37
    • Флуд   1
  • АУ
 
  comaliec ( Слушатель )
28 янв 2025 в 20:31
С инторнетов...

Ну так то у нас не мало ИИ систем. Десятки. Как и у всех.

Ну а далее словами специалиста.
DEEP SEEK
Народ, доброе утро. Отвечаю на вопросы по поводу китайской нейросетки Deep Seek. Поскольку много крика (и бабла) вокруг этой темы.

Очень коротко. Тезисно. Ибо нужно работать, а это все - так себе событие.

Сначала для тех, кто не в курсе, что за кипешь?

Трамп объявил про 500 млрд$ на ИИ для группы делавров во главе с OpenAI и это будоражит обывателей. Тогда Китай заявил:
- Америкосы - воры и буржуины. Да здраствует компартия Китая! Нам понадобилось всего 6 млн$ . И мы сделали свою нейросетку Deep Seek. Она лучше чем OpenAI. И выложили ее в открытый доступ.

Мир начал привычно орать глупости:
Война между ИИ Китая и США! Урра!
Глупости всегда стоят бабла у дураков. И акции NVIDIA резко качнуло вниз (они в группе OpenAI за баблишко в 500 млрд.$)

На самом деле про Deep Seek можно сказать следующее:

- это одна из нейросеток среднего уровня. Сегодня таких нейросетей в коллекции наших спецов из Когнитив Пилот - 19 штук.

- При этом беглом анализе сзоду нейросеть DeepSeek игнорирует чувствительные для Китайской Народной Республики полит темы и не в состоянии ответить на многие вопросы, касающиеся внутренних дел страны.

- Закольцевали мы эту нейросетку буквально через 7 минут.

- По умолчанию, выполняя запрос, DeepSeek не ориентируется на источники. Ответы поверхностные. Нужно ковыряться в режиме «Глубокое мышление», чтобы хоть что-то получить. И в нем сразу геометрически растет время обработки запросов.

- Мы пока НЕ НАШЛИ серьезных отличий между DeepSeek и ChatGPT в ответах на базовые вопросы. При этом китайцы периодически сваливаются в аглийский при русском запросе. Похоже на перепертый ChatGPT, как это и принято в одной огромной востояной стране.

- Функционал недостаточный даже относительно нашего ИИ "Ипполита". Нет даже голосового запроса. (Алё! Народ! Ну это уж совсем база. Смешно!)

Вывод: Чистый хайп. Я уже писала, что русские промышленные разработки ИИ намного интереснее и опаснее для США, но государство у нас затянуто говном преклонения перед иностранным. И пресса работает только в этом направлении. Вместо того, чтобы хайпануть на инфе про ИИ от Когнитив Пилот, от Сбера, от Яндекса, наконец, наши пишут про Китай с соплями восторга.

Допрыгаемся. Нужно будет с утра кланятся желтолицему господину и бормотать:
你好! (Ни хао!)

Всем Доброго утра!

  • +0.39 / 24
    • 16
    • 6
    • Флуд   2
 
 
  Анатолий,Севастополь ( Практикант )
28 янв 2025 в 20:57

Ну как же так-то? Тавариш-шы казакстанцы. Ну надо как-то отучаться от преклонения перед сторонами света. И жить своим умом....


Алибабцы, типа, еще более хайповую сеточку выкатили -  Qwen-2.5-Max (но за деньги...)

  • +0.00 / 0
  • АУ
 
 
  User78 ( Слушатель )
28 янв 2025 в 22:02
Прям у всех десятки ИИ типа RL с 670 млрд параметров и контекстным окном 128 тыс. токенов (в 16 раз больше, чем у GPT-4 и равно GPT-4o) как у китайской DeepSeek? Напомню, что у ChatGPT v4 - 175 млрд параметров, у YandexGPT 4 Pro порядка 100 млрд параметров, Сбер Gigachat - 30 млрд параметров.

Разработчики DeepSeek утверждают, что в тестах нейросеть превзошла GPT-4о от OpenAI (более навороченная версия GPT-4, на 1,8 трлн параметров), Llama 3 от Meta и Claude 3.5 Sonnet от Anthropic в задачах программирования и обработки текста.



Про нейросеть Cognitive Pilot Ипполит от предпринимательницы Ольги Усковой (которую несколько раз пиарят в вашей статье, и которая, возможно её и написала) сложно что-то сказать, но она явно уступает нашим сильнейшим лидерам вроде YandexGPT и Gigachat.

Уже тут вранье и передергивание. 5,58 млн долларов ушло только на 1 эксперимент с  55-дневным обучением 3-й версии нейросети DeepSeek (причем в упрощенном варианте), без учета расходов на многолетнее создание алгоритмов и постройку вычислительных центров. Для сравнения, на полное обучение GPT-4 ушло 100 дней и 63 млн долларов.
DeepSeek утверждает, что её модель имеет 671 млрд параметров и была обучена всего за 55 дней (при минимальных затратах в $5,6 млн), в то время как стоимость обучения GPT-4 от OpenAI эксперты оценивают в $63 млн, включая использование 25 тыс. графических процессоров Nvidia A100 на протяжении почти 100 дней.

А хайповые 500 млрд долларов, которые японская компания SoftBank собирается за 5 лет вложить в совместное японо-американское предприятие "Stargate" (которое будет возглавлять гражданин Японии Масаеси Сон) - это в основном на строительство новых вычислительных и дата центров, которыми японцы будут пользоваться на приоритетных условиях.

Тут подробнее:
https://glav.su/foru…age7287595

Ну да, ну да. Рядовая нейронка среднего уровня, которых у всех по 20 штук. И чего в США всполошились - непонятно.

Это не минус, а плюс нейросети. Её специально так обучали. Вы можете обучить иначе. Яндекс-GPT, кстати, тоже очень нейтрально и обтекаемо отвечает на острые политические вопросы.

Это большой комплимент сети DeepSeek. Так как ChatGPT от OpenAI на сегодняшний день считается самой мощной и продвинутой языковой нейросетью в мире. Ничего себе "середнячок", который выступает на равных с ChatGPT.

Да, сразу чувствуется специалист.Улыбающийся

То есть весь смысл данного поста не только китайскую опенсорсную (бесплатную) разработку облить грязью, но и российское государство. Якобы у нас все в государстве только и делают, что преклоняются перед иностранным. Хотя это явное враньё.

Не знаю какую там прессу читает автор, особых "соплей" не заметил. Просто отмечают очевидные успехи Китая в области ИИ, не принижая при этом достижений России в этой сфере. Сопли и истерики в основном в американской прессе и в заявлениях Трампа.

И тут какая-то топорная китаефобия пошла. Такое впечатление, что на самом деле автора статьи сильно задела истерика прежде всего со стороны США по поводу успехов китайцев.
__________________________

Вот цитаты из других статей про DeepSeek:

DeepSeek V3 — это большая языковая модель с открытым исходным кодом, которая содержит 671 млрд параметров и обучена на 14,8 трлн токенов. Она способна анализировать тексты, делать переводы и писать эссе, а также создавать код.

Особенности модели кроются в ее архитектуре и методах обучения.

Она использует:
 - Архитектуру Multi-token Prediction (MTP). Это позволяет модели предсказывать несколько слов вместо одного, анализируя одновременно разные части предложения. Такой метод повышает точность работы модели и ее производительность;
 - Mixture of Experts (MoE). Эта архитектура использует несколько специализированных и заранее обученных нейросетей-«экспертов» для анализа различных входных данных. Это позволяет ускорить обучение и повысить эффективность ИИ. DeepSeek V3 работает с 256 такими нейросетями, из которых восемь активируются для обработки каждого токена;
 - Технологию Multi-head Latent Attention (MLA) — механизм внимания, который обычно используется в больших языковых моделях и помогает им идентифицировать наиболее важные части предложения. MLA позволяет извлекать ключевые детали из фрагмента текста несколько раз, а не только один.
Это означает, что ИИ с меньшей вероятностью упустит важную информацию.

Благодаря этим особенностям модель потребовала всего 2,788 млн часов или два месяца работы графических процессоров Nvidia H800 для обучения. Затраты на него составили $5,5 млн. Для сравнения — OpenAI потратила на обучение GPT $78 млн.

Разработчики утверждают, что в тестах нейросеть превзошла GPT-4о от OpenAI, Llama 3 от Meta (признана экстремистской, запрещена в России) и Claude 3.5 Sonnet от Anthropic в задачах программирования и обработки текста.

Главная особенность новой модели — это полностью открытый код, который позволяет разработчикам не только использовать технологию для коммерческих целей, но и адаптировать ее для решения различных задач в сфере искусственного интеллекта.

Возможности DeepSeek V3
Модель предлагает контекстное окно в 128 тыс. токенов, как и GPT-4o, что позволяет ей анализировать до 300 страниц текста. Она способна:

 - генерировать тексты разных объемов и в разных жанрах;
 - искать информацию в интернете;
 - расшифровывать диаграммы и объяснять картинки;
 - писать код, корректно форматировать его и решать сложные задачи по программированию на языках C++, Go, Java, JavaScript, Python и Rust. Модель успешно интегрируется с редакторами кода;
 - рассуждать подобно GPT-o1 и o1-mini в режиме DeepThink.
 - DeepSeek V3 предлагает мультиязычность высокого уровня, а ее глубокое понимание китайского и английского позволяет работать с текстами без потери качества переводенного текста и смысла. Модель также поддерживает русский язык.
Среди выдающихся моделей ИИ — DeepSeek и ChatGPT, каждая из которых представляет собой отдельную методологию для достижения передовых результатов. В этом подробном анализе мы рассмотрим архитектуру, производительность, прозрачность, этические последствия и преобразующий потенциал этих технологий.

22 января 2025 года была опубликована новаторская статья DeepSeek «DeepSeek-R1: стимулирование способности к рассуждению в больших языковых моделях с помощью обучения с подкреплением», которая стала знаковым событием в истории ИИ. Эта публикация не просто продемонстрировала впечатляющие результаты, она в корне изменила подход человечества к развитию интеллекта в машинах.

DeepSeek продемонстрировал, как интеллект, в частности способность к рассуждению, может органически развиваться с помощью обучения с подкреплением (RL) без необходимости в традиционной тонкой настройке под контролем (SFT). Эта статья поможет специалистам и компаниям — понять, насколько важны эти достижения.
_________

Контролируемое обучение — это традиционный метод обучения моделей ИИ с использованием размеченных данных. Модель обучается, получая входные данные и соответствующие им выходные данные, что эффективно обучает ее делать точные прогнозы.

ChatGPT использует контролируемое обучение на начальном этапе обучения, обрабатывая огромные объемы текста из книг, статей и других источников, чтобы заложить прочную основу для понимания языка.
...

Обучение с подкреплением (RL) предлагает более динамичный подход к обучению ИИ. Вместо того чтобы учиться на примерах, модель обучается методом проб и ошибок, улучшая своё поведение на основе обратной связи.
Такой подход позволяет ИИ учиться самостоятельно и адаптироваться к более сложным или незнакомым ситуациям, подобно тому, как учащийся учится решать новые типы задач без специального обучения.

DeepSeek в значительной степени полагается на RL для развития способностей к самосовершенствованию, что делает его первопроходцем в области инноваций в сфере ИИ.

Понимание этих концепций крайне важно для оценки различных подходов, используемых DeepSeek и ChatGPT. DeepSeek, ориентированный на RL, позиционируется как инновационная модель для решения сложных задач, а гибридная методология ChatGPT обеспечивает надёжность и адаптивность в различных сценариях использования.

Прорыв DeepSeek: переход к чистому обучению с подкреплением
Методология DeepSeek, основанная на RL, — это смелый отход от традиционных подходов к обучению ИИ. Стимулируя независимое мышление, модель R1-Zero продемонстрировала такие возможности, как расстановка приоритетов задач и автономное решение проблем. Сочетание RL с ограниченным SFT повысило согласованность и удобство использования языка, установив новый стандарт для методологий обучения ИИ.

Вывод: Новая эра искусственного интеллекта
Сравнение DeepSeek и ChatGPT подчёркивает разнообразие подходов к искусственному интеллекту. Акцент DeepSeek на обучении с подкреплением и экономической эффективности переосмысливает инновации, в то время как сбалансированная методология ChatGPT и надёжная экосистема обеспечивают надёжность и адаптивность.

Для пользователей, ориентирующихся в развивающейся сфере ИИ, важно понимать эти различия. DeepSeek предлагает смелое видение открытого и доступного ИИ, в то время как ChatGPT остаётся надёжным выбором, одобренным индустрией. 

DeepSeek против ChatGPT: обучение с подкреплением против контролируемого обучения
Понимание двух парадигм
Модели ИИ, такие как ChatGPT и DeepSeek, используют различные методы обучения для достижения своих целей. Они делятся на две большие категории:

Контролируемое Обучение
Определение: модели обучаются на размеченных наборах данных, где каждый ввод (например, предложение) сопоставляется с правильным выводом (например, переводом).

Роль в ИИ: используется на ранних этапах обучения для обучения моделей базовым закономерностям (например, грамматике, синтаксису).

Пример: первоначальное обучение ChatGPT на книгах и статьях для прогнозирования следующего слова в предложении.

Обучение с подкреплением (RL)
Определение: модели обучаются методом проб и ошибок, получая вознаграждение или наказание в зависимости от своих действий.

Роль в ИИ: корректирует результаты в соответствии с предпочтениями человека (например, делает ответы полезными или этичными).

Пример: тонкая настройка ChatGPT с помощью обучения с подкреплением на основе отзывов людей (RLHF), когда рецензенты-люди оценивают ответы, чтобы внести улучшения.

Как ChatGPT и DeepSeek используют эти методы
ChatGPT
  • Сочетает контролируемое обучение (предварительное обучение по тексту) с RLHF (уточнением после обучения).

  • RLHF помогает сократить вредные выбросы, но требует тщательного человеческого контроля, что увеличивает затраты.


DeepSeek
  • Традиционно используется контролируемое обучение для повышения точности в конкретной области (например, для разметки медицинских данных).

  • Прорывной сдвиг: последние итерации экспериментируют с обучением с подкреплением в чистом виде, когда модель обучается непосредственно на вознаграждениях за выполнение конкретных задач (например, за правильную диагностику заболевания) без предварительно размеченных данных.


DeepSeek против ChatGPT: показатели производительности и бенчмарки

DeepSeek V3

  • Параметры: 600 миллиардов

  • Сильные стороны: программирование, многоязычные задачи и саморазвивающееся мышление.

  • Уникальная особенность: прозрачные процессы рассуждения.


ChatGPT-4
  • Параметры: 175 миллиардов

  • Преимущества: связность речи, понимание контекста и творческое применение.

  • Уникальная особенность: бесшовная интеграция в различных отраслях промышленности.




Знакомые щупали DeepSeek и им в задачах программирования результаты понравились, в чем-то даже лучше чем у ChatGPT. При этом DeepSeek с открытым кодом, бесплатное использование.

  • +0.17 / 14
    • 7
    • 7
  • АУ