Цитата: comaliec от 28.01.2025 20:31:45С инторнетов...
Ну так то у нас не мало ИИ систем. Десятки. Как и у всех.
Прям у всех десятки ИИ типа RL с
670 млрд параметров и контекстным окном 128 тыс. токенов (в 16 раз больше, чем у GPT-4 и равно GPT-4o) как у китайской DeepSeek? Напомню, что у ChatGPT v4 - 175 млрд параметров, у YandexGPT 4 Pro порядка 100 млрд параметров, Сбер Gigachat - 30 млрд параметров.
Разработчики DeepSeek утверждают, что в тестах нейросеть превзошла GPT-4о от OpenAI (более навороченная версия GPT-4, на 1,8 трлн параметров), Llama 3 от Meta и Claude 3.5 Sonnet от Anthropic
в задачах программирования и обработки текста.

Про нейросеть Cognitive Pilot Ипполит от предпринимательницы
Ольги Усковой (которую несколько раз пиарят в вашей статье, и которая, возможно её и написала) сложно что-то сказать, но она явно уступает нашим сильнейшим лидерам вроде YandexGPT и Gigachat.Цитата: comaliec от 28.01.2025 20:31:45Сначала для тех, кто не в курсе, что за кипешь?
Трамп объявил про 500 млрд$ на ИИ для группы делавров во главе с OpenAI и это будоражит обывателей. Тогда Китай заявил:
- Америкосы - воры и буржуины. Да здраствует компартия Китая! Нам понадобилось всего 6 млн$ . И мы сделали свою нейросетку Deep Seek. Она лучше чем OpenAI. И выложили ее в открытый доступ.
Уже тут вранье и передергивание. 5,58 млн долларов ушло только на
1 эксперимент с 55-дневным обучением 3-й версии нейросети DeepSeek (причем в упрощенном варианте), без учета расходов на многолетнее создание алгоритмов и постройку вычислительных центров. Для сравнения, на полное обучение GPT-4 ушло 100 дней и 63 млн долларов.
DeepSeek утверждает, что её модель имеет 671 млрд параметров и была обучена всего за 55 дней (при минимальных затратах в $5,6 млн), в то время как стоимость обучения GPT-4 от OpenAI эксперты оценивают в $63 млн, включая использование 25 тыс. графических процессоров Nvidia A100 на протяжении почти 100 дней.
А хайповые 500 млрд долларов, которые японская компания SoftBank собирается за 5 лет вложить в совместное японо-американское предприятие "Stargate" (которое будет возглавлять гражданин Японии Масаеси Сон) - это в основном на строительство новых вычислительных и дата центров, которыми японцы будут пользоваться на приоритетных условиях.
Тут подробнее:
https://glav.su/foru…age7287595Цитата: comaliec от 28.01.2025 20:31:45- это одна из нейросеток среднего уровня. Сегодня таких нейросетей в коллекции наших спецов из Когнитив Пилот - 19 штук.
Ну да, ну да. Рядовая нейронка среднего уровня, которых у всех по 20 штук. И чего в США всполошились - непонятно.
Цитата: comaliec от 28.01.2025 20:31:45- При этом беглом анализе сзоду нейросеть DeepSeek игнорирует чувствительные для Китайской Народной Республики полит темы и не в состоянии ответить на многие вопросы, касающиеся внутренних дел страны.
Это не минус, а плюс нейросети. Её специально так обучали. Вы можете обучить иначе. Яндекс-GPT, кстати, тоже очень нейтрально и обтекаемо отвечает на острые политические вопросы.
Цитата: comaliec от 28.01.2025 20:31:45- Мы пока НЕ НАШЛИ серьезных отличий между DeepSeek и ChatGPT в ответах на базовые вопросы.
Это большой комплимент сети DeepSeek. Так как ChatGPT от OpenAI на сегодняшний день считается самой мощной и продвинутой языковой нейросетью в мире. Ничего себе "середнячок", который выступает на равных с ChatGPT.
Цитата: comaliec от 28.01.2025 20:31:45- Функционал недостаточный даже относительно нашего ИИ "Ипполита". Нет даже голосового запроса. (Алё! Народ! Ну это уж совсем база. Смешно!)
Да, сразу чувствуется специалист.

Цитата: comaliec от 28.01.2025 20:31:45Вывод: Чистый хайп. Я уже писала, что русские промышленные разработки ИИ намного интереснее и опаснее для США,
но государство у нас затянуто говном преклонения перед иностранным.
То есть весь смысл данного поста не только китайскую опенсорсную (бесплатную) разработку облить грязью, но и российское государство. Якобы у нас все в государстве только и делают, что преклоняются перед иностранным. Хотя это явное враньё.
Цитата: comaliec от 28.01.2025 20:31:45И пресса работает только в этом направлении. Вместо того, чтобы хайпануть на инфе про ИИ от Когнитив Пилот, от Сбера, от Яндекса, наконец, наши пишут про Китай с соплями восторга.
Не знаю какую там прессу читает автор, особых "соплей" не заметил. Просто отмечают очевидные успехи Китая в области ИИ, не принижая при этом достижений России в этой сфере. Сопли и истерики в основном в американской прессе и в заявлениях Трампа.
Цитата: comaliec от 28.01.2025 20:31:45Допрыгаемся. Нужно будет с утра кланятся желтолицему господину и бормотать:
你好! (Ни хао!)
И тут какая-то топорная китаефобия пошла. Такое впечатление, что на самом деле автора статьи сильно задела истерика прежде всего со стороны США по поводу успехов китайцев.
__________________________
Вот цитаты из других статей про DeepSeek:
DeepSeek V3 — это большая языковая модель с открытым исходным кодом, которая содержит 671 млрд параметров и обучена на 14,8 трлн токенов. Она способна анализировать тексты, делать переводы и писать эссе, а также создавать код.
Особенности модели кроются в ее архитектуре и методах обучения.
Она использует:
- Архитектуру Multi-token Prediction (MTP).
Это позволяет модели предсказывать несколько слов вместо одного, анализируя одновременно разные части предложения. Такой метод повышает точность работы модели и ее производительность;
- Mixture of Experts (MoE). Эта архитектура использует несколько специализированных и заранее обученных нейросетей-«экспертов» для анализа различных входных данных. Это позволяет ускорить обучение и повысить эффективность ИИ.
DeepSeek V3 работает с 256 такими нейросетями, из которых восемь активируются для обработки каждого токена; - Технологию Multi-head Latent Attention (MLA) — механизм внимания, который обычно используется в больших языковых моделях и помогает им идентифицировать наиболее важные части предложения.
MLA позволяет извлекать ключевые детали из фрагмента текста несколько раз, а не только один. Это означает, что ИИ с меньшей вероятностью упустит важную информацию.
Благодаря этим особенностям модель потребовала всего 2,788 млн часов или два месяца работы графических процессоров Nvidia H800 для обучения. Затраты на него составили $5,5 млн. Для сравнения — OpenAI потратила на обучение GPT $78 млн.
Разработчики утверждают, что в тестах нейросеть превзошла GPT-4о от OpenAI, Llama 3 от Meta (признана экстремистской, запрещена в России) и Claude 3.5 Sonnet от Anthropic в задачах программирования и обработки текста.
Главная особенность новой модели — это полностью открытый код, который позволяет разработчикам не только использовать технологию для коммерческих целей, но и адаптировать ее для решения различных задач в сфере искусственного интеллекта.
Возможности DeepSeek V3Модель предлагает контекстное окно в 128 тыс. токенов, как и GPT-4o, что позволяет ей анализировать до 300 страниц текста. Она способна:
- генерировать тексты разных объемов и в разных жанрах;
- искать информацию в интернете;
- расшифровывать диаграммы и объяснять картинки;
-
писать код, корректно форматировать его и решать сложные задачи по программированию на языках C++, Go, Java, JavaScript, Python и Rust. Модель успешно интегрируется с редакторами кода; - рассуждать подобно GPT-o1 и o1-mini в режиме DeepThink.
- DeepSeek V3 предлагает мультиязычность высокого уровня, а ее глубокое понимание китайского и английского позволяет работать с текстами без потери качества переводенного текста и смысла. Модель также поддерживает русский язык.
Среди выдающихся моделей ИИ — DeepSeek и ChatGPT, каждая из которых представляет собой отдельную методологию для достижения передовых результатов. В этом подробном анализе мы рассмотрим архитектуру, производительность, прозрачность, этические последствия и преобразующий потенциал этих технологий.
22 января 2025 года была опубликована новаторская статья DeepSeek «DeepSeek-R1: стимулирование способности к рассуждению в больших языковых моделях с помощью обучения с подкреплением», которая стала знаковым событием в истории ИИ. Эта публикация не просто продемонстрировала впечатляющие результаты,
она в корне изменила подход человечества к развитию интеллекта в машинах.DeepSeek продемонстрировал, как интеллект, в частности способность к рассуждению, может органически развиваться с помощью обучения с подкреплением (RL) без необходимости в традиционной тонкой настройке под контролем (SFT). Эта статья поможет специалистам и компаниям — понять, насколько важны эти достижения.
_________
Контролируемое обучение — это традиционный метод обучения моделей ИИ с использованием размеченных данных. Модель обучается, получая входные данные и соответствующие им выходные данные, что эффективно обучает ее делать точные прогнозы.
ChatGPT использует контролируемое обучение на начальном этапе обучения, обрабатывая огромные объемы текста из книг, статей и других источников, чтобы заложить прочную основу для понимания языка.
...
Обучение с подкреплением (RL) предлагает более динамичный подход к обучению ИИ. Вместо того чтобы учиться на примерах, модель обучается методом проб и ошибок, улучшая своё поведение на основе обратной связи.
Такой подход позволяет ИИ учиться самостоятельно и адаптироваться к более сложным или незнакомым ситуациям, подобно тому, как учащийся учится решать новые типы задач без специального обучения.
DeepSeek в значительной степени полагается на RL для развития способностей к самосовершенствованию, что делает его первопроходцем в области инноваций в сфере ИИ.
Понимание этих концепций крайне важно для оценки различных подходов, используемых DeepSeek и ChatGPT. DeepSeek, ориентированный на RL, позиционируется как инновационная модель для решения сложных задач, а гибридная методология ChatGPT обеспечивает надёжность и адаптивность в различных сценариях использования.
Прорыв DeepSeek: переход к чистому обучению с подкреплением
Методология DeepSeek, основанная на RL, — это смелый отход от традиционных подходов к обучению ИИ. Стимулируя независимое мышление, модель R1-Zero продемонстрировала такие возможности, как расстановка приоритетов задач и автономное решение проблем. Сочетание RL с ограниченным SFT повысило согласованность и удобство использования языка, установив новый стандарт для методологий обучения ИИ.
Вывод: Новая эра искусственного интеллекта
Сравнение DeepSeek и ChatGPT подчёркивает разнообразие подходов к искусственному интеллекту. Акцент DeepSeek на обучении с подкреплением и экономической эффективности переосмысливает инновации, в то время как сбалансированная методология ChatGPT и надёжная экосистема обеспечивают надёжность и адаптивность.
Для пользователей, ориентирующихся в развивающейся сфере ИИ, важно понимать эти различия. DeepSeek предлагает смелое видение открытого и доступного ИИ, в то время как ChatGPT остаётся надёжным выбором, одобренным индустрией. DeepSeek против ChatGPT: обучение с подкреплением против контролируемого обучения
Понимание двух парадигм
Модели ИИ, такие как ChatGPT и DeepSeek, используют различные методы обучения для достижения своих целей. Они делятся на две большие категории:
Контролируемое Обучение
Определение: модели обучаются на размеченных наборах данных, где каждый ввод (например, предложение) сопоставляется с правильным выводом (например, переводом).
Роль в ИИ: используется на ранних этапах обучения для обучения моделей базовым закономерностям (например, грамматике, синтаксису).
Пример: первоначальное обучение ChatGPT на книгах и статьях для прогнозирования следующего слова в предложении.
Обучение с подкреплением (RL)
Определение: модели обучаются методом проб и ошибок, получая вознаграждение или наказание в зависимости от своих действий.
Роль в ИИ: корректирует результаты в соответствии с предпочтениями человека (например, делает ответы полезными или этичными).
Пример: тонкая настройка ChatGPT с помощью обучения с подкреплением на основе отзывов людей (RLHF), когда рецензенты-люди оценивают ответы, чтобы внести улучшения.
Как ChatGPT и DeepSeek используют эти методыChatGPT- Сочетает контролируемое обучение (предварительное обучение по тексту) с RLHF (уточнением после обучения).
- RLHF помогает сократить вредные выбросы, но требует тщательного человеческого контроля, что увеличивает затраты.
DeepSeek- Традиционно используется контролируемое обучение для повышения точности в конкретной области (например, для разметки медицинских данных).
- Прорывной сдвиг: последние итерации экспериментируют с обучением с подкреплением в чистом виде, когда модель обучается непосредственно на вознаграждениях за выполнение конкретных задач (например, за правильную диагностику заболевания) без предварительно размеченных данных.
DeepSeek против ChatGPT: показатели производительности и бенчмарки
DeepSeek V3- Параметры: 600 миллиардов
- Сильные стороны: программирование, многоязычные задачи и саморазвивающееся мышление.
- Уникальная особенность: прозрачные процессы рассуждения.
ChatGPT-4- Параметры: 175 миллиардов
- Преимущества: связность речи, понимание контекста и творческое применение.
- Уникальная особенность: бесшовная интеграция в различных отраслях промышленности.
Знакомые щупали DeepSeek и им в задачах программирования результаты понравились, в чем-то даже лучше чем у ChatGPT. При этом DeepSeek с открытым кодом, бесплатное использование.