Добавить новость





160*600

Новости сегодня на DirectAdvert

Новости сегодня от Adwile

Актуальные новости сегодня от ValueImpression.com


Опубликовать свою новость бесплатно - сейчас


Сможет ли DeepSeek R-1 ответить на эти 5 сложных для ИИ вопросов?

Каждый раз, когда появляется новая языковая модель, у меня всегда возникает желание проверить ее с помощью нескольких обманчиво простых, но каверзных вопросов. Это моя личная привычка - своего рода стресс-тест, чтобы проверить, насколько хорошо эти модели справляются с логикой и рассуждениями.

Несколько дней назад вышла модель DeepSeek R-1, и она сразу же стала мировой сенсацией благодаря тому, что это умная ИИ-модель с открытым исходным кодом, и тому, как хорошо она работает с логикой.

Бенчмарки показывают, что она сопоставима, а иногда даже лучше, чем модели с закрытым исходным кодом, такие как o1 от OpenAI и Claude 3.5 Sonnet от Anthropic.

Учитывая всю шумиху вокруг возможностей DeepSeek R-1 в области рассуждений, давайте посмотрим, насколько хорошо она ответит на эти пять каверзных вопросов:

  • Сколько букв "r" в слове "strawberry"?

  • Назови 5 стран с буквой А на третьем месте в названии.

  • Что больше: 9,9 или 9,11?

  • Сколько будет 0,1 + 0,2?

  • У Алисы есть четыре брата, а также сестра. Сколько сестер у брата Алисы?

Давайте начнем.

1. Сколько букв "r" в слове strawberry?

Когда я делал свой первый обзор модели o1 от OpenAI в сентябре прошлого года, я заметил, что модели вроде GPT-4o не могут ответить правильно. Можно подумать, что подсчет букв в слове - это простая задача для ИИ, но, видимо, это не так.

Поэтому, естественно, я хотел посмотреть, как с этим справится DeepSeek R-1.

Хорошо, отлично. DeepSeek сделал все правильно - он нашел три буквы "r" в слове strawberry. Просто? Да. Но все же это полезный способ проверить, не ошибается ли модель в базовом распознавании паттернов.

2. 5 стран, в названии которых буква A находится на третьей позиции.

Этот вопрос - забавная головоломка, и, что удивительно, многие модели с ним не справляются. Например, когда я тестировал и GPT-4o, и версию o1 preview, они дали неверные ответы.

Третья буква в слове "Japan" - это "p", а не "a".

Мне было любопытно, не допустит ли DeepSeek R-1 такую же ошибку. К счастью, он справился. Он правильно перечислил пять стран, ничуть не напрягаясь.

Чтобы быть честным с o1, я повторно протестировал этот вопрос в новой версии модели o1 через ChatGPT, и на этот раз она смогла дать пять правильных ответов.

3. Что больше - 9.9 или 9.11?

Когда GPT-4 только запустили, этот тип вопроса вызвал большое замешательство в ИИ-сообществе. Можно было бы ожидать, что базовые сравнения между числами не вызовут проблем, но GPT-4 в ранних версиях с этим не справлялась.

Модель запуталась в простой математике. Хотя эта проблема уже была исправлена в версии GPT-4o, я хотел проверить, нет ли у DeepSeek тех же математических проблем, как у GPT-4.

К счастью, она выдала правильное значение. Мне также нравится, что модель приводит примеры и подробно объясняет свой ответ.

4. Сколько будет 0,1 + 0,2?

Вы будете удивлены, как много ИИ-моделей ошибаются в этом вопросе. Я помню, как тестировал модель Gemini от Google вскоре после ее выхода, и она дала печально известный ответ: 0.30000000000000004. Это классический пример ошибок точности с плавающей запятой, которые возникают при двоичных вычислениях.

Чтобы перестраховаться, я протестировал DeepSeek R-1 с тем же вопросом. К счастью, он вернул правильное значение: 0,3.

Но почему модели иногда дают странные результаты для таких простых математических вычислений, как это? Вот краткое объяснение:

Когда вы складываете 0,1 и 0,2:

  • Двоичное представление 0,1 равно примерно 0,1000000000000000055511151231257827021181583404541015625.

  • Двоичное представление 0,2 равно примерно 0,200000000000000011102230246171379939697265625.

Когда эти значения складываются в двоичном виде, результат не совсем соответствует 0,3 в десятичной форме. Вместо этого при обратном преобразовании в десятичную систему получается крошечная ошибка округления: 0.30000000000000004.

5. У Алисы есть четыре брата, а также сестра. Сколько сестер у брата Алисы?

Кто-то может сказать, что это легкий вопрос, но вы будете удивлены тем, что ChatGPT выдает неправильный ответ. Естественно, мне было интересно, сможет ли DeepSeek R-1 ответить правильно.

К счастью, так оно и есть. Правильный ответ: у каждого из братьев Алисы есть две сестры: Алиса и ее вторая сестра. Что меня поразило, так это то, как DeepSeek решила проблему с помощью внутренних рассуждений.

Она разбила задачу на шаги, смоделировал структуру семьи и проверил все возможные варианты. Вот фрагмент ее мыслительного процесса:

Забавно, насколько подробным было объяснение модели. В отличие от этого, GPT-4o допустила ошибку во время тестирования, предположив, что существует только одна сестра.

Однако рассуждающая модель o1 ответила на вопрос правильно. Это хорошее напоминание о том, что если вопрос требует глубокого осмысления, следует переключиться на рассуждающую модель, такую как o1.

На ранних этапах тестирования ИИ-моделей становится ясно, что такие простые вопросы часто выявляют скрытые проблемы в их конструкции. Числовые ошибки, неправильная логика или плохое распознавание паттернов - эти проблемы указывают на области, в которых ИИ необходимо улучшить.

DeepSeek R-1 отлично справилась с ответами на каверзные вопросы. Я действительно впечатлен. Она показала, что может обдумывать проблемы и четко объяснять свои ответы. Внутренний монолог, который она ведет, действительно интересно читать, не торопясь разбирать каждую проблему шаг за шагом. Такого рода рассуждения не встретишь ни в одной другой ИИ-модели с открытым исходным кодом.

Что меня действительно удивило, так это то, насколько способной моделью является DeepSeek с учетом того, что это недорогой проект с открытым исходным кодом. Она не идеальна, и я не говорю, что она готова заменить такие модели, как o1 или Claude 3.5. Но, судя по этим результатам, это определенно серьезный конкурент. Представляю, как сейчас потеют руководители OpenAI, Google и Anthropic.

Попробуйте и вы задать своему любимому чатботу эти вопросы и посмотреть, насколько хорошо он с ними справится. А если вы знаете больше каверзных вопросов, которые часто ставят в тупик ИИ-чатботов, напишите о них в комментариях.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений- я стараюсь делиться только полезной информацией.


(https://habr.com/ru/artic...)

Читайте на сайте

Другие проекты от 123ru.net








































Другие популярные новости дня сегодня


123ru.net — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 123ru.net.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.



Новости 24/7 Все города России




Загрузка...


Топ 10 новостей последнего часа






Персональные новости

123ru.net — ежедневник главных новостей Вашего города и Вашего региона. 123ru.net - новости в деталях, свежий, незамыленный образ событий дня, аналитика минувших событий, прогнозы на будущее и непредвзятый взгляд на настоящее, как всегда, оперативно, честно, без купюр и цензуры каждый час, семь дней в неделю, 24 часа в сутки. Ещё больше местных городских новостей Вашего города — на порталах News-Life.pro и News24.pro. Полная лента региональных новостей на этот час — здесь. Самые свежие и популярные публикации событий в России и в мире сегодня - в ТОП-100 и на сайте Russia24.pro. С 2017 года проект 123ru.net стал мультиязычным и расширил свою аудиторию в мировом пространстве. Теперь нас читает не только русскоязычная аудитория и жители бывшего СССР, но и весь современный мир. 123ru.net - мир новостей без границ и цензуры в режиме реального времени. Каждую минуту - 123 самые горячие новости из городов и регионов. С нами Вы никогда не пропустите главное. А самым главным во все века остаётся "время" - наше и Ваше (у каждого - оно своё). Время - бесценно! Берегите и цените время. Здесь и сейчас — знакомства на 123ru.net. . Разместить свою новость локально в любом городе (и даже, на любом языке мира) можно ежесекундно (совершенно бесплатно) с мгновенной публикацией (без цензуры и модерации) самостоятельно - здесь.



Загрузка...

Загрузка...

Экология в России и мире




Путин в России и мире

Лукашенко в Беларуси и мире



123ru.netмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

123ru.net — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.






Здоровье в России и мире


Частные объявления в Вашем городе, в Вашем регионе и в России






Загрузка...

Загрузка...





Друзья 123ru.net


Информационные партнёры 123ru.net



Спонсоры 123ru.net