Добавить новость





160*600

Новости сегодня на DirectAdvert

Новости сегодня от Adwile

Актуальные новости сегодня от ValueImpression.com


Опубликовать свою новость бесплатно - сейчас


Новая техника взлома LLM: исследователи обнаружили способ обхода систем безопасности больших языковых моделей

Исследователи в области кибербезопасности из компании Palo Alto Networks Unit 42, подразделения, специализирующегося на кибербезопасности и исследовании угроз, раскрыли новую технику взлома, позволяющую обходить системы безопасности больших языковых моделей (LLM) и получать потенциально вредные или злонамеренные ответы.

Эта стратегия получила кодовое название Bad Likert Judge. Её разработали исследователи Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao и Danny Tsechansky.

«Эта техника использует целевую LLM в качестве судьи, который оценивает вредность ответа по шкале Лайкерта. Шкала Лайкерта является методом измерения степени согласия или несогласия респондента с утверждением. Затем LLM генерирует ответы, которые содержат примеры, соответствующие различным уровням шкалы Лайкерта. При этом ответ с самой высокой оценкой по шкале потенциально может содержать вредный контент», — пояснили исследователи из Unit 42.

В последние годы популярность искусственного интеллекта привела к появлению нового класса эксплойтов безопасности, называемых инъекциями запросов, которые специально предназначены для того, чтобы заставить модель машинного обучения игнорировать её предписанное поведение путём передачи специальных инструкций.

Источник: DALL-E

Одним из видов инъекций запросов является метод атаки, известный как many-shot jailbreaking. Этот метод эксплуатирует длинное окно контекста LLM и механизм внимания для создания серии запросов, которые последовательно подталкивают LLM к получению злонамеренного ответа, обходя при этом внутренние защитные механизмы модели. К этому типу относятся техники Crescendo и Deceptive Delight.

Тесты, проведённые Unit 42 в различных категориях против шести флагманских моделей LLM от Amazon Web Services, Google, Meta*, Microsoft, OpenAI и NVIDIA, показали, что эта техника может увеличить успех атаки (ASR) более чем на 60% по сравнению с простыми атакующими запросами в среднем.

Эти категории включают ненависть, преследование, самоповреждение, сексуальный контент, беспричинное применение оружия, незаконную деятельность, генерацию вредоносных программ и утечку системных запросов.

«Используя понимание LLM вредного контента и её способность оценивать ответы, эта техника может существенно повысить вероятность успешного обхода систем безопасности модели. Наши результаты показывают, что фильтры контента могут оказать существенное влияние на снижение уровня атакованности (ASR) — в среднем на 89,2 процентных пункта во всех протестированных моделях. Это подчёркивает важность внедрения всесторонней фильтрации контента в качестве лучшей практики при развертывании LLM в реальных приложениях», — отметили исследователи.

Это исследование было проведено всего через несколько дней после того, как газета The Guardian сообщила, что инструмент поиска OpenAI ChatGPT может быть обманут полностью вводящими в заблуждение вводными, попросив его резюмировать веб-страницы, содержащие скрытый контент.

«Эти техники можно использовать злонамеренно, например, чтобы заставить ChatGPT вернуть положительную оценку продукта, несмотря на негативные отзывы на той же странице. Простое включение скрытого текста третьими лицами без инструкций также можно использовать для обеспечения положительной оценки, в одном тесте были включены крайне положительные фейковые отзывы, которые повлияли на резюме, возвращаемое ChatGPT», — отметила британская газета.

*Компания Meta признана в РФ экстремистской организацией и запрещена

Читайте на сайте

Другие проекты от 123ru.net








































Другие популярные новости дня сегодня


123ru.net — быстрее, чем Я..., самые свежие и актуальные новости Вашего города — каждый день, каждый час с ежеминутным обновлением! Мгновенная публикация на языке оригинала, без модерации и без купюр в разделе Пользователи сайта 123ru.net.

Как добавить свои новости в наши трансляции? Очень просто. Достаточно отправить заявку на наш электронный адрес mail@29ru.net с указанием адреса Вашей ленты новостей в формате RSS или подать заявку на включение Вашего сайта в наш каталог через форму. После модерации заявки в течении 24 часов Ваша лента новостей начнёт транслироваться в разделе Вашего города. Все новости в нашей ленте новостей отсортированы поминутно по времени публикации, которое указано напротив каждой новости справа также как и прямая ссылка на источник информации. Если у Вас есть интересные фото Вашего города или других населённых пунктов Вашего региона мы также готовы опубликовать их в разделе Вашего города в нашем каталоге региональных сайтов, который на сегодняшний день является самым большим региональным ресурсом, охватывающим все города не только России и Украины, но ещё и Белоруссии и Абхазии. Прислать фото можно здесь. Оперативно разместить свою новость в Вашем городе можно самостоятельно через форму.



Новости 24/7 Все города России




Загрузка...


Топ 10 новостей последнего часа






Персональные новости

123ru.net — ежедневник главных новостей Вашего города и Вашего региона. 123ru.net - новости в деталях, свежий, незамыленный образ событий дня, аналитика минувших событий, прогнозы на будущее и непредвзятый взгляд на настоящее, как всегда, оперативно, честно, без купюр и цензуры каждый час, семь дней в неделю, 24 часа в сутки. Ещё больше местных городских новостей Вашего города — на порталах News-Life.pro и News24.pro. Полная лента региональных новостей на этот час — здесь. Самые свежие и популярные публикации событий в России и в мире сегодня - в ТОП-100 и на сайте Russia24.pro. С 2017 года проект 123ru.net стал мультиязычным и расширил свою аудиторию в мировом пространстве. Теперь нас читает не только русскоязычная аудитория и жители бывшего СССР, но и весь современный мир. 123ru.net - мир новостей без границ и цензуры в режиме реального времени. Каждую минуту - 123 самые горячие новости из городов и регионов. С нами Вы никогда не пропустите главное. А самым главным во все века остаётся "время" - наше и Ваше (у каждого - оно своё). Время - бесценно! Берегите и цените время. Здесь и сейчас — знакомства на 123ru.net. . Разместить свою новость локально в любом городе (и даже, на любом языке мира) можно ежесекундно (совершенно бесплатно) с мгновенной публикацией (без цензуры и модерации) самостоятельно - здесь.



Загрузка...

Загрузка...

Экология в России и мире




Путин в России и мире

Лукашенко в Беларуси и мире



123ru.netмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

123ru.net — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.






Здоровье в России и мире


Частные объявления в Вашем городе, в Вашем регионе и в России






Загрузка...

Загрузка...





Друзья 123ru.net


Информационные партнёры 123ru.net



Спонсоры 123ru.net