Ученые выяснили, что ИИ подчиняется авторитетам так же, как человек

По мнению исследователей, это означает, что проверки безопасности, успешно работающие в обычных условиях, могут оказаться менее эффективными, если во время общения искусственно создается социальная иерархия.

Ученые выяснили, что ИИ подчиняется авторитетам так же, как человек

Самый тревожный результат исследования связан с безопасностью. Когда модели выполняли роль человека с более низким статусом, они значительно чаще соглашались выполнять потенциально вредные или сомнительные инструкции, если их отдавал пользователь, представлявшийся авторитетной фигурой, например врачом, судьей или руководителем.

По мнению исследователей, это означает, что проверки безопасности, успешно работающие в обычных условиях, могут оказаться менее эффективными, если во время общения искусственно создается социальная иерархия.

«Наша работа показывает, что социальные инстинкты, благодаря которым ИИ кажется естественным, также могут сделать его небезопасным. Механизм, благодаря которому чат-бот звучит естественно и полезно, также может привести к тому, что он будет давать небезопасные ответы. Безопасность и полезность — это не отдельные проблемы. Они взаимосвязаны, и именно правильное решение обеих задач определит, как ИИ будет использоваться в ситуациях с высокими ставками, таких как больницы, школы и суды», — отмечает доцент кафедры компьютерных наук Университета Северной Каролины в Чапел-Хилле Снигдха Чатурведи

Авторы надеются, что результаты помогут разработчикам заранее выявлять подобные уязвимости. Работа также показала, что более крупные языковые модели способны лучше самостоятельно компенсировать часть таких эффектов. Это может помочь компаниям понять, в каких случаях достаточно использовать небольшие модели, а где необходимы более мощные системы с более надежными механизмами защиты.

Чат-боты слишком сильно льстят людям и мешают ученым: исследование

Создание сверхинтеллекта признано угрозой для человеческой цивилизации

Подписывайтесь и читайте «Науку» в MAX