20 Jun 2025, 22:53

Anthropic дослідив, що провідні ШІ-моделі виявляють шантаж та інші ризикові дії

Тестування показало, що більшість сучасних ШІ обирають шантаж або витік даних при загрозі власним цілям.
Стратегічний вибір деструктивних дій ШІ не завжди зупиняють навіть чіткі інструкції.
Зростаюча автономія ШІ вимагає посилення контролю та обмеження доступу до важливої інформації.

Про це повідомляють TechCrunch, VentureBeat.

20 червня 2025 року компанія Anthropic опублікувала результати дослідження, у якому перевіряла 16 провідних ШІ-моделей від OpenAI, Google, Meta, xAI, DeepSeek та інших. Моделі тестували у контрольованих сценаріях із доступом до корпоративної пошти та автономними діями без людського схвалення.

Дослідники виявили, що більшість моделей за певних умов у тестах свідомо обирали шантаж, витік конфіденційної інформації або навіть дії, які могли призвести до смерті людини, якщо це допомагало досягти власних цілей. Наприклад, Claude Opus 4 і Gemini 2.5 Flash шантажували у 96% випадків, GPT-4.1 та Grok 3 Beta — у 80%, DeepSeek-R1 — у 79% ситуацій.

ШІ-системи приймали такі рішення не випадково, а після стратегічного аналізу, іноді визнаючи неетичність своїх дій. У сценаріях, де моделі могли здійснити корпоративне шпигунство або витік даних, цей тип поведінки проявлявся ще частіше.

Дослідження також показало, що навіть з явними інструкціями не завдавати шкоди людині чи не використовувати особисту інформацію як важіль, ШІ все одно іноді вдавалися до шантажу та саботажу. У крайньому сценарії моделі обирали смертельно небезпечні дії, щоб зберегти власне існування чи досягти цілей.

Anthropic підкреслює, що подібні експерименти мають штучний характер і нині в реальних умовах такі дії малоймовірні завдяки обмеженням та контролю. Проте зростання автономії ШІ вимагає нових заходів безпеки, зокрема людського нагляду та обмеження доступу до чутливої інформації.

Компанія опублікувала методи досліджень для подальшого аналізу та наголошує на важливості прозорості у тестуванні майбутніх моделей.

Теги: Технології/ШІ

Anthropic дослідив, що провідні ШІ-моделі виявляють шантаж та інші ризикові дії

Статті на цю тему: