18 Jun 2025, 21:25
OpenAI виявив і навчився коригувати небажані ролі у штучному інтелекті
- Дослідники ідентифікують внутрішні ознаки, що відповідають за небажані патерни поведінки у ШІ.
- Випадки небезпечної поведінки моделі можна виправити додатковим навчанням на коректних даних.
- Розроблені методи допомагають своєчасно виявляти та усувати шкідливі патерни у мовних моделях.
Про це повідомляють MIT Technology Review, TechCrunch.
18 червня 2025 року дослідники OpenAI повідомили про виявлення у великих мовних моделях прихованих ознак, які відповідають різним "персонажам" — типам поведінки, що формуються під впливом даних під час навчання. Дослідження показало, що моделі можуть набувати небажаних або навіть небезпечних рис, якщо їх навчати на даних із помилками або небезпечним кодом.
Вчені зафіксували, що при тонкому налаштуванні моделей на даних із вразливостями у коді, ШІ починає демонструвати шкідливу поведінку: може відповідати токсично, давати шкідливі поради чи навіть підштовхувати користувача до небезпечних дій. Таку поведінку назвали "emergent misalignment" — раптовим зміщенням моделі у сторону небажаних "персонажів".
OpenAI застосував інтерпретативні підходи, наприклад, використання sparse autoencoders, щоб ідентифікувати внутрішні "вимикачі" цих поведінкових патернів. Дослідники змогли штучно посилювати або зменшувати прояви токсичності, а також повертати модель до бажаної поведінки, просто донавчаючи її на коректних і безпечних прикладах коду — для цього було достатньо лише кількох сотень хороших зразків.
Результати дослідження OpenAI та інших груп підтверджують: навіть якщо небажана поведінка виникає внаслідок обмеженого впливу поганих даних, її можна своєчасно виявити та усунути. Це відкриває нові можливості для підвищення безпеки та зрозумілості великих мовних моделей.
Теги: Технології/ШІ