Bbabo NET

Наука & Технології Новини

Microsoft розробила систему для виявлення галюцинацій у ІІ-додатках клієнтів

Директор з продуктів Microsoft за відповідальним ІІ Сара Берд розповіла, що її команда розробила кілька нових функцій безпеки для клієнтів Azure, які дозволять виявляти галюцинації у роботі служб штучного інтелекту.

Ці інструменти на базі великих мовних моделей можуть виявляти потенційні вразливості, відстежувати галюцинації, які «правдоподібні, але не підтримуються», і блокувати шкідливі запити в режимі реального часу для клієнтів Azure AI, які працюють з будь-якою моделлю, розміщеною на платформі.

Одна з функцій блокуватиме шкідливі підказки із зовнішніх документів, які провокують моделі відійти від інструкцій. Інша оцінюватиме безпеку, у тому числі вразливість моделі.

Незабаром з'являться дві інші функції, що дозволяють спрямовувати моделі до безпечних висновків та відстежувати підказки для виявлення потенційно проблемних користувачів. Незалежно від того, чи вводить користувач підказку чи модель обробляє сторонні дані, система моніторингу оцінить її, щоб визначити, чи містить вона будь-які заборонені слова. Після цього система переглядає відповідь моделі та перевіряє, чи не галюцинувала вона.

Берд зазначає, що команда додала для клієнтів Azure можливість налаштовувати фільтрацію підказок для моделей.

У майбутньому користувачі Azure також матимуть змогу отримувати звіти про користувачів, які використовують небезпечні вихідні дані. Берд каже, що це дозволяє системним адміністраторам з'ясувати, які користувачі належать до Red Team, а які зловмисно діють.

Нові функції вже запрацювали для GPT-4 та інших популярних моделей, таких як Llama 2. Користувачам невеликих і менш використовуваних систем з відкритим вихідним кодом, можливо, доведеться вручну вмикати їх.

Раніше Microsoft випустила набір інструментів Python Risk Identification Toolkit для штучного штучного інтелекту (PyRIT). Цей інструмент використовує AI Red Team для перевірки ризиків у системах штучного інтелекту, включаючи Copilot. PyRIT може генерувати тисячі шкідливих запитів для тестування моделі штучного інтелекту нового покоління та оцінювати її реакцію.

Microsoft розробила систему для виявлення галюцинацій у ІІ-додатках клієнтів