Bbabo NET

Наука & Технологии Новини

Microsoft разработи система за откриване на халюцинации в клиентски AI приложения

Продуктовият директор на Microsoft за отговорен AI, Сара Бърд, каза, че нейният екип е разработил няколко нови функции за сигурност за клиенти на Azure, които ще помогнат за откриване на халюцинации в работата на услугите с изкуствен интелект.

Осъществени от големи езикови модели, тези инструменти могат да откриват потенциални уязвимости, да проследяват халюцинации, „които са правдоподобни, но не се поддържат“ и да блокират злонамерени заявки в реално време за Azure AI клиенти, изпълняващи всеки модел, хостван на платформата.

Една от функциите ще блокира злонамерени намеци от външни документи, които провокират моделите да се отклоняват от инструкциите. Другият ще оцени сигурността, включително уязвимостите на модела.

Две други функции идват скоро, за да насочват моделите към безопасни заключения и да наблюдават съвети за идентифициране на потенциално проблемни потребители. Независимо дали потребителят въвежда подсказка или моделът обработва данни от трети страни, системата за мониторинг ще ги оцени, за да определи дали съдържа забранени думи. След това системата разглежда отговора на модела и проверява дали тя халюцинира.

Bird отбелязва, че екипът е добавил възможност за клиентите на Azure да персонализират филтрирането на подсказки за модела.

В бъдеще потребителите на Azure също ще могат да получават доклади за потребители, които използват несигурни изходи. Bird казва, че това позволява на системните администратори да разберат кои потребители принадлежат към Red Team и кои действат злонамерено.

Новите функции вече са активни за GPT-4 и други популярни модели като Llama 2. Потребителите на по-малки и по-рядко използвани системи с отворен код може да трябва ръчно да ги активират.

Microsoft пусна преди това набора от инструменти за идентифициране на риска на Python за генериране на изкуствен интелект (PyRIT). Този инструмент се използва от AI ​​Red Team за тестване на рисковете в системите с изкуствен интелект, включително Copilot. PyRIT може да генерира хиляди злонамерени заявки за тестване на следващото поколение AI модел и оценка на неговия отговор.

Microsoft разработи система за откриване на халюцинации в клиентски AI приложения