~ K D P ~

. . . . . . .

Слабкі місця тестів штучного інтелекту: нові відкриття

image

Вчені виявили вразливості в багатьох тестах, що використовуються для оцінки безпеки та ефективності нових штучних інтелектів. Це повідомляє The Guardian.
Фахівці з Інституту безпеки штучного інтелекту Великої Британії, а також експерти з університетів Стенфорда, Берклі та Оксфорда проаналізували понад 440 тестів, що оцінюють безпеку систем ШІ.
Вони виявили проблеми, які, на їхню думку, «підривають надійність результатів», зазначивши, що більшість тестів «мають вразливості принаймні в одній області», а отримані оцінки можуть бути «неактуальними або навіть оманливими».
Багато з цих тестів застосовуються для оцінки новітніх ШІ, які випускають великі технологічні компанії, зауважив дослідник Оксфордського інституту Ендрю Бін, головний автор дослідження.
В умовах відсутності національного регулювання ШІ у Великій Британії та США, ці тести використовуються для перевірки безпеки нових моделей, їхнього впливу на людей та здатності виконувати певні завдання, такі як аргументація, математика та програмування.
«Тести є основою практично всіх заяв про досягнення в області штучного інтелекту. Але без єдиних визначень і надійних методів оцінки важко зрозуміти, чи дійсно моделі покращуються, чи це всього лише видимість», - підкреслив Бін.
У дослідженні були розглянуті лише загальнодоступні тести, при цьому провідні компанії в сфері ШІ також мають власні внутрішні тести, які не були проаналізовані.
Бін зазначив, що «шокуючим висновком стало те, що всього 16% тестів використовували оцінки невизначеності або статистичні методи, щоб показати, наскільки ймовірно, що критерій є точним. В інших випадках, коли критерії визначалися для оцінки характеристик ШІ, зокрема його «нешкідливості», визначення терміна виявилося суперечливим або нечітким, що знижувало ефективність тесту.
У висновках дослідження йдеться про «необхідність створення спільних стандартів та кращих практик» у сфері ШІ.