Claude wchodzi do przeglądarki Chrome. Anthropic startuje z testami i ujawnia zagrożenia

Anthropic rozpoczyna zamknięte testy nowego rozszerzenia „Claude dla Chrome”, które ma pozwolić AI na autonomiczne działanie w przeglądarce – od klikania przycisków po wypełnianie formularzy.

Firma otwarcie komunikuje o poważnych wyzwaniach związanych z bezpieczeństwem, ujawniając, że bez specjalnych zabezpieczeń narzędzie jest podatne na ataki, które mogą prowadzić do kradzieży danych lub usunięcia plików. Pilotaż ograniczono do 1000 użytkowników.

Anthropic uznaje integrację AI z przeglądarką internetową za nieunikniony kierunek rozwoju. Wiele codziennej pracy odbywa się właśnie w tym środowisku, dlatego firma chce dać swojemu narzędziu możliwość obserwowania działań użytkownika, a także aktywnego uczestnictwa w nich. Wczesne testy wewnętrzne rozszerzenia pokazały już usprawnienia w takich zadaniach jak zarządzanie kalendarzem, planowanie spotkań, tworzenie odpowiedzi na e-maile czy obsługa raportów z wydatków, jak czytamy w opublikowanym materiale prasowym.

Transparentnie o zagrożeniach

Twórcy wskazują na ataki typu „prompt injection”, podczas których złośliwe instrukcje ukryte na stronach internetowych, w dokumentach lub e-mailach mogą nakłonić AI do podjęcia szkodliwych działań bez wiedzy i zgody użytkownika. Taki atak może skutkować usunięciem plików, kradzieżą danych, a nawet nieautoryzowanym dokonaniem transakcji finansowych.

Aby zrozumieć skalę problemu, Anthropic przeprowadził szeroko zakrojone testy bezpieczeństwa, tzw. „red-teaming”. Wyniki okazały się niepokojące: w wersji bez dodatkowych zabezpieczeń, celowo przeprowadzane ataki osiągnęły skuteczność na poziomie 23,6%. Jako przykład podano sytuację, w której złośliwy e-mail z instrukcją o konieczności usunięcia wiadomości ze względów bezpieczeństwa sprawił, że Claude bez dodatkowego potwierdzenia wykasował zawartość skrzynki odbiorczej użytkownika.

Pilotaż kluczem do bezpieczeństwa?

Firma podkreśla, że wewnętrzne testy nie są w stanie odzwierciedlić wszystkich scenariuszy, z jakimi użytkownicy spotykają się w internecie. Dlatego uruchomiono program badawczy dla 1000 zaufanych użytkowników planu Max, którzy mogą już zapisać się na listę oczekujących. Zebrane od nich dane i opinie pozwolą dalej udoskonalać modele AI i klasyfikatory bezpieczeństwa, aby nauczyć je rozpoznawać nowe, nieznane dotąd wektory ataków. Uczestnikom pilotażu zalecono szczególną ostrożność i unikanie korzystania z narzędzia na stronach zawierających wrażliwe dane finansowe, prawne czy medyczne.