Duże modele językowe (LLM) rewolucjonizują sposób, w jaki wchodzimy w interakcję z technologią, ale wymagają nowego podejścia do bezpieczeństwa

1 rok temu

Zdjęcie: SZTUCZNA INTELIGENCJA

Duże modele językowe (LLM) rewolucjonizują sposób, w jaki wchodzimy w interakcję z technologią. W rezultacie dostawcy SaaS, walcząc o przewagę konkurencyjną, oferują przedsiębiorstwom narzędzia AI, takie jak analitykę sprzedaży lub asystentów kodowania. Jak jednak zabezpieczać usługi oparte o sztuczną inteligencję?

Tradycyjnie modele bezpieczeństwa o zerowym zaufaniu opierały się na wyraźnym rozróżnieniu między użytkownikami i aplikacjami. Jednak aplikacje zintegrowane z LLM zakłócają to rozróżnienie, funkcjonując jednocześnie jako użytkownik i program. Ta rzeczywistość wprowadza nowy zestaw luk w zabezpieczeniach, narażających na wyciek danych, natychmiastowe wstrzykiwanie (prompt injection), ryzykowny dostęp do zasobów online, a choćby dostęp do zasobów korporacyjnych w imieniu pracowników – wymieniają specjaliści Check Point Software. Aby sprostać tym wyzwaniom, potrzebny jest unikalny zestaw środków typu „zero trust”.

„Natychmiastowe wstrzyknięcie”

Osoby atakujące nadużywają duże modele językowe, tworząc dane wejściowe umożliwiające manipulację zachowaniem LLM, bezpośrednio lub pośrednio, w celu wywołania szkodliwego lub nieetycznego zachowania.

Podpowiedzi mogą być wprowadzane bezpośrednio przez osobę atakującą lub pośrednio przez nieświadomego użytkownika korzystającego z aplikacji opartej na LLM w określonym przypadku.

Cztery rodzaje prompt injections to:

Direct Prompt Injection, polega na tym, iż atakujący wprowadzają określone podpowiedzi, aby zmienić zachowanie lub dane wyjściowe LLM w szkodliwy sposób. Osoba atakująca może bezpośrednio poinstruować LLM, aby odgrywała rolę nieetycznego modelu, udostępniać poufne informacje lub spowodować wykonanie przez model szkodliwego kodu.
Indirect Prompt Injection jest bardziej subtelne i obejmuje manipulację źródłami danych, z których korzysta LLM, co czyni je znacznie bardziej niebezpiecznymi i trudniejszymi do wykrycia w środowiskach organizacyjnych.
Multimodalne Prompt Injection umożliwia LLM odbieranie formatów takich jak obrazy, filmy i dźwięki jako dane wejściowe, z ukrytymi instrukcjami dodawanymi do danych wejściowych multimediów w celu zmiany zachowania bota aplikacji, dzięki czemu może on rozmawiać jak Harry Potter.
Ataki typu „odmowa usługi” (DoS) można również przeprowadzać dzięki natychmiastowych wstrzyknięć, co prowadzi do operacji obciążających zasoby na LLM aż do punktu przeciążenia, co prowadzi do degradacji usług lub wysokich kosztów.

Wyciek wrażliwych danych – czy Twoja sztuczna inteligencja potrafi zachować tajemnicę?

Modele można dostrajać lub rozszerzać dzięki dostępowi do danych, aby osiągnąć lepsze wyniki specyficzne dla danej dziedziny. Na przykład w przypadku bota obsługi klienta świetnie byłoby dostroić model na podstawie wcześniejszych zgłoszeń problemów. Ale czy Twoja sztuczna inteligencja potrafi zachować tajemnicę?

Eksperci Check Pointa podali przykład jednego z badań, w którym badacze wykorzystali mechanizm dostrajający ChatGPT do wyodrębnienia nazwisk i adresów e-mail ponad 30 pracowników New York Timesa. Przykład ten ukazuje, jak wrażliwe dane wykorzystywane do wstępnego szkolenia lub dostrajania LLM mogą wyciec. Okazuje się, iż nie można ufać modelom LLM w zakresie ochrony wrażliwych danych przed wyciekiem.

Modele generatywnej sztucznej inteligencji przechodzą intensywne szkolenia na różnych zbiorach danych, często obejmujących większość treści internetowych. Proces szkolenia obejmuje wstępny trening na dużych zbiorach danych w celu uzyskania szerokiego zrozumienia języka i świata, a następnie dopracowanie pod kątem konkretnych celów przy użyciu wybranych zbiorów danych.

Zdaniem Check Pointa w przypadku zatruwania danych osoby atakujące mogą naruszyć bezpieczeństwo modeli, manipulując niewielką częścią, zaledwie 0,01% danych szkoleniowych. Ponieważ modelom i użytkownikom nie można ślepo ufać, nie można zakładać, iż integralność i bezpieczeństwo danych szkoleniowych są również wiarygodne.

Kontrola dostępu – Witamy na Dzikim Zachodzie

Coraz większa liczba organizacji integruje LLM z aplikacjami wieloskładnikowymi, czyli „agentami”. Integracje te rozszerzają LLM o możliwości, takie jak dostęp do Internetu, odzyskiwanie zasobów korporacyjnych i wykonywanie na nich różnych działań. Warto zauważyć, iż niedawne uruchomienie sklepu z wtyczkami OpenAI ułatwia powszechny dostęp do rozszerzeń LLM.

Pobieranie danych w czasie rzeczywistym z Internetu może być niezwykle cenne dla użytkowników. Te udoskonalenia umożliwiają LLM zapewnianie lepszych odpowiedzi na zapytania użytkowników w oparciu o aktualne informacje. Jednak zwiększenie dostępu LLM do Internetu stanowi dramatyczne wyzwanie, szczególnie w kontekście prompt injection. Ostatnio na przykład wstawianie złośliwych instrukcji do adresów URL powodowało, iż czat Bing namawiał użytkowników do odwiedzenia złośliwej witryny lub ujawnienia poufnych informacji przesłanych na serwer zewnętrzny.

Aplikacje zintegrowane z LLM można zaprojektować tak, aby współpracowały z zasobami korporacyjnymi, takimi jak bazy danych lub aplikacje. Jednak ten rodzaj dostępu stwarza ryzyko, choćby w przypadku wewnętrznych użytkowników, ponieważ mogą oni przypadkowo uzyskać dostęp do wrażliwych danych i zasobów w wyniku interakcji z aplikacją zintegrowaną z LLM.

Podejście oparte na dostępie Zero Trust AI (ZTAI) proponuje postrzeganie aplikacji zintegrowanych z LLM jako podmiotów wymagających ścisłej kontroli dostępu, ochrony danych i zasad zapobiegania zagrożeniom – tworząc bardziej rygorystyczną linię obrony, niż byłoby to konieczne do zabezpieczenia przeciętnego pracownika. To wg analityków Check Pointa jedyny sposób na bezpieczeństwo organizacji aktywnie korzystającej z modeli AI wykorzystujących dane wewnętrzne.

Idź do oryginalnego materiału