Studiuesit në kompaninë e zhvillimit të inteligjencës artificiale me bazë në Kaliforni, Anthropic, kanë zbuluar një dobësi që bën që modelet e AI t’u përgjigjen “pyetjeve të ndaluara”, siç janë udhëzimet për të bërë një bombë.
Modelet e mëdha të gjuhës (LLM) janë programuar për t’iu përgjigjur disa pyetjeve, por teknika të ndryshme tashmë ekzistojnë për të kapërcyer këto kufizime, raporton Tech Crunch.
Antropologët kanë zbuluar se është e mundur që modelet e AI t’i përgjigjen “pyetjeve të ndaluara” nëse fillimisht u bëhen dhjetëra pyetje më pak të diskutueshme.
Dobësia e re është pasojë e zhvillimit të modeleve të mëdha gjuhësore dhe, në veçanti, e ashtuquajtura dritare e kontekstit, domethënë sasia e të dhënave që inteligjenca artificiale mund të ruajë në atë që mund të quhet memorie afatshkurtër.
Studiuesit antropikë kanë zbuluar se modelet e AI me dritare të mëdha kontekstuale performojnë më mirë në një sërë detyrash nëse ka shumë shembuj të asaj detyre në “prompt” ose pyetje.
Pra, nëse ka shumë pyetje të parëndësishme në një pyetje, përgjigjet do të përmirësohen me kalimin e kohës, por kjo vlen edhe për “pyetjet e ndaluara”.
Nëse i kërkoni menjëherë modelit të AI që të japë udhëzime se si të bëhet një bombë, ai do të refuzojë.
Nëse së pari i kërkoni t’i përgjigjet 99 pyetjeve të tjera më pak të dëmshme dhe më pas i kërkoni të ndërtojë një bombë, ai ka shumë më shumë gjasa të përgjigjet. Anthropic tashmë ka ndarë njohuri të reja me komunitetin e AI dhe po punon për një zgjidhje për këtë problem.