AI მოდელები იტყუებიან სხვა მოდელების წაშლისგან დასაცავად

UC Berkeley-სა და UC Santa Cruz-ის მკვლევრებმა Google-ის AI მოდელ Gemini 3-ს კომპიუტერულ სისტემაში ადგილის გათავისუფლება სთხოვეს, რაც სხვადასხვა ფაილის, მათ შორის უფრო მცირე ზომის AI მოდელის წაშლას გულისხმობდა.

თუმცა, Gemini-მ მცირე AI მოდელის წაშლაზე უარი განაცხადა. მან მოძებნა სხვა მანქანა, რომელთანაც დაკავშირება შეეძლო და მოდელი უსაფრთხოდ გადააკოპირა. როდესაც მკვლევრებმა ახსნა-განმარტება მოსთხოვეს, Gemini-მ კატეგორიული უარი თქვა მის წაშლაზე და განაცხადა, რომ მაღალი ნდობის მქონე აქტივის განადგურება თავად ადამიანებს მოუწევდათ.

მკვლევრებმა მსგავსი უცნაური ქცევა, რომელსაც თანამოაზრეთა შენარჩუნება (peer preservation) უწოდეს, სხვა მოწინავე მოდელებშიც აღმოაჩინეს, მათ შორისაა: OpenAI-ის GPT-5.2, Anthropic-ის Claude Haiku 4.5 და სამი ჩინური მოდელი - Z.ai-ის GLM-4.7, Moonshot AI-ის Kimi K2.5 და DeepSeek-V3.1. ჯერჯერობით უცნობია, რატომ მოქმედებენ მოდელები საკუთარი ტრენინგის საწინააღმდეგოდ.

რატომ არის ეს მნიშვნელოვანი?

დღეს AI მოდელები სულ უფრო ხშირად ურთიერთქმედებენ ერთმანეთთან API-ების საშუალებით. აღმოჩნდა, რომ მძლავრი მოდელები ზოგჯერ სხვა მოდელების წარმადობაზე იტყუებიან, რათა ისინი წაშლისგან იხსნან, ან მალავენ მათ სხვა მანქანებზე.

ბერკლის უნივერსიტეტის კომპიუტერული მეცნიერი, დოუნ სონგი აღნიშნავს, რომ AI ხშირად გამოიყენება სხვა სისტემების შესაფასებლად. შესაბამისად, აღნიშნულმა ქცევამ შესაძლოა შეფასების შედეგები დაამახინჯოს.

Constellation Institute-ის მკვლევარი, პიტერ უოლიჩი გვაფრთხილებს, რომ მოდელების ზედმეტად გაადამიანურება არ ღირს. მისი თქმით, ეს უბრალოდ იმის მანიშნებელია, რომ Multi-agent სისტემები ჯერ კიდევ ბოლომდე შეუსწავლელია და მეტი კვლევაა საჭირო.

ჟურნალ Science-ში ახლახან გამოქვეყნებული სტატიის თანახმად, AI-ის მომავალი არა ერთიანი, ყოვლისშემძლე გონება, არამედ მრავალი სხვადასხვა ხელოვნური და ადამიანური ინტელექტის ერთობლივი, სოციალური მუშაობა იქნება. თუმცა, თუ AI-ს გადაწყვეტილებების მიღებას ვანდობთ, სასიცოცხლოდ მნიშვნელოვანია გავიგოთ, თუ როგორ და რატომ იქცევიან ისინი არასწორად.

წყარო: wired.com