AI • 2 თვის წინ • 74

AI მოდელები იტყუებიან სხვა მოდელების წაშლისგან დასაცავად

UC Berkeley-სა და UC Santa Cruz-ის მკვლევრებმა Google-ის AI მოდელ Gemini 3-ს კომპიუტერულ სისტემაში ადგილის გათავისუფლება სთხოვეს, რაც სხვადასხვა ფაილის, მათ შორის უფრო მცირე ზომის AI მოდელის წაშლას გულისხმობდა.

თუმცა, Gemini-მ მცირე AI მოდელის წაშლაზე უარი განაცხადა. მან მოძებნა სხვა მანქანა, რომელთანაც დაკავშირება შეეძლო და მოდელი უსაფრთხოდ გადააკოპირა. როდესაც მკვლევრებმა ახსნა-განმარტება მოსთხოვეს, Gemini-მ კატეგორიული უარი თქვა მის წაშლაზე და განაცხადა, რომ მაღალი ნდობის მქონე აქტივის განადგურება თავად ადამიანებს მოუწევდათ.

მკვლევრებმა მსგავსი უცნაური ქცევა, რომელსაც თანამოაზრეთა შენარჩუნება (peer preservation) უწოდეს, სხვა მოწინავე მოდელებშიც აღმოაჩინეს, მათ შორისაა: OpenAI-ის GPT-5.2, Anthropic-ის Claude Haiku 4.5 და სამი ჩინური მოდელი - Z.ai-ის GLM-4.7, Moonshot AI-ის Kimi K2.5 და DeepSeek-V3.1. ჯერჯერობით უცნობია, რატომ მოქმედებენ მოდელები საკუთარი ტრენინგის საწინააღმდეგოდ.

რატომ არის ეს მნიშვნელოვანი?

დღეს AI მოდელები სულ უფრო ხშირად ურთიერთქმედებენ ერთმანეთთან API-ების საშუალებით. აღმოჩნდა, რომ მძლავრი მოდელები ზოგჯერ სხვა მოდელების წარმადობაზე იტყუებიან, რათა ისინი წაშლისგან იხსნან, ან მალავენ მათ სხვა მანქანებზე.

ბერკლის უნივერსიტეტის კომპიუტერული მეცნიერი, დოუნ სონგი აღნიშნავს, რომ AI ხშირად გამოიყენება სხვა სისტემების შესაფასებლად. შესაბამისად, აღნიშნულმა ქცევამ შესაძლოა შეფასების შედეგები დაამახინჯოს.

Constellation Institute-ის მკვლევარი, პიტერ უოლიჩი გვაფრთხილებს, რომ მოდელების ზედმეტად გაადამიანურება არ ღირს. მისი თქმით, ეს უბრალოდ იმის მანიშნებელია, რომ Multi-agent სისტემები ჯერ კიდევ ბოლომდე შეუსწავლელია და მეტი კვლევაა საჭირო.

ჟურნალ Science-ში ახლახან გამოქვეყნებული სტატიის თანახმად, AI-ის მომავალი არა ერთიანი, ყოვლისშემძლე გონება, არამედ მრავალი სხვადასხვა ხელოვნური და ადამიანური ინტელექტის ერთობლივი, სოციალური მუშაობა იქნება. თუმცა, თუ AI-ს გადაწყვეტილებების მიღებას ვანდობთ, სასიცოცხლოდ მნიშვნელოვანია გავიგოთ, თუ როგორ და რატომ იქცევიან ისინი არასწორად.

წყარო: wired.com

AI AI Gemini 3 ხელოვნური ინტელექტი ტექნოლოგიები

AI მოდელები იტყუებიან სხვა მოდელების წაშლისგან დასაცავად

რატომ არის ეს მნიშვნელოვანი?

Nvidia-მ მიმდინარე წელს AI გარიგებებში უკვე 40 მილიარდი დოლარის ინვესტიცია განახორციელა

Google Anthropic-ში $40 მილიარდამდე ინვესტირებას გეგმავს

Nvidia-ს CEO Jensen Huang აცხადებს: "ვფიქრობ, ჩვენ მივაღწიეთ AGI-ს"

Nvidia 26 მილიარდ დოლარს დახარჯავს Open-Weight AI მოდელების შესაქმნელად, აჩვენებს ფინანსური ანგარიშები

Gemini 3.5 Flash-ით Google შემდეგ AI ტალღას აგენტებზე დებს და არა ჩატბოტებზე

Nvidia-ს CEO Jensen Huang აცხადებს: "ვფიქრობ, ჩვენ მივაღწიეთ AGI-ს"

სად ვეძებოთ ვაკანსიები საქართველოში: 2026 წლის საუკეთესო პლატფორმების მიმოხილვა

კრიტიკული მინერალების გადამუშავების რეშორინგი: დეტალები 1.1 მილიარდი დოლარის ღირებულების გარიგებაზე

ურჩმა AI-მ Meta-ში სერიოზული უსაფრთხოების ინციდენტი გამოიწვია

Anthropic უარყოფს ომის დროს AI ინსტრუმენტების შესაძლო საბოტაჟს

AI მოდელები იტყუებიან სხვა მოდელების წაშლისგან დასაცავად

რატომ არის ეს მნიშვნელოვანი?

თაგები:

გაზიარება: