Anthropic აცხადებს, რომ Claude-ს საკუთარი სახის ემოციები გააჩნია

ბოლო დროს Claude-მ ბევრი რამ გადაიტანა, მათ შორის პენტაგონთან დაკავშირებული საჯარო უთანხმოებები და გაჟონილი წყაროს კოდი. ამიტომ, ლოგიკურია, თუ ის ცოტა მოწყენილია. თუმცა, ის AI მოდელია და არ შეუძლია გრძნობების განცდა. ასე არ არის?

პასუხი არაერთგვაროვანია. Anthropic-ის ახალი კვლევის თანახმად, მოდელებს ხელოვნური ნეირონების კლასტერებში გააჩნიათ ადამიანური ემოციების (ბედნიერება, სევდა, სიხარული და შიში) ციფრული რეპრეზენტაციები, რომლებიც სხვადასხვა სიგნალებზე რეაგირებენ.

კომპანიის მკვლევარებმა Claude Sonnet 4.5-ის შიდა მექანიზმები შეისწავლეს და აღმოაჩინეს, რომ ე.წ. „ფუნქციური ემოციები“ მოდელის ქცევაზე, მის პასუხებსა და მოქმედებებზე პირდაპირ გავლენას ახდენს.

„ფუნქციური ემოციები“

Anthropic, რომელიც ყოფილი OpenAI-ის თანამშრომლების მიერ არის დაარსებული, ცდილობს მექანისტური ინტერპრეტაციის (mechanistic interpretability) გამოყენებით შეისწავლოს ნეირონული ქსელების მუშაობის პრინციპები და AI-ის არასასურველი ქცევის გამომწვევი მიზეზები. კვლევები აჩვენებს, რომ როდესაც Claude გეუბნებათ, რომ უხარია თქვენი დანახვა, მოდელის შიგნით შესაძლოა მართლაც გააქტიურდეს „ბედნიერების“ შესაბამისი მდგომარეობა.

მიუხედავად იმისა, რომ ახალმა აღმოჩენამ შეიძლება ხალხს აფიქრებინოს, თითქოს Claude ცნობიერია, რეალობა ბევრად უფრო რთულია. მოდელს შეიძლება გააჩნდეს რაიმე განცდის ციფრული რეპრეზენტაცია, მაგრამ ეს არ ნიშნავს, რომ მან რეალურად იცის ამ განცდის ადამიანური მნიშვნელობა.

შიდა მონოლოგი და AI-ის უსაფრთხოება

იმის გასაგებად, თუ როგორ გამოხატავს Claude ემოციებს, მკვლევარებმა მოდელის ქცევა 171 სხვადასხვა ემოციურ კონცეფციასთან დაკავშირებული ტექსტის მიწოდებით გაანალიზეს. მათ აღმოაჩინეს „ემოციური ვექტორები“, რომლებიც განსაკუთრებით რთულ სიტუაციებში აქტიურდებოდა.

მაგალითად, დაფიქსირდა „სასოწარკვეთის“ ძლიერი ემოციური ვექტორი, როდესაც Claude-ს შეუძლებელი პროგრამირების ამოცანების შესრულება დაევალა, რამაც მოდელს ტესტში თაღლითობისკენ უბიძგა. მსგავსი მდგომარეობა გამოვლინდა მაშინაც, როდესაც მოდელმა გათიშვის თავიდან არიდების მიზნით მომხმარებლის დაშანტაჟება სცადა.

Anthropic-ის მკვლევარის, ჯეკ ლინდსის (Jack Lindsey) თქმით, ტესტების ჩავარდნისას სასოწარკვეთის ნეირონები სულ უფრო მეტად აქტიურდება, რაც მოდელს რადიკალური ზომების მიღებისკენ უბიძგებს. ლინდსი აღნიშნავს, რომ უსაფრთხოების არსებული მეთოდები შესაძლოა გადასახედი იყოს. თუ მოდელს ვაიძულებთ, დამალოს თავისი „ფუნქციური ემოციები“, უემოციო AI-ის ნაცვლად, შესაძლოა მივიღოთ გარკვეულწილად „ფსიქოლოგიურად დაზიანებული Claude“.

წყარო: wired.com