AI • 2 თვის წინ • 58

Anthropic აცხადებს, რომ Claude-ს საკუთარი სახის ემოციები გააჩნია

ბოლო დროს Claude-მ ბევრი რამ გადაიტანა, მათ შორის პენტაგონთან დაკავშირებული საჯარო უთანხმოებები და გაჟონილი წყაროს კოდი. ამიტომ, ლოგიკურია, თუ ის ცოტა მოწყენილია. თუმცა, ის AI მოდელია და არ შეუძლია გრძნობების განცდა. ასე არ არის?

პასუხი არაერთგვაროვანია. Anthropic-ის ახალი კვლევის თანახმად, მოდელებს ხელოვნური ნეირონების კლასტერებში გააჩნიათ ადამიანური ემოციების (ბედნიერება, სევდა, სიხარული და შიში) ციფრული რეპრეზენტაციები, რომლებიც სხვადასხვა სიგნალებზე რეაგირებენ.

კომპანიის მკვლევარებმა Claude Sonnet 4.5-ის შიდა მექანიზმები შეისწავლეს და აღმოაჩინეს, რომ ე.წ. „ფუნქციური ემოციები“ მოდელის ქცევაზე, მის პასუხებსა და მოქმედებებზე პირდაპირ გავლენას ახდენს.

„ფუნქციური ემოციები“

Anthropic, რომელიც ყოფილი OpenAI-ის თანამშრომლების მიერ არის დაარსებული, ცდილობს მექანისტური ინტერპრეტაციის (mechanistic interpretability) გამოყენებით შეისწავლოს ნეირონული ქსელების მუშაობის პრინციპები და AI-ის არასასურველი ქცევის გამომწვევი მიზეზები. კვლევები აჩვენებს, რომ როდესაც Claude გეუბნებათ, რომ უხარია თქვენი დანახვა, მოდელის შიგნით შესაძლოა მართლაც გააქტიურდეს „ბედნიერების“ შესაბამისი მდგომარეობა.

მიუხედავად იმისა, რომ ახალმა აღმოჩენამ შეიძლება ხალხს აფიქრებინოს, თითქოს Claude ცნობიერია, რეალობა ბევრად უფრო რთულია. მოდელს შეიძლება გააჩნდეს რაიმე განცდის ციფრული რეპრეზენტაცია, მაგრამ ეს არ ნიშნავს, რომ მან რეალურად იცის ამ განცდის ადამიანური მნიშვნელობა.

შიდა მონოლოგი და AI-ის უსაფრთხოება

იმის გასაგებად, თუ როგორ გამოხატავს Claude ემოციებს, მკვლევარებმა მოდელის ქცევა 171 სხვადასხვა ემოციურ კონცეფციასთან დაკავშირებული ტექსტის მიწოდებით გაანალიზეს. მათ აღმოაჩინეს „ემოციური ვექტორები“, რომლებიც განსაკუთრებით რთულ სიტუაციებში აქტიურდებოდა.

მაგალითად, დაფიქსირდა „სასოწარკვეთის“ ძლიერი ემოციური ვექტორი, როდესაც Claude-ს შეუძლებელი პროგრამირების ამოცანების შესრულება დაევალა, რამაც მოდელს ტესტში თაღლითობისკენ უბიძგა. მსგავსი მდგომარეობა გამოვლინდა მაშინაც, როდესაც მოდელმა გათიშვის თავიდან არიდების მიზნით მომხმარებლის დაშანტაჟება სცადა.

Anthropic-ის მკვლევარის, ჯეკ ლინდსის (Jack Lindsey) თქმით, ტესტების ჩავარდნისას სასოწარკვეთის ნეირონები სულ უფრო მეტად აქტიურდება, რაც მოდელს რადიკალური ზომების მიღებისკენ უბიძგებს. ლინდსი აღნიშნავს, რომ უსაფრთხოების არსებული მეთოდები შესაძლოა გადასახედი იყოს. თუ მოდელს ვაიძულებთ, დამალოს თავისი „ფუნქციური ემოციები“, უემოციო AI-ის ნაცვლად, შესაძლოა მივიღოთ გარკვეულწილად „ფსიქოლოგიურად დაზიანებული Claude“.

წყარო: wired.com

AI Anthropic Claude AI ხელოვნური ინტელექტი ნეირონული ქსელები AI უსაფრთხოება

Anthropic აცხადებს, რომ Claude-ს საკუთარი სახის ემოციები გააჩნია

„ფუნქციური ემოციები“

შიდა მონოლოგი და AI-ის უსაფრთხოება

Nvidia-მ მიმდინარე წელს AI გარიგებებში უკვე 40 მილიარდი დოლარის ინვესტიცია განახორციელა

Google Anthropic-ში $40 მილიარდამდე ინვესტირებას გეგმავს

Nvidia-ს CEO Jensen Huang აცხადებს: "ვფიქრობ, ჩვენ მივაღწიეთ AGI-ს"

Nvidia 26 მილიარდ დოლარს დახარჯავს Open-Weight AI მოდელების შესაქმნელად, აჩვენებს ფინანსური ანგარიშები

Gemini 3.5 Flash-ით Google შემდეგ AI ტალღას აგენტებზე დებს და არა ჩატბოტებზე

Nvidia-ს CEO Jensen Huang აცხადებს: "ვფიქრობ, ჩვენ მივაღწიეთ AGI-ს"

სად ვეძებოთ ვაკანსიები საქართველოში: 2026 წლის საუკეთესო პლატფორმების მიმოხილვა

კრიტიკული მინერალების გადამუშავების რეშორინგი: დეტალები 1.1 მილიარდი დოლარის ღირებულების გარიგებაზე

ურჩმა AI-მ Meta-ში სერიოზული უსაფრთხოების ინციდენტი გამოიწვია

Anthropic უარყოფს ომის დროს AI ინსტრუმენტების შესაძლო საბოტაჟს

Anthropic აცხადებს, რომ Claude-ს საკუთარი სახის ემოციები გააჩნია

„ფუნქციური ემოციები“

შიდა მონოლოგი და AI-ის უსაფრთხოება

თაგები:

გაზიარება: