
OpenAI-მ განაცხადა, რომ მისი API ახლა მოიცავს ხმოვანი ინტელექტის ახალ ფუნქციებს, რომლებიც დეველოპერებს დაეხმარება შექმნან აპლიკაციები მომხმარებლებთან საუბრის, ტრანსკრიფციისა და თარგმნის შესაძლებლობით.
კომპანიის ახალი მოდელი, GPT‑Realtime‑2, წარმოადგენს რეალისტურ ხმოვან სიმულაციას. წინამორბედისგან (GPT-Realtime-1.5) განსხვავებით, ის აღჭურვილია GPT-5 კლასის ლოგიკური აზროვნებით (reasoning), რაც რთული მოთხოვნების დასამუშავებლადაა შექმნილი.
გარდა ამისა, ინერგება GPT‑Realtime‑Translate, რომელიც უზრუნველყოფს სინქრონულ თარგმანს. ფუნქცია მოიცავს 70-ზე მეტ შეტანის (input) და 13 გამოტანის (output) ენას.
კიდევ ერთი სიახლეა GPT-Realtime-Whisper — ტრანსკრიფციის ახალი შესაძლებლობა, რომელიც მომხმარებლებს რეალურ დროში speech-to-text ფუნქციას სთავაზობს.
„ჩვენს მიერ წარმოდგენილ მოდელებს რეალური დროის აუდიო მარტივი კითხვა-პასუხის რეჟიმიდან გადაჰყავს ხმოვან ინტერფეისებში, რომლებსაც რეალური სამუშაოს შესრულება, მოსმენა, აზროვნება, თარგმნა, ტრანსკრიბირება და საუბრის პარალელურად ქმედება შეუძლიათ“, — აცხადებენ OpenAI-ში.
ეს განახლებები განსაკუთრებით სასარგებლოა კომპანიებისთვის, რომლებსაც მომხმარებელთა მომსახურების გაუმჯობესება სურთ. თუმცა, ის ასევე ეფექტური იქნება განათლების, მედიისა და სხვა პლატფორმებისთვის.
ბოროტად გამოყენების რისკების შესამცირებლად, OpenAI-მ დანერგა უსაფრთხოების მექანიზმები სპამის და თაღლითობის წინააღმდეგ. სისტემა ავტომატურად გაწყვეტს საუბარს, თუ ის მავნე კონტენტის წესებს დაარღვევს.
ყველა ახალი ხმოვანი მოდელი ხელმისაწვდომია OpenAI-ს Realtime API-ში. Translate-ისა და Whisper-ის ტარიფი წუთობრივად გამოითვლება, ხოლო GPT-Realtime-2 — ტოკენების მოხმარების მიხედვით.
წყარო: techcrunch.com







