Amazon şirkəti Nova Sonic adlı səsli süni zəka modelini təqdim edib

Amazon səsi emal edə və təbii səslənən nitq yarada bilən Nova Sonic adlı generativ süni zəka modelini təqdim edib. Sürət, nitqin tanınması və danışıq keyfiyyəti üzrə aparılan testlərdə Nova Sonic özünü OpenAI və Google-un qabaqcıl səs modelləri ilə müqayisədə rəqabətədavamlı model kimi göstərib. Nova Sonic - Amazon-un ChatGPT-nin səs rejimi kimi yeni səs əsaslı süni zəka modellərinə cavabıdır. Bu modellər əvvəlki Alexa versiyalarından fərqli olaraq daha təbii ünsiyyət formatları təklif edirlər. Son illərin texnoloji irəliləyişləri Alexa və Apple Siri kimi köhnə rəqəmsal köməkçiləri insanla qarşılıqlı əlaqədə daha təbii edən modellərə çevirməyə imkan verib. Nova Sonic modeli Amazon-un korporativ süni zəka tətbiqləri üçün təklif etdiyi Bedrock platforması vasitəsilə əlçatandır.

Model canlı yayım (streaming) API-ni dəstəkləyir. Amazon-un əlavə etdiyi məlumata görə, Nova Sonic-in işlədilməsi multimodal OpenAI GPT-4o ilə müqayisədə 80% daha ucuz başa gəlir və onun komponentləri artıq yenilənmiş Alexa+ versiyasında istifadə olunur. O, istifadəçi sorğularını müxtəlif API-lərə yönləndirmək baxımından rəqiblərini üstələyir - model bilir ki, nə zaman real vaxtda internetdən məlumat çıxarmalı, öz məlumat mənbəyini təhlil etməli və ya xarici tətbiqdə hər hansı bir əməliyyat yerinə yetirməlidir - və bunun üçün uyğun alətdən istifadə edir. İkitərəfli dialoq zamanı Nova Sonic danışmaq üçün “uyğun anı” gözləyir, qarşı tərəfin nitqindəki pauzaları və tərəddüdləri nəzərə alır.

O, həmçinin istifadəçinin danışığını mətn şəklində transkripsiya edir ki, bu da tərtibatçılar tərəfindən müxtəlif tətbiqlər üçün istifadə oluna bilər. Nitqin tanınması ilə bağlı tapşırıqlarda Nova Sonic digər səs əsaslı süni zəka modelləri ilə müqayisədə daha az səhvə yol verir, yəni istifadəçini nisbətən yaxşı anlayır - hətta istifadəçi mızıldanarsa, səhvlərlə danışarsa və ya səs-küylü mühitdə olsa belə. Nitqin müxtəlif dillərdə və dialektlərdə tanınma keyfiyyətini qiymətləndirməyə imkan verən Multilingual LibriSpeech adlı nümunəvi testdə Nova Sonic orta hesabla ingilis, fransız, italyan, alman və ispan dilləri üzrə cəmi 4.2% söz səhvi əmsalı (WER - Word Error Rate) göstərib.

Bu isə o deməkdir ki, nitqin mətnə çevrilməsi zamanı, insanla müqayisədə, hər 100 sözdən təxminən dördü yanlış tanınır. Bir neçə iştirakçının iştirakı ilə səslə danışıq keyfiyyətini qiymətləndirən Augmented Multi Party Interaction adlı bençmark testində Nova Sonic söz səhvi əmsalı (WER) baxımından OpenAI GPT-4o-transcribe modelindən 46.7% daha dəqiq olub. Amazon-un modeli həm də sürət baxımından çox üstün çıxıb - onun orta cavab gecikməsi 1.09 saniyə təşkil edib, halbuki OpenAI Realtime API əsaslı GPT-4o modelində bu göstərici 1.18 saniyə olub. Şirkət yaxın gələcəkdə görüntü, video, səs və “fiziki dünyaya ötürülməsi üçün lazım olan digər hissi məlumatları” emal edə bilən daha bir neçə süni intellekt modelini təqdim etməyi planlaşdırır.

Telefon: (036) 545 69 64
E-poçt: info@nmincom.gov.az
Ünvan: Naxçıvan şəhəri, AZ 7000, Atatürk 1,
Naxçıvan Muxtar Respublikası
İnternet və Yeni Texnologiyaların Tədrisi Mərkəzi