OpenAI a anunțat că ChatGPT poate acum "vedea, auzi și vorbi," sau, cel puțin, înțelege cuvintele rostite, răspunde cu o voce sintetică și procesează imagini.
Actualizarea la chatbot - cea mai mare de la introducerea lui GPT-4 - permite utilizatorilor să opteze pentru conversații vocale în aplicația mobilă ChatGPT și să aleagă din cinci voci sintetice diferite pentru ca botul să răspundă. Utilizatorii vor putea, de asemenea, să împărtășească imagini cu ChatGPT și să evidențieze zone de interes sau analiză (gândiți-vă la întrebări precum: "Ce fel de nori sunt aceștia?").
Sursa imagine: aloa.co |
Schimbările vor fi implementate pentru utilizatorii plătitori în următoarele două săptămâni, a anunțat OpenAI. În timp ce funcționalitatea vocală va fi limitată la aplicațiile iOS și Android, capacitatea de procesare a imaginilor va fi disponibilă pe toate platformele.
Această extindere semnificativă a funcționalității vine în contextul creșterii continue a concurenței în domeniul inteligenței artificiale între liderii chatbot-urilor, cum ar fi OpenAI, Microsoft, Google și Anthropic. Pentru a încuraja consumatorii să adopte inteligența artificială generativă în viața lor de zi cu zi, giganții tehnologici se grăbesc să lanseze nu numai aplicații noi de chatbot-uri, ci și noi caracteristici, în special în această vară. Google a anunțat o serie de actualizări pentru chatbot-ul său Bard, iar Microsoft a adăugat căutarea vizuală în Bing.
La începutul acestui an, investiția extinsă a Microsoft în OpenAI - încă 10 miliarde de dolari - a făcut-o cea mai mare investiție în domeniul IA a anului, conform PitchBook. În aprilie, startup-ul a încheiat un acord de vânzare de acțiuni de 300 de milioane de dolari la o evaluare cuprinsă între 27 și 29 de miliarde de dolari, cu investiții de la firme precum Sequoia Capital și Andreessen Horowitz.
Experții au ridicat preocupări cu privire la voci sintetice generate de IA, care în acest caz ar putea oferi utilizatorilor o experiență mai naturală, dar ar putea permite și deepfake-uri mai convingătoare. Actorii și cercetătorii din domeniul securității cibernetice au început deja să exploreze cum pot fi utilizate deepfake-urile pentru a penetra sistemele de securitate cibernetică.
OpenAI a recunoscut aceste preocupări în anunțul său de luni, afirmând că vocile sintetice au fost "create cu actori de voce cu care am lucrat direct," în loc să fie colectate de la persoane străine.
Comunicatul de presă oferă, de asemenea, puține informații despre modul în care OpenAI va utiliza intrările vocale ale consumatorilor sau despre modul în care compania va asigura securitatea acestor date, dacă vor fi folosite. Termenii și condițiile companiei spun că consumatorii dețin intrările lor "în măsura permisă de legea aplicabilă."
OpenAI a indicat CNBC că referă la ghidul companiei privind interacțiunile vocale, care afirmă că OpenAI nu reține înregistrările audio și că înregistrările audio în sine nu sunt folosite pentru a îmbunătăți modelele mari de limbaj.
Cu toate acestea, compania notează și acolo că transcrierile sunt considerate intrări și pot fi utilizate pentru a îmbunătăți modelele de limbaj mari.
Sursa: "cnbc.com"