În ultimele luni, Apple a publicat o serie constantă de articole de cercetare care detaliază munca sa cu inteligența artificială generativă. Până în prezent, Apple a păstrat tăcerea în ceea ce privește exact ceea ce se pregătește în laboratoarele sale de cercetare, în timp ce circulă zvonuri că Apple este în discuții cu Google pentru a licenția inteligența artificială Gemini pentru iPhone-uri.
În ultimele câteva luni, Apple a publicat o serie constantă de articole de cercetare care detaliează munca sa cu inteligența artificială generativă. Până acum, Apple a fost discretă în ceea ce privește exact ceea ce pregătește în laboratoarele sale de cercetare, în timp ce zvonurile circulă că Apple este în discuții cu Google pentru a licenția AI-ul său Gemini pentru iPhone-uri.
În februarie, un articol de cercetare Apple a detaliat un model open-source numit MLLM-Guided Image Editing (MGIE) care este capabil să editeze media folosind instrucțiuni în limbaj natural de la utilizatori. Acum, un alt articol de cercetare despre Ferret UI a stârnit frenesia în comunitatea AI.
Ideea este să se implementeze o AI multimodală (care înțelege atât textele, cât și elementele multimedia) pentru a înțelege mai bine elementele unei interfețe de utilizator mobil și, cel mai important, pentru a oferi sfaturi practice. Acest lucru este un obiectiv critic pe măsură ce inginerii se grăbesc să facă ca AI-ul să fie mai util pentru un utilizator mediu de smartphone decât starea sa actuală de „trucaj de salon”.
În această direcție, cel mai mare impuls este să se deconecteze capacitățile generative AI de la cloud, să se elimine necesitatea unei conexiuni la internet și să se implementeze fiecare sarcină pe dispozitiv pentru a fi mai rapid și mai sigur. De exemplu, Google Gemini rulează local pe telefoanele Google Pixel și seria Samsung Galaxy S24 și efectuează sarcini precum rezumarea și traducerea.
Ferret UI este o funcționalitate inteligentă de recunoaștere optică a caracterelor (OCR) alimentată de AI. După antrenarea pe seturile de date curate, Ferret UI demonstrează o înțelegere remarcabilă a ecranelor UI și capacitatea de a executa instrucțiuni deschise. Echipa din spatele Ferret UI l-a ajustat pentru a se adapta „oricărei rezoluții”.
Puteți adresa întrebări precum „Această aplicație este sigură pentru copilul meu de 12 ani?” în timp ce navigați în App Store. În astfel de situații, AI-ul va citi clasificarea pe vârste a aplicației și va oferi răspunsul corespunzător. Cum va fi servit răspunsul – text sau audio – nu este specificat.
Dar ideile sunt mult mai panoramice și inteligente. Întrebați-l „Cum pot partaja aplicația cu un prieten?” și AI-ul va evidenția icon-ul „partajare” de pe ecran. Desigur, va oferi un rezumat al ceea ce se afișează pe ecran, dar în același timp, va analiza logic activele vizuale de pe ecran – ca și cutii, butoane, imagini, iconuri și altele. Acesta este un câștig considerabil în accesibilitate.
Ferret UI este un debut impresionant al AI-ului care poate face sens de acțiunile de pe ecran. Cu toate acestea, chiar dacă Apple reușește să îndeplinească promisiunile Ferret UI în cadrul iOS, ar fi totuși o implementare superficială a AI-ului generativ pe dispozitiv.
Cu toate acestea, integrările funcționale, chiar dacă sunt limitate doar la aplicațiile preinstalate de uz casnic, ar putea produce rezultate uimitoare. De exemplu, să spunem că citiți un email în timp ce AI-ul a evaluat deja conținutul de pe ecran în fundal. Pe măsură ce citiți mesajul în aplicația Mail, puteți să-i cereți AI-ului printr-o comandă vocală să facă o intrare în calendar și să o salveze în programul dvs. de lucru.
Toate acestea sunt mai ușor de spus decât de făcut și depind de multiple variabile, unele dintre acestea putând fi din afara controlului Apple. De exemplu, paginile web pline de pop-up-uri și reclame intruzive ar face aproape imposibilă pentru Ferret UI să își facă treaba. Dar, pe partea pozitivă, dezvoltatorii iOS respectă strâns liniile directoare de design stabilite de Apple, deci este probabil ca Ferret UI să își facă magia mai eficient în aplicațiile iPhone.
Acesta ar fi totuși un câștig impresionant.