Tehnologie nouă pentru nevăzători
Google are o bază de date imensă cu imagini şi mai nou a reuşit câteva performanţe în ceea ce priveşte analiza lor .
Technology Review informează că această tehnologie nouă a Google poate fi utilizată cu succes în motoare de căutare, în sisteme automate de publishing şi să îi ajute pe nevăzători să navigheze pe Internet sau – de ce nu – în lumea reală peste câţiva ani..
Google a reuşit cu succes să testeze software-ul de înţelegere a pozelor. Algoritmul dezvoltat de inginerii săi presupune că sunt analizate componentele şi la final generează o legendă care explică ce se întâmplă în acel cadru. Astfel, compania adaugă încă o componentă de „traducere” a serviciilor sale, pe lângă traducerea cuvintelor şi a limbajului natural într-unul pe care îl pot înţelege computerele (Google Now).
În esenţă, noul algoritm funcţionează la fel ca cel de traducere între limbi şi între limbajul natural şi cel al computerelor. Sunt analizate individual elementele, apoi sunt puse într-un context (în cel din care fac parte) şi interpretate semnificaţiile, iar la final este generată o frază care descrie în altă formă (în altă limbă, în cuvinte o imagine etc.) ceea ce s-a introdus în sistem.
Tehnica a fost testată folosind o reţea neuronală şi au fost analizate 100.000 de imagini. Desigur, oamenii sunt cei care au decis care legendă se potriveşte cu poza, dar sunt cazuri în care sistemul s-a descurcat foarte bine. În altele a eşuat lamentabil, dar este, totuşi, la început.
Sistemul a fost denumit „Neural Image Caption” şi a reuşit un scor de 59 în sistemul BLEU, în timp ce altele s-au oprit la 25. Un om ajunge la 69. NIC, combinat cu un gadget precum Google Glass, i-ar putea ajuta peste 10 ani sau mai devreme pe nevăzători să perceapă mai uşor lumea din jur.
Articol editat de Andrei Cretoiu, 5 decembrie 2014, 06:00
Rador