Няма спор, че в момента компанията OpenAI диктува какво се случва в сферата на генеративния изкуствен интелект (Gen AI). Нейните алгоритми са внедрени в собствения ѝ бот ChatGTP, като използват и от услугите на Microsoft, като са част от Copilot, Bing и т.н.
Google е в догонваща роля, като по-рано тази година пусна своя чатбот Bard. Той обаче бързо се „спъна“, като се оказа, че допуска елементарни фактологични грешки. Така ChatGPT остана мерилото, което може също да не е идеално, но се справя по-добре от конкурентите си. Няколко месеца по-късно Google се завръща с нов отговор – значително подобреният алгоритъм Gemini, който ще бъде внедрен в Bard, Google Search, Google Assistant и други услуги на ИТ гиганта. И… отново се „спъна“…
Много по-големи амбиции
Google представи Gemini малко неочаквано. Първо се появиха слухове в специализираните издания, че компанията е почти готова с алгоритъма. След това последва втора вълна спекулации, че дебютът е бил планиран за декември тази година, но е отложен за март догодина, тъй като има проблеми с Gemini и компанията иска да пусне алгоритъма, когато е готов. И малко след това Google действително представи Gemini.
Компанията обяви, че Gemini е много по-бърз, прецизен и ефикасен спрямо другите алгоритми. Google се похвали, че технологията ще предостави възможности от следващо поколение. Gemini ще има три версии. Gemini Nano – по-лека версия на алгоритъма, която може да се използва в рамките на устройства като смартфони, без нужда от интернет връзка. Gemini Pro – най-масовата версия на модела, която е част от Bard и ще може да се използва за различни задачи. Gemini Ultra – най-голямата и сложна версия на разработката, която ще е за „много сложни задачи“ и се очаква повечето ѝ възможности да са платени.
Gemini Pro е конкурент на GPT-3.5 на OpenAI, а Gemini Ultra – на GPT-4. Google казва, че Gemini Ultra превъзхожда GTP-4 в 30 от 32 най-популярни академични теста за проверка на способностите на големи езикови модели. Gemini Ultra е и първият алгоритъм от такъв тип, който се справя по-добре и от човек на 57 стандартни теста, които проверяват познанията и експертизата на хора в сферата на математика, физика, история, право и т.н.
Впечатляващо, нали? Има и още. Google казва, че Gemini е мултимодален, т.е. може да работи едновременно с текст, снимки, видео и аудио. Той ще може да разбира хората, когато му говорят, както и да се справя с по-сложни комбинации от въпроси, например гласова команда, която му казва да разгледа дадена снимка.
Също така ще може да отговаря и с няколко вида съдържание. Например да направи съпътстващи илюстрации за приказка, която му е казано да напише. Или пък диаграми и дори клипове, които да визуализират дадена информация и т.н. Gemini ще може да извлича информация от „стотици хиляди документи“ и ще помага за резоюмирането на големи обеми данни, както и за реализиране на нови идеи и възможности в множество сфери, включително наука, финанси, програмиране и т.н.
Gemini Nano ще бъде внедрен в смартфон Pixel 8 Pro на Google, за да подобрява множество аспекти в работата на устройството. Това е своеобразна демонстрация какво можем да очакваме от AI в смартфоните – от подобряване на качеството на видеозаписите, до резюмета на записи, умни отговори на съобщения според контекста на разговора, оптимизиране на общата продуктивност и т.н.
Чудесно, но…
Всичко казано досега са предимно очаквания. Те бяха бързо „охладени“ след като се появиха първите отзиви на потребителите, които изпробваха Gemini Pro през Google Bard. Социалните мрежи се изпълниха с примери, в които Bard, който вече използва Gemini Pro, допуска множество разнородни грешки в най-различни теми и задачи.
И още по-лошо, Google беше обвинена, че е „фалшифицирала“ демонстрационен клип с възможностите на Gemini, съобщи TechCrunch. Клипът трябва да покаже някои от способностите на алгоритъма, включително описаните мултимодални отговори, като подчертава, че на места е съкратено времето за отговор за прегледност на клипа, т.е. реално ботът ще отговаря малко по-бавно.
Това не е чак такъв проблем, но след като анализатори обърнаха внимание на разминавания между казаното от компанията и реалните действия на бота при тестването му, Google призна: „Създадохме демото, като използваме видео записи, които да тестват способностите на Gemini в множество ситуации. След това даваме команди на Gemini с тези кадри от записите и текст“, казва компанията. Накратко, вместо да „слуша“ и да „гледа“ както в клипа, Gemini е бил контролиран стандартно чрез текст.
Можем да очакваме, че всичко това ще стане реалност догодина, когато тръгне и Gemini Ultra. Защото в момента само Gemini Pro е достъпен през Bard, а Nano – през Pixel 8 Pro. Gemini Ultra ще заработи след няколко месеца – време, през което компанията да поправи грешките и да подобри работата на алгоритъма. И тя този път действително трябва да го направи. Трети подобен гаф може да се окаже много тежък удар за репутацията на Google, както и за доверието към технологиите ѝ.
Разбира се, Google вече е „твърде голяма, за да се срине“ и проблемите няма да доведат до края на компанията. Но също така рискува да изостане от конкурентите си и да изтласка потребителите да използват предимно техните услуги поне в сферата на Gen AI. А именно Gen AI може да се окаже следващият трилионен бизнес, затова не е добра идея да се допускат грешки, още повече пък да се повтарят и дори потретват.
Слушайте и гледайте новия подкаст на darik.bg „В тренда“ в YouTube, Instagram и TikTok
Най-интересните разговори от ефира на Дарик слушайте в подкаста на радиото в Soundcloud, Spotify, Apple Podcasts и Google Podcasts