Dotekomanie.cz

Ferret-UI Lite: Apple představil výkonného GUI agenta, který poráží i 24× větší modely

ferret ui lite 1376x768x

Zdroj: iphoneaddict

Apple představil nový multimodální jazykový model Ferret-UI Lite, který s pouhými 3 miliardami parametrů překonává nebo dorovnává výkon modelů až 24krát větších. Navzdory své velikosti zvládá složité úkoly spojené s porozuměním uživatelskému rozhraní a běží přímo na zařízení.

Ferret: od vizuálního porozumění ke GUI agentům

Původní model FERRET vznikl v prosinci 2023 jako výsledek výzkumu devítičlenného týmu a měl za cíl umožnit modelům chápat odkazy na konkrétní části obrázků. Na něj navázaly další varianty jako Ferretv2, Ferret-UI a Ferret-UI 2, přičemž Ferret-UI se zaměřil na hlubší porozumění mobilním obrazovkám a schopnost reagovat na vizuální prvky uživatelského rozhraní.

Z výzkumu vyplývá, že klasické multimodální jazykové modely mají problém porozumět specifickému rozvržení a prvkům UI, které bývají drobné, hustě rozmístěné a v různých rozlišeních. Ferret-UI tyto překážky překonává díky technikám jako přiblížení, ořezávání obrazu a pokročilé vizuální reprezentaci.

Na rozdíl od předchozích variant je Ferret-UI Lite navržen jako odlehčenější a plně lokální model, který se obejde bez nutnosti zpracování na straně serveru a je optimalizovaný pro běh přímo na zařízení. Jeho hlavní výhody jsou:

Model se zaměřuje na čtyři klíčové schopnosti: vizuální rozpoznání, pochopení rozhraní, plánování úkonů a jejich provedení. A to vše v reálném čase a s minimálními nároky na hardware.

Zdroj: 9to5mac

Vývojáři Applu model vybavili několika chytrými technikami, které mu umožňují konkurovat větším agentům:

Dynamické ořezávání a přiblížení

Ferret-UI Lite nejprve provede prvotní predikci, následně danou oblast přiblíží a znovu analyzuje. Díky tomu dokáže lépe pracovat s malými ikonami, texty a dalšími detaily, což je u GUI prostředí klíčové.

Samostatná tvorba trénovacích dat

Namísto závislosti na ručně anotovaných datech využívá Apple syntetické generování dat pomocí multiagentního systému, který:

Tento přístup umožňuje lépe modelovat realitu — včetně chyb, nečekaných stavů a strategií obnovy.

Využití různých GUI prostředí

Na rozdíl od předchozích verzí, které využívaly výhradně prostředí Applu (např. iPhone), Ferret-UI Lite byl trénován a testován na Androidu, webových aplikacích a desktopových GUI. Mezi benchmarky, na kterých se ověřoval výkon, patří AndroidWorld a OSWorld.

Ferret-UI Lite exceluje zejména při jednodušších úkolech s krátkým časovým horizontem. U složitějších, vícestupňových interakcí sice zaostává za většími modely, ale vzhledem k jeho minimalistické architektuře jde o očekávaný kompromis. To, co Ferret-UI Lite nabízí, je rychlost, soukromí a soběstačnost. Díky běhu přímo na zařízení není třeba odesílat žádná data do cloudu, což jej činí ideálním pro aplikace, kde je důležitá ochrana soukromí.

Zdroj: 9to5mac.com

Zobrazit klasickou verzi