Apple představil nový multimodální jazykový model Ferret-UI Lite, který s pouhými 3 miliardami parametrů překonává nebo dorovnává výkon modelů až 24krát větších. Navzdory své velikosti zvládá složité úkoly spojené s porozuměním uživatelskému rozhraní a běží přímo na zařízení.
Ferret: od vizuálního porozumění ke GUI agentům
Původní model FERRET vznikl v prosinci 2023 jako výsledek výzkumu devítičlenného týmu a měl za cíl umožnit modelům chápat odkazy na konkrétní části obrázků. Na něj navázaly další varianty jako Ferretv2, Ferret-UI a Ferret-UI 2, přičemž Ferret-UI se zaměřil na hlubší porozumění mobilním obrazovkám a schopnost reagovat na vizuální prvky uživatelského rozhraní.
Z výzkumu vyplývá, že klasické multimodální jazykové modely mají problém porozumět specifickému rozvržení a prvkům UI, které bývají drobné, hustě rozmístěné a v různých rozlišeních. Ferret-UI tyto překážky překonává díky technikám jako přiblížení, ořezávání obrazu a pokročilé vizuální reprezentaci.
Na rozdíl od předchozích variant je Ferret-UI Lite navržen jako odlehčenější a plně lokální model, který se obejde bez nutnosti zpracování na straně serveru a je optimalizovaný pro běh přímo na zařízení. Jeho hlavní výhody jsou:
- pouze 3 miliardy parametrů (oproti 13B u Ferret-UI),
- schopnost běžet na mobilních a desktopových zařízeních bez potřeby cloudu,
- výkon srovnatelný s modely o velikosti až 72 miliard parametrů.
Model se zaměřuje na čtyři klíčové schopnosti: vizuální rozpoznání, pochopení rozhraní, plánování úkonů a jejich provedení. A to vše v reálném čase a s minimálními nároky na hardware.
Vývojáři Applu model vybavili několika chytrými technikami, které mu umožňují konkurovat větším agentům:
Dynamické ořezávání a přiblížení
Ferret-UI Lite nejprve provede prvotní predikci, následně danou oblast přiblíží a znovu analyzuje. Díky tomu dokáže lépe pracovat s malými ikonami, texty a dalšími detaily, což je u GUI prostředí klíčové.
Samostatná tvorba trénovacích dat
Namísto závislosti na ručně anotovaných datech využívá Apple syntetické generování dat pomocí multiagentního systému, který:
- navrhuje úkoly různé obtížnosti,
- rozděluje je na jednotlivé kroky (plánování),
- vykonává je v živém prostředí GUI,
- hodnotí výsledek pomocí kritického modelu.
Tento přístup umožňuje lépe modelovat realitu — včetně chyb, nečekaných stavů a strategií obnovy.
Využití různých GUI prostředí
Na rozdíl od předchozích verzí, které využívaly výhradně prostředí Applu (např. iPhone), Ferret-UI Lite byl trénován a testován na Androidu, webových aplikacích a desktopových GUI. Mezi benchmarky, na kterých se ověřoval výkon, patří AndroidWorld a OSWorld.
Ferret-UI Lite exceluje zejména při jednodušších úkolech s krátkým časovým horizontem. U složitějších, vícestupňových interakcí sice zaostává za většími modely, ale vzhledem k jeho minimalistické architektuře jde o očekávaný kompromis. To, co Ferret-UI Lite nabízí, je rychlost, soukromí a soběstačnost. Díky běhu přímo na zařízení není třeba odesílat žádná data do cloudu, což jej činí ideálním pro aplikace, kde je důležitá ochrana soukromí.
