
Zdroj: Apple
Apple zveřejnil nový AI model s názvem SHARP, který dokáže z běžné 2D fotografie okamžitě vytvořit fotorealistický 3D pohled. Model je dostupný v rámci licence open-source a vývojáři i nadšenci si ho mohou sami vyzkoušet. Výsledky jsou ohromující.
3D scéna z jediné fotky? SHARP ji vytvoří za méně než sekundu
V publikované studii Sharp Monocular View Synthesis in Less Than a Second Apple popisuje, jak vyvinul neuronovou síť, která dokáže v jediném průchodu predikovat kompletní 3D reprezentaci scény na základě jediné fotografie. Tento proces trvá méně než jednu sekundu na běžné GPU a výsledkem je vysoce realistický 3D výhled, který lze plynule renderovat z blízkých úhlů.
Klíčem k tomu je použití tzv. 3D Gaussians – miliónů drobných „rozmazaných bodů“ světla a barvy umístěných v prostoru, které společně vytvoří věrohodnou 3D scénu. A zatímco jiné metody vyžadují desítky až stovky fotografií z různých úhlů, SHARP si vystačí s jediným snímkem.
Jak to vlastně celé funguje?
Model se nejprve snaží odhadnout hloubku scény a následně, díky rozsáhlému tréninku na syntetických i reálných datech, doplňuje geometrické a světelné informace, které pak využije k vytvoření 3D reprezentace složené z Gaussovských bodů. Tato reprezentace je metrická – tedy s absolutním měřítkem – a umožňuje pohyb „kamerou“ v prostoru s realistickým zachováním měřítka a perspektivy. Výsledné 3D pohledy jsou překvapivě stabilní a věrné, alespoň pokud se držíte v blízkosti původního úhlu záběru.
Špičková kvalita, rekordní rychlost
Výsledky testů ukazují, že SHARP překonává dosavadní modely jako Gen3C nejen v kvalitě výstupu, ale také v rychlosti generování. Snížení metrik LPIPS o 25–34 % a DISTS o 21–43 % znamená viditelně lepší shodu s realitou. Navíc, zatímco jiné metody vyžadují minuty nebo hodiny výpočtů, SHARP pracuje v reálném čase.
Rychlost modelu je vykoupena tím, že SHARP nevytváří části scény, které nejsou na původní fotografii vidět. Jinými slovy – můžete se „podívat“ trochu ze strany nebo z výšky, ale nemůžete obejít roh nebo zobrazit zadní část objektu. To je ale cenou za rychlost, stabilitu a fotorealistický výstup.
Open-source přináší SHARP pro každého
Apple zveřejnil model volně na GitHubu, a během několika dnů už se objevily první testy komunity. Uživatelé sdílejí svá videa i interaktivní pohledy na Twitteru/X a ukazují možnosti použití v praxi – například pro vizualizace, design interiérů, architekturu nebo i základní animace. I když je zatím model zaměřen na statické výstupy, už nyní se objevují pokusy o rozšíření do videa nebo o generování animovaných 3D scén z obyčejných fotek.
Zdroj: 9to5mac.com
Komentáře