• bandiera

OpenAI Point E: crea una nuvola di punti 3D da forme d'onda complesse in pochi minuti su una singola GPU

In un nuovo articolo Point-E: un sistema per la generazione di nuvole di punti 3D da segnali complessi, il team di ricerca OpenAI presenta Point E, un sistema di sintesi condizionale di testo nuvola di punti 3D che utilizza modelli di diffusione per creare forme 3D varie e complesse guidate da testo complesso spunti.in pochi minuti su una singola GPU.
Le straordinarie prestazioni degli odierni modelli di generazione di immagini all'avanguardia hanno stimolato la ricerca nella generazione di oggetti di testo 3D.Tuttavia, a differenza dei modelli 2D, che possono generare output in pochi minuti o addirittura secondi, i modelli generativi di oggetti richiedono in genere diverse ore di lavoro della GPU per generare un singolo campione.
In un nuovo articolo Point-E: un sistema per generare nuvole di punti 3D da segnali complessi, il team di ricerca OpenAI presenta Point·E, un sistema di sintesi condizionale testuale per nuvole di punti 3D.Questo nuovo approccio utilizza un modello di propagazione per creare forme 3D varie e complesse da segnali di testo complessi in appena un minuto o due su una singola GPU.
Il team è concentrato sulla sfida della conversione del testo in 3D, che è fondamentale per democratizzare la creazione di contenuti 3D per applicazioni del mondo reale che vanno dalla realtà virtuale e dai giochi al design industriale.I metodi esistenti per convertire il testo in 3D rientrano in due categorie, ognuna delle quali ha i suoi svantaggi: 1) i modelli generativi possono essere utilizzati per generare campioni in modo efficiente, ma non possono essere scalati in modo efficiente per segnali di testo diversi e complessi;2) un modello di testo-immagine pre-addestrato per gestire segnali di testo complessi e vari, ma questo approccio è computazionalmente intensivo e il modello può facilmente rimanere bloccato in minimi locali che non corrispondono a oggetti 3D significativi o coerenti.
Pertanto, il team ha esplorato un approccio alternativo che mira a combinare i punti di forza dei due approcci precedenti, utilizzando un modello di diffusione testo-immagine addestrato su un ampio insieme di coppie testo-immagine (consentendogli di gestire segnali diversi e complessi) e un modello di diffusione dell'immagine 3D addestrato su un insieme più piccolo di coppie testo-immagine.set di dati coppia immagine-3D.Il modello da testo a immagine campiona prima l'immagine di input per creare una singola rappresentazione sintetica, mentre il modello da immagine a 3D crea una nuvola di punti 3D basata sull'immagine selezionata.
Lo stack generativo del comando si basa su framework generativi recentemente proposti per la generazione condizionale di immagini dal testo (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).Usano un modello GLIDE con 3 miliardi di parametri GLIDE (Nichol et al., 2021), messo a punto su modelli 3D renderizzati, come modello di trasformazione da testo a immagine, e un insieme di modelli di diffusione che generano nuvole di punti RGB come loro modello di trasformazione.immagini a immagine.Modelli 3D.
Mentre il lavoro precedente utilizzava architetture 3D per elaborare le nuvole di punti, i ricercatori hanno utilizzato un semplice modello basato su trasduttore (Vaswani et al., 2017) per migliorare l'efficienza.Nella loro architettura del modello di diffusione, le immagini delle nuvole di punti vengono prima inserite in un modello CLIP ViT-L/14 pre-addestrato e quindi le mesh di output vengono inserite nel convertitore come marcatori.
Nel loro studio empirico, il team ha confrontato il metodo Point·E proposto con altri modelli 3D generativi sui segnali di punteggio dei set di dati di rilevamento, segmentazione e firma di oggetti COCO.I risultati confermano che Point·E è in grado di generare forme 3D diverse e complesse da segnali di testo complessi e accelerare il tempo di inferenza di uno o due ordini di grandezza.Il team spera che il loro lavoro ispiri ulteriori ricerche sulla sintesi del testo 3D.
Un modello di propagazione della nuvola di punti pre-addestrato e un codice di valutazione sono disponibili nel GitHub del progetto.Document Point-E: un sistema per creare nuvole di punti 3D da indizi complessi è su arXiv.
Sappiamo che non vuoi perderti nessuna notizia o scoperta scientifica.Iscriviti alla nostra popolare newsletter Synced Global AI Weekly per ricevere aggiornamenti settimanali sull'IA.


Tempo di pubblicazione: 28 dicembre 2022