TRELLIS.2 sur Mac : générez des objets 3D depuis une photo en 3 minutes

Un développeur a porté TRELLIS.2 de Microsoft (4 milliards de paramètres) sur Apple Silicon via PyTorch MPS. Résultat : mesh 3D de 400 000 vertices depuis une photo en 3,5 minutes sur M4 Pro, hors ligne, sans NVIDIA.

Intelligence Artificielle••Publié le 20 avril 2026 à 10:26

Prendre une photo, obtenir un objet 3D prêt pour Blender, Unity ou Unreal Engine — le tout sur votre Mac, sans connexion internet, sans GPU NVIDIA. C'est ce que permet le port de TRELLIS.2 sur Apple Silicon réalisé par shivampkumar et publié sur GitHub. En quelques centaines de lignes de code, il a remplacé toutes les opérations CUDA-spécifiques du modèle de Microsoft par des équivalents PyTorch natifs compatibles MPS (Metal Performance Shaders). Résultat : un mesh 3D de 400 000 vertices en 3,5 minutes sur un M4 Pro. Le Show HN a déclenché 162 points et des dizaines de commentaires enthousiastes de designers et développeurs 3D.

TRELLIS.2 : le modèle de Microsoft derrière le port

Avant de parler du port Mac, comprendre ce qu'est TRELLIS.2 est essentiel. C'est un modèle de génération 3D large échelle de 4 milliards de paramètres publié par Microsoft Research, disponible sur GitHub sous licence MIT. Sa spécificité technique est l'utilisation d'une structure voxel sparse appelée O-Voxel ('field-free') qui lui permet de reconstruire des géométries arbitrairement complexes : surfaces ouvertes (vêtements, feuilles), géométrie non-manifold, structures internes enclosées.

Les modèles précédents (dont le TRELLIS original) s'appuyaient sur des représentations iso-surface (SDF, Flexicubes) qui ont du mal avec ces topologies complexes. L'approche O-Voxel change fondamentalement les types d'objets générables. En sortie, TRELLIS.2 produit des fichiers OBJ et GLB texturés avec des matériaux PBR (Physically Based Rendering) — directement utilisables dans les pipelines 3D professionnels.

Ce que le port Apple Silicon change

La version originale de TRELLIS.2 est construite sur CUDA — les GPU NVIDIA exclusivement. Plusieurs opérations clés sont implémentées en extensions C++/CUDA personnalisées qui ne tournent tout simplement pas sur du matériel Apple. shivampkumar a réécrit ces opérations :

Une convolution 3D sparse submanifold en pure Python/PyTorch (remplace l'extension CUDA)
L'attention des transformers sparse via SDPA (Scaled Dot-Product Attention)
L'extraction de mesh via un algorithme Python (remplace un hashmap CUDA)

Ces changements représentent quelques centaines de lignes sur 9 fichiers — une modification chirurgicale qui préserve l'intégralité de la logique du modèle original. Sur un M4 Pro avec 24 Go de RAM unifiée, la génération produit un mesh de 424 000 vertices et 858 000 triangles en environ 3,5 minutes. Sur un H100 (GPU datacenter haut de gamme), la même opération prend quelques secondes — mais le H100 n'est pas dans votre sac à dos.

Comment l'utiliser

Le repository `trellis-mac` fournit un script d'installation qui gère la configuration conda et les dépendances. Les prérequis sont un Mac Apple Silicon (M1 ou plus récent), Python 3.10+, conda, et environ 8 Go d'espace disque pour les poids du modèle téléchargés depuis Hugging Face. Une fois installé, l'utilisation de base se fait depuis un script Python ou via l'interface Gradio fournie.

L'image de sortie GLB peut être importée directement dans Blender, Unity, Unreal Engine, ou n'importe quel logiciel 3D compatible GLTF. Les matériaux PBR sont préservés. Pour les utilisateurs ComfyUI, une extension `ComfyUI-TRELLIS2` existe dans la communauté pour intégrer la génération 3D dans des pipelines génératifs.

Les cas d'usage qui résonnent dans la communauté

Les commentaires du Show HN font remonter plusieurs usages concrets. Les développeurs de jeux indépendants y voient un moyen de peupler rapidement des niveaux avec des assets 3D générés depuis des photos de référence ou des concept arts. Les architectes et designers d'intérieur testent la conversion de photos de meubles réels en modèles 3D pour leurs scènes de visualisation. Les équipes e-commerce explorent la génération automatique de vues 3D de produits depuis des photos existantes.

Le fait que tout tourne localement et offline est crucial pour plusieurs de ces usages. Pas de données produits envoyées vers des APIs cloud. Pas de coûts par génération. Pas de dépendance à un service tiers. Un Mac et le modèle en local.

Les limites réelles

Le port MPS est fonctionnel mais pas aussi rapide que la version CUDA optimisée. Sur des Mac avec moins de mémoire unifiée (M1/M2 base à 8 Go), la génération peut être lente ou échouer sur les géométries complexes. La qualité de la reconstruction 3D dépend fortement de la qualité de la photo source — fond uni, bonne lumière, objet centré donnent les meilleurs résultats. Les scènes complexes ou les photos en plongée produisent des résultats plus aléatoires. Le port Mac est disponible sur GitHub, le modèle Microsoft original sur microsoft/TRELLIS.2, MIT.

Neura