
Imaginez un assistant IA présent à toutes vos réunions, qui lit votre écran en permanence, transcrit vos conversations en temps réel, et vous donne les informations pertinentes au moment exact où vous en avez besoin. C'est la proposition d'omi, publié par BasedHardware sur GitHub. 11 490 étoiles GitHub, 685 en une seule journée. Omi existe depuis 2024 comme wearable IA de capture vocale — sa nouvelle orientation vers la capture d'écran en fait quelque chose de fondamentalement différent.
Ce qu'omi fait exactement
Omi fonctionne simultanément sur trois surfaces. Sur desktop macOS, l'application omi capture en continu votre écran et vos conversations. Sur mobile via l'app omi iOS/Android, il transcrit vos appels en temps réel. Sur un wearable omi dédié, il écoute en permanence via Bluetooth et capture tout ce que vous dites ou entendez.
Le tout converge vers le backend omi : transcription temps réel, détection d'activité vocale (VAD), diarisation (qui parle), résumés et action items générés par LLM. Le chat omi mémorise tout ce qu'omi a vu et entendu — si vous avez évoqué un sujet il y a trois semaines, omi s'en souvient et vous le restitue.
La nouveauté clé d'omi : la capture d'écran
La dernière évolution d'omi est l'intégration de la capture d'écran dans l'application macOS. Omi peut désormais corréler ce que vous dites avec ce que vous regardez — une réunion Teams où quelqu'un partage un graphique, une conversation où vous naviguez sur un document, une démonstration produit. Omi contextualise en temps réel l'audio et le visuel pour des résumés et suggestions bien plus précis.
C'est ce qui distingue omi des simples outils de transcription comme Otter.ai ou Fireflies : omi ne se contente pas d'écouter, il voit et comprend le contexte complet de votre environnement de travail.
L'architecture technique d'omi
Le backend omi est en Python avec FastAPI, Firestore pour la persistance, Redis pour le cache, et Deepgram pour la transcription STT. La détection vocale utilise Silero VAD. Les LLMs sont appelés via des APIs compatibles OpenAI. La communication temps réel entre les appareils et le backend omi passe par des WebSockets (Pusher). L'application desktop omi est en Swift/Rust, l'app mobile omi en Flutter.
Omi wearable ou app : comment choisir
Omi propose deux modes. Le wearable omi physique — un dispositif Bluetooth porté autour du cou, fabriquié par Based Hardware Inc. à San Francisco, avec firmware open source. Ou simplement l'app omi sur votre téléphone ou Mac. La documentation omi est explicite : aucun matériel dédié n'est obligatoire. Votre téléphone posé sur la table remplace le wearable omi pour la capture audio.
Ce que la communauté fait avec omi
Les usages les plus répandus dans la communauté omi : la documentation automatique de réunions — omi génère transcript, résumé et action items sans prise de notes manuelle. La mémoire augmentée — interroger l'historique omi pour retrouver ce qui a été dit il y a plusieurs semaines. L'assistance contextuelle — pendant un appel, omi suggère des informations pertinentes en temps réel.
Le système de plugins omi permet d'automatiser les suites : création de tickets Jira depuis les action items d'omi, résumé Slack post-réunion, sync vers Notion. L'écosystème omi est ouvert et actif.
Vie privée et cadre légal d'omi
Omi est self-hostable — déployez le backend sur votre propre infrastructure, aucune donnée ne quitte vos serveurs. Par défaut, le cloud Based Hardware est utilisé. La capture d'écran permanente d'omi et l'enregistrement continu des conversations soulèvent des questions légitimes de consentement. En France et dans l'UE, l'enregistrement de conversations sans consentement des participants est encadré juridiquement — à vérifier selon votre contexte d'utilisation. Omi est disponible sur GitHub, open source.