Foire aux questions

Tout ce que vous devez savoir sur les technologies vocales. Si vos questions restent sans réponse, contactez-nous !

Nous contacter Accéder aux ressources

Produit

Termes

Technologies

Entreprise

Spécifications

À propos de notre produit

Qu'est-ce que le Voice Development Kit?

Le VDK est une solution logicielle tout-en-un qui permet aux entreprises et aux développeurs de créer eux-mêmes un assistant vocal entièrement intégré à l’appareil. Le VDK présente toutes les technologies nécessaires pour réaliser une expérience vocale de bout en bout, dans plus de 40 langues et compatible avec la plupart des solutions matérielles.

Combien de langues sont prises en charge ?

VDK supporte 41 langues pour la reconnaissance vocale et 65 langues pour la synthèse vocale.

Quels sont les modèles de tarification de Vivoka ?

Le VDK a un prix fixe sur lequel s’additionnent les ressources et les technologies. Il s’agit de pouvoir utiliser le VDK et développer votre solution. Afin de l’exploiter commercialement, Vivoka offre une flexibilité en termes de modèles commerciaux.

La principale tarification que nous proposons est un modèle de licence basé sur les redevances, vous devez payer un prix spécifique par unité équipée de nos technologies. Nous avons également l’habitude de proposer des modèles d’abonnement qui peuvent s’appliquer à votre tarification existante.

Si vous avez des exigences spécifiques pour votre modèle de revenus, faites-le nous savoir et nous trouverons un moyen de nous adapter.

Comment puis-je commencer ?

Afin de commencer à développer avec le VDK, vous devez demander une période d’évaluation en cliquant sur le bouton “Obtenir le VDK”. Une fois vos informations approuvées par notre équipe, vous pourrez télécharger et prototyper avec le VDK pendant 30 jours.

Proposez-vous un essai gratuit ?

Nous laissons les entreprises essayer notre solution pendant 30 jours en mettant toutes les ressources à leur disposition. Pour y accéder, rendez-vous ici.

Qui utilise le VDK ?

Nous avons un large éventail de clients dans de nombreuses industries que vous pouvez découvrir ici. Le VDK est principalement utilisé par des entreprises et des sociétés de taille moyenne de la région EMEA et de la région Amérique du Nord.

Quels types de cas d'usages sont pris en charge par le VDK ?

Cette question devrait probablement être “quels sont les cas d’utilisation qui ne sont PAS pris en charge par le VDK”, puisque nous sommes agnostiques en matière de domaine. Nous offrons les outils nécessaires à la création de tout type de cas d’usages impliquant la voix, qu’il s’agisse de la préparation de commandes par la voix dans la chaîne d’approvisionnement, du remplissage et de la saisie de formulaires par la voix dans les opérations de maintenance et de réparation (MRO) ou de la navigation par la voix dans des lunettes intelligentes…

À propos des termes employés

Qu'est-ce que l'IA vocale ?

L’intelligence articifielle vocale est une façon de nommer le principe des assistants vocaux. Il s’agit d’un système conversationnel qui utilise les commandes vocales, les comprend et transmet leur intention. Une fois la demande de l’utilisateur entièrement réalisée, le système répond en donnant un retour en langage naturel, via la synthèse vocale par exemple, pour mettre fin à la boucle de la conversation.

Qu'est-ce qu'un assistant vocal ?

Un assistant vocal est un système conversationnel basé sur la voix qui va comprendre et répondre à un utilisateur, faisant appel à de multiples technologies (reconnaissance automatique de la parole, compréhension du langage naturel, synthèse vocale…) pour y parvenir.

On appelle communément assistant vocal les IA conversationnelles, également appelées agents virtuels, qui sont hébergées dans les enceintes et appareils intelligents populaires.

Parfois, le terme est mal adapté au matériel lui-même lorsque les haut-parleurs intelligents des GAFAM sont appelés assistants vocaux bien que Google Assistant soit également présent dans les téléphones ou les voitures…

Qu'est-ce que le "Voice-First" ?

“Voice-first” est une tendance, une vision, une ambition dans laquelle les développements technologiques favorisent principalement l’utilisation d’interactions vocales dans les produits et services. En ce sens, la voix serait utilisée comme le toucher l’est aujourd’hui.

Qu'appelle-t-on la reconnaissance vocale ?

La reconnaissance vocale fait référence au domaine de la linguistique informatique qui développe des technologies et des méthodologies pour reconnaître le langage humain, la parole, et le transformer en données, principalement en texte. En d’autres termes, il s’agit du processus qui permet aux ordinateurs et autres dispositifs de reconnaître et de répondre aux fréquences audio créées par la parole humaine.

Qu'est-ce que le contrôle vocal ?

La commande vocale permet aux utilisateurs d’interagir avec des appareils et des applications numériques avec leur voix comme interface utilisateur mains libres. La commande vocale est un résultat possible de l’utilisation des technologies vocales et repose principalement sur l’utilisation de la reconnaissance automatique de la parole (également appelée “speech-to-text”).

Qu'est-ce qu'une commande vocale ?

Une commande vocale est le nom donné à une action que les utilisateurs peuvent initier sur toute application dotée de capacités de reconnaissance vocale ainsi que de la solution permettant de comprendre et de traiter l’intention derrière la commande.

Les commandes vocales sont généralement formées d’ordres ou d’instructions : “Augmenter la vitesse du ventilateur à 70%” ou “Aller au menu principal” par exemple.

Qu'est-ce qu'une saisie vocale ?

La saisie vocale est globalement le résultat textuel des solutions de reconnaissance automatique de la parole (ou Speech-to-Text STT). Il ne s’agit pas nécessairement d’une commande qui va traiter une action ou un événement spécifique, il peut aussi s’agir simplement de dictées (mots, phrases, chiffres…).

À propos des technologies

Qu'est-ce qu'un mot déclencheur ?

Le mot déclencheur est le premier élément d’une interaction vocale de bout en bout. Vous connaissez certainement les mots déclencheur associés aux assistants vocaux populaires tels que Siri, Google ou Alexa. Cette technologie est utilisée pour “réveiller” littéralement l’assistant en écoutant un seul mot ou une seule phrase. Une fois qu’il est détecté, l’assistant sait qu’il doit traiter les commandes vocales qui viennent juste après.

Qu'est-ce que la reconnaissance automatique de la parole (ASR) ?

La reconnaissance automatique de la parole, souvent appelée Speech-to-Text ou simplement Automatic Speech Recognition (ASR), est la principale technologie qui fait de la voix un moyen d’interaction. Au sommet de l’IA vocale, elle fusionne des solutions complexes telles que les modèles acoustiques, la compréhension du langage naturel (NLU) ou le traitement du signal audio. Cette pile technique permet à l’ASR de transformer la parole humaine en données normalisées (texte, intention, valeurs…) qui peuvent être traitées par des systèmes complexes.

Qu'est-ce que la biométrie vocale ?

La biométrie vocale transforme la voix en données biologiques d’identification pour authentifier ou reconnaître les personnes. Parfois appelée vérification de la voix ou reconnaissance du locuteur, la biométrie vocale constitue l’accès le plus rapide, le plus simple et le plus sûr pour toute une série de cas d’usages.

Qu'est-ce que la synthèse vocale ?

La synthèse vocale (également appelée TTS, speech ou voice synthesis) produit des voix à partir de textes, comme son nom l’indique. Cette technologie repose sur la création de moteurs vocaux capables de traduire des graphèmes (petites données textuelles) en phonèmes (petites données audio). Pour que la voix ressemble à celle d’un être humain, il faut recourir à l’apprentissage automatique pour trouver la façon la plus appropriée de prononcer les mots et les phrases. Avec l’ajout du SSML (Speech Synthesis Markup Language), la personnalisation peut aller bien au-delà (hauteur, timbre, niveau, vitesse…).

Qu'est-ce que le Front-End Audio ?

Le Front-End Audio est une technologie de traitement du signal audio agnostique. Elle est couramment utilisée pour faciliter les IHM (interactions homme-machine) à commande vocale à l’aide de microphones intégrés dans les appareils électroniques d’aujourd’hui. L’AFE permet une reconnaissance plus précise des commandes vocales (en champ lointain ou en champ proche) dans n’importe quel environnement d’utilisation en éliminant les sons parasites captés par le microphone. Il extrait la voix de l’utilisateur et annule les sons non intentionnels afin de permettre une reconnaissance vocale et une compréhension de l’utilisateur d’une grande clarté.

Qu'est-ce que le traitement du langage naturel (NLP) ?

Le traitement du langage naturel (NLP) est un domaine de l’informatique étroitement lié à l’intelligence artificielle qui vise à permettre aux ordinateurs et aux dispositifs numériques de comprendre les langues humaines de la même manière que les humains.

Qu'est-ce que la compréhension du langage naturel (NLU) ?

La compréhension du langage naturel (NLU) est une composante du traitement du langage naturel (NLP) qui se concentre sur les applications linguistiques.

Qu'est-ce que la reconnaissance des locuteurs ?

La reconnaissance du locuteur peut être considérée comme le concept qui résulte de la biométrie vocale, c’est-à-dire la capacité de reconnaître un individu grâce aux caractéristiques de sa voix. Ce processus est basé sur la définition d’une empreinte vocale (comme une empreinte digitale) à identifier et à faire correspondre. Il est souvent utilisé pour la diarisation, c’est-à-dire pour analyser une discussion par locuteur, ou pour authentifier une personne afin de lui donner un accès physique ou numérique.

Qu'est-ce que le SSML (Speech Synthesis Markup Language) ?

SSML est un langage de balisage conçu pour les applications de synthèse vocale (ou speech synthesis). Il est utilisé pour appliquer des mises au point et des ajustements aux voix synthétiques. Les balises SSML peuvent être du type <break=2s> pour mettre la lecture en pause pendant 2 secondes ou <prosody pitch=”high”> pour rendre la voix plus aiguë sur une partie spécifique du discours.

Qu'est-ce que le Speech-to-Text (STT) ?

Speech-to-Text est une autre appellation associée à la reconnaissance vocale ou à la reconnaissance automatique de la parole (ASR). La technologie sous-jacente est fondamentalement la même, à savoir la capacité de transcrire automatiquement la voix humaine en texte, comme son nom l’indique.

Que sont VUX et VUI (Voice User Experience and Interface) ?

VUX et VUI sont des applications spécialisées de l’expérience utilisateur et des méthodologies d’interface qui se concentrent sur les produits et services basés sur la voix. Elles guident les entreprises dans la réflexion et la création de parcours utilisateurs fluides et agréables qui font appel à la voix pour interagir avec l’interface, les fonctionnalités ou une IA conversationnelle. Pour plus d’informations, consultez nos articles de blog.

Comment les technologies vocales embarquées concurrencent-elles le Cloud ?

La technologie vocale embarquée est un excellent choix lorsque la confidentialité des données et la fiabilité du service sont obligatoires pour vous. De par sa conception, la technologie embarquée doit être compacte, légère, s’intégrer dans les appareils et fonctionner localement. La technologie embarquée est idéale pour les cas d’utilisation simples et prévisibles, les commandes basées sur la grammaire et les environnements complexes (sites distants…).

Les technologies Cloud auront de meilleures performances globales (compréhension plus profonde, flexibilité de la langue…) puisqu’elles communiquent avec des serveurs distants qui leur accordent la puissance de calcul et le stockage. Mais pour la puissance il faut sacrifier la fiabilité du service (latence et manque de connexion peuvent se produire) ainsi que la confidentialité, même si les communications sont sécurisées, les données sont transférées.

À propos de notre entreprise

Quand Vivoka a-t-elle été créée ?

Vivoka est une société française créée en 2015 avec actuellement 7 ans d’expérience dans le domaine des technologies vocales et des IA conversationnelles.

Combien de personnes travaillent actuellement chez Vivoka ?

Vivoka dispose d’une équipe solide de 40 personnes, dont la grande majorité sont des docteurs et des développeurs de haut niveau, tant pour les projets de R&D que pour le développement des produits.

Est-ce que Vivoka recrute ?

Vivoka est constamment à la recherche de nouveaux talents pour renforcer ses équipes. Des ventes et du marketing aux ingénieurs et aux développeurs, si vous voulez écrire l’avenir de la technologie vocale avec passion et leadership, contactez-nous ! Consultez les postes ouverts dès maintenant !

Vivoka a-t-elle déjà été récompensée ?

Vivoka est fier d’être le lauréat de plusieurs prix CES Award (2019 et 2020) dans les catégories smart home et smart city. Nous avons également reçu récemment le prix de l’innovation IoT avec les honneurs pour le projet “Compliant” grâce à nos technologies private by design.

Dans quels pays Vivoka est-elle basée ?

Vivoka est basée en France, son marché d’origine, mais est présente et possède des bureaux en Italie, en Allemagne et en Belgique.

Comment Vivoka se positionne-t-elle par rapport aux GAFAM ?

Vivoka est beaucoup plus orienté vers les entreprises que ses concurrents tels que les GAFAM. Nos clients types sont des entreprises avec lesquelles nous avons une relation plus profonde, nous sommes des partenaires, pas seulement des fournisseurs. En ce sens, nous nous efforçons d’offrir le meilleur support et les meilleures technologies pour créer des assistants vocaux sur mesure dont la confidentialité est au cœur des préoccupations.

À propos des spécifications

Quel est le matériel pris en charge ?

Actuellement, nous ne prenons en charge que les microprocesseurs. La plupart des marques de semi-conducteurs sont compatibles avec le VDK, vous pouvez consulter notre section Développeurs pour connaître les exigences des technologies.

Quels sont les systèmes d'exploitation pris en charge ?

Windows, Linux et Android sont actuellement pris en charge par nos technologies. Nous travaillons activement à une plus grande compatibilité des logiciels.

Quels sont les langages de programmation disponibles ?

C++ et Java sont les principaux langages de programmation nécessaires pour développer avec nos technologies à l’heure actuelle. En tant que systèmes d’exploitation compatibles, nous nous efforçons d’améliorer le nombre de langages de programmation que nous pouvons gérer.

Quel type de microphone est recommandé pour les technologies vocales ?

Comme nous ne sommes pas des spécialistes du matériel, nous ne pouvons pas vraiment suggérer un type de microphone spécifique. Néanmoins, nous pouvons vous mettre en contact avec nos partenaires, il vous suffit de nous contacter pour nous le faire savoir. Dans l’ensemble, nous vous suggérons d’effectuer plusieurs tests avec plusieurs appareils et conditions pour vous assurer que le moteur vocal fonctionne correctement.

Les technologies de VDK peuvent-elles fonctionner sur le Cloud ?

Techniquement, les technologies de VDK peuvent être hébergées en ligne.

Vous pouvez également opter pour une solution sur site, ce qui peut constituer une solution hybride parfaite, combinant la fiabilité du traitement local de la parole et la possibilité de transférer les données avec des serveurs couvrant vos propriétés.