Foire aux questions
Tout ce que vous devez savoir sur les technologies vocales. Si vos questions restent sans réponse, contactez-nous !
à propos de notre produit
Qu'est-ce que le Voice Development Kit?
Le VDK est une solution logicielle tout-en-un qui permet aux entreprises et aux dĂ©veloppeurs de crĂ©er eux-mĂȘmes un assistant vocal entiĂšrement intĂ©grĂ© Ă l’appareil. Le VDK prĂ©sente toutes les technologies nĂ©cessaires pour rĂ©aliser une expĂ©rience vocale de bout en bout, dans plus de 40 langues et compatible avec la plupart des solutions matĂ©rielles.
Combien de langues sont prises en charge ?
VDK supporte 41 langues pour la reconnaissance vocale et 65 langues pour la synthĂšse vocale.Â
Quels sont les modĂšles de tarification de Vivoka ?
Le VDK a un prix fixe sur lequel s’additionnent les ressources et les technologies. Il s’agit de pouvoir utiliser le VDK et dĂ©velopper votre solution. Afin de l’exploiter commercialement, Vivoka offre une flexibilitĂ© en termes de modĂšles commerciaux.
La principale tarification que nous proposons est un modĂšle de licence basĂ© sur les redevances, vous devez payer un prix spĂ©cifique par unitĂ© Ă©quipĂ©e de nos technologies. Nous avons Ă©galement l’habitude de proposer des modĂšles d’abonnement qui peuvent s’appliquer Ă votre tarification existante.
Si vous avez des exigences spécifiques pour votre modÚle de revenus, faites-le nous savoir et nous trouverons un moyen de nous adapter.
Comment puis-je commencer ?
Afin de commencer Ă dĂ©velopper avec le VDK, vous devez demander une pĂ©riode d’Ă©valuation en cliquant sur le bouton “Obtenir le VDK”. Une fois vos informations approuvĂ©es par notre Ă©quipe, vous pourrez tĂ©lĂ©charger et prototyper avec le VDK pendant 30 jours.
Proposez-vous un essai gratuit ?
Nous laissons les entreprises essayer notre solution pendant 30 jours en mettant toutes les ressources à leur disposition. Pour y accéder, rendez-vous ici.
Qui utilise le VDK ?
Nous avons un large éventail de clients dans de nombreuses industries que vous pouvez découvrir ici. Le VDK est principalement utilisé par des entreprises et des sociétés de taille moyenne de la région EMEA et de la région Amérique du Nord.
Quels types de cas d'usages sont pris en charge par le VDK ?
Cette question devrait probablement ĂȘtre “quels sont les cas d’utilisation qui ne sont PAS pris en charge par le VDK”, puisque nous sommes agnostiques en matiĂšre de domaine. Nous offrons les outils nĂ©cessaires Ă la crĂ©ation de tout type de cas d’usages impliquant la voix, qu’il s’agisse de la prĂ©paration de commandes par la voix dans la chaĂźne d’approvisionnement, du remplissage et de la saisie de formulaires par la voix dans les opĂ©rations de maintenance et de rĂ©paration (MRO) ou de la navigation par la voix dans des lunettes intelligentes…
à propos des termes employés
Qu'est-ce que l'IA vocale ?
Lâintelligence articifielle vocale est une façon de nommer le principe des assistants vocaux. Il s’agit d’un systĂšme conversationnel qui utilise les commandes vocales, les comprend et transmet leur intention. Une fois la demande de l’utilisateur entiĂšrement rĂ©alisĂ©e, le systĂšme rĂ©pond en donnant un retour en langage naturel, via la synthĂšse vocale par exemple, pour mettre fin Ă la boucle de la conversation.
Qu'est-ce qu'un assistant vocal ?
Un assistant vocal est un systĂšme conversationnel basĂ© sur la voix qui va comprendre et rĂ©pondre Ă un utilisateur, faisant appel Ă de multiples technologies (reconnaissance automatique de la parole, comprĂ©hension du langage naturel, synthĂšse vocale…) pour y parvenir.
On appelle communément assistant vocal les IA conversationnelles, également appelées agents virtuels, qui sont hébergées dans les enceintes et appareils intelligents populaires.
Parfois, le terme est mal adaptĂ© au matĂ©riel lui-mĂȘme lorsque les haut-parleurs intelligents des GAFAM sont appelĂ©s assistants vocaux bien que Google Assistant soit Ă©galement prĂ©sent dans les tĂ©lĂ©phones ou les voitures…
Qu'est-ce que le "Voice-First" ?
“Voice-first” est une tendance, une vision, une ambition dans laquelle les dĂ©veloppements technologiques favorisent principalement l’utilisation d’interactions vocales dans les produits et services. En ce sens, la voix serait utilisĂ©e comme le toucher l’est aujourd’hui.
Qu'appelle-t-on la reconnaissance vocale ?
La reconnaissance vocale fait rĂ©fĂ©rence au domaine de la linguistique informatique qui dĂ©veloppe des technologies et des mĂ©thodologies pour reconnaĂźtre le langage humain, la parole, et le transformer en donnĂ©es, principalement en texte. En d’autres termes, il s’agit du processus qui permet aux ordinateurs et autres dispositifs de reconnaĂźtre et de rĂ©pondre aux frĂ©quences audio créées par la parole humaine.
Qu'est-ce que le contrĂŽle vocal ?
La commande vocale permet aux utilisateurs d’interagir avec des appareils et des applications numĂ©riques avec leur voix comme interface utilisateur mains libres. La commande vocale est un rĂ©sultat possible de l’utilisation des technologies vocales et repose principalement sur l’utilisation de la reconnaissance automatique de la parole (Ă©galement appelĂ©e “speech-to-text”).
Qu'est-ce qu'une commande vocale ?
Une commande vocale est le nom donnĂ© Ă une action que les utilisateurs peuvent initier sur toute application dotĂ©e de capacitĂ©s de reconnaissance vocale ainsi que de la solution permettant de comprendre et de traiter l’intention derriĂšre la commande.
Les commandes vocales sont gĂ©nĂ©ralement formĂ©es d’ordres ou d’instructions : “Augmenter la vitesse du ventilateur Ă 70%” ou “Aller au menu principal” par exemple.
Qu'est-ce qu'une saisie vocale ?
La saisie vocale est globalement le rĂ©sultat textuel des solutions de reconnaissance automatique de la parole (ou Speech-to-Text STT). Il ne s’agit pas nĂ©cessairement d’une commande qui va traiter une action ou un Ă©vĂ©nement spĂ©cifique, il peut aussi s’agir simplement de dictĂ©es (mots, phrases, chiffres…).
à propos des technologies
Qu'est-ce qu'un mot déclencheur ?
Le mot dĂ©clencheur est le premier Ă©lĂ©ment d’une interaction vocale de bout en bout. Vous connaissez certainement les mots dĂ©clencheur associĂ©s aux assistants vocaux populaires tels que Siri, Google ou Alexa. Cette technologie est utilisĂ©e pour “rĂ©veiller” littĂ©ralement l’assistant en Ă©coutant un seul mot ou une seule phrase. Une fois qu’il est dĂ©tectĂ©, l’assistant sait qu’il doit traiter les commandes vocales qui viennent juste aprĂšs.
Qu'est-ce que la reconnaissance automatique de la parole (ASR) ?
La reconnaissance automatique de la parole, souvent appelĂ©e Speech-to-Text ou simplement Automatic Speech Recognition (ASR), est la principale technologie qui fait de la voix un moyen d’interaction. Au sommet de l’IA vocale, elle fusionne des solutions complexes telles que les modĂšles acoustiques, la comprĂ©hension du langage naturel (NLU) ou le traitement du signal audio. Cette pile technique permet Ă l’ASR de transformer la parole humaine en donnĂ©es normalisĂ©es (texte, intention, valeurs…) qui peuvent ĂȘtre traitĂ©es par des systĂšmes complexes.
Qu'est-ce que la biométrie vocale ?
La biomĂ©trie vocale transforme la voix en donnĂ©es biologiques d’identification pour authentifier ou reconnaĂźtre les personnes. Parfois appelĂ©e vĂ©rification de la voix ou reconnaissance du locuteur, la biomĂ©trie vocale constitue l’accĂšs le plus rapide, le plus simple et le plus sĂ»r pour toute une sĂ©rie de cas d’usages.
Qu'est-ce que la synthĂšse vocale ?
La synthĂšse vocale (Ă©galement appelĂ©e TTS, speech ou voice synthesis) produit des voix Ă partir de textes, comme son nom l’indique. Cette technologie repose sur la crĂ©ation de moteurs vocaux capables de traduire des graphĂšmes (petites donnĂ©es textuelles) en phonĂšmes (petites donnĂ©es audio). Pour que la voix ressemble Ă celle d’un ĂȘtre humain, il faut recourir Ă l’apprentissage automatique pour trouver la façon la plus appropriĂ©e de prononcer les mots et les phrases. Avec l’ajout du SSML (Speech Synthesis Markup Language), la personnalisation peut aller bien au-delĂ (hauteur, timbre, niveau, vitesse…).
Qu'est-ce que le Front-End Audio ?
Le Front-End Audio est une technologie de traitement du signal audio agnostique. Elle est couramment utilisĂ©e pour faciliter les IHM (interactions homme-machine) Ă commande vocale Ă l’aide de microphones intĂ©grĂ©s dans les appareils Ă©lectroniques d’aujourd’hui. L’AFE permet une reconnaissance plus prĂ©cise des commandes vocales (en champ lointain ou en champ proche) dans n’importe quel environnement d’utilisation en Ă©liminant les sons parasites captĂ©s par le microphone. Il extrait la voix de l’utilisateur et annule les sons non intentionnels afin de permettre une reconnaissance vocale et une comprĂ©hension de l’utilisateur d’une grande clartĂ©.
Qu'est-ce que le traitement du langage naturel (NLP) ?
Le traitement du langage naturel (NLP) est un domaine de l’informatique Ă©troitement liĂ© Ă l’intelligence artificielle qui vise Ă permettre aux ordinateurs et aux dispositifs numĂ©riques de comprendre les langues humaines de la mĂȘme maniĂšre que les humains.
Qu'est-ce que la compréhension du langage naturel (NLU) ?
La compréhension du langage naturel (NLU) est une composante du traitement du langage naturel (NLP) qui se concentre sur les applications linguistiques.
Qu'est-ce que la reconnaissance des locuteurs ?
La reconnaissance du locuteur peut ĂȘtre considĂ©rĂ©e comme le concept qui rĂ©sulte de la biomĂ©trie vocale, c’est-Ă -dire la capacitĂ© de reconnaĂźtre un individu grĂące aux caractĂ©ristiques de sa voix. Ce processus est basĂ© sur la dĂ©finition d’une empreinte vocale (comme une empreinte digitale) Ă identifier et Ă faire correspondre. Il est souvent utilisĂ© pour la diarisation, c’est-Ă -dire pour analyser une discussion par locuteur, ou pour authentifier une personne afin de lui donner un accĂšs physique ou numĂ©rique.
Qu'est-ce que le SSML (Speech Synthesis Markup Language) ?
SSML est un langage de balisage conçu pour les applications de synthĂšse vocale (ou speech synthesis). Il est utilisĂ© pour appliquer des mises au point et des ajustements aux voix synthĂ©tiques. Les balises SSML peuvent ĂȘtre du type <break=2s> pour mettre la lecture en pause pendant 2 secondes ou <prosody pitch=”high”> pour rendre la voix plus aiguĂ« sur une partie spĂ©cifique du discours.
Qu'est-ce que le Speech-to-Text (STT) ?
Speech-to-Text est une autre appellation associĂ©e Ă la reconnaissance vocale ou Ă la reconnaissance automatique de la parole (ASR). La technologie sous-jacente est fondamentalement la mĂȘme, Ă savoir la capacitĂ© de transcrire automatiquement la voix humaine en texte, comme son nom l’indique.
Que sont VUX et VUI (Voice User Experience and Interface) ?
VUX et VUI sont des applications spĂ©cialisĂ©es de l’expĂ©rience utilisateur et des mĂ©thodologies d’interface qui se concentrent sur les produits et services basĂ©s sur la voix. Elles guident les entreprises dans la rĂ©flexion et la crĂ©ation de parcours utilisateurs fluides et agrĂ©ables qui font appel Ă la voix pour interagir avec l’interface, les fonctionnalitĂ©s ou une IA conversationnelle. Pour plus d’informations, consultez nos articles de blog.
Comment les technologies vocales embarquées concurrencent-elles le Cloud ?
La technologie vocale embarquĂ©e est un excellent choix lorsque la confidentialitĂ© des donnĂ©es et la fiabilitĂ© du service sont obligatoires pour vous. De par sa conception, la technologie embarquĂ©e doit ĂȘtre compacte, lĂ©gĂšre, s’intĂ©grer dans les appareils et fonctionner localement. La technologie embarquĂ©e est idĂ©ale pour les cas d’utilisation simples et prĂ©visibles, les commandes basĂ©es sur la grammaire et les environnements complexes (sites distants…).
Les technologies Cloud auront de meilleures performances globales (comprĂ©hension plus profonde, flexibilitĂ© de la langue…) puisqu’elles communiquent avec des serveurs distants qui leur accordent la puissance de calcul et le stockage. Mais pour la puissance il faut sacrifier la fiabilitĂ© du service (latence et manque de connexion peuvent se produire) ainsi que la confidentialitĂ©, mĂȘme si les communications sont sĂ©curisĂ©es, les donnĂ©es sont transfĂ©rĂ©es.
à propos de notre entreprise
Quand Vivoka a-t-elle été créée ?
Vivoka est une sociĂ©tĂ© française créée en 2015 avec actuellement 7 ans d’expĂ©rience dans le domaine des technologies vocales et des IA conversationnelles.
Combien de personnes travaillent actuellement chez Vivoka ?
Vivoka dispose d’une Ă©quipe solide de 40 personnes, dont la grande majoritĂ© sont des docteurs et des dĂ©veloppeurs de haut niveau, tant pour les projets de R&D que pour le dĂ©veloppement des produits.
Est-ce que Vivoka recrute ?
Vivoka est constamment Ă la recherche de nouveaux talents pour renforcer ses Ă©quipes. Des ventes et du marketing aux ingĂ©nieurs et aux dĂ©veloppeurs, si vous voulez Ă©crire l’avenir de la technologie vocale avec passion et leadership, contactez-nous ! Consultez les postes ouverts dĂšs maintenant !
Vivoka a-t-elle déjà été récompensée ?
Vivoka est fier d’ĂȘtre le laurĂ©at de plusieurs prix CES Award (2019 et 2020) dans les catĂ©gories smart home et smart city. Nous avons Ă©galement reçu rĂ©cemment le prix de l’innovation IoT avec les honneurs pour le projet “Compliant” grĂące Ă nos technologies private by design.
Dans quels pays Vivoka est-elle basée ?
Vivoka est basĂ©e en France, son marchĂ© d’origine, mais est prĂ©sente et possĂšde des bureaux en Italie, en Allemagne et en Belgique.
Comment Vivoka se positionne-t-elle par rapport aux GAFAM ?
Vivoka est beaucoup plus orientĂ© vers les entreprises que ses concurrents tels que les GAFAM. Nos clients types sont des entreprises avec lesquelles nous avons une relation plus profonde, nous sommes des partenaires, pas seulement des fournisseurs. En ce sens, nous nous efforçons d’offrir le meilleur support et les meilleures technologies pour crĂ©er des assistants vocaux sur mesure dont la confidentialitĂ© est au cĆur des prĂ©occupations.
à propos des spécifications
Quel est le matériel pris en charge ?
Actuellement, nous ne prenons en charge que les microprocesseurs. La plupart des marques de semi-conducteurs sont compatibles avec le VDK, vous pouvez consulter notre section Développeurs pour connaßtre les exigences des technologies.
Quels sont les systĂšmes d'exploitation pris en charge ?
Windows, Linux et Android sont actuellement pris en charge par nos technologies. Nous travaillons activement à une plus grande compatibilité des logiciels.
Quels sont les langages de programmation disponibles ?
C++ et Java sont les principaux langages de programmation nĂ©cessaires pour dĂ©velopper avec nos technologies Ă l’heure actuelle. En tant que systĂšmes d’exploitation compatibles, nous nous efforçons d’amĂ©liorer le nombre de langages de programmation que nous pouvons gĂ©rer.
Quel type de microphone est recommandé pour les technologies vocales ?
Comme nous ne sommes pas des spĂ©cialistes du matĂ©riel, nous ne pouvons pas vraiment suggĂ©rer un type de microphone spĂ©cifique. NĂ©anmoins, nous pouvons vous mettre en contact avec nos partenaires, il vous suffit de nous contacter pour nous le faire savoir. Dans l’ensemble, nous vous suggĂ©rons d’effectuer plusieurs tests avec plusieurs appareils et conditions pour vous assurer que le moteur vocal fonctionne correctement.
Les technologies de VDK peuvent-elles fonctionner sur le Cloud ?
Techniquement, les technologies de VDK peuvent ĂȘtre hĂ©bergĂ©es en ligne.
Vous pouvez également opter pour une solution sur site, ce qui peut constituer une solution hybride parfaite, combinant la fiabilité du traitement local de la parole et la possibilité de transférer les données avec des serveurs couvrant vos propriétés.