Produits
NOUVELLES
Le système de reconnaissance vocale automatique de GONSIN convient à divers scénarios d'application, y compris les procès-verbaux de réunion, les dossiers de formation, les sous-titres de discours en temps réel, la transcription des enregistrements d'entrevue, les enregistrements des procès en temps réel, etc. Il peut fusionner le texte et l'enregistrement vocal de chaque rôle, fusionner et générer des minutes de réunion et prendre en charge l'exportation de texte. LeSystème de conférence ChinePrend en charge le déploiement de location de serveurs cloud et le déploiement de réseaux locaux, l'apprentissage de l'intelligence artificielle et l'optimisation continue du système.
En tant que nouveau développement de solutions de conférence modernes, le système de reconnaissance vocale automatique (ASR) apporte une expérience d'interaction homme-ordinateur plus intelligente. Pour les conférences traditionnelles, la communication par le son et la vidéo ne peut plus satisfaire les besoins modernes de la conférence. En outre, après la réunion, le traitement des documents, les procès-verbaux des réunions et les procédures juridiques des utilisateurs spécifiques doivent également être présentés dans un format de mots. Le système de reconnaissance vocale automatique Gonsin peut réaliser une transcription de texte en temps réel, complète et ordonnée à partir du son, et garantit que le texte correspond au discours de chaque délégué. Le texte transcrit peut être affiché sur un grand écran, ainsi que le système de conférence sans papier Gonsin en temps réel.
Le système ASR convient à divers scénarios d'application, y compris les procès-verbaux de réunion, les enregistrements de formation, les sous-titres de discours en temps réel, la transcription des enregistrements d'entrevue, les enregistrements de procès en temps réel, etc.
Le système GONSIN ASR propose trois solutions: la solution de reconnaissance et de traduction vocale en ligne, la solution de déploiement privé léger et la solution de déploiement privé de cluster de salle de conférence.
Solution de reconnaissance vocale et de traduction en ligne
Solution de déploiement privé léger
Solution de déploiement privé du groupe de salle de conférence
Le système logiciel de reconnaissance vocale automatique de GONSIN est développé sur la plate-forme de la technologie de reconnaissance vocale automatique de la conférence numérique complète de GONSIN. En connectant les données audio réseau et l'arrière-plan ASR, et en prenant en charge les logiciels d'application ASR et GONSIN, il réalise une transcription vocale en temps réel en texte.
Prend en charge le cloud public et la sélection de serveurs vocaux cloud propriétaires, qui peuvent répondre à différentes méthodes de déploiement de serveurs. Prend en charge l'installation sur un ordinateur PC ou un serveur de reconnaissance vocale, qui peut être appliquée de manière flexible à une variété de scénarios d'application.
Prend en charge la fonction de gestion d'arrêt du serveur ASR, le serveur ASR, la connexion du système de discussion, la fonction de recherche et la fonction de personnalisation du rôle du microphone, et prend en charge la lettre publique de chaque série de systèmes de discussion. séparation des rôles et identification automatique.
Gestion du personnel de soutien et de l'équipement, y compris la recherche de l'équipement, l'affichage des informations sur le numéro d'unité, les informations sur l'adresse IP et les paramètres du nom du personnel; soutenir l'édition des informations sur les réunions, y compris le nouveau nom de la réunion, la définition de l'heure, du lieu, et l'édition de contenu de réunion.
Prend en charge la reconnaissance simultanée de plusieurs rôles de microphone et la fonction anti-diaphonie, ce qui peut effectivement éviter la diaphonie mutuelle lorsque plusieurs microphones sont reconnus en même temps; prend en charge les invites de statut de microphone, qui peut afficher l'état d'marche et d'arrêt du microphone en temps réel.
Fonction d'apprentissage du modèle de langue de soutien. Il prend en charge l'importation de mots courants tels que les noms de personnes et les lieux pour apprendre le modèle de langue.
Prend en charge l'identification automatique des rôles des participants, l'identification automatique de la voix des participants et la transcription en texte. Le logiciel prend en charge la traduction dans d'autres discours requis (les fonctions du logiciel varient en fonction des capacités du moteur)
Soutenez la compréhension sémantique intelligente, qui peut automatiquement comprendre la sémantique des participants et casser automatiquement les phrases et les segments en fonction de la sémantique. Prend en charge la conversion automatique des numéros consécutifs au format arabe et prend en charge l'identification automatique des numéros de téléphone portable, des cartes d'identité et d'autres numéros consécutifs convertis au format arabe.
Fonctions d'édition et de correction de texte de réunion de soutien. Générer des fichiers d'enregistrement séparés pour différents rôles, ou fusionner les enregistrements de texte et les enregistrements de chaque rôle. Les enregistrements vocaux et textuels peuvent être synchronisés en lecture et en affichage par rapport à la correction du document.
Fonction de sortie d'enregistrement de réunion de soutien. Prend en charge la fusion de texte, génère des minutes de réunion et exporte du texte.
Fonction de recherche de contenu de soutien, recherche de contenu de soutien texte. Les mots clés peuvent être recherchés, localisent rapidement la position du contenu correspondant, améliorant considérablement l'efficacité de la récupération de contenu.
Fonction de sortie de texte d'écran partagé de soutien. Installation à l'ordinateur PC, vous pouvez réaliser l'affichage en temps réel du texte de transcription dans l'écran principal de l'ordinateur d'exploitation, soutenir l'expansion de la sortie d'écran partagé, affichage en temps réel du contenu texte de la reconnaissance vocale. Prend en charge la fonction de personnalisation de l'écran, adaptative de résolution d'écran, prend en charge la police de texte, les paramètres de taille, pour fournir un service d'affichage de texte sur écran partagé de haute qualité.
Prend en charge la reconnaissance de fichiers d'enregistrement, via l'importation de fichiers d'enregistrement, convertissez automatiquement le contenu du fichier d'enregistrement en contenu texte; prend en charge les formats mp3, wav et autres.
Prend en charge la sélection des périphériques d'entrée audio, vous pouvez connecter les périphériques d'entrée audio de l'ordinateur, texte de transcription d'entrée audio en temps réel
Prend en charge l'ordinateur pour reconnaître le contenu sonore de lecture actuel et le convertir automatiquement en texte.
Prend en charge des fonctionnalités plus personnalisées: le logiciel prend en charge la commutation chinoise et anglaise, ainsi que d'autres langues personnalisées; prise en charge du développement secondaire, selon les exigences du projet du protocole d'interface ouverte ou du développement personnalisé.
Système | Win7 / win8 / win10 système d'exploitation 32 / 64 bit |
CPU | I7 ou ci-dessus |
Capacité du disque dur | 500GB ou ci-dessus |
Capacité de mémoire | 16GB ou ci-dessus |
Carte graphique | La carte graphique indépendante prend en charge l'interface VGA / HDMI / DVI et prend en charge l'écran partagé |
PC interface | 1 * interface RS-232 et 2 * interfaces RJ45 |
Résolution | Auto-adaptatif |
Communication PC | Ethernet/RS-232 |
Bonne compatibilité système, prend en charge l'affichage des sous-titres pour les appareils Windows et Android.
Prend en charge plusieurs réglages du mode d'affichage sous-titres. Prend en charge le mode plein écran et le mode pop-up
Mode plein écran: afficher le contenu de la transcription en plein écran sous forme de boîte de dialogue. Soutenir le réglage de l'arrière-plan et le réglage de la police.
Mode Barrage: affiche le contenu de la transcription dans un style de barrage flottant. Réglage de la ligne et réglage de la police de soutien
Prend en charge la fonction de sous-titre vidéo: prend en charge la superposition des fonctions de sous-titres en temps réel sur l'écran vidéo, intégrée aux applications de visioconférence et de suivi de la caméra.
Prend en charge la fonction de sous-titre de superposition sans papier: permet la superposition de sous-titres en temps réel sur des écrans sans papier, l'intégration avec des systèmes sans papier et l'affichage du texte transcrit en temps réel sur des terminaux sans papier.
Avec un logiciel de reconnaissance vocale intelligent, il peut réaliser la gestion d'accès Web
Prend en charge la reconnaissance automatique des rôles des participants, la reconnaissance automatique de la voix du participant et la transcription en texte
Avec ASR Engine intégré, adoptez une technologie de reconnaissance vocale en ligne de pointe, déployée dans le cloud pour fournir des services de reconnaissance vocale pour la parole locale. Faible latence, haute précision de reconnaissance, le taux de précision peut atteindre plus de 99%
Le serveur de reconnaissance vocale peut réaliser la transcription vocale de différents canaux:
GX-AS201: prend en charge la capacité de reconnaissance vocale 1-way
GX-AS202: Prend en charge la capacité de reconnaissance vocale bidirectionnelle
GX-AS205: prend en charge la capacité de reconnaissance vocale à 5 voies
GX-AS208: prend en charge la capacité de reconnaissance vocale à 8 voies
Soutenez la reconnaissance de langue personnalisée, comme le chinois, l'anglais, l'espagnol, l'arabe, le russe et le français.
Soutenir la reconnaissance dans plusieurs scénarios d'application: éducation, judiciaire, médical, discours de conférence, médias d'information, vidéo de divertissement, maison intelligente, social, automobile, etc.
Soutenez plusieurs salles de conférence pour partager le serveur. Prend en charge plusieurs salles de conférence dans le centre de conférence pour former un réseau local et déployer de manière centralisée le serveur pour répondre à la reconnaissance vocale et à la transcription parallèles dans plusieurs salles de conférence.
Avec un logiciel d'affichage intelligent de sous-titres de reconnaissance vocale, fournissez un service d'affichage de sous-titres pour les conférences.
Modèle | GX-AS201 | GX-AS202 | GX-AS205 | GX-AS208 |
Version système | Centos7.4 + | |||
CPU | I3 | I7 | ||
Capacité de mémoire | 16G | 32G | ||
Disque dur | 256G SSD | 500G SSD | ||
Interface du panneau avant | 4 × USB2.0 Type-A, 1 × 3.5mm de sortie de ligne, 1 × 3.5mm Micin, 1 × bouton d'alimentation, 1 × LED de puissance | |||
Interface du panneau arrière | 4 × USB3.0 Type-A, 1 × RJ4510/100/1000M, 1 × HDMI 1.4 out, 1 × COM out, 1 × 3.5mm Sortie de ligne, 1 × 3.5mm Mic in, 1 × WIFI/BT ANT | |||
Puissance d'entrée | 19V DC | |||
Température de fonctionnement | -5 °C ~ 45 °C | |||
Température de stockage | -20 °C ~ 60 °C | |||
Volume | 210(L)× 210 (W)× 56 (H) mm |
Serveur en rack standard 2U avec des performances stables et fiables, adoptant une plaque en acier galvanisé SGCC, une peinture extérieure respectueuse de l'environnement, une résistance aux empreintes digitales et une résistance aux interférences magnétiques fortes de 4kV
Adoptez le serveur LINNUX à configuration haute performance, installez le logiciel ASR Engine V3.0 pour réaliser l'identification automatique des rôles des participants, la reconnaissance automatique des voix des participants et la transcription en texte.
Soutenez plusieurs salles de conférence pour partager le serveur. Prend en charge plusieurs salles de conférence dans le centre de conférence pour former un réseau local et déployer de manière centralisée le serveur pour répondre aux besoins de plusieurs salles de conférence pour la reconnaissance vocale et la transcription parallèles.
Co-travail avec un logiciel d'affichage intelligent de sous-titres de reconnaissance vocale pour fournir un service d'affichage de sous-titres pour les réunions
Modèle CTC à haut rendement, grâce à l'autorisation facultative, un serveur unique prend en charge un maximum de 50 reconnaissances simultanées.
Le serveur adopte un mécanisme de cryptage SSL pour assurer efficacement la sécurité du stockage et la sécurité de transmission des informations sensibles. Les algorithmes de cryptage RC4, MD5 et RSA sont utilisés pour assurer la sécurité des données de la plate-forme et éviter les fuites d'informations importantes.
Logiciel intégré de gestion de puissance embarqué. Il peut surveiller l'état de la tension pour éviter la défaillance de l'équipement causée par la fluctuation de la tension et réaliser une protection contre tous les temps.
Avec une technologie de reconnaissance vocale en ligne de pointe, déployée dans le cloud pour fournir des services de reconnaissance vocale pour la parole locale. Faible latence, haute précision de reconnaissance, le taux de précision peut atteindre plus de 99%
Le moteur adopte un modèle de paiement par forfait, réduisant efficacement le coût des intrants et le seuil de construction de la reconnaissance vocale. Les utilisateurs peuvent acheter le programme d'emballage de longueur appropriée en fonction de la demande réelle pour la longueur de la reconnaissance vocale (veuillez acheter le service de package à temps pour assurer l'utilisation normale du moteur)
Prend en charge la reconnaissance séparée des rôles: différentes langues d'origine et langues de traduction peuvent être sélectionnées en fonction de différents rôles, de manière à réaliser la reconnaissance simultanée de plusieurs langues, la transcription en texte correspondant et la traduction.
Prend en charge plusieurs langues principales, telles que le chinois, l'anglais, le français, le russe, l'arabe et l'espagnol.
Avec le logiciel intelligent d'affichage de sous-titres de reconnaissance vocale, il peut afficher le texte original et le texte traduit en même temps, ou configurer pour afficher le texte original/traduit séparément, fournir un service de sous-titres pour la négociation d'affaires et la vidéoconférence dans différentes langues.
Adoptez une technologie de modèle de reconnaissance linguistique intelligente, basée sur la technologie de l'IA pour réaliser la reconnaissance vocale
Soutenez la reconnaissance de langue personnalisée, telle que le chinois, l'anglais, l'espagnol, l'arabe, le russe et le français
Soutenir la reconnaissance dans plusieurs scénarios d'application: éducation, judiciaire, médical, discours de conférence, médias d'information, vidéo de divertissement, maison intelligente, social, automobile, etc.
Tout logiciel de reconnaissance vocale automatisé, quelle que soit sa complexité, peut extraire et décomposer vos mots pour l'analyse et la réponse, et sa séquence d'événements de base est répertoriée comme suit:
1. Parlez au logiciel via une entrée audio.
2. La reconnaissance vocale automatique à laquelle vous parlez générera un fichier d'onde de vos mots.
3. Les fichiers de forme d'onde ont été nettoyés en supprimant le bruit de fond et le volume normalisé.
4. Les formes d'onde filtrées sont décomposées en soi-disant phonèmes. (Les phonèmes sont les composants de base de la prononciation du langage et des mots. Il existe 44 mots de ce type en anglais, composés de blocs vocaux tels que "wh", "th", "ka" et "t").
5. Chaque phonème agit comme une chaîne, en commençant par le premier phonème et en les analysant en séquence, et le lecteur de parole ASR utilise une analyse probabiliste statistique pour déduire le mot entier, puis déduire des phrases complètes à partir de là.
6. Votre logiciel de reconnaissance vocale automatique ASR, qui «comprend» maintenant vos mots, peut vous répondre de manière significative.
Tout logiciel de reconnaissance vocale automatisé, quelle que soit sa complexité, peut extraire et décomposer vos mots pour l'analyse et la réponse, et sa séquence d'événements de base est répertoriée comme suit:
1. Parlez au logiciel via une entrée audio.
2. La reconnaissance vocale automatique à laquelle vous parlez générera un fichier d'onde de vos mots.
3. Les fichiers de forme d'onde ont été nettoyés en supprimant le bruit de fond et le volume normalisé.
4. Les formes d'onde filtrées sont décomposées en soi-disant phonèmes. (Les phonèmes sont les composants de base de la prononciation du langage et des mots. Il existe 44 mots de ce type en anglais, composés de blocs vocaux tels que "wh", "th", "ka" et "t").
5. Chaque phonème agit comme une chaîne, en commençant par le premier phonème et en les analysant en séquence, et le lecteur de parole ASR utilise une analyse probabiliste statistique pour déduire le mot entier, puis déduire des phrases complètes à partir de là.
6. Votre logiciel de reconnaissance vocale automatique ASR, qui «comprend» maintenant vos mots, peut vous répondre de manière significative.
Gonsin est là pour vous offrir les solutions personnalisées pour le système audio et vidéo de conférence.