Enquête sur l'exactitude du système réalisée en janvier 2025
4 janvier 2025|M9 STUDIO INC. Recherche
1. Introduction
1.1 Objet du rapport
La dernière fois que nous avons étudié l’exactitude de la traduction de l’IA, c’était en août 2024. Dans ce rapport, nous rapportons les derniers résultats d'exactitude de traduction réalisés le 4 janvier 2025 examinons de manière approfondie l'évolution et les problèmes des logiciels de traduction vidéo au cours de la période d'août 2024 à janvier 2025.
De plus, en démontrant la supériorité de notre M9 STUDIO, nous présenterons les indicateurs de qualité complets requis sur le marché .
1.2 Portée et objectif de la vérification
- Logiciel cible de vérification:
- Heygen
- RAQUER
- Onzelabs
- WAVE AI
- Synthésie
- Notre société M9 STUDIO (analyse détaillée dans le dernier chapitre)
- Détails de mise en œuvre:
- Anglais→Japonais (anglais-japonais) : 3 locuteurs : mère, père et personnage principal (fille)
- Japonais → Anglais (Japonais-Anglais) : Narration par un anglophone
- Axe d'évaluation : Précision de la traduction (mesurée avec la version Gemini janvier 2025), perfection vidéo (synchronisation audio/vidéo, affectation des locuteurs, qualité de prononciation, etc.)
Vidéo utilisée pour la vérification
Toutes les vidéos utilisées pour la vérification sont sous licence Creative Commons (sans licence) (utilisation commerciale possible). La vidéo japonaise a été produite par la section consulaire du département des affaires publiques et des échanges culturels de l'ambassade américaine (lien) . La vidéo en anglais a été produite par Sussex Humanities Lab (lien) .
CC:Licence : Dédicace au domaine public
Résultats de traduction à l'aide du système M9 STUDIO
[Précision de la traduction] Atteint une précision élevée de plus de 98 % à un niveau pratique, offrant une qualité de traduction stable dans les traductions anglais-japonais et japonais-anglais. En particulier, il est excellent pour comprendre le contexte et reproduire des phrases naturelles, et est très apprécié pour une utilisation professionnelle.
[Caractéristiques principales]
Architecture multimodale intégrée
Adoptant un concept de conception intégrant la synthèse audio de traduction et la synchronisation vidéo, chaque élément fonctionne en harmonie les uns avec les autres. Cela permet d'améliorer la précision de la traduction et de maintenir une sortie de haute qualité dans son ensemble sans compromettre les performances des autres éléments.
Système de reconnaissance intelligent du locuteur
Un algorithme d'IA développé de manière unique saisit avec précision les caractéristiques de plusieurs personnages et conserve les caractéristiques de la qualité de la voix et du style de parole de chaque personnage. Par exemple, dans une scène de conversation familiale, le dialogue naturel est reproduit sans sacrifier l'individualité des voix de la mère, du père et de la fille.
Moteur de génération de parole bilingue
Nous avons atteint une qualité de prononciation de niveau natif en japonais et en anglais. En particulier en japonais, il est capable de lire des mots étrangers tels que « données » et « ordinateur » ainsi que des kanji complexes, ce qui permet de produire de l'audio sans aucune gêne.
Système de synchronisation vidéo de haute précision
Vérifie automatiquement la synchronisation au niveau de l'image des mouvements de la bouche et de l'audio pour détecter et corriger de manière proactive les problèmes de désalignement et de qualité audio. En combinant des contrôles automatiques avec l’IA et des contrôles détaillés effectués par des humains, nous obtenons le plus haut niveau de contrôle qualité.
Cliquez ici pour plus de détails>
Résultats de vérification détaillés des logiciels d'autres sociétés
Ici, j'ai essayé de traduire une vidéo dans exactement les mêmes conditions en utilisant un outil de traduction vidéo largement répandu dans le monde entier.
2-1.
Principaux enjeux
- Anglais → Japonais : L'attribution des locuteurs est perturbée, par exemple la fille prononce les répliques de la mère et les répliques du père restent non prononcées.
- Japonais → Anglais : Il existe de nombreuses erreurs de lecture des kanji et des erreurs de grammaire, ce qui rend flou ce qui est dit.
Évaluation globale : Bien que la précision du texte de la traduction soit élevée, il existe des problèmes de gestion du locuteur et de qualité de prononciation, ainsi qu'un défaut majeur dans la qualité de la vidéo
2-2.RASK
2-3.Onzelabs
2-4. IA VAGUE
2-5.
3. Notre entreprise : résultats de la vérification de M9 STUDIO
Ce qui suit est le résultat de la traduction d’une vidéo à l’aide de notre système.
Sur la base de la vidéo terminée, nous avons utilisé la dernière version de Vertex pour déterminer la précision et l'évaluation globale, à l'instar des produits d'autres sociétés.
Principales caractéristiques du système M9
- Cohérence dans la conception multimodale
- Dès les premiers stades de développement, l'architecture a été construite sur le principe de la trinité « traduction », « synthèse vocale » et « synchronisation vidéo ».
- Nous avons construit un système pour gérer de manière intégrée l'ensemble du processus afin que le côté vidéo n'échoue pas même si nous améliorons la précision de la traduction
- Identification/commutation des haut-parleurs de haute précision
- Un algorithme unique analyse les caractères et adapte automatiquement la qualité de la voix et le timing corrects
- La vitesse de parole et l'intonation des mères, des pères et des filles sont optimisées individuellement.
- Synthèse de prononciation de type natif pour le japonais et l'anglais
- Apprend automatiquement les prononciations spéciales telles que « données » et « ordinateur » pour obtenir une lecture naturelle et correcte
- Il est également fort dans la lecture des kanji et dans le traitement de la grammaire, ce qui le rend difficile à décomposer.
- Automatiser le test de synchronisation avec la vidéo
- Nous vérifions la synchronisation labiale et la synchronisation audio image par image le décalage, le silence et le bruit à presque 0.
- La haute qualité est garantie grâce à un hybride de vérification par l’IA et de vérification humaine.
Tableau comparatif global
Sur la base des résultats obtenus jusqu'à présent, nous avons résumé le système et l'évaluation complète de chaque entreprise.
Remarque : « Précision de la traduction » est un index complet qui combine les nombres Gémeaux + la compatibilité linguistique réelle.
« L'intégralité de la vidéo » est une évaluation complète de l'affectation des locuteurs, de la qualité de la synthèse vocale, des perturbations vidéo/déviation de longueur, etc.
4. Evolutions techniques dans l'industrie de l'IA d'août 2024 à janvier 2025
4.1 Augmentation rapide de la précision de la traduction
- En août 2024 : la précision moyenne des traductions de chaque entreprise est d'environ 85 % (top 90-95 %)
- En janvier 2025 : la plupart des produits atteignent 95 à 98 %
Analyse des causes
- Intégration de grands modèles de langage
- Un nouveau moteur d'IA (tel que Gemini) a été introduit, améliorant considérablement la précision de la traduction basée sur les caractères.
- Accent mis sur la précision en raison de la pression concurrentielle
- Étant donné que l'exactitude de la traduction tend à être un indicateur de l'évaluation du marché, la priorité a été donnée au développement susceptible d'augmenter les « chiffres » à court terme
4.2 Diminution de la qualité vidéo
- Il existe de nombreuses erreurs fatales, telles que le personnage principal prononçant les répliques de la mère et l'omission des répliques du père.
- le japonais en raison d'une mauvaise prononciation (telle que « data » → « data »)
- La durée de la vidéo et le timing audio ne correspondent pas, le bruit et les craquements augmentent
Exemple typique : cas d'un célèbre système de traduction à l'étranger
- Août 2024 : précision de la traduction de 90 à 95 %, la vidéo elle-même a rencontré peu de problèmes
- janvier 2025: Précision de la traduction augmentée à 98 %
- Cependant, une erreur de synchronisation fatale s'est produite lorsque le personnage principal a prononcé les répliques de la mère.
- En échange d'une précision de traduction améliorée, la qualité vidéo diminue considérablement
Contexte du compromis
- Même si les modèles de traitement du langage ont été renforcés les améliorations apportées aux fonctions qui contrôlent la génération vocale, l'identification du locuteur et la synchronisation vidéo
- Le compromis typique entre « exactitude au niveau des caractères » et « exhaustivité multimodale »
5. Problèmes structurels des logiciels de chaque entreprise
est un résumé des principaux problèmes rencontrés dans les produits d'autres sociétés en janvier 2025
5.1 Échec de l'identification du locuteur
- Ceci est particulièrement visible dans les cas où il y a trois locuteurs, par exemple lorsque la fille prononce les répliques de la mère
- Il existe de nombreux cas où les répliques du père manquent ou sont prononcées par la voix du personnage principal.
- Cause : Algorithme de gestion des locuteurs et conception de liaison avec le moteur de synthèse vocale insuffisants.
5.2 Dégradation de la qualité vocale
- Erreurs de prononciation japonaise : "data" → "data", mauvaise lecture des kanji, etc.
- Fluctuations erratiques de la vitesse de parole (passant soudainement de lente à rapide)
- Augmentation du silence et du bruit, décalage temporel avec la vidéo
- Cause : La logique de lecture et le contrôle de vitesse/intonation spécifiques au japonais sont immatures.
5.3 Séparation architecturale
- De nombreuses entreprises développeront probablement séparément
- Des incohérences de données entre les modules se produisent en raison de tentatives de coordination ultérieures
- la dernière version d'un modèle de langage à grande échelle , le risque d'incohérence avec la synthèse vocale et la synchronisation vidéo augmente.
5.4 Contrôle/tests de qualité insuffisants
- le processus de vérification , ils se sont concentrés sur l'exactitude de la traduction (chiffres) et ont reporté les tests réels de la qualité vidéo
- L'identification avancée du locuteur et la prononciation japonaise ont été publiées sans tests sur les appareils réels, et les problèmes n'ont été découverts qu'après avoir reçu les commentaires des utilisateurs
6. Analyse détaillée des problèmes techniques
6.1 Limites du traitement multimodal
- À mesure que la précision de la traduction s'est améliorée, le nombre de mots et de phrases a augmenté et les expressions sont devenues plus naturelles, mais l'ajustement de la longueur des vidéos n'a pas suivi.
- Si le texte de sortie d'un modèle à grande échelle est utilisé tel quel pour la parole synthétisée, il y aura des écarts notables dans le temps de parole et la synchronisation labiale
6.2 Défauts dans l'affectation des haut-parleurs
- Lorsqu’il y a trois locuteurs ou plus, les algorithmes existants ne peuvent pas déterminer avec précision quelle personne prononce quelle ligne .
- Étant donné que la reconnaissance d'images, la reconnaissance vocale et la traduction ne fonctionnent pas ensemble, une confusion se produit, par exemple lorsque la voix de la fille est jouée même lorsque la mère est sur la photo
6.3 Traitement linguistique propre au japonais
- Comme il existe de nombreuses entreprises anglophones
- Des erreurs de prononciation telles que « data » peuvent être dues à une confusion dans le traitement de mots tels que « data » et « delta » au sein du système.
7. Pourquoi la technologie de M9 STUDIO est-elle si puissante ?
Dans notre entreprise, nous effectuons quotidiennement des recherches et des développements et mettons à jour nos produits . En conséquence, il est possible d'améliorer la précision de la traduction sans être influencé par des API externes ou des moteurs d'IA
Les services de nombreuses autres entreprises sont obligés de « rembobiner » ou de procéder à des rénovations à grande échelle en réponse aux changements dans les spécifications des principaux modèles d'IA ou API, mais M9 STUDIO gère la logique de base et les algorithmes en interne , cela ne prend donc court laps de temps temps Vous pouvez effectuer Cela se traduit par
- Intégrer immédiatement les nouvelles fonctionnalités et améliorations de précision nécessaires
- Maintient une qualité stable et une synchronisation vidéo
- Traduisez rapidement les commentaires des utilisateurs
De tels avantages en découleront.
l'une des principales raisons pour lesquelles M9 STUDIO est considéré comme l'un des meilleurs capable d'intégrer constamment les dernières technologies d'IA et de réaliser une évolution unique sans sacrifier la « perfection de la vidéo ».
Mémo|Y a-t-il moins d'échecs en espagnol et en français ?
Cependant, anglais → espagnol (ou anglais → français/anglais → chinois), il est supposé que les cas où la vidéo échoue comme dans ce cas ne sont pas aussi prononcés qu'en japonais.
La raison en est que les sociétés de développement anglophones se concentrent souvent sur le développement et la mise au point pour l'anglais⇔espagnol/anglais⇔français/anglais⇔chinois (la réponse à) a tendance à être reportée et, par conséquent, les traductions et la synthèse vocale ne sont pas naturelles. Les japonais ont tendance à se produire.
Une autre raison pour laquelle les traductions entre le japonais et les langues étrangères échouent est que l'anglais et de nombreuses langues européennes similitudes dans l'ordre des mots et la structure des phrases , ce qui facilite la traduction même avec des modèles à grande échelle . le modèle japonais n'est pas en mesure de s'adapter pleinement à cela, car la structure grammaticale du japonais est très différente, comme le sujet étant omis et les nuances changeant considérablement en fonction de la particule
8. Avantages de notre système
8.1 Conception architecturale intégrée
- La traduction → audio → vidéo est d'un système de contrôle de qualité cohérent .
- Vérifie la cohérence en temps réel et gère la synchronisation image par image.
- À partir d’août 2024, nous continuerons à renforcer nos modules de gestion de voix synthétiques et de haut-parleurs
8.2 Contrôle précis de la technologie d'identification du locuteur
- Les scénarios et les voix sont appris à l'avance à l'aide algorithme développé de manière unique
- des moteurs de synthèse vocale optimisés individuellement sont attribués, des erreurs telles que des lignes confuses ne sont presque jamais commises.
7.3 Prise en charge approfondie du japonais
- prononciation spécifique au japonais (sons longs, consonnes, lectures spéciales, etc.).
- Nous utilisons notre propre dictionnaire et dictionnaire d'accents pour distinguer correctement des mots tels que « données » et « ordinateur ».
- Tout en maintenant une précision de traduction supérieure à 98 % pour l'anglais et le japonais la qualité des déclarations vocales est également élevée .
8.4 Preuves pour une application pratique
- La vérification de la précision à l'aide de la dernière version de Vertex datant de 2025 a également abouti à des évaluations « aussi naturelles qu'une langue maternelle » et « zéro erreur d'attribution de plusieurs locuteurs ».
- Le produit étant très complet, n’est pas nécessaire de procéder à un développement « en arrière » et le risque d’échec à chaque mise à jour est faible.
Mémo|Problèmes dans les cas d'introduction de logiciels à l'étranger
Ces dernières années, certaines entreprises et services japonais ont introduit des logiciels étrangers qui représentent une part importante des services de traduction vidéo
Par exemple, certains services et entreprises japonais utilisent une certaine API de traduction célèbre. Cependant, comme le montrent les résultats de cette vérification, des problèmes fatals lors de la création de vidéos traduites basées sur le japonais (affectations de locuteurs mixtes, prononciation/grammaire cassée, etc.), et l'activité sur le marché japonais n'était
Le développement de l’IA par les entreprises japonaises s’appuie souvent sur des modèles linguistiques et des technologies vocales à grande échelle venus de l’étranger. Cependant, le traitement de la prononciation et de la grammaire propre au japonais , des défauts de qualité comme celui-ci sont inévitables.
À cet égard, nous pensons que notre technologie, qui permet d'atteindre une grande précision et une haute qualité en japonais
9. Perspectives futures et impact sur le marché
Comme vous pouvez le constater à partir de ces données, il est difficile pour d’autres entreprises du même secteur de rattraper leur retard après avoir consacré énormément de temps et d’argent au développement. Nous rendrons compte plus en détail de la situation actuelle et des raisons pour lesquelles cela est le cas.
9.1 Possibilité de retour par d'autres sociétés
- Une refonte fondamentale (restructuration architecturale) est nécessaire.
- Les améliorations de bout en bout la « traduction », de la « synthèse vocale », de la « synchronisation vidéo » et de la « gestion des locuteurs » nécessitent des ressources et du temps considérables.
- sera difficile de résoudre le problème même s'il est modifié de manière hybride .
9.2 Exigences de qualité croissantes
- Alors que la demande de traduction vidéo sur le marché augmente, les utilisateurs commencent à se rendre compte qu'une « traduction très précise ne suffit pas ».
- La demande de qualité globale telle que l’audio naturel, la synchronisation vidéo et la correspondance des haut-parleurs
9.3 Valeur apportée par M9 STUDIO
- Des produits finaux de haute qualité améliorent la satisfaction de l'utilisateur final et la confiance dans la marque (actuellement, aucun outil de traduction vidéo ne dépasse notre niveau).
- n'y a aucune charge de modifications de mise à niveau , les coûts opérationnels et les coûts de support sont réduits.
- À mesure que les modèles d’IA à grande échelle continuent d’évoluer, des mises à jour flexibles et stables seront possibles.
[Important] Concernant la sécurité des outils de traduction vidéo IA
La raison pour laquelle les entreprises japonaises ont mis du temps à introduire l’IA est que de nombreuses entreprises craignent que leurs propres données soient utilisées comme informations d’apprentissage pour l’IA. des craintes subsistent quant à l'utilisation d'un tel apprentissage de données dans des logiciels de traduction vidéo fabriqués à l'étranger
Par exemple, dans le cas d'une grande entreprise comme Panasonic, elle a introduit les produits Anthropic ( annoncés le 8 janvier 2025 au CES avoir conclu un accord stratégique ), qui semblent pouvoir surmonter le problème de l'apprentissage des données. Afin d’éviter les risques, la clé est de décider quel type d’IA intégrer.
*Anthropic a été créé en raison de préoccupations concernant la sécurité de l'Open AI ( matériaux )
Cependant, avec l'outil de traduction vidéo IA de M9, nous ne détournons jamais les informations ou les données de votre entreprise vers notre apprentissage de modèles
Dans notre entreprise, nous accordons une grande importance à cette question depuis le début de l'introduction de l'IA, et nous opérons selon des politiques strictes qui supposent une utilisation en entreprise lors du traitement de toutes les données, y compris les journaux et les résultats de traduction.
Paramètres de données non liés à la formation
- Séparation des données de formation
Les vidéos et les informations de sous-titres que vous téléchargez seront utilisées uniquement pour le traitement de la traduction et ne seront pas utilisées pour recycler ou améliorer les performances de nos modèles d'IA. - d'opt-in
Nous n'avons pas d'option « opt-in » qui nous permet d'acquérir des données supplémentaires et de les utiliser à des fins d'apprentissage, il n'y a donc aucune possibilité que les données soient utilisées involontairement.
Politique de conservation des journaux
- Restrictions d'accès et cryptage
Basées sur les normes de sécurité au niveau de l'entreprise, les communications internes du système et les données stockées sont toujours cryptées et les privilèges d'accès sont limités. - Gestion minimale et stricte
Même s'il est nécessaire de sauvegarder les journaux pour l'analyse des pannes, etc., les journaux seront conservés au minimum et pendant une période de temps limitée, et seront supprimés en toute sécurité lorsqu'ils ne seront plus nécessaires.
Pour votre tranquillité d'esprit
- Privilèges d'administrateur et journaux d'audit
Vous pouvez exercer les privilèges d'administrateur et vérifier les journaux d'audit de l'état d'utilisation. Dans le cas peu probable où il y aurait un accès suspect, nous pouvons réagir rapidement. - Système d'assistance dédié
Avant et après la mise en œuvre, notre personnel d'assistance dédié répondra en détail aux demandes et questions de votre entreprise et vous expliquera également les mesures de sécurité à tout moment.
Chez M9, nous concevons et exploitons toujours nos services avec la stricte protection des informations importantes de nos clients comme notre priorité absolue. N'hésitez pas à utiliser notre outil de traduction vidéo AI.