
M9 SPEAK - AIが解き放つ、音声表現の新たな領域
2025年1月27日にアップデート(ver2.0)
M9 STUDIOが誇る新しいAI音声エンジン「M9 SPEAK」が、動画制作と音声表現の常識を塗り替えます。最新のアップデートでは、従来のAIナレーションで大きな課題であったイントネーションのクオリティーを大幅に改善。人間が自然に話しているような、流暢な発話ができるようになりました。
NEW! 独自のアプローチで開発した、全く新しい技術(ver2.0)
2025年1月上旬にリリースしたβ版とは全く異なり、今回のアップデートでは、全く新しいアプローチで開発を進めました。

これまでは、元の音声との類似率と音声翻訳の精度を重視していましたが、最新バージョンでは先ず、「イントネーションの骨格データ」を構築した上で、音声を生成するという、M9独自のアプローチにより、より人間的で豊かな感情表現を実現しました。
新バージョンの特徴
- 前バージョン(2025年1月上旬)に課題としていた、イントネーションの問題を完全クリア
- 独自開発・イントネーションの骨格を先に生成する仕組みで、不自然な抑揚を解消
- 外国語から日本語への翻訳動画でも、ナチュラルに聞こえる音声を実現
M9 SPEAKの最新技術によって、まるでプロの声優やナレーターが話しているかのような、ハイクオリティな音声が得られます。
面倒な収録や高コストの声優手配はもう不要。あなたの動画や音声コンテンツを驚くほど簡単にアップグレードできるのが、新生「M9 SPEAK」の魅力です。


ビジネス 製品案内

ヨガのインストラクター

番組ナレーション

交通機関のガイド

ラジオ・イベント情報

中継・レポート

ライブ配信(アニメ風の声)

小説の朗読

美術館の音声ガイド

「M9 SPEAK」は、一般的なAI音声サービスやツールとは一線を画すツールです。ベテランのキャスターやナレーターのように迫力ある音声から、アニメーションのようにユニークでコミカルな声まで。あなたのコンテンツやニーズに合わせて、世界で一つだけのAIナレーターをクリエイトし、指定したテキストを感情豊な音声によって読み上げます。
【メモ】M9 SPEAKとM9 SYSTEMの発話の違い
弊社のAI動画翻訳「M9システム」は、元の話者の声を元に、そっくりな声で翻訳する仕組みです。このため、元の話者の声はそっくりであるものの、発音の癖や話し方のイントネーションに、翻訳後の音声が影響を受けるということがありました。

しかし、今回リリースしたM9 SPEAKは、最初にイントネーションのフレームを作ってから発話をさせるので、より正確で流暢な発音や会話ができるという特徴があります。
このため、話者の声を生かすのであればM9システムを、会話の流暢さを重視する場合は、M9 SPEAKを選ぶというように、お客様の用途に合わせて、使い分けをしていただくことが可能です。
医療・福祉の現場における音声案内の重要性

人手不足が深刻な医療や福祉現場において、音声によるガイダンスや案内が求められています。
実際にAI自動音声による受付や診察の順番案内、薬の受け取り時の説明をサポートすることで、患者様の不安を軽減し、医療従事者様の負担を減らすことができます。
院内のサポート、治療方法のガイダンスにもこうした音声による案内がスムーズな診察に役立ちます。

また訪日外国人にとっても、音声案内があれば、受付や診察、薬の受け取りがスムーズに進みます(多言語・リアルタイム医療翻訳の設定も可能)。
今後、より多くの人が安心して医療を受けられる体制を作る上でも、音声案内の導入は必須と言えるでしょう。
日本語
英語
中国語
先に「イントネーションの骨格」を作るから、音声の入れ替えもカンタン

新たなM9 SPEAKでは、まず音声の“イントネーション骨格”を先に生成し、その後で声質(ボイス)を生成する独自技術を採用しています。
このため、一度作った骨格データに対して、別の声をすぐに差し替えられるという柔軟性が大きな魅力です。
シーン切り替え時に声だけ変更したい場合や、「男性の声」を「女性の声」に変えるなどの仕様変更が生じた場合でも、骨格はそのまま流用し、音声の部分だけ取り替えることが可能
結果として、修正・再編集の手間やコストを大幅に削減し、よりスピーディーな音声制作が実現します。

新バージョン「M9 SPEAK」の3つの特長をご紹介します。
1. イントネーションの骨格データを先に作る、独自設計

「M9 SPEAK」では、文章を読ませる前にイントネーションの骨格を構築しており、そこに声質を当てはめます。
これにより、外国語から日本語への音声変換でも、不自然な高低差や妙な区切れがなく、あたかもネイティブスピーカーかのように流暢な発声が可能です。
- 細かな抑揚や「間」の調整がしやすい
- 微妙な感情表現(喜怒哀楽、ささやき声など)も豊かに再現
2. 従来比でコスト削減&スピードUP

プロ声優やナレーターに依頼する場合、コストやスケジュール面がネックになりがち。しかし「M9 SPEAK」なら、すべてAIが自動で音声を生成するため、格段に安い費用でスピーディーな運用が実現します。
- 独自AIボイスを使用するため、タレント許諾などの制約なし
- スクリプトを用意するだけで、すぐに完了
- 欲しいタイミングで、必要な音声がすぐに作れるので便利
3. 50言語以上に対応!翻訳~ナレーションを一気通貫

M9 STUDIOが培ってきた高精度AI翻訳技術と連携し、世界50カ国以上の言語に対応。「日本語→多言語」「多言語→日本語」いずれも、自然なイントネーションの音声として生成できます。
- 外国語から日本語の吹き替えでも違和感なし
- インバウンド対策や海外向けプロモーションに最適
- 動画翻訳サービス「M9 System」とも連携し、ワンストップでコンテンツ制作可能
世界最高レベルのAI音声テクノロジー

多言語AI翻訳サービスで世界トップクラスの精度を誇るM9 STUDIO。そのAI技術を基盤に世界最高峰の音声ツールとして、新たに開発された「M9 SPEAK」は、高い発話技術と豊かな表現力を兼ね備えています。
また、国内外での開発経験なども活かし、翻訳から音声生成までワンストップで行える点が、他社にはない大きな強みとなっています。
肉声のようにリアルで、ハイクオリティな音声が手に入る

「M9 SPEAK」は、従来の機械的な日本語読み上げとは一線を画し、人間の声に近い流暢さ・自然さを実現。感情がこもったナレーションを、誰でも・いつでも・どこからでも利用できます。
さらにまた、プロの声優のようなリアルな音声でありながら、収録や声紋の準備は一切不要。あなたのニーズに合わせて、世界で唯一の声をクリエイト。あらゆるシーンに合った最適なナレーションを即座に作成できます。
世界50カ国以上の音声にも対応!インバウンド対策も万全

M9 STUDIO INCのAI技術の集大成として開発された「M9 SPEAK」は、高い翻訳技術と豊かな表現力を兼ね備えています。
世界50国以上の言語・話者サンプルに加え、年齢や性別、声質・感情表現を細かく設定できるカスタマイズ機能を備えています。
また、例えば、「日本語→多言語」+ 音声ナレーションを一度に生成するなど、言語の壁を超えたコンテンツ制作が可能です。

ニュース番組

会場案内

オペレーション業務

サービス&事業案内

観光案内

医療・福祉

上記以外にも、さまざまな業界・あらゆるシーンで「M9 SPEAK」を広くご活用いただけます。
コミュニケーション

デジタルプロモーション・キャンペーン
明るいナレーションで広告動画やSNS投稿を盛り上げ、商品・サービスの魅力を最大限アピール。
AI接客・チャットボット
自然で親しみやすい声のボットが、ユーザーからの問い合わせに即時対応。
電話自動応答・発信
従来の機械的な音声ガイダンスを、感情豊かな音声へアップグレード。コールセンター業務の品質向上に寄与。
エンターテイメント

ゲーム・アニメ・動画配信
多言語翻訳+声優品質の音声で、海外ファンにも違和感なく作品を楽しんでもらえます。
アバター・メタバース
バーチャル空間でのキャラクター音声も、リアルさと感情表現を両立。
映画・ラジオのナレーション
CMやラジオ番組のイントロなども、スタジオ収録レベルの高品位サウンドでお届け。
デバイス組み込み

POSレジ|券売機|キオスク端末
お客様への音声ガイダンスを優しく案内。多言語対応で訪日客にも便利。
ロボット・家電製品
ロボットやスマート家電に心地よい音声を搭載し、ユーザー体験を向上。
カーナビゲーション
明確かつ安心感のあるガイド音声で、ドライバーの安全をサポート。
放送・アナウンス

受付・施設内放送・観光案内
混雑状況や案内情報をスムーズに伝達。観光地の多言語案内もこれ1つでOK。
車内放送・防災放送
地域住民や乗客へ、的確かつ分かりやすい音声アナウンス。
消防指令・ケーブルテレビ
緊急時も聞き取りやすいアナウンスを自動生成し、混乱を軽減。
教育・研修

e-ラーニング|研修・語学教育
生徒の理解を助ける分かりやすいトーンの音声。英語以外の多言語にも簡単対応。
教材・マニュアル
長文・専門用語も自然なイントネーションで読み上げ、学習効率を高める。
Web読み上げ|アクセシビリティ
視覚サポートとして、サイト・電子書籍の読み上げ機能を拡充。ユーザーの利便性が格段に向上。
日本各地の方言にも対応!
M9 SPEAKは、標準語だけでなく一部の方言にも対応しています(現在テスト運用中)。方言、独特のイントネーションや語尾表現を再現できるため、地域色を活かしたナレーションや吹き替え、観光案内などもよりリアルに仕上がります。




日本全国、それぞれの地域の魅力を伝えたいときも、M9 SPEAKの方言機能を使うことで「ご当地感」が演出できます。ビジネスや観光、教育・エンタメなど幅広い場面で、よりローカルに寄り添った音声コンテンツへとご活用ください。

「M9 SPEAK」なら、「喜・怒・哀・楽」表現も思いのまま。既存の音声合成ツールにはない圧倒的表現力で、人物の発話をよりリアルで立体的な音声へと昇華させます。
喜び

怒り

悲しみ

つぶやく

演劇や舞台・映画のセリフも自由自在

「M9 SPEAK」なら、まるで俳優が演じているようなユニークな役柄も感情豊かに表現できます。他のAI合成音声ツールでは、作れないような繊細かつ、コミカルな表現も思いのまま。
映画の吹き替えや急な変更で俳優が足りない場合にも、必要な音声が必要なトーンで手に入ります。映画・動画配信など、エンターテインメントへの導入も、お気軽にご相談ください。
ポッドキャストや動画も、M9 SPEAKで手軽に配信

M9 SPEAKの自然なイントネーションと豊かな表現力を活かせば、ポッドキャストの配信も簡単に始められます。
台本やシナリオを準備してAIナレーターに読ませるだけで、ラジオ番組さながらの雰囲気を作り出せます。
また、シナリオがあれば、ポッドキャストや動画に使用する音声も簡単にAIが自動生成。

キャラクターやトーンを自在にコントロールできるので、ビジネス・エンタメ・教育・朗読など、どんなテーマでも魅力的な音声コンテンツを発信可能。
声の収録スタジオや専門機材がなくても、高品質なポッドキャスト制作が実現します。
動画に音声が欲しい、自然なナレーションが欲しいという場合も、M9 SPEAKなら、欲しい声をスピーディーに生成できます。
効果音もAIで作成!音声コンテンツをさらに彩る
また、M9 STUDIOのAI技術を活かし、音声に重ねる効果音やBGMの作成もサポート。シーンに合わせた効果音(例えば、足音・ドアの開閉音・自然音・ファンファーレなど)を、AIが自動で生成することで、音声コンテンツの臨場感を一気に高めることができます。
ポッドキャストでも朗読でも、必要な効果音を都度検索・購入する手間やコストを削減。M9 SPEAKのナレーションと組み合わせれば、よりプロフェッショナルなクオリティの音声コンテンツが、誰でも気軽に配信できるようになります。





POINT1:ネイティブスピーカー級の自然な抑揚

「M9 SPEAK」は、日本語と外国語の音声処理技術を幅広く培ってきたM9 STUDIOのノウハウと技術力が結晶となった製品です。
- 感情表現が豊か:
セリフのトーンや感情を自在にコントロールし、本物の声優・ナレーターさながらの表現が可能 - 場面に応じた声の変化:
説明動画なら落ち着いた低めの声、PR動画なら元気で明るい声、などシーンごとに声色を切り替えられる
POINT2:導入しやすい価格帯で、幅広い領域へ展開可能

プロのナレーターを起用する場合、コスト面やスケジュール面でハードルが高いです。また、他社AI製品の場合、有名芸能人やタレントのボイスサンプルや声紋を使用しているので、コストが高くなりがちに...。
しかし「M9 SPEAK」なら弊社が開発したAI機能を利用することで、世界唯一のAIオリジナルのナレーターを生成するので、許諾を取る必要がなく、低コストで最高品質のナレーションが手に入ります。
- 導入ハードルの低減:
予算が限られた企業や個人事業主でも、気軽にナレーションを取り入れられる - 製品・サービス・観光・医療など多分野へ:
広告・PR動画はもちろん、観光案内の自動音声ガイド、eラーニング教材、病院の案内放送まで幅広く活用可能
POINT3:世界最高レベルの高品質&高性能

M9 STUDIOは、世界に誇る翻訳精度を持つ独自のAI技術を開発してきました。その実績が今回の言語発話技術にも大きく寄与し、M9 SPEAKでは「聞き取りやすさ」と「意味の正確さ」をしっかり両立させています。
- 自社開発による柔軟性:
プロトタイプから実運用まで、すべてを自社で開発しているからこそ、使いやすさや品質向上を追求 - 堅牢なセキュリティ:
安全なAI環境でコンテンツを生成・管理できるので、企業ユースにも安心
世界50カ国以上の言語に完全対応!

「M9 SPEAK」は、日本語、英語、中国語、韓国語、フランス語、ドイツ語、スペイン語など、50カ国以上の言語に完全対応。
これまでに、世界最高峰の動画翻訳ツール「M9 System」で培われた技術を基盤として、日本語から外国語はもちろん、外国語から日本語の吹き替えや音声の変換も思いのまま。
英語
フランス語
年齢も性別、シチュエーションも自由に設定可能




企業やビジネスのDX化にも「音声ガイダンス」は必須

企業のDX化が加速する一方で、AIやITに苦手意識を持つ人への導入ハードルが依然として課題となっています。
そこで、弊社がリリースした「M9 SPEAK」は、音声によるガイダンスを中心としたAI音声システムを提供し、専門的な知識がなくても簡単に操作できる環境を整えます。

たとえばメニュー操作や設定変更も、音声案内に従うだけでスムーズに行えるため、デジタル活用の心理的負担を大幅に低減できます。
DX推進において重要なのは、全社員が抵抗なく新しいシステムを使いこなすことですが、音声ガイダンスを活用することで、業務プロセスやツールの使い方を対話的に理解でき、習熟時間を短縮できます。
クラウド型・オンプレミスでのDX化においても、こうした音声ガイダンスを使って、直感的に操作できるシステムを構築することで、DXの導入はスムーズに進められます。
この結果、企業全体として生産性向上や業務効率化が期待できるだけでなく、社内のデジタルリテラシー向上にも寄与。弊社では「M9 SPEAK」の導入を通じ、AI活用やIT導入の障壁を下げ、より多くの企業・ビジネスがDXを成功に導くお手伝いをいたします。


「M9 SPEAK」では、あなたがイメージする人物像や利用シーンを細かく指定するだけで、最適な声を作り上げることが可能です。たとえば、
- 人物設定:年齢・性別・性格(温厚、元気、クールなど)
- 声質・トーン:柔らかい声、低音で威厳ある声、アニメ風など
- シーン・用途:ビジネス会議のプレゼン、エンタメ動画、子ども向けの朗読、ドラマの吹き替え…
これらを総合的にAIが判断し、プロの声優さながらの表現力でナレーションを自動生成します。
たとえば、こんなリクエストも自由自在!

- 「20代の元気な女性」が明るい口調で商品PRを行うイメージ
- 「落ち着いた初老男性」がゆっくり丁寧に歴史を解説するシーン
- 「小さな子どもの声」でかわいらしく絵本を読み聞かせる状況
- 「かっこいい海外セレブ風の男性」がブランドイメージを格上げするナレーション
- 「大阪弁のおばちゃん」が冗談混じりに楽しく会話する演出
用途や状況、聞き手に合わせたトーンや言語・方言を自由に組み合わせることで、人間らしい温度感のある音声を作り上げられます。
なぜ「最適なAIナレーター」を実現できるのか?

- 人物像+用途のヒアリングをAIが分析
あなたの「こんな声が欲しい」「こんな場面で使いたい」という情報を、事前にAIが学習・推定。 - イントネーション骨格×自由な声質選択
「M9 SPEAK」独自のイントネーション骨格生成により、どんな性格・年齢のキャラクターでも自然な話し方を再現。 - 感情表現やテンションを細かく調整
喜怒哀楽、興奮度合い、落ち着き具合などを自由に設定。まるで“演技”しているかのような音声に。
人それぞれ違う声や表現力を、AIならではの柔軟さで再現できるのが「M9 SPEAK」の強みです。
映像作品からビジネスナレーション、地域PR、教育コンテンツまで、あらゆるシーンにぴったりのナレーターを自動生成してみませんか?
「M9 System」と組み合わせれば、翻訳音声もさらにナチュラルに
当社のAI動画翻訳サービス「M9 System」にオプションとしてM9 SPEAKを併用することで、
翻訳後の音声もよりクリアで自然なイントネーションに仕上げられます。
- 海外の動画を日本語に翻訳するときも、イントネーションの骨格を先に作成してから声質を当てるので、
- 従来の機械翻訳音声に比べて格段に聞き取りやすく、感情豊かな音声を実現。
- 多言語展開される方には特におすすめのオプションで、より臨場感と没入感を高めることができます。
M9 System × M9 SPEAKの組み合わせで、言語の壁を超えつつ、動画のクオリティもアップグレード。
翻訳だけで終わらない、プロフェッショナルな音声体験をぜひご体感ください。

導入のプロセスはシンプル&カンタン!

- 原稿・スクリプトを準備
読み上げたい文章や台本を用意するだけ - 音声パターンを選択
声のタイプや話し方のトーンを選択 - AIが自動で生成
弊社が独自開発した、AI(M9 SPEAK)があなたのニーズにあった声優を作成し、最適な音声ファイルを生成します - 配信・編集も自由自在
動画に載せたり、音声ガイドに組み込んだり、さまざまなシーンでご活用ください
NEW!ベータ版から大幅アップデート
1ヶ月前にリリースしたベータ版では、日本語訳のイントネーションに若干の不自然さが残っていました。今回の正式リリースでは、骨格データを先行して構築する仕組みを採用し、自然なイントネーションにバージョンアップ。
旧モデル
新モデル
日本語の微妙なイントネーションや抑揚をリアルに再現できるようになりました。ユーザーの皆様からのご意見を受け、常にアップデートし続けるM9 SPEAKをぜひ体感してみてください。
リアルな音声が、デジタル世界を一新する
M9 STUDIOが提供する「M9 SPEAK」は、これまで人間の声でしか表現が難しかった「豊かな感情表現」と「流暢さ」をAIで実現します。
費用面や制作時間の面でも大きく負担を減らし、あなたのコンテンツにプロ品質のナレーションを気軽に導入できる、画期的なサービスです。
世界最高峰のAIナレーションが、あなたのプロジェクトを豊かに彩ります。M9 SPEAKで、新たな音声表現の世界に踏み出しましょう!