自動字幕、自動テロップ表示や自動映像編集など「放映」に関わる分野のAIシステムです。
映像編集には大きな人的・時間コストがかかっていましたが、この自動映像編集AIシステムは、
クリエイターの指示(音声またはテキスト)を受けて膨大な映像クリップの中から適切な映像を抽出し、
数秒でシーケンスを構築して映像・音楽の粗編集を完了させるものです。
高速で音声を認識し、高精度でテキストに変換表示する自動テロップシステムの開発も行い、
現在手動で行われているリアルタイム字幕放送にも大きく貢献できる技術となっています。
映像中に登場する人物の顔認識と身体のモーション抽出を行える上に、
動く特定オブジェクトだけを指定し抜き出し編集を行うことができるため、極めて幅広い応用が可能となります。
4K・8K映像にも対応し、レンダリング時間の圧縮・効率化、さらに連携開発する自動楽曲抽出合成AIが
BGMや効果音の生成を行い指示した場所にサウンドを自動で挿入し、MA作業の手間を劇的に改善します。
放送会社、ポストプロダクションなどプロ現場へのビジネス展開を進めています。
センサーやマーカーを使用せずに、体の各パーツを自動的に認識し、
映像データから人物の動きを高精度に抽出することができます。
特出する点は「センサー、マーカーレスで2次元映像から、動きのデータを抽出する」というのが最大の特徴です。
体の部位で隠れているところがあっても、どの部分が隠れているかを
AIで補正・補足することができます。
映像内の大量のクリップの中からAIが必要なカットの抽出し自動でシーケンスを作成できます。
(100時間の素材でも数秒で完了します)
クリップ群のタイムコード入力やタグ付けされたシーンを音声などで指示するだけで、
映像内の情報を自動認識し指定箇所に並べ粗編集が数秒で完了します。
例えば、大量の野球映像素材の中から「清宮 ホームラン 年代順」と指定すれば、
そのシーンだけでシーケンスを形成します。
※映像だけでなくセリフ音声でも同様の編集が可能です。
これは速報性が求められる報道の現場などでも大きな活躍を期待できます。
映像内の日本語を変換し、自動で字幕を表示させることができます。
活用するたびに自然言語をディープラーニングして精度を高め続けるため、
新しい専門用語や語彙、イントネーションなどの構文の前後を解析し確実に変換し、
表示させることができるように自学習してアップデートしていきます。
リアルタイム字幕放送にこのAIを組み込むことで、コストを大幅に削減することも考えられます。
編集前の映像・音声素材も、この機能をつかえば、そのまま中身を文字に起こすことも可能で、
バラエティー番組の台本作成や粗編集も劇的にスムーズになります。
音声認識でディレクターの声を、そのままテロップとして入力するという応用も可能です。
この機能は、大量の映像の中から特定の人物が写っている部分だけを、
AIに映像認識させて抽出しシーケンスを生成する仕組みです。
切り出すだけではなく、特定オブジェクト(企業ロゴ・顔出しNGなど)にだけ
モザイク編集を自動でかけることも可能です。モーション抽出とこの機能を併用することで、クロマキー撮影を行わなくても、
人物のみを抜き出して編集素材として活用することができます。
映像認識によるオブジェクトの特定が可能ということは、編集した完パケをウェブ限定ですが
スマホやタブレット端末のタッチパネル上でセグメント化し、
特定ページヘのリンクを貼ることも考えられます。
この機能により映像コンテンツのオブジェクトそのものがボタン化し、
様々な用途への利用が可能になると考えられ、
映像編集という枠を超えたシステムに進化していきます。
6CNCの自動作曲・効果音自動生成の機能も実装します。
「楽しい」「クラシック調」「15秒」などのキーワードを入力(文字・音声ともに)すれば自動でBGMやSEを生成します。
AIの著作物は現行法では著作権がフリーなので、コンテンツに適した音楽が出来上がるまで何度もAI作曲させます。
SEも既存の「自然音」「演出音」「機械音」をAIに学習させて、新たに再構築し作曲を行い、クリエイターのイメージを素早く最大化させることができるようになります。