オーディオ/ビデオ コンテンツの収益化とメディア ワークフローの最適化

マッキンゼーの調査によると、39% の企業がすでに何らかの形で機械学習 (ML) をビジネスに導入しています。ML の導入は、まだ初期段階ですが、効率性の向上、顧客行動の予測、将来を見据えたビジネス インテリジェンスが期待できるため、業務用 AV/放送市場にとって魅力的な技術と言えます。

メディア システムは、AMD プラットフォームの ML 機能を利用することで、エッジでの AI 処理が可能になります。エッジ側で直接処理し、ネットワーク接続が不要になると、低レイテンシという大きなメリットがあるだけでなく、クラウドでの識別メトリクスのプライバシーや保存に関するさまざまな問題の解消にも役立ちます。これらの ML 機能をオーディオ ビデオ プロセッシング パイプラインと一緒に AMD の適応型プラットフォームに組み込むことで、分析による収益化、ワークフローの効率化、ユーザビリティの向上が可能になります。最終的には、これらの ML 機能により、企業はイノベーションと差別化を加速させることができます。

オーディオ/ビデオ コンテンツの収益化とメディア ワークフローの最適化
機械学習ソリューション 放送分野のユース ケース 業務用 AV のユース ケース
ビデオ オブジェクト検出
オブジェクトを認識して境界ボックスを作成し、元映像の一部を切り取って出力する PTZ (Pan、Tilt、Zomm) のカメラ制御で話し手に焦点を当てる。クロップ/ズーム機能より高品質
人、動物、車など特定オブジェクトを検出する。識別したオブジェクトの周囲をボックスで囲み、ボックスの座標がエンコーダーに送られて ROI エンコードが実行される。
スポーツ中継の自動化  
自然言語処理
字幕やサブタイトルの音声テキスト変換 会議内容の自動テキスト化
スクリプト翻訳、映画のリージョナリゼーション キオスク端末操作中の音声からのストレス状態検出
性別/年齢の検出
  性別や年齢に応じたサイネージ広告の提供
ビデオ品質解析
複雑なシーケンスを検出し、エンコード パラメーターを最適化
感情分析
撮影中、俳優の心的状態を察知し、監督の意向に沿った演技ができたかどうかを判断する。
ビデオクリップの中から、特定の心的状態を持つ俳優を見つける。
撮影後、ML を使用して創造的/芸術的な観点から俳優の表情をわずかに調整する
デジタル キオスクを使用している人の気分を検知する
ジェスチャー認識
  対面式の小売店やキオスク端末の画面に触れずに、ジェスチャーでスワイプする
連携してカメラ操作を制御

ROI (関心領域) エンコード

ML でビデオ エンコードを最適化してコストを削減

大容量の動画ファイルや UHD コンテンツのストリーミングやストレージのコストは、すぐに膨れ上がります。ROI (関心領域) エンコードでコンテンツ全体のビットレートを下げ、特に顔や人など自然に目がいく部分には最高のビデオ品質 (VQ) を適用し、背景など重要性の低い部分の VQ を下げることでこの問題を緩和できます。

また、ROI は、制御室のアプリケーションで最重要部分の詳細を保存する際にも利用できます。たとえば、問題が発生し、それを大型のビデオ ウォールでモニターしている場合は、事後調査で詳細を正確に把握でき、そこから誤りを学習して対応策を改善するためのトレーニングに活用できることが重要です。つまり、ROI エンコードに静的座標を、顔や人物には ML ベースの動的座標を使用して、テキスト オーバーレイ (時刻表示など) の領域の VQ を高く維持します。

Woman speaking on microphone

自然言語処理

さまざまな AV アプリケーションに適用できる音声認識機能

自然言語処理 (NLP) を利用した音声認識は、すでに家庭でも見受けられ、Alexa や Google などのスマート デバイスがコマンドに応答して、情報やメディアを提供したり、家の中にあるさまざまなものを制御できます。NLP をデバイスに組み込むことで、同様の機能を業務用メディアに応用できるため、装置のセットアップがシンプルかつ迅速化し、クラウド接続は不要で、関連のサブスクリプション サービスを利用しなくても同じタスクを実行できます。エッジ AI を搭載することで、音声テキスト変換アルゴリズムと要約モデルを利用して、議事録を自動的に文字に起こすことも可能です。また、地域ごとの翻訳も可能で、ほぼリアルタイムにあらゆる言語で字幕表示でき、この機能もビデオ会議アプリケーションに適用したり、番組放送や映画で従来から利用されているクローズドキャプション システムに適用できます。

speaking sound waves

インテリジェント サイネージ

ターゲティング広告の提供と視聴者分析による収益化

ターゲティング広告は、マーケティングの聖杯と言われています。さまざまな ML モデルを用いてデジタル サイネージの視聴者を分析すれば、年齢や性別などの指標に基づいて、より関連性の高いターゲット広告を提供できます。より良い広告演出に費用をかけたいと思う広告主にとって、サイネージ プロバイダーはより魅力的な存在となります。また、広告主にとっては、視聴者の関心度など貴重なデータが得られ、サービス利用率の向上につながるほか、収益につながる重要なフィードバックを広告主のメーカーに提供することも可能です。また、視聴者には関連性の高い、よりパーソナライズされた広告が表示され、全体的なショッピング体験を向上させることができます。代替 ML モデルをインタラクティブ キオスクに導入すれば、従来のタッチ スクリーンに代わってジェスチャー コントロールで次の広告に移動したり、商品を注文したりできるようになります。

Man standing in front of a screen

ダイナミック クロッピングとウィンドウイング

1 台のハイレゾ カメラで複数ウィンドウ出力を生成

たとえば地方の大学で、ある芸術家の作品に関するパネル ディスカッションをライブ配信するとします。低予算のイベントでオーディエンスも限られるため、制作コストをできるだけ抑える必要があります。このような場合は通常、1 台のカメラで全体を撮影し、状況に応じてズームやパンを行います。ML を利用すると、4K の固定カメラで全体を捉えながらも、低解像度の HD ウィンドウに各パネリストの様子を自動的に出力し、会話を通して追跡することができます。つまり、1 台の 4K カメラから、4 つの異なるショット (広角ショットと 3 つのクローズアップ) を出力し、ライブ配信中に切り替えられます。これならば視覚効果が高まる上に、カメラ機材を増やす必要がありません。カメラマンはビデオ ミキサーになって、配信するフレームを選択するだけです。

さまざまな ML トラッキング モデルを使用すれば、この手法をスポーツ中継などの業務用放送アプリケーションに応用したり、コラボレーション環境に応用して複数のビデオ会議出席者を自動追跡できます。

Makarena Labs MuseBox

リアルタイムのオーディオ ビデオ ブロードキャスティング アプリケーション向け機械学習システム

AMD パートナーの MakarenaLabs 社が提供する MuseBox は、業務用 AV および放送アプリケーション向けに設計されたリアルタイム機械学習システムです。双方向またはライブ アプリケーションのライブ ストリームで活用したり、処理するファイルが大量にある場合や、法的な理由で外部からアクセスできないローカル ネットワーク内のファイル処理に活用されます。このソリューションは、マルチメディアと ML スタックを使用する Zynq UltraScale+ MPSoC をベースに実装、またはオンプレミス向けに AMD の Alveo アクセラレータ カードに実装して運用されます。MuseBox は、顔や人物の分析、オブジェクト検出、音声分析など多数の機能をサポートしています。

MakarenaLabs 社は機械学習を専門とする経験豊富な企業であり、さまざまな AV アプリケーション向けのライブラリおよび製品を提供しています。Mooseka システムは、音声分析/識別、特徴抽出に使用されます。同社の MRadio ストリーム アナライザーに採用されており、音楽コンテンツを識別して著作権の保護強化、ラジオ プロモーション、マーケティング分析を可能にします。

Makarena Labs MuseBox

オーディオ ビデオ向け ML 関連リソース

xilinx-ml-av-demos

オーディオ ビデオ向け AMD ML のデモ

今すぐ視聴 >

Aaware

Aaware 社の遠隔音声認識機能開発プラットフォーム

今すぐ視聴 >

makarena

Makarena Labs MuseBox デモ

今すぐ視聴 >

mipisology

Mipsology 社の AI ベース超解像技術

今すぐ視聴 >