オーディオ/ビデオコンテンツの収益化とメディアワークフローの最適化

マッキンゼーの調査によると、39% の企業がすでに何らかの形で機械学習 (ML) をビジネスに導入しています。ML の導入は、まだ初期段階ですが、効率性の向上、顧客行動の予測、将来を見据えたビジネスインテリジェンスが期待できるため、業務用 AV/放送市場にとって魅力的な技術と言えます。

メディアシステムは、AMD プラットフォームの ML 機能を利用することで、エッジでの AI 処理が可能になります。エッジ側で直接処理し、ネットワーク接続が不要になると、低レイテンシという大きなメリットがあるだけでなく、クラウドでの識別メトリクスのプライバシーや保存に関するさまざまな問題の解消にも役立ちます。これらの ML 機能をオーディオビデオプロセッシングパイプラインと一緒に AMD の適応型プラットフォームに組み込むことで、分析による収益化、ワークフローの効率化、ユーザビリティの向上が可能になります。最終的には、これらの ML 機能により、企業はイノベーションと差別化を加速させることができます。

機械学習ソリューション	放送分野のユースケース	業務用 AV のユースケース
ビデオオブジェクト検出	オブジェクトを認識して境界ボックスを作成し、元映像の一部を切り取って出力する	PTZ (Pan、Tilt、Zomm) のカメラ制御で話し手に焦点を当てる。クロップ/ズーム機能より高品質
	人、動物、車など特定オブジェクトを検出する。識別したオブジェクトの周囲をボックスで囲み、ボックスの座標がエンコーダーに送られて ROI エンコードが実行される。
	スポーツ中継の自動化
自然言語処理	字幕やサブタイトルの音声テキスト変換	会議内容の自動テキスト化
自然言語処理	スクリプト翻訳、映画のリージョナリゼーション	キオスク端末操作中の音声からのストレス状態検出
性別/年齢の検出		性別や年齢に応じたサイネージ広告の提供
ビデオ品質解析	複雑なシーケンスを検出し、エンコードパラメーターを最適化
感情分析	撮影中、俳優の心的状態を察知し、監督の意向に沿った演技ができたかどうかを判断する。ビデオクリップの中から、特定の心的状態を持つ俳優を見つける。撮影後、ML を使用して創造的/芸術的な観点から俳優の表情をわずかに調整する	デジタルキオスクを使用している人の気分を検知する
ジェスチャー認識		対面式の小売店やキオスク端末の画面に触れずに、ジェスチャーでスワイプする連携してカメラ操作を制御

ROI (関心領域) エンコード

ML でビデオエンコードを最適化してコストを削減

大容量の動画ファイルや UHD コンテンツのストリーミングやストレージのコストは、すぐに膨れ上がります。ROI (関心領域) エンコードでコンテンツ全体のビットレートを下げ、特に顔や人など自然に目がいく部分には最高のビデオ品質 (VQ) を適用し、背景など重要性の低い部分の VQ を下げることでこの問題を緩和できます。

また、ROI は、制御室のアプリケーションで最重要部分の詳細を保存する際にも利用できます。たとえば、問題が発生し、それを大型のビデオウォールでモニターしている場合は、事後調査で詳細を正確に把握でき、そこから誤りを学習して対応策を改善するためのトレーニングに活用できることが重要です。つまり、ROI エンコードに静的座標を、顔や人物には ML ベースの動的座標を使用して、テキストオーバーレイ (時刻表示など) の領域の VQ を高く維持します。

自然言語処理

さまざまな AV アプリケーションに適用できる音声認識機能

自然言語処理 (NLP) を利用した音声認識は、すでに家庭でも見受けられ、Alexa や Google などのスマートデバイスがコマンドに応答して、情報やメディアを提供したり、家の中にあるさまざまなものを制御できます。NLP をデバイスに組み込むことで、同様の機能を業務用メディアに応用できるため、装置のセットアップがシンプルかつ迅速化し、クラウド接続は不要で、関連のサブスクリプションサービスを利用しなくても同じタスクを実行できます。エッジ AI を搭載することで、音声テキスト変換アルゴリズムと要約モデルを利用して、議事録を自動的に文字に起こすことも可能です。また、地域ごとの翻訳も可能で、ほぼリアルタイムにあらゆる言語で字幕表示でき、この機能もビデオ会議アプリケーションに適用したり、番組放送や映画で従来から利用されているクローズドキャプションシステムに適用できます。

インテリジェントサイネージ

ターゲティング広告の提供と視聴者分析による収益化

ターゲティング広告は、マーケティングの聖杯と言われています。さまざまな ML モデルを用いてデジタルサイネージの視聴者を分析すれば、年齢や性別などの指標に基づいて、より関連性の高いターゲット広告を提供できます。より良い広告演出に費用をかけたいと思う広告主にとって、サイネージプロバイダーはより魅力的な存在となります。また、広告主にとっては、視聴者の関心度など貴重なデータが得られ、サービス利用率の向上につながるほか、収益につながる重要なフィードバックを広告主のメーカーに提供することも可能です。また、視聴者には関連性の高い、よりパーソナライズされた広告が表示され、全体的なショッピング体験を向上させることができます。代替 ML モデルをインタラクティブキオスクに導入すれば、従来のタッチスクリーンに代わってジェスチャーコントロールで次の広告に移動したり、商品を注文したりできるようになります。

お問い合わせ >

ダイナミッククロッピングとウィンドウイング

1 台のハイレゾカメラで複数ウィンドウ出力を生成

たとえば地方の大学で、ある芸術家の作品に関するパネルディスカッションをライブ配信するとします。低予算のイベントでオーディエンスも限られるため、制作コストをできるだけ抑える必要があります。このような場合は通常、1 台のカメラで全体を撮影し、状況に応じてズームやパンを行います。ML を利用すると、4K の固定カメラで全体を捉えながらも、低解像度の HD ウィンドウに各パネリストの様子を自動的に出力し、会話を通して追跡することができます。つまり、1 台の 4K カメラから、4 つの異なるショット (広角ショットと 3 つのクローズアップ) を出力し、ライブ配信中に切り替えられます。これならば視覚効果が高まる上に、カメラ機材を増やす必要がありません。カメラマンはビデオミキサーになって、配信するフレームを選択するだけです。

さまざまな ML トラッキングモデルを使用すれば、この手法をスポーツ中継などの業務用放送アプリケーションに応用したり、コラボレーション環境に応用して複数のビデオ会議出席者を自動追跡できます。

お問い合わせ>

Makarena Labs MuseBox

リアルタイムのオーディオビデオブロードキャスティングアプリケーション向け機械学習システム

AMD パートナーの MakarenaLabs 社が提供する MuseBox は、業務用 AV および放送アプリケーション向けに設計されたリアルタイム機械学習システムです。双方向またはライブアプリケーションのライブストリームで活用したり、処理するファイルが大量にある場合や、法的な理由で外部からアクセスできないローカルネットワーク内のファイル処理に活用されます。このソリューションは、マルチメディアと ML スタックを使用する Zynq UltraScale+ MPSoC をベースに実装、またはオンプレミス向けに AMD の Alveo アクセラレータカードに実装して運用されます。MuseBox は、顔や人物の分析、オブジェクト検出、音声分析など多数の機能をサポートしています。

MakarenaLabs 社は機械学習を専門とする経験豊富な企業であり、さまざまな AV アプリケーション向けのライブラリおよび製品を提供しています。Mooseka システムは、音声分析/識別、特徴抽出に使用されます。同社の MRadio ストリームアナライザーに採用されており、音楽コンテンツを識別して著作権の保護強化、ラジオプロモーション、マーケティング分析を可能にします。

オーディオビデオ向け ML 関連リソース

オーディオビデオ向け AMD ML のデモ

今すぐ視聴 >

Aaware 社の遠隔音声認識機能開発プラットフォーム

今すぐ視聴 >

Makarena Labs MuseBox デモ

今すぐ視聴 >

Mipsology 社の AI ベース超解像技術

今すぐ視聴 >

AV テクノロジ

伝送 >

サーバー

ビジネスシステム

ワークステーション

エンベデッド

パーソナル ノート PC

パーソナル デスクトップ

ハンドヘルド

リソース

アクセラレータ

アダプティブ アクセラレータ

DPU アクセラレータ

イーサネット アダプター

ワークステーション

デスクトップ

ノート PC

リソース

アダプティブ SoC & FPGA

システム オン モジュール (SOM)

テクノロジ

開発者リソース

評価ボード & キット

プロセッサ ツール

グラフィックス ツール＆アプリケーション

アダプティブ SoC & FPGA ツール

IP & アプリ

GPU アクセラレータ ツール & アプリケーション

DPU アクセラレータ ツール

概要

データセンター & クラウド向け

エッジ & エンドポイント向け

開発者向け

業界

業界

業界

業界

ワークロード

運用

ネットワーク、インフラストラクチャ & ストレージ

リソース

ゲーミング

テクノロジ

システム

EPYC プロセッサ

Radeon グラフィックス & AMD チップセット

FPGA & アダプティブ SoC

Alveo アクセラレータ & Kria SOM

Ryzen プロセッサ

イーサネット アダプター

概要

EPYC プロセッサ

アクセラレータ、SOM & NIC

アダプティブ SoC & FPGA

グラフィックス

概要

製品情報 ＆トレーニング

製品仕様

リソース

プロセッサ & グラフィックス

DPU アクセラレータ

アダプティブ SoC & FPGA

AMD 正規販売店から購入

自適應和嵌入式運算

Get AMD Fan Gear

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

Buy Direct From AMD

オーディオ/ビデオ コンテンツの収益化とメディア ワークフローの最適化

ROI (関心領域) エンコード

ML でビデオ エンコードを最適化してコストを削減

自然言語処理

さまざまな AV アプリケーションに適用できる音声認識機能

インテリジェント サイネージ

ターゲティング広告の提供と視聴者分析による収益化

ダイナミック クロッピングとウィンドウイング

1 台のハイレゾ カメラで複数ウィンドウ出力を生成

Makarena Labs MuseBox

リアルタイムのオーディオ ビデオ ブロードキャスティング アプリケーション向け機械学習システム

オーディオ ビデオ向け ML 関連リソース

パーソナルノート PC

パーソナルデスクトップ

アダプティブアクセラレータ

イーサネットアダプター

システムオンモジュール (SOM)

プロセッサツール

グラフィックスツール＆アプリケーション

GPU アクセラレータツール & アプリケーション

DPU アクセラレータツール

イーサネットアダプター

製品情報＆トレーニング

オーディオ/ビデオコンテンツの収益化とメディアワークフローの最適化

ML でビデオエンコードを最適化してコストを削減

インテリジェントサイネージ

ダイナミッククロッピングとウィンドウイング

1 台のハイレゾカメラで複数ウィンドウ出力を生成

リアルタイムのオーディオビデオブロードキャスティングアプリケーション向け機械学習システム

オーディオビデオ向け ML 関連リソース

ニュース＆イベント