NTTグループのソリューションガイド

ICTソリューション総合誌 月刊ビジネスコミュニケーション

ビジネスコミュニケーション

NTT主導で開発した技術がMPEGの国際標準規格として承認

NTT先端技術総合研究所

-歪みを許さないオーディオ符号化方式(MPEG-4 ALS)-

NTTは2002年より、高品質サービスへの利用を目的に、歪みを許さないロスレス・オーディオ符号化技術の開発に取り組み、その国際標準化の策定を積極的に主導してきた。NTTでは昨年12月27日、最終国際投票の結果が公表されたのを受け、NTTが他研究機関と協力して策定した技術が、オーディオ・映像信号の圧縮方式の1つであるMPEGの国際標準規格として承認されたことを発表した。本規格の中にはNTT研究所で30年以上前に発明され音声合成等に広く使われたPARCOR(Partial Auto Correlation;偏自己相関)係数をはじめ、NTTが提案した多くの要素技術が盛り込まれ、またNTTと東京大学大学院情報理工学研究科の嵯峨山茂樹教授の研究室との連携講座での共同研究成果も含まれている。

国際標準規格承認までの取組み等

ネットワークやデジタル機器のブロードバンド化が進展する一方、オーディオ信号のデジタル化の普及、高品質化(高サンプリングレート、高振幅分解能、多チャネル化)の要望の高まりに伴い、蓄積や配信のための情報量が飛躍的に増大しつつある。NTTコミュニケーション科学基礎研究所では、オーディオ信号を

歪みなく圧縮符号化する技術を開発するとともに、相互接続性、長期保守性、特許権利者の明確化のために、その仕様を国際標準化することが急務であると判断し、2002年よりISO/IECのMPEGオーディオ委員会で標準規格策定を主導してきた。

今回の標準化活動において、NTTは要求条件や技術公募を企画し、ドイツのベルリン工科大学、アメリカのリアルネットワークス社、シンガポールのI2Rなどと協力して、性能改善のための技術提案、相互検証、参照ソフトの作成を積極的に進めた。その後、23カ国による2回の国別投票と改定を経て、「14496-3 3rd ED AMD 2(通称ALS:Audio Lossless)」として正式に国際標準として承認された。

今回の規格は、世界共通の互換性のあるツールとして各種用途に普及し、たとえ100年後でも正確にかつ簡単に入力信号が再現できるように維持管理されることが期待される。このため、引き続き標準化委員会で、参照ソフトのソースコード、相互接続性試験手順などが整備されることとなっている。なお、本国際標準の実施に必須の特許は、今後権利者による任意団体によって、特許プールの形で実施許諾される見込みである。

技術の内容

ロスレス・オーディオ符号化技術の主要ポイントとしては、以下の3点があげられる。

  • 符号化によりファイルの圧縮後も元のままに復号化(解凍)することが可能
  • 圧縮性能は世界1のレベル
  • 解凍に要する手間は小さく、伝送や蓄積コストの大幅な削減が可能

これまでのオーディオ符号化の主流は、MP3やデジタル放送用のAAC(Advanced Audio Coder )、ミニディスク用符号などで、すべて歪みを許す符号化であった。これらの符号化では、人間の聴覚の特性を利用して、情報圧縮に伴う波形の歪みを聴感上目立たないように制御して原信号の1/10程度まで圧縮している。このため、波形情報としてはもとの音楽とは相当異なるものを聞いていることになる。

一方、今回のロスレス符号化では符号化により情報を圧縮しても復号化(解凍)プロセスにより、もとのデジタル波形を1ビットの違いもなく再構成することが保障できる。このため、波形の編集や長期保存も含む高品質オーディオ信号を扱う用途には不可欠である。その反面、圧縮率には限界があり、入力波形の性質に依存して異なるものの、元のファイル容量の15~70%程度になる。ただしこの圧縮性能は、テキスト用のZIPより大幅に高く、オーディオ信号専用の入手可能なフリーソフトと比較しても世界一のレベルにある。

図 競合技術との圧縮性能比較(クリックで拡大)
図 競合技術との圧縮性能比較
(クリックで拡大)

図は、現在、入手可能な競合技術と標準化技術の圧縮性能を圧縮後の容量(元の信号の容量で正規化した圧縮後の容量:小さいほど望ましい)と、復号時間(短いほど使いやすい)の観点で比較して示したものである。今回の標準化技術は、目的によって圧縮率と処理量を選択でき、通常モードでは高速に処理ができ、高圧縮モードでは高い圧縮率を実現できる。また互換性を保ったままNTT独自の高速処理ソフトも実現している。

入力の対象となるオーディオ信号は、

  • サンプリング周波数192 kHzまで(CDは44.1kHz)
  • 32ビットまでの各種整数PCMオーディオフォーマット対応(CDは16ビット)
  • IEEE754 32 ビット浮動小数点対応(CDは整数のみ)
  • チャネル数65536まで(CDは2チャンネル)

であり、ほとんどのアプリケーションに柔軟に対応できるという特徴を持っている。

また通常のPCのソフトで符号化する場合、オーディオ信号の再生時間の実時間以上の速度で実行でき、復号では実時間の10倍以上の速度で実行できる。このため、光ファイバー回線でのダウンロードであっても、ダウンロードと平行してそれより短時間で復号できるので、伝送・解凍のプロセスの時間は圧縮しない伝送に必要な時間より短縮できることになる。すなわち、本技術による圧縮解凍の手続きによって増加する手間は非常に小さく、一方、圧縮による伝送速度の改善、蓄積コストの削減に大きな効果がある。

この標準化技術は、NTTが30年以上前から取り組んできた音声分析や予測技術を土台に、予測誤差を小さくし、符号量を最小化する数多くの技術が盛り込まれている。特にNTTから提案された主な要素技術として、

  • PARCOR係数を使う時間領域の線形予測
  • マルチチャンネル符号化(NTTと東大の連携講座の成果)
  • 長期予測符号化(NTTと東大の連携講座の成果)
  • 浮動小数点用共通因数分析とマスク付適応圧縮
  • ランダムアクセス対応漸増次数線形予測

などが組み込まれている。またNTT研究所は、標準化と平行して、標準との互換性を厳密に維持したまま、ソフトの独自の高速化や、符号器の改良による性能向上を図ってきている。

今後の展開

NTTコミュニケーション科学基礎研究所では引き続き、互換性確認試験手順策定などの標準化のサポートや、標準準拠の符号器の性能向上を図っていく方針である。

また、併わせてNTTコミュニケーションズでは、標準準拠の実用的ソフトを、業務用の音楽の蓄積、配信の効率化を図るツールとして組み込んだ商用システムの販売を予定している。

さらにNTTグループとして、業務用オーディオ編集ソフト、一般個人用携帯機器、編集ソフト、音楽以外の医療データや環境データの蓄積用途への展開を見込み、NTTのグループ会社内外との連携や、ライセンス提供も予定している。

お問い合わせ先

NTT先端技術総合研究所
企画部 情報戦略担当
TEL:046-240-5152
URL:http://www.ntt.co.jp/sclab/contact


会社概要 NTT ソリューション 広告募集 ページ先頭へ
Copyright:(C) 2000-2017 BUSINESS COMMUNICATION All Rights Reserved. ※本サイトの掲載記事、コンテンツ等の無断転載を禁じます。