MP3 - MP3

MP3
Mp3.svg
Rozszerzenie nazwy pliku .mp3
.bit (przed 1995)
Rodzaj mediów internetowych
Opracowany przez Karlheinz Brandenburg , Ernst Eberlein, Heinz Gerhäuser, Bernhard Grill , Jürgen Herre i Harald Popp (wszyscy z Fraunhofer Society ) i inni
Pierwsze wydanie 1991 ; 30 lat temu ( 1991 )
Rodzaj formatu Dźwięk cyfrowy
Zawarte przez MPEG-ES
Normy
Otwarty format ? tak

MP3 (formalnie MPEG-1 Audio Layer III lub MPEG-2 Audio Layer III ) jest w formacie kodowania dla cyfrowego audio opracowany głównie przez Fraunhofer-Gesellschaft w Niemczech, przy wsparciu ze strony innych naukowców cyfrowych w Stanach Zjednoczonych i innych krajach. Pierwotnie zdefiniowany jako trzeci format audio standardu MPEG-1 , został zachowany i dalej rozszerzony — definiując dodatkowe przepływności i obsługę większej liczby kanałów audio — jako trzeci format audio kolejnego standardu MPEG-2 . Trzecia wersja, znana jako MPEG 2.5 — rozszerzona w celu lepszej obsługi niższych przepływności — jest powszechnie wdrażana, ale nie jest uznanym standardem.

MP3 (lub mp3 ) jako format pliku zwykle oznacza pliki zawierające elementarny strumień danych zakodowanych w formacie MPEG-1 Audio lub MPEG-2 Audio, bez innych złożoności standardu MP3.

Jeśli chodzi o kompresję audio (aspekt standardu najbardziej oczywisty dla użytkowników końcowych i z którego jest najlepiej znany), MP3 wykorzystuje stratną kompresję danych do kodowania danych przy użyciu niedokładnych przybliżeń i częściowego odrzucania danych. Pozwala to na znaczne zmniejszenie rozmiarów plików w porównaniu z nieskompresowanym dźwiękiem. Połączenie niewielkich rozmiarów i akceptowalnej wierności doprowadziło do boomu w dystrybucji muzyki przez Internet w połowie lat 90. XX wieku, przy czym technologia MP3 służyła jako technologia w czasach, gdy przepustowość i pamięć masowa były wciąż na wagę złota. Format MP3 wkrótce został powiązany z kontrowersjami dotyczącymi między innymi naruszania praw autorskich , piractwa muzycznego oraz usług zgrywania / udostępniania plików MP3.com i Napster . Wraz z pojawieniem się przenośnych odtwarzaczy multimedialnych , kategorii produktów obejmującej również smartfony , obsługa MP3 pozostaje niemalże powszechna.

Kompresja MP3 działa poprzez zmniejszenie (lub przybliżenie) dokładności pewnych składników dźwięku, które są uważane (za pomocą analizy psychoakustycznej) za przekraczające możliwości słyszenia większości ludzi. Metoda ta jest powszechnie nazywana kodowaniem percepcyjnym lub modelowaniem psychoakustycznym . Pozostałe informacje audio są następnie zapisywane w sposób efektywny przestrzennie, przy użyciu algorytmów MDCT i FFT . W porównaniu z cyfrowym dźwiękiem o jakości CD , kompresja MP3 może zwykle zmniejszyć rozmiar o 75 do 95%. Na przykład plik MP3 zakodowany ze stałą szybkością transmisji 128 kbit/s da plik w przybliżeniu 9% rozmiaru oryginalnego dźwięku z płyty CD. Na początku XXI wieku odtwarzacze płyt kompaktowych coraz częściej przyjmowały obsługę odtwarzania plików MP3 na płytach CD z danymi.

Grupa Moving Picture Experts Group (MPEG) zaprojektowała MP3 jako część swoich standardów MPEG-1 , a później MPEG-2 . MPEG-1 Audio (MPEG-1 Part 3), który zawierał MPEG-1 Audio Layer I, II i III, został zatwierdzony jako projekt komitetu normy ISO / IEC w 1991 roku, sfinalizowany w 1992 i opublikowany w 1993 jako ISO /IEC 11172-3:1993. Rozszerzenie MPEG-2 Audio (MPEG-2 Part 3) z niższymi szybkościami próbkowania i bitów zostało opublikowane w 1995 roku jako ISO/IEC 13818-3:1995. Wymaga jedynie minimalnych modyfikacji istniejących dekoderów MPEG-1 (rozpoznawanie bitu MPEG-2 w nagłówku i dodanie nowych niższych częstotliwości próbkowania i bitów).

Historia

Tło

Algorytm stratnej kompresji danych audio MP3 wykorzystuje ograniczenie percepcyjne ludzkiego słuchu zwane maskowaniem słuchowym . W 1894 roku amerykański fizyk Alfred M. Mayer poinformował, że ton może być niesłyszalny przez inny ton o niższej częstotliwości. W 1959 roku Richard Ehmer opisał komplet krzywych słuchowych dotyczących tego zjawiska. W latach 1967-1974 Eberhard Zwicker zajmował się dostrajaniem i maskowaniem krytycznych pasm częstotliwości, co z kolei opierało się na fundamentalnych badaniach w tej dziedzinie przeprowadzonych przez Harveya Fletchera i jego współpracowników z Bell Labs .

Kodowanie percepcyjne zostało po raz pierwszy użyte do kompresji kodowania mowy z liniowym kodowaniem predykcyjnym (LPC), które ma swoje korzenie w pracach Fumitada Itakura ( Uniwersytet Nagoya ) i Shuzo Saito ( Nippon Telegraph and Telephone ) w 1966 roku. W 1978 roku Bishnu S. Atal i Manfred R. Schroeder z Bell Labs zaproponował kodek mowy LPC , zwany adaptacyjnym kodowaniem predykcyjnym , który wykorzystywał psychoakustyczny algorytm kodowania wykorzystujący właściwości maskujące ludzkiego ucha. Dalsza optymalizacja przez Schroedera i Atala z JL Hall została później opisana w artykule z 1979 roku. W tym samym roku MA Krasner zaproponował psychoakustyczny kodek maskujący, który opublikował i wyprodukował sprzęt do mowy (nie nadający się do muzycznej kompresji bitowej), ale opublikowanie jego wyników w stosunkowo mało znanym raporcie technicznym Lincoln Laboratory nie wpłynęło od razu na główny nurt rozwoju kodeków psychoakustycznych.

Dyskretnej transformaty cosinus (DCT), rodzaju transformaty kodowania do kompresji stratnej , zaproponowany przez Nasir Ahmed w 1972 roku, został opracowany przez Ahmed z T. Natarajan i KR Rao w 1973 roku; opublikowali swoje wyniki w 1974 r. Doprowadziło to do opracowania zmodyfikowanej dyskretnej transformacji kosinusowej (MDCT), zaproponowanej przez JP Princena, AW Johnsona i AB Bradleya w 1987 r., po wcześniejszych pracach Princena i Bradleya z 1986 r. MDCT później stała się podstawowa część algorytmu MP3.

Ernst Terhardt i in. skonstruował algorytm opisujący maskowanie słuchowe z dużą dokładnością w 1982 roku. Praca ta stanowiła dodatek do różnych raportów autorów sięgających czasów Fletchera, a także do pracy, która wstępnie określała krytyczne współczynniki i krytyczne przepustowości.

W 1985 r. Atal i Schroeder przedstawili predykcję liniową wzbudzoną kodem (CELP), oparty na LPC algorytm percepcyjnego kodowania mowy z maskowaniem słuchowym, który osiągnął znaczny stopień kompresji danych w swoim czasie. W 1988 r. recenzowany przez IEEE Journal on Selected Areas in Communications doniósł o szerokiej gamie (głównie percepcyjnych) algorytmów kompresji dźwięku. Wydanie „Voice Coding for Communications” opublikowane w lutym 1988 r. donosiło o szerokim zakresie uznanych, działających kompresji bitów audio. technologie, niektóre z nich wykorzystują maskowanie słuchowe jako część ich podstawowego projektu, a kilka pokazuje implementacje sprzętowe w czasie rzeczywistym.

Rozwój

Geneza technologii MP3 została w pełni opisana w artykule profesora Hansa Musmanna, który przez kilka lat kierował grupą ISO MPEG Audio. W grudniu 1988 roku MPEG wezwał do wprowadzenia standardu kodowania dźwięku. W czerwcu 1989 zgłoszono 14 algorytmów kodowania dźwięku. Ze względu na pewne podobieństwa między tymi propozycjami kodowania zostały one podzielone na cztery grupy rozwojowe. Pierwszą grupą był ASPEC, autorstwa Fraunhofer Gesellschaft , AT&T , France Telecom , Deutsche i Thomson-Brandt . Druga grupa to MUSICAM , autorstwa Matsushita , CCETT , ITT i Philips . Trzecią grupą był ATAC, firmy Fujitsu , JVC , NEC i Sony . A czwartą grupą była SB-ADPCM , autorstwa NTT i BTRL.

Bezpośrednimi poprzednikami MP3 były „Optymalne kodowanie w dziedzinie częstotliwości” (OCF) i kodowanie z transformacją percepcyjną (PXFM). Te dwa kodeki, wraz z wkładami firmy Thomson-Brandt do przełączania bloków, zostały połączone w kodek o nazwie ASPEC, który został przesłany do MPEG i wygrał konkurs jakości, ale został błędnie odrzucony jako zbyt skomplikowany do wdrożenia. Pierwszą praktyczną implementacją sprzętowego kodera percepcyjnego audio (OCF) (sprzęt Krasnera był zbyt nieporęczny i powolny do praktycznego zastosowania) była implementacja kodera transformacji psychoakustycznej opartego na chipach Motorola 56000 DSP .

Innym poprzednikiem formatu i technologii MP3 jest kodek percepcyjny MUSICAM oparty na 32-zakresowym banku filtrów arytmetyki liczb całkowitych, napędzanym przez model psychoakustyczny. Został zaprojektowany przede wszystkim dla Digital Audio Broadcasting (radio cyfrowe) i telewizji cyfrowej, a jego podstawowe zasady zostały ujawnione społeczności naukowej przez CCETT (Francja) i IRT (Niemcy) w Atlancie podczas konferencji IEEE-ICASSP w 1991 roku, po pracy na MUSICAM z Matsushita i Philips od 1989 roku.

Ten kodek włączony do systemu nadawczego wykorzystującego modulację COFDM został zademonstrowany na antenie i w terenie z Radio Canada i CRC Canada podczas pokazu NAB (Las Vegas) w 1991 roku. Implementacja części audio tego systemu nadawczego opierała się na dwóch -koder chipów (jeden dla transformacji podpasma, jeden dla modelu psychoakustycznego zaprojektowanego przez zespół G. Stolla (IRT Niemcy), później znany jako model psychoakustyczny I) i dekoder czasu rzeczywistego wykorzystujący jeden chip Motorola 56001 DSP z arytmetykami całkowitymi oprogramowanie zaprojektowane przez zespół YF Dehery ( CCETT , Francja). Prostota odpowiedniego dekodera wraz z wysoką jakością dźwięku tego kodeka wykorzystującego po raz pierwszy częstotliwość próbkowania 48 kHz, format wejściowy 20 bitów/próbkę (najwyższy dostępny standard próbkowania w 1991 roku, kompatybilny z profesjonalnym cyfrowym AES/EBU wejście standardu studyjnego) były głównymi powodami późniejszego przyjęcia cech MUSICAM jako podstawowych funkcji zaawansowanego kodeka kompresji cyfrowej muzyki.

Podczas opracowywania oprogramowania do kodowania MUSICAM, zespół Stoll and Dehery dokładnie wykorzystał zestaw wysokiej jakości materiałów do oceny dźwięku, wybrany przez grupę profesjonalistów audio z Europejskiej Unii Nadawców, a następnie wykorzystany jako punkt odniesienia do oceny kompresji muzyki kodeki. Stwierdzono, że technika kodowania podpasm jest wydajna, nie tylko do percepcyjnego kodowania wysokiej jakości materiałów dźwiękowych, ale zwłaszcza do kodowania krytycznych perkusyjnych materiałów dźwiękowych (bębny, trójkąty,...), ze względu na specyficzny efekt maskowania czasowego podpasmowego banku filtrów MUSICAM (zaleta ta jest specyficzną cechą technik kodowania z krótką transformacją).

Jako doktorant na niemieckim Uniwersytecie w Erlangen-Nuremberg , Karlheinz Brandenburg rozpoczął pracę nad kompresji muzyki cyfrowej w 1980 roku, koncentrując się na jak ludzie postrzegają muzykę. Ukończył pracę doktorską w 1989 roku. MP3 jest bezpośrednio potomkiem OCF i PXFM, reprezentując wynik współpracy Brandenburgii — praca jako badacz podoktorski w AT&T-Bell Labs z Jamesem D. Johnstonem („JJ”) z AT&T-Bell Labs — z Instytutem Układów Scalonych im. Fraunhofera w Erlangen (gdzie pracował z Bernhardem Grillem i czterema innymi badaczami – „The Original Six”), ze stosunkowo niewielkim wkładem z działu MP2 koderów podzakresów psychoakustycznych. W 1990 roku Brandenburgia została adiunktem w Erlangen-Norymberdze. Tam kontynuował prace nad kompresji muzyki z naukowców z Fraunhofer-Gesellschaft „s Heinrich Hertz Institute (w 1993 roku dołączył do zespołu Fraunhofer HHI). Piosenka „ Tom's DinerSuzanne Vegi była pierwszą piosenką wykorzystaną przez Karlheinza Brandenburga do opracowania MP3. Brandenburg przyjął piosenkę do celów testowych, słuchając jej raz za razem, za każdym razem dopracowując schemat, upewniając się, że nie wpłynie to negatywnie na subtelność głosu Vegi.

Normalizacja

W roku 1991 dwie dostępne wniosków, które zostały uznane za standard MPEG audio: Musicam ( M prosząc wzór dostosowany U niversal S ubband że ułatwia zapakowanie C oding ND M ultiplexing) i ASPEC ( daptive S pectral P erceptual e ntropy C oding). Technika MUSICAM, zaproponowana przez Philips (Holandia), CCETT (Francja), Institute for Broadcast Technology (Niemcy) i Matsushita (Japonia), została wybrana ze względu na jej prostotę i odporność na błędy, a także wysoki poziom obliczeń efektywność. Format MUSICAM, oparty na kodowaniu podzakresów pasma , stał się podstawą formatu kompresji MPEG Audio, włączając w to m.in. jego strukturę ramki, format nagłówka, częstotliwości próbkowania itp.

Podczas gdy wiele technologii i pomysłów MUSICAM zostało włączonych do definicji MPEG Audio Layer I i Layer II, sam bank filtrów i struktura danych oparta na ramkach 1152 próbek (format pliku i strumień zorientowany bajtowo) MUSICAM pozostały w warstwie III ( MP3) jako część niewydajnego obliczeniowo banku filtrów hybrydowych . Pod przewodnictwem profesora Musmanna z Leibniz University Hannover redagowanie normy zostało oddelegowane do Leona van de Kerkhof (Holandia), Gerharda Stolla (Niemcy) i Yves-François Dehery (Francja), którzy pracowali nad Warstwą I i Warstwą II. ASPEC był wspólną propozycją AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society i CNET . Zapewniał najwyższą wydajność kodowania.

Grupa robocza składająca się z van de Kerkhofa, Stolla, Leonardo Chiariglione ( CSELT wiceprezes ds. mediów), Yves-François Dehery, Karlheinza Brandenburga (Niemcy) i Jamesa D. Johnstona (Stany Zjednoczone) przejęła pomysły od ASPEC, zintegrowała bank filtrów firmy Layer II, dodał kilka własnych pomysłów, takich jak wspólne kodowanie stereo MUSICAM i stworzył format MP3, który został zaprojektowany tak, aby osiągnąć taką samą jakość przy 128  kbit/s jak MP2 przy 192 kbit/s.

Algorytmy dla MPEG-1 Audio Layer I, II i III zostały zatwierdzone w 1991 i sfinalizowane w 1992 jako część MPEG-1 , pierwszego standardowego pakietu MPEG , który zaowocował międzynarodowym standardem ISO / IEC 11172-3 (aka MPEG -1 Audio lub MPEG-1 Part 3 ), opublikowana w 1993 roku. Pliki lub strumienie danych zgodne z tym standardem muszą obsługiwać częstotliwości próbkowania 48k, 44100 i 32k i nadal być obsługiwane przez obecne odtwarzacze i dekodery MP3 . W ten sposób pierwsza generacja MP3 zdefiniowała 14 × 3 = 42 interpretacje struktur danych ramek MP3 i układów rozmiarów.

Dalsze prace nad MPEG audio zostały sfinalizowane w 1994 roku jako część drugiego zestawu standardów MPEG, MPEG-2 , bardziej formalnie znanego jako międzynarodowy standard ISO/IEC 13818-3 (znany również jako MPEG-2 Part 3 lub kompatybilny wstecznie MPEG-2 Audio lub MPEG-2 Audio BC ), pierwotnie opublikowany w 1995 roku. MPEG-2 Part 3 (ISO/IEC 13818-3) zdefiniował 42 dodatkowe szybkości transmisji bitów i częstotliwości próbkowania dla MPEG-1 Audio Layer I, II i III. Nowe częstotliwości próbkowania są dokładnie o połowę mniejsze niż te pierwotnie zdefiniowane w MPEG-1 Audio. Ta redukcja częstotliwości próbkowania służy zmniejszeniu dostępnej wierności częstotliwości o połowę, jednocześnie zmniejszając szybkość transmisji o 50%. MPEG-2 Part 3 również ulepszył dźwięk MPEG-1, umożliwiając kodowanie programów audio z więcej niż dwoma kanałami, aż do wielokanałowego 5.1. MP3 zakodowany przy użyciu MPEG-2 daje połowę szerokości pasma odtwarzania MPEG-1 odpowiedniego dla fortepianu i śpiewu.

Trzecia generacja strumieni danych (plików) w stylu „MP3” rozszerzyła idee i implementację MPEG-2, ale została nazwana audio MPEG-2.5 , ponieważ MPEG-3 miał już inne znaczenie. To rozszerzenie zostało opracowane przez Fraunhofer IIS, zarejestrowanego właściciela patentu MP3, poprzez zmniejszenie pola synchronizacji ramki w nagłówku MP3 z 12 do 11 bitów. Podobnie jak przy przejściu z MPEG-1 do MPEG-2, MPEG-2.5 dodaje dodatkowe częstotliwości próbkowania dokładnie o połowę od tych dostępnych przy użyciu MPEG-2. W ten sposób rozszerza zakres MP3 o mowę ludzką i inne aplikacje, ale wymaga jedynie 25% przepustowości (odtwarzania częstotliwości) możliwej przy użyciu częstotliwości próbkowania MPEG-1. Chociaż nie jest to standard uznawany przez ISO, MPEG-2.5 jest szeroko obsługiwany zarówno przez niedrogie chińskie i markowe cyfrowe odtwarzacze audio, jak i oparte na oprogramowaniu komputerowym kodery MP3 ( LAME ), dekodery (FFmpeg) i odtwarzacze (MPC), dodając 3 × 8 = 24 dodatkowe typy ramek MP3. Każda generacja plików MP3 obsługuje zatem 3 częstotliwości próbkowania dokładnie o połowę mniejsze niż w poprzedniej generacji, co daje łącznie 9 odmian plików w formacie MP3. Tabela porównawcza częstotliwości próbkowania między MPEG-1, 2 i 2.5 jest podana w dalszej części artykułu. MPEG-2.5 jest obsługiwany przez LAME (od 2000), Media Player Classic (MPC), iTunes i FFmpeg.

MPEG-2.5 nie został opracowany przez MPEG (patrz wyżej) i nigdy nie został zatwierdzony jako międzynarodowy standard. MPEG-2.5 jest zatem nieoficjalnym lub zastrzeżonym rozszerzeniem formatu MP3. Niemniej jednak jest wszechobecny i szczególnie korzystny w aplikacjach wykorzystujących ludzką mowę o niskiej przepływności.

Wersje MPEG Audio Layer III
Wersja Międzynarodowy standard Data premiery pierwszej edycji Data publicznego wydania najnowszej edycji
MPEG-1 Audio Layer III ISO/IEC 11172-3 (MPEG-1 część 3) 1993
MPEG-2 Audio Layer III ISO/IEC 13818-3 (MPEG-2 część 3) 1995 1998
MPEG-2.5 warstwa audio III niestandardowe, zastrzeżone 2000 2008

  • Norma ISO ISO/IEC 11172-3 (znana również jako MPEG-1 Audio) definiuje trzy formaty: MPEG-1 Audio Layer I, Layer II i Layer III. Norma ISO ISO/IEC 13818-3 (aka MPEG-2 Audio) określa rozszerzoną wersję MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II i Layer III. MPEG-2 Audio (MPEG-2 część 3) nie powinien być mylony z MPEG-2 AAC (MPEG-2 część 7 – ISO/IEC 13818-7).

Wydajność kompresji koderów jest zwykle definiowana przez szybkość transmisji, ponieważ stopień kompresji zależy od głębokości bitów i częstotliwości próbkowania sygnału wejściowego. Niemniej jednak często publikowane są współczynniki kompresji. Mogą używać parametrów Compact Disc (CD) jako referencji (44,1 kHz , 2 kanały przy 16 bitach na kanał lub 2×16 bitów) lub czasami parametrów SP Digital Audio Tape (DAT) (48 kHz, 2×16 bit) . Współczynniki kompresji z tym ostatnim odniesieniem są wyższe, co pokazuje problem z użyciem terminu współczynnik kompresji dla enkoderów stratnych.

Karlheinz Brandenburg wykorzystał nagranie CD piosenki Suzanne VegaTom's Diner ” do oceny i udoskonalenia algorytmu kompresji MP3 . Utwór ten został wybrany ze względu na niemal monofoniczny charakter i szeroką zawartość spektralną, co ułatwia słyszenie niedoskonałości formatu kompresji podczas odtwarzania. Niektórzy nazywają Suzanne Vega „matką MP3”. Ta konkretna ścieżka ma interesującą właściwość polegającą na tym, że oba kanały są prawie, ale nie całkowicie takie same, co prowadzi do przypadku, w którym Obniżenie Poziomu Maskowania Obuusznego powoduje przestrzenne odmaskowanie artefaktów związanych z szumem, chyba że koder właściwie rozpozna sytuację i zastosuje poprawki podobne do tych szczegółowo opisano w modelu psychoakustycznym MPEG-2 AAC. Niektóre bardziej krytyczne fragmenty dźwięku ( dzwonki , trójkąty , akordeon itp.) zostały zaczerpnięte z referencyjnej płyty kompaktowej EBU V3/SQAM i zostały wykorzystane przez profesjonalnych inżynierów dźwięku do oceny subiektywnej jakości formatów MPEG Audio. LAME to najbardziej zaawansowany koder MP3. LAME zawiera kodowanie VBR ze zmienną szybkością transmisji, które wykorzystuje parametr jakości zamiast docelowej szybkości transmisji. Późniejsze wersje 2008+) obsługują docelową jakość n.nnn, która automatycznie wybiera częstotliwości próbkowania MPEG-2 lub MPEG-2.5 odpowiednio do nagrań ludzkiej mowy, które wymagają tylko szerokości pasma 5512 Hz.

Upublicznienie

Implementacja oprogramowania do symulacji referencyjnej, napisana w języku C, a później znana jako ISO 11172-5 , została opracowana (w latach 1991-1996) przez członków komitetu ISO MPEG Audio w celu wytworzenia zgodnych bitowo plików MPEG Audio (Warstwa 1, Warstwa 2, Warstwa 3). Został zatwierdzony jako projekt raportu technicznego ISO/IEC w marcu 1994 r. i wydrukowany jako dokument CD 11172-5 w kwietniu 1994 r. Został zatwierdzony jako projekt sprawozdania technicznego (DTR/DIS) w listopadzie 1994 r., sfinalizowany w 1996 r. i opublikowany jako międzynarodowy standard ISO/IEC TR 11172-5:1998 w 1998 roku. Oprogramowanie referencyjne w języku C zostało później opublikowane jako ogólnodostępny standard ISO. Pracując w czasie nie rzeczywistym na wielu systemach operacyjnych, był w stanie zademonstrować pierwsze sprzętowe dekodowanie w czasie rzeczywistym ( oparte na DSP ) skompresowanego dźwięku. Niektóre inne implementacje koderów i dekoderów MPEG Audio w czasie rzeczywistym były dostępne na potrzeby nadawania cyfrowego (radio DAB , telewizja DVB ) do odbiorników konsumenckich i dekoderów.

7 lipca 1994 roku Towarzystwo Fraunhofera wydało pierwszy programowy koder MP3 o nazwie l3enc . Rozszerzenie pliku .mp3 został wybrany przez zespół Fraunhofera w dniu 14 lipca 1995 roku (wcześniej, pliki zostały nazwane .Bit ). Dzięki pierwszemu programowemu odtwarzaczowi MP3 działającego w czasie rzeczywistym, WinPlay3 (wydanym 9 września 1995), wiele osób mogło kodować i odtwarzać pliki MP3 na swoich komputerach. Ze względu na stosunkowo małe dyski twarde w tamtych czasach (≈500–1000 MB ) kompresja stratna była niezbędna do przechowywania muzyki z wielu albumów na komputerze domowym jako pełnych nagrań (w przeciwieństwie do notacji MIDI lub plików śledzących , które łączyły notację z krótkie nagrania instrumentów grających pojedyncze nuty). Jak zauważa badacz dźwięku Jonathan Sterne: „Australijski haker nabył L3enc przy użyciu skradzionej karty kredytowej. Następnie haker dokonał inżynierii wstecznej oprogramowania, napisał nowy interfejs użytkownika i rozprowadził go za darmo, nazywając go „dziękuję Fraunhofer”.

Przykładowe wdrożenie Fraunhofera

Haker o imieniu SoloH odkrył kod źródłowy referencyjnej implementacji MPEG „dist10” wkrótce po opublikowaniu na serwerach Uniwersytetu Erlangen . Opracował wersję wyższej jakości i rozpowszechnił ją w Internecie. Ten kod zapoczątkował powszechne zgrywanie płyt CD i dystrybucję muzyki cyfrowej jako MP3 przez Internet.

Dystrybucja internetowa

W drugiej połowie lat 90. pliki MP3 zaczęły rozprzestrzeniać się w Internecie , często za pośrednictwem podziemnych sieci pirackich piosenek. Pierwszy znany eksperyment w dystrybucji internetowej zorganizowało na początku lat 90. Internet Underground Music Archive, lepiej znane pod akronimem IUMA. Po kilku eksperymentach z nieskompresowanymi plikami audio, archiwum to zaczęło dostarczać w rodzimym ogólnoświatowym wolnym Internecie kilka skompresowanych plików MPEG Audio przy użyciu formatu MP2 (Layer II), a później używanych plików MP3, gdy standard został całkowicie ukończony. Popularność MP3 zaczęła gwałtownie rosnąć, aby wraz z pojawieniem się Nullsoft odtwarzacza audio „s Winamp , wydany w roku 1997. W roku 1998, pierwszy przenośny półprzewodnikowy cyfrowy odtwarzacz audio MPMan , opracowany przez Saehan Systemów Informacyjnych , który ma siedzibę w Seulu , w Korei Południowej , został wypuszczony, a Rio PMP300 został sprzedany w 1998 roku, pomimo prawnych wysiłków RIAA .

W listopadzie 1997 roku strona mp3.com oferowała za darmo tysiące plików MP3 stworzonych przez niezależnych artystów. Niewielki rozmiar plików MP3 włączony powszechne peer-to-peer wymiany plików muzyki zgranych z płyt CD, które zostały wcześniej prawie niemożliwe. Pierwsza duża sieć wymiany plików peer-to-peer, Napster , została uruchomiona w 1999 roku. Łatwość tworzenia i udostępniania plików MP3 spowodowała powszechne naruszenie praw autorskich . Duże firmy fonograficzne argumentowały, że takie bezpłatne udostępnianie muzyki zmniejsza sprzedaż i nazwało to „ piractwem muzycznym ”. Zareagowali, wnosząc pozwy przeciwko Napsterowi (który został ostatecznie zamknięty, a później sprzedany) oraz przeciwko indywidualnym użytkownikom, którzy zaangażowali się w udostępnianie plików.

Nieautoryzowane udostępnianie plików MP3 jest kontynuowane w sieciach peer-to-peer nowej generacji . Niektóre autoryzowane serwisy, takie jak Beatport , Bleep , Juno Records , eMusic , Zune Marketplace , Walmart.com , Rhapsody , przemysł nagraniowy zatwierdził ponowne wcielenie Napstera i Amazon.com sprzedają muzykę w formacie MP3 bez ograniczeń.

Projekt

Struktura pliku

Schemat struktury pliku MP3
Schemat struktury pliku MP3 (MPEG wersja 2.5 nie jest obsługiwana, stąd 12 zamiast 11 bitów dla MP3 Sync Word).

Plik MP3 składa się z ramek MP3, które składają się z nagłówka i bloku danych. Ta sekwencja ramek nazywana jest strumieniem elementarnym . Ze względu na „zasobnik bitów”, ramki nie są niezależnymi elementami i zwykle nie mogą być wyodrębniane na arbitralnych granicach ramki. Bloki danych MP3 zawierają (skompresowane) informacje audio pod względem częstotliwości i amplitud. Diagram pokazuje, że nagłówek MP3 składa się ze słowa synchronizacji , które służy do identyfikacji początku prawidłowej ramki. Po nim następuje bit wskazujący, że jest to standard MPEG i dwa bity wskazujące, że używana jest warstwa 3; stąd MPEG-1 Audio Layer 3 lub MP3. Następnie wartości będą się różnić w zależności od pliku MP3. ISO / IEC 11172-3 określa zakres wartości dla każdej sekcji nagłówka wraz ze specyfikacją nagłówka. Większość dzisiejszych plików MP3 zawiera metadane ID3 , które poprzedzają lub następują po ramkach MP3, jak zaznaczono na diagramie. Strumień danych może zawierać opcjonalną sumę kontrolną.

Łączone stereo odbywa się tylko na zasadzie klatka-do-klatki.

Kodowanie i dekodowanie

Algorytm kodowania MP3 jest generalnie podzielony na cztery części. Część 1 dzieli sygnał audio na mniejsze części, zwane ramkami, a następnie na wyjściu wykonywany jest zmodyfikowany filtr z dyskretną transformacją kosinusową (MDCT). Część 2 przekazuje próbkę do 1024-punktowej szybkiej transformaty Fouriera (FFT), następnie stosowany jest model psychoakustyczny i na wyjściu wykonywany jest kolejny filtr MDCT. Część 3 określa ilościowo i koduje każdą próbkę, znaną jako alokacja szumu, która dostosowuje się, aby spełnić wymagania dotyczące przepływności i maskowania dźwięku . Część 4 formatuje strumień bitów , zwany ramką audio, który składa się z 4 części: nagłówka , sprawdzania błędów , danych audio i danych pomocniczych .

Standard MPEG-1 nie zawiera dokładnej specyfikacji kodera MP3, ale podaje przykładowe modele psychoakustyczne, pętlę szybkości i tym podobne w nienormatywnej części oryginalnego standardu. MPEG-2 podwaja liczbę obsługiwanych częstotliwości próbkowania, a MPEG-2.5 dodaje 3 więcej. Kiedy to pisano, sugerowane implementacje były dość przestarzałe. Realizatorzy standardu mieli opracować własne algorytmy odpowiednie do usuwania części informacji z wejścia audio. W rezultacie dostępnych stało się wiele różnych koderów MP3, z których każdy tworzył pliki o różnej jakości. Porównania były powszechnie dostępne, więc potencjalny użytkownik kodera mógł łatwo znaleźć najlepszy wybór. Niektóre kodery, które były biegłe w kodowaniu przy wyższych szybkościach transmisji (takie jak LAME ), niekoniecznie były tak dobre przy niższych szybkościach transmisji. Z biegiem czasu LAME ewoluowało na stronie SourceForge, aż stało się de facto koderem CBR MP3. Później dodano tryb ABR. Prace posuwały się naprzód nad prawdziwą zmienną szybkością transmisji przy użyciu celu jakościowego od 0 do 10. Ostatecznie liczby (takie jak -V 9.600) mogły generować doskonałej jakości kodowanie głosu o niskiej szybkości transmisji przy zaledwie 41 kbit/s przy użyciu rozszerzeń MPEG-2.5.

Podczas kodowania pobieranych jest 576 próbek w dziedzinie czasu i przekształcanych na 576 próbek w dziedzinie częstotliwości . Jeśli występuje transjent , pobierane są 192 próbki zamiast 576. Ma to na celu ograniczenie czasowego rozprzestrzeniania się szumu kwantyzacji towarzyszącego transjentowi (patrz psychoakustyka ). Rozdzielczość częstotliwości jest ograniczona przez mały rozmiar okna długiego bloku, co zmniejsza wydajność kodowania. Rozdzielczość czasowa może być zbyt niska dla sygnałów o wysokiej transjentach i może powodować rozmazanie dźwięków perkusyjnych.

Ze względu na strukturę drzewa banku filtrów, problemy z echem wstępnym nasilają się, ponieważ połączona odpowiedź impulsowa dwóch banków filtrów nie zapewnia i nie może zapewnić optymalnego rozwiązania w zakresie rozdzielczości czasowo-częstotliwościowej. Dodatkowo, połączenie wyjść dwóch banków filtrów stwarza problemy z aliasingiem, które muszą być częściowo rozwiązane przez etap „kompensacji aliasingu”; jednak powoduje to nadmiar energii do zakodowania w dziedzinie częstotliwości, zmniejszając w ten sposób wydajność kodowania.

Z drugiej strony dekodowanie jest dokładnie określone w standardzie. Większość dekoderów jest „ zgodna ze strumieniem bitów ”, co oznacza, że ​​zdekompresowane dane wyjściowe z danego pliku MP3 będą takie same, z określonym stopniem tolerancji zaokrąglania , jak dane wyjściowe określone matematycznie w dokumencie o wysokim standardzie ISO/IEC (ISO /IEC 11172-3). Dlatego porównywanie dekoderów jest zwykle oparte na ich wydajności obliczeniowej (tj. ilości pamięci lub czasu procesora zużywają w procesie dekodowania). Z biegiem czasu problem ten stał się mniejszym problemem, ponieważ szybkość procesora przeszła z MHz na GHz. Ogólne opóźnienie kodera/dekodera nie jest zdefiniowane, co oznacza, że ​​nie ma oficjalnego przepisu na odtwarzanie bez przerw . Jednak niektóre kodery, takie jak LAME, mogą dołączać dodatkowe metadane, które umożliwią graczom, którzy sobie z tym poradzą, zapewnienie płynnego odtwarzania.

Jakość

Podczas wykonywania stratnego kodowania dźwięku, takiego jak tworzenie strumienia danych MP3, występuje kompromis między ilością generowanych danych a jakością dźwięku wyników. Osoba generująca plik MP3 wybiera szybkość transmisji , która określa, ile kilobitów na sekundę dźwięku jest pożądane. Im wyższa szybkość transmisji bitów, tym większy będzie strumień danych MP3 i ogólnie im bliższy będzie dźwięk oryginalnego nagrania. Przy zbyt niskiej szybkości transmisji, artefakty kompresji (tj. dźwięki, które nie były obecne w oryginalnym nagraniu) mogą być słyszalne podczas odtwarzania. Niektóre dźwięki są trudne do skompresowania ze względu na ich losowość i ostre ataki. Gdy ten rodzaj dźwięku jest skompresowany, zwykle słychać artefakty, takie jak dzwonienie lub echo wstępne . Próbka oklasków lub instrument trójkątny o stosunkowo niskiej przepływności stanowią dobre przykłady artefaktów kompresji. Większość subiektywnych testów kodeków percepcyjnych ma tendencję do unikania używania tego typu materiałów dźwiękowych, jednak artefakty generowane przez dźwięki perkusyjne są ledwo dostrzegalne ze względu na specyficzną funkcję maskowania czasowego 32 podpasmowego banku filtrów warstwy II, na którym oparty jest format .

Oprócz szybkości transmisji zakodowanego fragmentu dźwięku, jakość dźwięku zakodowanego w formacie MP3 zależy również od jakości algorytmu kodera, a także od złożoności kodowanego sygnału. Ponieważ standard MP3 pozwala na dużą swobodę w zakresie algorytmów kodowania, różne kodery charakteryzują się całkiem różną jakością, nawet przy identycznych przepływnościach. Na przykład w publicznym teście odsłuchowym, w którym wykorzystano dwa wczesne kodery MP3 ustawione na około 128 kb/s, jeden uzyskał wynik 3,66 w skali 1–5, a drugi tylko 2,22. Jakość zależy od wyboru kodera i parametrów kodowania.

Ta obserwacja spowodowała rewolucję w kodowaniu dźwięku. Na początku bitrate był głównym i jedynym czynnikiem. W tamtych czasach pliki MP3 były najprostszym typem: używały tej samej szybkości transmisji dla całego pliku: proces ten jest znany jako kodowanie ze stałą szybkością transmisji (CBR). Korzystanie ze stałej przepływności sprawia, że ​​kodowanie jest prostsze i mniej obciąża procesor. Jednak możliwe jest również tworzenie plików, w których szybkość transmisji zmienia się w całym pliku. Są one znane jako zmienna szybkość transmisji bitów . Zasobnik bitów i kodowanie VBR były w rzeczywistości częścią oryginalnego standardu MPEG-1. Ich koncepcja polega na tym, że w każdym utworze audio niektóre sekcje są łatwiejsze do skompresowania, takie jak cisza lub muzyka zawierająca tylko kilka tonów, podczas gdy inne będą trudniejsze do skompresowania. Tak więc ogólną jakość pliku można zwiększyć, stosując niższą przepływność dla mniej złożonych fragmentów i wyższą dla bardziej złożonych części. W przypadku niektórych zaawansowanych koderów MP3 możliwe jest określenie określonej jakości, a koder odpowiednio dostosuje szybkość transmisji. Użytkownicy, którzy pragną określonego „ustawienia jakości”, które jest przezroczyste dla ich uszu, mogą użyć tej wartości podczas kodowania całej swojej muzyki i ogólnie rzecz biorąc, nie muszą się martwić o wykonywanie osobistych testów odsłuchowych na każdym utworze muzycznym w celu określenia prawidłowej przepływności.

Na postrzeganą jakość może wpływać środowisko odsłuchowe (hałas otoczenia), uwaga słuchacza i szkolenie słuchacza, a w większości przypadków sprzęt audio słuchacza (taki jak karty dźwiękowe, głośniki i słuchawki). Ponadto dostateczną jakość można osiągnąć przez ustawienie niższej jakości dla wykładów i zastosowań mowy ludzkiej oraz skrócenie czasu i złożoności kodowania. Test przeprowadzony dla nowych studentów przez profesora muzyki z Uniwersytetu Stanforda Jonathana Bergera wykazał, że preferencje studentów do muzyki w jakości MP3 rosną z roku na rok. Berger powiedział, że studenci zdają się preferować „skwierczące” dźwięki, jakie MP3 wnoszą do muzyki.

Dogłębne studium jakości dźwięku MP3, projekt artysty dźwięku i kompozytora Ryana Maguire'a „The Ghost in the MP3” wyodrębnia dźwięki utracone podczas kompresji MP3. W 2015 roku wydał utwór „moDernisT” (anagram od „Tom's Diner”), skomponowany wyłącznie z dźwięków usuniętych podczas kompresji MP3 utworu „Tom's Diner”, utworu pierwotnie używanego w formułowaniu standardu MP3. Szczegółowy opis technik zastosowanych do izolowania dźwięków usuniętych podczas kompresji MP3, wraz z koncepcyjną motywacją projektu, został opublikowany w 2014 Proceedings of the International Computer Music Conference.

Szybkość transmisji


Dostępne szybkości transmisji bitów MPEG Audio Layer III (kbit/s)
MPEG-1
Audio Layer III
MPEG-2
Audio Layer III
MPEG-2.5
warstwa audio III
8 8
16 16
24 24
32 32 32
40 40 40
48 48 48
56 56 56
64 64 64
80 80
96 96
112 112
128 128
nie dotyczy 144
160 160
192
224
256
320
Obsługiwane częstotliwości próbkowania
przez MPEG Audio Format
MPEG-1
Audio Layer III
MPEG-2
Audio Layer III
MPEG-2.5
warstwa audio III
8000 Hz
11025 Hz
12000 Hz
16000 Hz
22050 Hz
24000 Hz
32000 Hz
44100 Hz
48000 Hz

Bitrate to iloczyn częstotliwości próbkowania i liczby bitów na próbkę używanych do kodowania muzyki. Audio CD to 44100 próbek na sekundę. Liczba bitów na próbkę zależy również od liczby kanałów audio. CD jest stereo i 16 bitów na kanał. Tak więc pomnożenie 44100 przez 32 daje 1411200 — bitrate nieskompresowanego cyfrowego dźwięku CD. MP3 został zaprojektowany do kodowania danych 1411 kbit/s przy 320 kbit/s lub mniej. Ponieważ mniej złożone fragmenty są wykrywane przez algorytmy MP3, można zastosować niższe przepływności. Używając MPEG-2 zamiast MPEG-1, MP3 obsługuje tylko niższe częstotliwości próbkowania (16000, 22050 lub 24000 próbek na sekundę) i oferuje wybór szybkości transmisji tak niskiej jak 8 kbit/s, ale nie większej niż 160 kbit/s. Obniżając częstotliwość próbkowania, warstwa III MPEG-2 usuwa wszystkie częstotliwości powyżej połowy nowej częstotliwości próbkowania, która mogła być obecna w źródłowym dźwięku.

Jak pokazano w tych dwóch tabelach, 14 wybranych przepływności jest dozwolonych w standardzie MPEG-1 Audio Layer III: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 i 320 kbit /s, wraz z 3 najwyższymi dostępnymi częstotliwościami próbkowania 32, 44,1 i 48  kHz . MPEG-2 Audio Layer III pozwala również na 14 nieco różnych (i przeważnie niższych) przepływności 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit/s z częstotliwości próbkowania 16, 22,05 i 24  kHz, które są dokładnie o połowę mniejsze niż w przypadku klatek MPEG-1 MPEG-2.5 Audio Layer III są ograniczone tylko do 8 przepływności 8, 16, 24, 32, 40, 48, 56 i 64 kbit/ s z 3 jeszcze niższymi częstotliwościami próbkowania 8, 11,025 i 12 kHz. We wcześniejszych systemach, które obsługują tylko standard MPEG-1 Audio Layer III, pliki MP3 o przepływności poniżej 32 kb/s mogą być odtwarzane w przyspieszonym tempie.

W starszych systemach brakuje również funkcji szybkiego przewijania do przodu i do tyłu w przypadku plików MP3.

Ramki MPEG-1 zawierają najwięcej szczegółów w trybie 320 kbit/s, najwyższym dozwolonym ustawieniu przepływności, z ciszą i prostymi tonami nadal wymagającymi 32 kbit/s. Ramki MPEG-2 mogą przechwytywać reprodukcje dźwięku do 12 kHz, potrzebne do 160 kbit/s. Pliki MP3 utworzone w MPEG-2 nie mają szerokości pasma 20 kHz z powodu twierdzenia o próbkowaniu Nyquista-Shannona . Odwzorowanie częstotliwości jest zawsze ściśle mniejsze niż połowa częstotliwości próbkowania, a niedoskonałe filtry wymagają większego marginesu błędu (poziom szumu w stosunku do ostrości filtra), więc częstotliwość próbkowania 8 kHz ogranicza maksymalną częstotliwość do 4 kHz, podczas gdy próbkowanie 48 kHz Szybkość ogranicza odtwarzanie dźwięku MP3 do maksymalnie 24 kHz. MPEG-2 wykorzystuje połowę, a MPEG-2.5 tylko jedną czwartą częstotliwości próbkowania MPEG-1.

W ogólnym zakresie reprodukcji mowy ludzkiej pasmo 5512 Hz jest wystarczające do uzyskania doskonałych wyników (dla głosu) przy częstotliwości próbkowania 11025 i kodowaniu VBR z 44100 (standardowego) pliku WAV. Osoby posługujące się językiem angielskim średnio 41–42 kbit/s przy ustawieniu -V 9.6, ale może się to różnić w zależności od ilości zarejestrowanej ciszy lub szybkości dostarczania (wpm). Ponowne próbkowanie do 12000 (pasmo 6K) jest wybierane przez parametr LAME -V 9.4 Podobnie -V 9.2 wybiera częstotliwość próbkowania 16000 i wynikową filtrację dolnoprzepustową 8K. Aby uzyskać więcej informacji, zobacz Nyquist – Shannon. Starsze wersje LAME i FFmpeg obsługują tylko liczby całkowite dla parametru wyboru jakości zmiennej szybkości transmisji bitów. Parametr jakości n.nnn (-V) jest udokumentowany w lame.sourceforge.net, ale jest obsługiwany tylko w LAME z nowym selektorem jakości zmiennej przepływności VBR — a nie średnią przepływnością (ABR).

Częstotliwość próbkowania 44,1 kHz jest powszechnie używana do odtwarzania muzyki, ponieważ jest ona również używana w przypadku dźwięku z płyt CD , głównego źródła używanego do tworzenia plików MP3. W Internecie stosuje się wiele różnych przepływności. Często stosowana jest szybkość transmisji 128 kbit/s przy współczynniku kompresji 11:1, zapewniająca odpowiednią jakość dźwięku na stosunkowo niewielkiej przestrzeni. Wraz ze wzrostem dostępności przepustowości Internetu i rozmiarów dysków twardych, rozpowszechnione są wyższe szybkości transmisji do 320 kb/s. Nieskompresowany dźwięk przechowywany na płycie audio-CD ma szybkość transmisji 1411,2 kbit/s (16 bitów/próbkę × 44100 próbek/sekundę × 2 kanały/1000 bitów/kilobit), więc przepływności 128, 160 i 192 kbit/s reprezentują współczynniki kompresji odpowiednio około 11:1, 9:1 i 7:1.

Niestandardowe przepływności do 640 kbit/s można osiągnąć za pomocą kodera LAME i opcji freeformat, chociaż niewiele odtwarzaczy MP3 może odtwarzać te pliki. Zgodnie ze standardem ISO, dekodery są wymagane tylko do dekodowania strumieni do 320 kbit/s. Wczesne kodery MPEG Layer III wykorzystywały to, co obecnie nazywa się stałą szybkością transmisji (CBR). Oprogramowanie było w stanie używać tylko jednolitej przepływności we wszystkich klatkach w pliku MP3. Później, bardziej wyrafinowane kodery MP3 były w stanie wykorzystać rezerwuar bitów do określenia średniej szybkości transmisji bitów, wybierając szybkość kodowania dla każdej klatki w oparciu o złożoność dźwięku w tej części nagrania.

Bardziej wyrafinowany koder MP3 może generować dźwięk o zmiennej szybkości transmisji bitów . MPEG audio może wykorzystywać przełączanie szybkości transmisji bitów na klatkę, ale tylko dekodery warstwy III muszą to obsługiwać. VBR jest używany, gdy celem jest osiągnięcie stałego poziomu jakości. Ostateczny rozmiar pliku kodowania VBR jest mniej przewidywalny niż przy stałej szybkości transmisji bitów . Średnia przepływność to rodzaj VBR zaimplementowany jako kompromis między tymi dwoma: przepływność może się różnić w celu uzyskania bardziej spójnej jakości, ale jest kontrolowana, aby pozostawała blisko średniej wartości wybranej przez użytkownika, dla przewidywalnych rozmiarów plików. Chociaż dekoder MP3 musi obsługiwać VBR, aby był zgodny ze standardami, historycznie niektóre dekodery miały błędy w dekodowaniu VBR, szczególnie zanim kodery VBR stały się powszechne. Najbardziej rozwinięty koder LAME MP3 obsługuje generację VBR, ABR, a nawet starsze formaty CBR MP3.

Dźwięk warstwy III może również wykorzystywać „zbiornik bitów”, czyli zdolność do przechowywania części danych dźwiękowych następnej klatki, która umożliwia częściową pełną klatkę, pozwalając na tymczasowe zmiany efektywnej przepływności, nawet w strumieniu o stałej przepływności. Wewnętrzna obsługa zasobnika bitów zwiększa opóźnienie kodowania. Nie ma pasma współczynnika skalowania 21 (sfb21) dla częstotliwości powyżej około 16  kHz , co zmusza koder do wyboru między mniej dokładną reprezentacją w paśmie 21 lub mniej wydajnym przechowywaniem we wszystkich pasmach poniżej pasma 21, co skutkuje marnowaniem przepływności w kodowaniu VBR.

Dane pomocnicze

Dodatkowe pole danych może służyć do przechowywania danych zdefiniowanych przez użytkownika. Dane pomocnicze są opcjonalne, a liczba dostępnych bitów nie jest wyraźnie podana. Dane pomocnicze znajdują się za bitami kodu Huffmana i sięgają tam, gdzie wskazuje main_data_begin następnej ramki. Encoder mp3PRO używał danych pomocniczych do kodowania dodatkowych informacji, które mogłyby poprawić jakość dźwięku po dekodowaniu za pomocą własnego algorytmu.

Metadane

„Tag” w pliku audio to sekcja pliku, która zawiera metadane, takie jak tytuł, wykonawca, album, numer utworu lub inne informacje o zawartości pliku. Standardy MP3 nie definiują formatów znaczników dla plików MP3, nie ma też standardowego formatu kontenera , który obsługiwałby metadane i eliminował potrzebę znaczników. Istnieje jednak kilka de facto standardów dotyczących formatów znaczników. Od 2010 r. najbardziej rozpowszechnione są ID3v1 i ID3v2 oraz niedawno wprowadzony APEv2 . Te znaczniki są zwykle osadzane na początku lub na końcu plików MP3, niezależnie od rzeczywistych danych ramki MP3. Dekodery MP3 albo wydobywają informacje z tagów, albo po prostu traktują je jako niepotrzebne dane, które nie są w formacie MP3.

Oprogramowanie do odtwarzania i edycji często zawiera funkcję edycji tagów, ale istnieją również aplikacje do edycji tagów dedykowane do tego celu. Oprócz metadanych dotyczących treści audio tagi mogą być również używane w DRM . ReplayGain to standard pomiaru i przechowywania głośności pliku MP3 ( normalizacja dźwięku ) w jego znaczniku metadanych, umożliwiający odtwarzaczowi zgodnemu z ReplayGain automatyczne dostosowanie ogólnej głośności odtwarzania dla każdego pliku. MP3Gain może być używany do odwracalnej modyfikacji plików w oparciu o pomiary ReplayGain, dzięki czemu dostosowane odtwarzanie może być osiągnięte na odtwarzaczach bez funkcji ReplayGain.

Licencjonowanie, własność i ustawodawstwo

Podstawowa technologia dekodowania i kodowania MP3 jest w Unii Europejskiej wolna od patentów, wszystkie patenty wygasły tam najpóźniej do 2012 roku. W Stanach Zjednoczonych technologia stała się zasadniczo wolna od patentów w dniu 16 kwietnia 2017 r. (patrz poniżej). Patenty MP3 wygasły w Stanach Zjednoczonych między 2007 a 2017 rokiem. W przeszłości wiele organizacji twierdziło, że jest właścicielem patentów związanych z dekodowaniem lub kodowaniem MP3. Roszczenia te doprowadziły do ​​wielu gróźb prawnych i działań z różnych źródeł. W rezultacie niepewność co do tego, które patenty muszą być licencjonowane, aby tworzyć produkty MP3 bez naruszania patentów w krajach, które zezwalają na patenty na oprogramowanie, była powszechną cechą wczesnych etapów przyjęcia tej technologii.

Początkowy prawie kompletny standard MPEG-1 (części 1, 2 i 3) był publicznie dostępny 6 grudnia 1991 r. jako ISO CD 11172. W większości krajów patentów nie można zgłaszać po upublicznieniu stanu techniki, a patenty wygasają po 20 latach po początkowej dacie zgłoszenia, która może nastąpić do 12 miesięcy później w przypadku zgłoszeń w innych krajach. W rezultacie patenty wymagane do wdrożenia MP3 wygasły w większości krajów do grudnia 2012 roku, 21 lat po opublikowaniu ISO CD 11172.

Wyjątkiem są Stany Zjednoczone, gdzie patenty obowiązujące, ale zgłoszone przed 8 czerwca 1995 r. wygasają po upływie kolejnych 17 lat od daty wydania lub 20 lat od daty pierwszeństwa. Przedłużający się proces ścigania patentowego może skutkować wydaniem patentu znacznie później niż zwykle oczekiwano (patrz patenty na okręty podwodne ). Różne patenty związane z MP3 wygasły w Stanach Zjednoczonych od 2007 do 2017 roku. Patenty na wszystko, co ujawniono w ISO CD 11172, zgłoszone rok lub dłużej po jego opublikowaniu, są wątpliwe. Jeśli wziąć pod uwagę tylko znane patenty MP3 zgłoszone do grudnia 1992 r., to dekodowanie MP3 jest wolne od patentów w Stanach Zjednoczonych od 22 września 2015 r., kiedy to wygasł patent USA 5,812,672 , który został złożony w systemie PCT w październiku 1992 r. Jeśli jako miarę przyjmie się najdłużej działający patent wymieniony we wspomnianych powyżej odniesieniach, to technologia MP3 stała się wolna od patentów w Stanach Zjednoczonych w dniu 16 kwietnia 2017 r., kiedy wygasł patent US 6,009,399 , będący w posiadaniu i administrowany przez Technicolor . W rezultacie wiele bezpłatnych projektów oprogramowania o otwartym kodzie źródłowym , takich jak system operacyjny Fedora , zdecydowało się domyślnie rozpocząć dostarczanie obsługi MP3, a użytkownicy nie będą już musieli uciekać się do instalowania nieoficjalnych pakietów utrzymywanych przez repozytoria oprogramowania innych firm dla MP3 odtwarzanie lub kodowanie.

Technicolor (dawniej Thomson Consumer Electronics) twierdził, że kontroluje licencjonowanie MP3 patentów warstwy 3 w wielu krajach, w tym w Stanach Zjednoczonych, Japonii, Kanadzie i krajach UE. Technicolor aktywnie egzekwował te patenty. Przychody z licencji MP3 od administracji Technicolor wygenerowały około 100 milionów euro dla Fraunhofer Society w 2005 roku. We wrześniu 1998 roku Instytut Fraunhofera wysłał list do kilku twórców oprogramowania MP3, w którym stwierdził, że wymagana jest licencja na „dystrybucję i/lub sprzedaż dekoderów i/lub lub kodery". W liście stwierdzono, że nielicencjonowane produkty „naruszają prawa patentowe Fraunhofer i Thomson. Aby wytwarzać, sprzedawać lub dystrybuować produkty przy użyciu standardu [MPEG Layer-3], a tym samym naszych patentów, musisz uzyskać od nas licencję w ramach tych patentów”. Doprowadziło to do sytuacji, w której projekt kodera LAME MP3 nie mógł zaoferować swoim użytkownikom oficjalnych plików binarnych, które mogłyby działać na ich komputerze. Projekt zakładał, że jako kod źródłowy LAME był po prostu opisem tego, jak można zaimplementować koder MP3 . Nieoficjalnie skompilowane pliki binarne były dostępne z innych źródeł.

Sisvel SpA, firma z siedzibą w Luksemburgu, administruje licencjami na patenty dotyczące MPEG Audio. Wraz ze swoją amerykańską spółką zależną Audio MPEG, Inc. wcześniej pozwali Thomson za naruszenie patentu na technologię MP3, ale spory te zostały rozwiązane w listopadzie 2005 roku, a Sisvel udzielił Thomsonowi licencji na ich patenty. Wkrótce po tym podążyła Motorola, która podpisała z Sisvelem licencję na patenty związane z MP3 w grudniu 2005 r. Z wyjątkiem trzech patentów, wszystkie amerykańskie patenty zarządzane przez Sisvel wygasły w 2015 r. Trzy wyjątki to: Patent USA 5 878 080 wygasł w lutym 2017 r.; Patent USA 5,850.456 , wygasł w lutym 2017 r.; oraz patent USA 5,960,037 , wygasł 9 kwietnia 2017 r.

We wrześniu 2006 roku niemieccy urzędnicy skonfiskowali odtwarzacze MP3 ze stoiska SanDisk na targach IFA w Berlinie po tym, jak włoska firma patentowa wygrała w imieniu Sisvel nakaz sądowy przeciwko firmie SanDisk w sporze o prawa licencyjne. Nakaz został później uchylony przez berlińskiego sędziego, ale to cofnięcie zostało z kolei zablokowane tego samego dnia przez innego sędziego z tego samego sądu, „wprowadzając Patent Dziki Zachód do Niemiec”, jak powiedział jeden z komentatorów. W lutym 2007 roku firma Texas MP3 Technologies pozwała Apple, Samsung Electronics i Sandisk we wschodnim sądzie federalnym Teksasu , powołując się na naruszenie patentu na przenośny odtwarzacz MP3, który według Texas MP3 został przyznany. Apple, Samsung i Sandisk uregulowały roszczenia wobec nich w styczniu 2009 roku.

Alcatel-Lucent domagał się kilku patentów na kodowanie i kompresję MP3, rzekomo odziedziczonych po AT&T-Bell Labs, we własnym postępowaniu sądowym. W listopadzie 2006 roku, przed połączeniem firm, Alcatel pozwał Microsoft za rzekome naruszenie siedmiu patentów. 23 lutego 2007 r. ława przysięgłych w San Diego przyznała firmie Alcatel-Lucent odszkodowanie w wysokości 1,52 mld USD za naruszenie dwóch z nich. Sąd następnie cofnął orzeczenie, stwierdzając jednak, że jeden patent nie został naruszony, a drugi nie był własnością Alcatela-Lucenta ; był współwłasnością AT&T i Fraunhofera, którzy udzielili licencji Microsoftowi , orzekł sędzia. Ten wyrok obrony został utrzymany w apelacji w 2008 r. Zobacz Alcatel-Lucent przeciwko Microsoft, aby uzyskać więcej informacji.

Alternatywne technologie

Istnieją inne formaty stratne. Wśród nich najczęściej stosowane jest zaawansowane kodowanie audio (AAC), które zostało zaprojektowane jako następca MP3. Istnieją również inne formaty stratne, takie jak mp3PRO i MP2 . Należą do tej samej rodziny technologicznej co MP3 i opierają się na mniej więcej podobnych modelach psychoakustycznych i algorytmach MDCT . Podczas gdy MP3 wykorzystuje hybrydowe podejście do kodowania, które jest częściowo MDCT i częściowo FFT , AAC jest czysto MDCT, co znacznie poprawia wydajność kompresji. Wiele podstawowych patentów leżących u podstaw tych formatów posiada Fraunhofer Society , Alcatel-Lucent , Thomson Consumer Electronics , Bell , Dolby , LG Electronics , NEC , NTT Docomo , Panasonic , Sony Corporation , ETRI , JVC Kenwood , Philips , Microsoft i NTT .

Kiedy rynek cyfrowych odtwarzaczy audio rozwijał się, MP3 był powszechnie stosowany jako standard, stąd popularna nazwa „odtwarzacz MP3”. Sony stanowiło wyjątek i używało własnego kodeka ATRAC zaczerpniętego z formatu MiniDisc , który według Sony był lepszy. W następstwie krytyki i niższej niż oczekiwano sprzedaży Walkmanów , w 2004 roku Sony po raz pierwszy wprowadziło natywną obsługę MP3 do swoich odtwarzaczy Walkman.

Istnieją również otwarte formaty kompresji, takie jak Opus i Vorbis, które są dostępne bezpłatnie i bez żadnych znanych ograniczeń patentowych. Niektóre z nowszych formatów kompresji dźwięku, takie jak AAC, WMA Pro i Vorbis, są wolne od pewnych ograniczeń związanych z formatem MP3, których nie może pokonać żaden koder MP3.

Poza stratnymi metodami kompresji, formaty bezstratne są znaczącą alternatywą dla MP3, ponieważ zapewniają niezmienioną zawartość audio, choć mają większy rozmiar pliku w porównaniu z kompresją stratną. Formaty bezstratne obejmują FLAC (Free Lossless Audio Codec), Apple Lossless i wiele innych.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki