메리디언 오디오가 제안한 새로운 포맷에 대하여 취미

2014년 10월 17일부터 19일까지의 일정으로 일본 동경에서 열린 오디오 및 홈씨어터 전시회(オーディオ・ホームシアター展, 약칭 音展) 2014 회장에, 그동안 일본 시장에 별달리 관심을 보이지 않았던 영국 메리디언 오디오의 사장 밥 스튜어트 씨가 방문하여 재미있는 강연을 한 바 있습니다. 그 내용은 지금까지 시도된 바 없던 새로운 사운드 전달 포맷에 대한 것.

이 새로운 포맷의 기술적 요체는 한마디로 Encapsulation(캡슐화)이며, 그 기치는 'End-to-End, Beyond Lossless'입니다. 기존의 녹음 및 수록 포맷인 PCM이나 무손실 압축(flac 혹은 HD사운드를 총칭)은 양자화 비트와 서브샘플링이 증가할 수록 더 양질의 사운드를 제공하지만 더좋은 사운드를 추구하며 비트 샘플링 스펙을 높이면 높일 수록 그와 비례하여 파일 용량이 계속 증가할 수 밖에 없는 약점을 안고 있는데, 밥 스튜어트 씨는 인간의 청각이 받아들인 음성이 어떻게 전기 신호로 변해 뇌가 인식하는가 하는 소위 현대 의학적 청각 메커니즘에 대한 연구에 기반하여 기존의 하이파이 및 사운드 업계가 주목해온 주파수 특성이나 다이나믹 레인지가 아니라 인간이 가장 날카롭게 인지할 수 있다는 '시간축상의 인식 해상도'를 극한까지 높이는 것에 주안점을 두어 이 새로운 인코딩/디코딩 포맷 개발에 착수했다고 밝혔습니다. 정리하면

1. 현대 의학이 지금까지 밝혀낸 객관적 연구에 기반하여
2. 인간이 더 청각적으로 인지하기 쉬운(따라서 그 우열에 훨씬 민감하고 직접적으로 반응하는) 요소에 중점을 두어
3. 해당 요소를 최대한 수용하는 사운드 포맷을 만들겠다는 이야기

시간축상의 인식 해상도라는 것은 쉽게 말하면 소리의 도달시간차를 눈치챈다는 의미입니다. A소리가 B소리에 비해 더 빠르게 결승점(= 귀)에 들어온다는 것을 뇌가 인지(평범한 사람도 약 10마이크로 초μs의 차이마저 구별이 가능)하면서 이를 통해 소리가 울리는 상태나 그 모습의 상이 뇌에서 더 정밀하게 그려질 수 있다는 것. 기존 양자화 비트 증가에서 역점을 둔 요소인 다이나믹 레인지는 쉽게 말하면 '강한 소리는 더 (확실히)강하게, 약한 소리는 더 (확실히)약하게'라는 이른바 소리의 강약명암 차이의 너비를 늘리는 것인데 사람의 청각은 이쪽보다는 도달시간차를 더 쉽게 또한 날카롭게 인지한다는 것이 이 발상의 근거입니다.

물론 이 새로운 포맷의 지향점은 기존의 비트 샘플링을 완전 배제한다는 이야기가 아니라 기존에 중요시하던 (이미 인간 지각을 넘어선 수준이라는 말이 나올 정도의)다이나믹 레인지만을 계속 늘려나가 (더미라고 생각될 정도로)용량을 늘리는 것보다, 기존의 비트 샘플링 체계와 동급의 다이나믹스나 서브샘플링을 유지(16~32비트/44.1~384khz 정도의 범위)하면서 더 '인식하기 쉬운 고음질'을 '더 저용량'으로 구현하는 코딩 포맷입니다. 이런 이유로 밥 스튜어트 씨의 이야기에 따르면 이 새로운 포맷은 종래에 비해 더 효율적인 샘플링 기술이 될 것이며, 훨씬 효율적으로 고음질화(인간이 느끼기에 더 좋은)와 용량 축소화를 병행할 수 있다고 하는군요.

강연에서 거론된 바는 이 이상의 아주 구체적인 디바이스나 적용 기술에 대한 브리핑은 아니었고 상술한 개념 전달 및 그 이해를 돕고자 이 논리에 따른 새로운 포맷으로 코딩하여 제작한 사운드 파일을 청중들에게 들려준 정도였습니다만, 해당 사운드를 들어본 사람들의 반응은 '지금까지 들어 본 적이 없었던 생생함과 농밀함'으로 요약됩니다. 물론 그 자리에는 오디오 기기 및 잡지 관계자들이 대거 참석했음에도 불구하고 한결같은 반응이었다는 것이 재미있는 점이고, 또한 해당 음악이 1962년에 녹음 된 소스(밥 딜런의 ​Don't think twice it's alright)였다는 점이 더더욱 그러합니다. 대개 이 시기의 녹음은 기존의 비트샘플링 디지털 마스터링 방식으로는 아무리 용을 써도 녹음 당시 소스에 비해 그 열화감을 피하기 어려움에도 불구하고, 청중들의 반응이 이 곡을 재현한 기존의 어떤 포맷보다 우수했다 & 또한 근래의 디지털 녹음에서 들려주는 음질 요소에 비해서도 뒤쳐지지 않거나 더 좋은 부분이 있다고 평한 점은 나름대로 고무적인 일이라 할 수 있습니다.


일단 이 강연으로부터 대략 한 달 가량 지난 지금까지도 별달리 구체적이거나 새로운 발표 사항이 아직 없어서 부득이하게 과거에 얻은 정보를 그대로 적을 수 밖에 없습니다만, 늦어도 내년 쯤에는 구체적인 포맷 사양이나 기존 기기와의 대응 혹은 새로운 기기의 제안 등이 나오리라 생각됩니다. 밥 스튜어트 씨가 주목한 바는 그동안 현대 의학이 연구해낸 사항으로 이는 이미 학계 연구논문도 꽤 나왔다 들었으며 사운드 관련 업계에서도 어느정도 의견 교환은 되는 상태이기도 한만큼 그 원리를 널리 제대로 알린다면 딱히 황금귀 같은 식의 왈가왈부가 없을만큼 '고음질'에 대한 주효 포인트라고 생각되는 바 개인적으로는 상당히 긍정적입니다. 더 구체적인 이야기가 빠르게 나오길 기대하며, 나오는대로 기회되면 열심히 소개해 드릴까 합니다.


핑백

덧글

  • 천하귀남 2014/11/19 09:51 # 답글

    의학서적에서 나이에 따른 주파수 감지능력이 떨어지는 도표를 보니 너무 고스펙에 초 고음역 재생에만 목멜 필요는 없다고 보이긴 하더군요. 어떻게 보면 저런식의 의학적으로 검증된 인간 감지능력에 연계한 포멧이 현실적이라 보입니다.
  • 城島勝 2014/11/19 10:14 #

    네, 저도 그런 의미에서 밥 스튜어트 씨의 제안에 대해 긍정적으로 전망합니다. 기존에도 시간차 정보에 대한 수록이 없었던 것이야 아니지만, 이 요소를 더욱 강화하여 수록하는 것은 말씀하신대로 효과적이기도 하고 그 방법에 있어서도 영상에 있어 MGVC나 음성에 있어 돌비 앳모스의 BD 수록과 같은 방식을 생각해 볼 수 있을 듯도 하니 실현성 자체도 현실적이기도 한 만큼.
  • 디트 2014/11/19 12:13 # 답글

    관련 내용을 졸업연구로 하는 중인데, 음, 청각의 시간분해능이 가장 좋을 때, 그러니까 일정한 주파수 내의 끊김 같은 걸 인식할 땐 최대 ~10ms까지도 내려가는 건 맞는데, 조건이 바뀌면 수십 ms까지도 올라가곤 하고, 정확히 어떤 요소가 시간분해능에 영향을 주는지는 아직 완전히 안 알려진 걸로 압니다. 관련 논문이 있다면 읽어보고 싶은 내용이네요.
  • 城島勝 2014/11/19 17:05 #

    저도 말씀하신 바, 그러니까 해당 인지 연구 상태의 정확한 진척도까지는 조사해보지 못했습니다. 본문중 거론된, 특히 학술 논문의 존재는 밥 스튜어트 씨의 언급과 여기 참석하여 이를 구술해준 지인이 말해준 것이라 저역시 어느 수준까지 연구가 진척되었는지 관련 논문들을 구해다 볼까 하고는 있는데, 어영부영 한 달 가량이 그냥 흘러가 버렸습니다.-_-ㅋ
  • 로리 2014/11/19 12:26 # 답글

    상당히 기대가 됩니다
  • 城島勝 2014/11/19 17:07 #

    네, 개인적으로는 사실 NHK의 8K 운운(웃음)보다 이쪽이 더 솔깃하달까 그렇습니다.
  • SCV君 2014/12/07 20:35 # 답글

    이건 흥미롭군요.
    인식 가능한 고음질을 '더 저용량으로' 구현한다는 점이 개인적으론 특히나 끌립니다. 용량도 은근 부담이라 말이죠;
  • 城島勝 2014/12/08 07:48 #

    보다 구체적인 청사진이 나와봐야 확실하게 가늠할 수 있겠지만 많은 분들이 말씀하신 사유로 기대를 하는 것으로 보입니다. 디지털 핸들링에 일가견이 있는 회사이니만큼 기다려볼 가치도 있을 것이라 생각되고.
댓글 입력 영역