Skip to main content

Open Access Aurally adequate signal representation: The Part-Tone-Time-Pattern

Download Article:
A perceptually based model of audio signal representation is described, using the time-variable frequencies and levels of part tones. The latter form the part-tone-time-pattern (PTTP). The psychophysical foundation of the PTTP is the model of spectral pitch perception proposed by Terhardt, in which spectral pitches play the role of auditory contours. Extraction of part tones as physical equivalents to spectral pitch percepts is done in three steps: aurally adequate spectrum analysis, temporal smoothing of the power spectrum and detection of spectral maxima. Aurally adequate spectrum analysis is performed by Fourier-ttransformation (FTT, see Terhardt, Acustka 57 [1985], 242−256) which allows adjustment of analysis parameters with regard to the frequency- and timeresolution of the human ear. Temporal smoothing in combination with a threshold criterion during maximum detection prevents side-lobes from being extracted as part tones. Reliability of signal representation was aurally verified by using a resynthesis method. All types of natural sounds such as speech (with or without noise), multiple speakers, and music, are well represented by the time-variant frequencies and levels of the PTTP. The resynthesized signals are nearly indistinguishable from the originals. This article describes the steps leading to the PTTP: calculation of the smoothed FTT-power spectrum: suppression of the side-lobes and the choice of analysis parameters. Further, a graphical representation of the PTTP (maxigram) is explained. Finally, a description is given of applications to analysis, representation, and resynthesis of natural sounds.

Zusammenfassung

Es wird eine wahrnehmungsorientierte Methode der Repräsentation von Audiosignalen unter Verwendung zeitvariabler Frequenzen und Pegel von Teiltönen vorgestellt. Die letzteren bilden das Teiltonzeitmuster (PTTP = part-tone-time-pattern). Als psychophysikalische Grundlage dient das von Terhardt beschriebene Konzept der Spektraltonhöhenwahrnehmung, bei welchem den Spektraltonhöhen die bedeutung von auditiven Konturen zukommt. Die Bestimmung der Teiltöne als physikalisches Äquivalent zu Spektraltonhöhenwahrnehmungen erfolgt in drei Stufen: gehörgerechte Spektralanalyse, zeitliches Glätten des Leistungsspektrums und Bestimmung spektraler Maxima. Die gehörgerechte Spektralanalyse wird mit Hilfe der Fourier-t-Transformation (FTT, vgl. Terhardt, Acustica 57 [1985], 242−256) durchgeführt, die eine Anpassung der Analyseparameter an das Frequenz- und Zeitauflösungsvermögen des menschlichen Gehörs ermöglicht. Die zeitliche Glättung verhindert zusammen mit einem Schwellenkriterium bei der Maximumbestimmung eine Zuordnung von Teiltönen zu irrelevanten Nebenmaxima. Die Überprüfung der Signalrepräsentation erfolgt auditiv durch Resynthese. Alle Arten natürlicher Schalle wie beispielsweise Sprache mit oder ohne Rauschen, auch von mehreren Sprechern, und Musik werden durch die zeitvariablen Frequenzen und Pegel des Teiltonzeitmusters vollständig beschrieben. Es lassen sich nur geringe Unterschiede zwischen resynthetisierten Signalen und ihren Originalen wahrnehmen. Die vorliegende Arbeit beschreibt die Schritte, die zum Teiltonzeitmuster führen: die berechnung des geglätteten FTT-Leistungsspektrums, die Unterdrückung der Nebenmaxima und die Wahl der Transformationsparameter. Weiter wird eine graphische Darstellung des Teiltonzeitmusters vorgestellt, das Maxigramm. Abschließend wird auf die Anwendung zur Analyse, Repräsentation und Resynthese natürlicher Schalle eingegangen.

Sommaire

On décrit un modèle de représentation des signaux audibles qui est fondé sur nos connaissances actuelles de la perception auditive et utilise des fréquences et des niveaux variables dans le temps et s'appliquant aux partiels d'un signal. On obtient ainsi une représentation qu'on peut appeler le profil temporel des partiels (PTTP ou Part-Tone-Time-Pattern). La base psychophysique du PTTP est le modèle de perception des hauteurs spectrales qui a été proposé récemment par Terhardt. Les hauteurs spectrales y jouent le rôle des contours de perception auditive. Les partiels sont les équivalents physiques des perceptions de hauteurs spectrales. Leur extraction se fait en trois étapes: 1°) analyse spectrale appropriée à la perception auditive; 2°) lissage temporel du spectre énergétique et 3°) détection des maxima du spectre. Une analyse spectrale appropriée à la perception auditive s'obtient au moyen de la transformation de Fourier dépendante du temps proposée par Terhardt (FTT = Fourier-t-transformation, cf. Acustica 57 [1985], 242−256). La FTT permet d'ajuster les paramètres de l'analyse spectrale aux pouvoirs de résolution, en temps et en fréquence, de l'oreille humaine. Le lissage temporel combiné à la donnée d'un seuil critique lors de la détection d'un maximum, évite que des lobes latéraux ne soient assimilés a des partiels. La validité d'une telle représentation a été vérifiée subjectivement par une méthode de ,,resynthése”. Le PTTP permet de représenter tous les types de sons naturels: musique, parole (avec ou sans bruit de fond), chant et choeur parlé. Les signaux resynthétisés sont difficiles à distinguer de leurs originaux. On décrit aussi les étapes conduisant à la construction d'un PTTP: calcul du spectre énergétique FTT avec lissage, suppression des lobes latéraux et choix des paramètres d'analyse. On commente également la représentation graphique du PTTP, qu'on nomme un ,,maxigramme”. Enfin on décrit diverses applications du PTTP à l'analyse et à la resynthèse de sons naturels.

Document Type: Research Article

Publication date: 01 December 1988

  • Access Key
  • Free content
  • Partial Free content
  • New content
  • Open access content
  • Partial Open access content
  • Subscribed content
  • Partial Subscribed content
  • Free trial content