Skip to main content
padlock icon - secure page this page is secure

Aurally adequate signal representation: The Part-Tone-Time-Pattern

Buy Article:

$30.00 + tax (Refund Policy)

A perceptually based model of audio signal representation is described, using the time-variable frequencies and levels of part tones. The latter form the part-tone-time-pattern (PTTP). The psychophysical foundation of the PTTP is the model of spectral pitch perception proposed by Terhardt, in which spectral pitches play the role of auditory contours. Extraction of part tones as physical equivalents to spectral pitch percepts is done in three steps: aurally adequate spectrum analysis, temporal smoothing of the power spectrum and detection of spectral maxima. Aurally adequate spectrum analysis is performed by Fourier-ttransformation (FTT, see Terhardt, Acustka 57 [1985], 242−256) which allows adjustment of analysis parameters with regard to the frequency- and timeresolution of the human ear. Temporal smoothing in combination with a threshold criterion during maximum detection prevents side-lobes from being extracted as part tones. Reliability of signal representation was aurally verified by using a resynthesis method. All types of natural sounds such as speech (with or without noise), multiple speakers, and music, are well represented by the time-variant frequencies and levels of the PTTP. The resynthesized signals are nearly indistinguishable from the originals. This article describes the steps leading to the PTTP: calculation of the smoothed FTT-power spectrum: suppression of the side-lobes and the choice of analysis parameters. Further, a graphical representation of the PTTP (maxigram) is explained. Finally, a description is given of applications to analysis, representation, and resynthesis of natural sounds.

Zusammenfassung

Es wird eine wahrnehmungsorientierte Methode der Repräsentation von Audiosignalen unter Verwendung zeitvariabler Frequenzen und Pegel von Teiltönen vorgestellt. Die letzteren bilden das Teiltonzeitmuster (PTTP = part-tone-time-pattern). Als psychophysikalische Grundlage dient das von Terhardt beschriebene Konzept der Spektraltonhöhenwahrnehmung, bei welchem den Spektraltonhöhen die bedeutung von auditiven Konturen zukommt. Die Bestimmung der Teiltöne als physikalisches Äquivalent zu Spektraltonhöhenwahrnehmungen erfolgt in drei Stufen: gehörgerechte Spektralanalyse, zeitliches Glätten des Leistungsspektrums und Bestimmung spektraler Maxima. Die gehörgerechte Spektralanalyse wird mit Hilfe der Fourier-t-Transformation (FTT, vgl. Terhardt, Acustica 57 [1985], 242−256) durchgeführt, die eine Anpassung der Analyseparameter an das Frequenz- und Zeitauflösungsvermögen des menschlichen Gehörs ermöglicht. Die zeitliche Glättung verhindert zusammen mit einem Schwellenkriterium bei der Maximumbestimmung eine Zuordnung von Teiltönen zu irrelevanten Nebenmaxima. Die Überprüfung der Signalrepräsentation erfolgt auditiv durch Resynthese. Alle Arten natürlicher Schalle wie beispielsweise Sprache mit oder ohne Rauschen, auch von mehreren Sprechern, und Musik werden durch die zeitvariablen Frequenzen und Pegel des Teiltonzeitmusters vollständig beschrieben. Es lassen sich nur geringe Unterschiede zwischen resynthetisierten Signalen und ihren Originalen wahrnehmen. Die vorliegende Arbeit beschreibt die Schritte, die zum Teiltonzeitmuster führen: die berechnung des geglätteten FTT-Leistungsspektrums, die Unterdrückung der Nebenmaxima und die Wahl der Transformationsparameter. Weiter wird eine graphische Darstellung des Teiltonzeitmusters vorgestellt, das Maxigramm. Abschließend wird auf die Anwendung zur Analyse, Repräsentation und Resynthese natürlicher Schalle eingegangen.

Sommaire

On décrit un modèle de représentation des signaux audibles qui est fondé sur nos connaissances actuelles de la perception auditive et utilise des fréquences et des niveaux variables dans le temps et s'appliquant aux partiels d'un signal. On obtient ainsi une représentation qu'on peut appeler le profil temporel des partiels (PTTP ou Part-Tone-Time-Pattern). La base psychophysique du PTTP est le modèle de perception des hauteurs spectrales qui a été proposé récemment par Terhardt. Les hauteurs spectrales y jouent le rôle des contours de perception auditive. Les partiels sont les équivalents physiques des perceptions de hauteurs spectrales. Leur extraction se fait en trois étapes: 1°) analyse spectrale appropriée à la perception auditive; 2°) lissage temporel du spectre énergétique et 3°) détection des maxima du spectre. Une analyse spectrale appropriée à la perception auditive s'obtient au moyen de la transformation de Fourier dépendante du temps proposée par Terhardt (FTT = Fourier-t-transformation, cf. Acustica 57 [1985], 242−256). La FTT permet d'ajuster les paramètres de l'analyse spectrale aux pouvoirs de résolution, en temps et en fréquence, de l'oreille humaine. Le lissage temporel combiné à la donnée d'un seuil critique lors de la détection d'un maximum, évite que des lobes latéraux ne soient assimilés a des partiels. La validité d'une telle représentation a été vérifiée subjectivement par une méthode de ,,resynthése”. Le PTTP permet de représenter tous les types de sons naturels: musique, parole (avec ou sans bruit de fond), chant et choeur parlé. Les signaux resynthétisés sont difficiles à distinguer de leurs originaux. On décrit aussi les étapes conduisant à la construction d'un PTTP: calcul du spectre énergétique FTT avec lissage, suppression des lobes latéraux et choix des paramètres d'analyse. On commente également la représentation graphique du PTTP, qu'on nomme un ,,maxigramme”. Enfin on décrit diverses applications du PTTP à l'analyse et à la resynthèse de sons naturels.
No Reference information available - sign in for access.
No Citation information available - sign in for access.
No Supplementary Data.
No Article Media
No Metrics

Document Type: Research Article

Publication date: December 1, 1988

More about this publication?
  • Acta Acustica united with Acustica, published together with the European Acoustics Association (EAA), is an international, peer-reviewed journal on acoustics. It publishes original articles on all subjects in the field of acoustics, such as general linear acoustics, nonlinear acoustics, macrosonics, flow acoustics, atmospheric sound, underwater sound, ultrasonics, physical acoustics, structural acoustics, noise control, active control, environmental noise, building acoustics, room acoustics, acoustic materials, acoustic signal processing, computational and numerical acoustics, hearing, audiology and psychoacoustics, speech, musical acoustics, electroacoustics, auditory quality of systems. It reports on original scientific research in acoustics and on engineering applications. The journal considers scientific papers, technical and applied papers, book reviews, short communications, doctoral thesis abstracts, etc. In irregular intervals also special issues and review articles are published.
  • Editorial Board
  • Information for Authors
  • Submit a Paper
  • Subscribe to this Title
  • Information for Advertisers
  • Online User License
  • Ingenta Connect is not responsible for the content or availability of external websites
  • Access Key
  • Free content
  • Partial Free content
  • New content
  • Open access content
  • Partial Open access content
  • Subscribed content
  • Partial Subscribed content
  • Free trial content
Cookie Policy
X
Cookie Policy
Ingenta Connect website makes use of cookies so as to keep track of data that you have filled in. I am Happy with this Find out more