https://scifaro.com/en/abs/local-area-damage-detection-in-composite-structures-using-piezoelectric-transducers-0705.46542015-05-13 https://scifaro.com/zh/abs/local-area-damage-detection-in-composite-structures-using-piezoelectric-transducers-0705.46542015-05-13 https://scifaro.com/en/abs/dsp-based-system-for-real-time-voice-synthesis-applications-development-0803.01972008-03-04 https://scifaro.com/en/abs/a-synthesizer-based-on-frequency-phase-analysis-and-square-waves-0804.32412013-11-26 https://scifaro.com/en/abs/a-statistical-approach-to-modeling-indian-classical-music-performance-0809.32142008-10-25 https://scifaro.com/en/abs/which-notes-are-vadi-samvadi-in-raga-rageshree-0812.07062008-12-04 https://scifaro.com/en/abs/tr01-time-continuous-sparse-imputation-0901.24162009-01-19 https://scifaro.com/en/abs/iklax-a-new-musical-audio-format-for-active-listening-0901.39022009-01-27 https://scifaro.com/en/abs/new-ica-beamforming-method-to-under-determined-bss-0902.27832010-01-08 https://scifaro.com/en/abs/a-unified-theory-of-time-frequency-reassignment-0903.30802009-03-19 https://scifaro.com/en/abs/tr02-state-dependent-oracle-masks-for-improved-dynamical-features-0903.31982009-03-19 https://scifaro.com/en/abs/the-modular-audio-recognition-framework-marf-and-its-applications-scientific-and-software-engineering-notes-0905.12352019-08-14 https://scifaro.com/en/abs/major-and-minor-the-formula-of-musical-emotions-0905.36782009-09-01 https://scifaro.com/en/abs/inter-genre-similarity-modelling-for-automatic-music-genre-classification-0907.32202018-10-18 https://scifaro.com/en/abs/codebook-design-method-for-noise-robust-speaker-identification-based-on-genetic-algorithm-0909.05992009-09-04 https://scifaro.com/en/abs/improvement-of-text-dependent-speaker-identification-system-using-neuro-genetic-hybrid-algorithm-in-office-environmental-conditions-0909.23632009-09-15 https://scifaro.com/en/abs/the-information-theory-of-emotions-of-musical-chords-0909.39762011-09-13 https://scifaro.com/en/abs/noise-speech-wavelet-analyzing-in-special-time-ranges-0911.35382009-11-19 https://scifaro.com/en/abs/g3-genesis-software-envrionment-update-0911.46422009-11-25 https://scifaro.com/en/abs/untangling-phase-and-time-in-monophonic-sounds-0911.51712011-03-22 https://scifaro.com/en/abs/a-digital-guitar-tuner-0912.07452009-12-07 https://scifaro.com/en/abs/speech-recognition-of-the-letter-zha-in-tamil-language-using-hmm-1001.41902010-01-26 https://scifaro.com/en/abs/up-sampling-and-natural-sample-value-computation-for-digital-pulse-width-modulators-1003.24412010-03-15 https://scifaro.com/en/abs/perceptual-analyses-of-action-related-impact-sounds-1003.49082010-04-08 https://scifaro.com/en/abs/spoken-language-identification-using-hybrid-feature-extraction-methods-1003.56232010-03-31 https://scifaro.com/en/abs/wavelet-based-mel-frequency-cepstral-coefficients-for-speaker-identification-using-hidden-markov-models-1003.56272010-03-31 https://scifaro.com/en/abs/intelligent-system-for-speaker-identification-using-lip-features-with-pca-and-ica-1004.44782010-04-27 https://scifaro.com/en/abs/dichotic-harmony-for-the-musical-practice-1005.24652024-05-09 https://scifaro.com/en/abs/improved-method-for-individualization-of-head-related-transfer-functions-on-horizontal-plane-using-reduced-number-of-anthropometric-measurements-1005.51372010-05-28 https://scifaro.com/en/abs/treatment-the-effects-of-studio-wall-resonance-and-coincidence-phenomena-for-recording-noisy-speech-via-fpga-digital-filter-1006.08312010-06-07 https://scifaro.com/en/abs/a-study-on-the-interactive-hopscotch-game-for-the-children-using-computer-music-techniques-1006.08662010-07-15 https://scifaro.com/en/abs/estimation-of-infants-cry-fundamental-frequency-using-a-modified-sift-algorithm-1009.27962010-09-16 https://scifaro.com/en/abs/a-fast-audio-clustering-using-vector-quantization-and-second-order-statistics-1009.47192010-09-27 https://scifaro.com/en/abs/approximate-maximum-a-posteriori-inference-with-entropic-priors-1009.57612010-09-30 https://scifaro.com/en/abs/should-corpora-be-big-rich-or-dense-1012.27972010-12-14 https://scifaro.com/en/abs/detecting-gross-alignment-errors-in-the-spoken-british-national-corpus-1101.16822011-01-11 https://scifaro.com/en/abs/sampling-rate-aware-noise-generation-1103.41182011-03-22 https://scifaro.com/en/abs/an-automatic-volume-control-for-preserving-intelligibility-1104.35442016-11-18 https://scifaro.com/en/abs/topological-considerations-for-tuning-and-fingering-stringed-instruments-1105.13832011-05-10 https://scifaro.com/en/abs/improving-performance-of-speaker-identification-system-using-complementary-information-fusion-1105.27702015-03-19 https://scifaro.com/en/abs/simulating-the-electroweak-phase-transition-sonification-of-bubble-nucleation-1106.07602015-03-19 https://scifaro.com/en/abs/a-fast-affine-projection-algorithm-based-on-matching-pursuit-in-adaptive-noise-cancellation-for-speech-enhancement-1106.08442011-06-07 https://scifaro.com/en/abs/a-family-of-adaptive-filter-algorithms-in-noise-cancellation-for-speech-enhancement-1106.08462011-06-07 https://scifaro.com/en/abs/open-loop-multi-channel-inversion-of-room-impulse-response-1106.11992011-06-08 https://scifaro.com/en/abs/estimation-of-severity-of-speech-disability-through-speech-envelope-1107.41852011-07-22 https://scifaro.com/en/abs/an-end-to-end-machine-learning-system-for-harmonic-analysis-of-music-1107.49692011-07-26 https://scifaro.com/en/abs/application-of-gammachirp-auditory-filter-as-a-continuous-wavelet-analysis-1107.54922011-07-28 https://scifaro.com/en/abs/r-enyi-information-measures-for-spectral-change-detection-1109.58762011-09-28 https://scifaro.com/en/abs/fractal-string-generation-and-its-application-in-music-composition-1109.62702011-09-29 https://scifaro.com/en/abs/a-reduced-multiple-gabor-frame-for-local-time-adaptation-of-the-spectrogram-1109.63132011-09-29 https://scifaro.com/en/abs/an-entropy-based-method-for-local-time-adaptation-of-the-spectrogram-1109.63142011-09-29 https://scifaro.com/en/abs/sound-analysis-and-synthesis-adaptive-in-time-and-two-frequency-bands-1109.66512011-10-03 https://scifaro.com/en/abs/text-independent-speaker-recognition-for-low-snr-environments-with-encryption-1111.00242020-09-08 https://scifaro.com/en/abs/discovering-novel-computer-music-techniques-by-exploring-the-space-of-short-computer-programs-1112.13682015-03-19 https://scifaro.com/en/abs/a-general-framework-for-online-audio-source-separation-1112.61782011-12-30 https://scifaro.com/en/abs/harmony-explained-progress-towards-a-scientific-theory-of-music-1202.42122014-06-13 https://scifaro.com/en/abs/employing-subsequence-matching-in-audio-data-processing-1204.25412012-04-13 https://scifaro.com/en/abs/using-mimicry-to-learn-about-mental-representations-1204.32362012-04-17 https://scifaro.com/en/abs/measuring-the-evolution-of-contemporary-western-popular-music-1205.56512016-05-18 https://scifaro.com/en/abs/a-comparative-study-of-performance-of-fpga-based-mel-filter-bank-bark-filter-bank-1206.14502012-06-08 https://scifaro.com/en/abs/analysis-of-speech-under-stress-using-linear-techniques-and-non-linear-techniques-for-emotion-recognition-system-1207.51042012-07-24 https://scifaro.com/en/abs/evolving-musical-counterpoint-the-chronopoint-musical-evolution-system-1207.55602012-07-25 https://scifaro.com/en/abs/algorithm-to-suppress-scanner-noise-in-recorded-speech-during-functional-magnetic-resonance-imaging-1207.58272012-07-26 https://scifaro.com/en/abs/analysis-of-a-modern-voice-morphing-approach-using-gaussian-mixture-models-for-laryngectomees-1208.14182020-09-08 https://scifaro.com/en/abs/a-novel-method-for-obtaining-a-better-quality-speech-signal-for-cochlear-implants-using-kalman-with-drnl-and-ssb-technique-1210.01712012-10-02 https://scifaro.com/en/abs/blind-speech-separation-based-on-undecimated-wavelet-packet-perceptual-filterbanks-and-independent-component-analysis-1210.37782012-10-16 https://scifaro.com/en/abs/semi-blind-source-separation-via-sparse-representations-and-online-dictionary-learning-1212.04512015-01-27 https://scifaro.com/en/abs/a-nuclear-norm-based-convex-formulation-for-informed-source-separation-1212.31192012-12-14 https://scifaro.com/en/abs/single-sided-real-time-pesq-score-estimation-1212.63502013-01-01 https://scifaro.com/en/abs/about-multichannel-speech-signal-extraction-and-separation-techniques-1212.69032013-01-01 https://scifaro.com/en/abs/usable-speech-assignment-for-speaker-identification-under-co-channel-situation-1301.02652013-01-03 https://scifaro.com/en/abs/evaluation-of-a-multi-resolution-dyadic-wavelet-transform-method-for-usable-speech-detection-1301.02782013-01-03 https://scifaro.com/en/abs/an-approach-for-classification-of-dysfluent-and-fluent-speech-using-k-nn-and-svm-1301.19322013-01-10 https://scifaro.com/en/abs/maximum-a-posteriori-estimation-of-piecewise-arcs-in-tempo-time-series-1302.01362013-02-04 https://scifaro.com/en/abs/improved-multiple-birdsong-tracking-with-distribution-derivative-method-and-markov-renewal-process-clustering-1302.34622014-07-14 https://scifaro.com/en/abs/finite-element-computation-of-elliptical-vocal-tract-impedances-using-the-two-microphone-transfer-function-method-1302.43822017-02-22 https://scifaro.com/en/abs/phoneme-discrimination-using-ks-algebra-i-1302.60312013-02-26 https://scifaro.com/en/abs/phoneme-discrimination-using-ks-algebra-ii-1302.61942013-02-26 https://scifaro.com/en/abs/sound-localization-using-compressive-sensing-1302.70702013-03-01 https://scifaro.com/en/abs/consistent-iterative-hard-thresholding-for-signal-declipping-1303.10232013-03-14 https://scifaro.com/en/abs/toward-evolution-strategies-application-in-automatic-polyphonic-music-transcription-using-electronic-synthesis-1304.09692013-04-04 https://scifaro.com/en/abs/deep-scattering-spectrum-1304.67632015-06-15 https://scifaro.com/en/abs/acoustic-echo-cancellation-postfilter-design-issues-for-speech-recognition-system-1305.11412013-05-07 https://scifaro.com/en/abs/techniques-for-feature-extraction-in-speech-recognition-system-a-comparative-study-1305.11452013-05-07 https://scifaro.com/en/abs/speech-enhancement-modeling-towards-robust-speech-recognition-system-1305.14262013-05-08 https://scifaro.com/en/abs/speech-enhancement-using-pitch-detection-approach-for-noisy-environment-1305.23522013-05-13 https://scifaro.com/en/abs/automatic-speech-recognition-using-template-model-for-man-machine-interface-1305.29592013-05-15 https://scifaro.com/en/abs/the-gtzan-dataset-its-contents-its-faults-their-effects-on-evaluation-and-its-future-use-1306.14612015-05-18 https://scifaro.com/en/abs/a-perceptual-alphabet-for-the-10-dimensional-phonetic-prosodic-space-1306.25932020-01-23 https://scifaro.com/en/abs/harmony-perception-by-periodicity-detection-1306.64582018-11-21 https://scifaro.com/en/abs/an-open-dataset-for-research-on-audio-field-recording-archives-freefield1010-1309.52752013-10-03 https://scifaro.com/en/abs/non-negative-matrix-factorization-with-linear-constraints-for-single-channel-speech-enhancement-1309.60472013-09-25 https://scifaro.com/en/abs/phoneme-discrimination-using-neurons-with-symmetric-nonlinear-response-over-a-spectral-range-1311.08192013-11-05 https://scifaro.com/en/abs/an-intuitive-design-approach-for-implementing-real-time-audio-effects-1311.08422013-11-05 https://scifaro.com/en/abs/a-geometric-approach-to-sound-source-localization-from-time-delay-estimates-1311.10472014-08-12 https://scifaro.com/en/abs/large-scale-analysis-of-frequency-modulation-in-birdsong-databases-1311.47642015-09-22 https://scifaro.com/en/abs/objets-sonores-une-repr-esentation-bio-inspir-ee-hi-erarchique-parcimonieuse-a-tr-es-grandes-dimensions-utilisable-en-reconnaissance-auditory-objects-bio-inspired-hierarchical-sparse-high-dimensional-representation-for-recognition-1311.59242013-11-26 https://scifaro.com/en/abs/reverberant-audio-source-separation-via-sparse-and-low-rank-modeling-1312.27952015-06-18 https://scifaro.com/en/abs/a-simple-method-to-produce-algorithmic-midi-music-based-on-randomness-simple-probabilities-and-multi-threading-1312.40142013-12-17 https://scifaro.com/en/abs/a-hybrid-approach-for-co-channel-speech-segregation-based-on-casa-hmm-multipitch-tracking-and-medium-frame-harmonic-model-1312.41272013-12-17 https://scifaro.com/en/abs/tdoa-based-localization-in-two-dimensions-the-bifurcation-curve-1402.15302016-04-07 https://scifaro.com/en/abs/acoustic-space-learning-for-sound-source-separation-and-localization-on-binaural-manifolds-1402.26832015-02-06 https://scifaro.com/en/abs/sound-representation-and-classification-benchmark-for-domestic-robots-1402.36892014-02-18 https://scifaro.com/en/abs/maximizing-the-signal-to-alias-ratio-in-non-uniform-filter-banks-for-acoustic-echo-cancellation-1402.41602014-02-19 https://scifaro.com/en/abs/sparse-doa-estimation-of-wideband-sound-sources-using-circular-harmonics-1403.15012014-03-07 https://scifaro.com/en/abs/optimal-window-and-lattice-in-gabor-transform-application-to-audio-analysis-1403.21802014-12-19 https://scifaro.com/en/abs/automatic-segmentation-of-broadcast-news-audio-using-self-similarity-matrix-1403.69012014-03-28 https://scifaro.com/en/abs/a-deep-representation-for-invariance-and-music-classification-1404.04002016-11-17 https://scifaro.com/en/abs/high-throughput-and-less-area-amp-architecture-for-audio-signal-restoration-1404.14682014-04-08 https://scifaro.com/en/abs/idealized-computational-models-for-auditory-receptive-fields-1404.20372015-04-14 https://scifaro.com/en/abs/improving-blind-source-separation-performance-by-adaptive-array-geometries-for-humanoid-robots-1404.68812014-04-29 https://scifaro.com/en/abs/design-and-optimization-of-a-speech-recognition-front-end-for-distant-talking-control-of-a-music-playback-device-1405.13792014-05-07 https://scifaro.com/en/abs/trends-and-perspectives-for-signal-processing-in-consumer-audio-1405.48432014-05-20 https://scifaro.com/en/abs/automatic-large-scale-classification-of-bird-sounds-is-strongly-improved-by-unsupervised-feature-learning-1405.65242014-07-14 https://scifaro.com/en/abs/sparsity-aware-filtered-x-affine-projection-algorithms-for-active-noise-control-1405.69452014-05-28 https://scifaro.com/en/abs/vocal-signal-digital-processing-instrument-for-analog-to-digital-conversion-study-1405.78662014-06-02 https://scifaro.com/en/abs/music-and-vocal-separation-using-multi-band-modulation-based-features-1406.24642014-06-11 https://scifaro.com/en/abs/learning-an-invariant-speech-representation-1406.38842014-06-17 https://scifaro.com/en/abs/a-bengali-hmm-based-speech-synthesis-system-1406.39152014-06-17 https://scifaro.com/en/abs/automatic-fado-music-classification-1406.44472014-06-18 https://scifaro.com/en/abs/a-multi-level-data-fusion-approach-for-speaker-identification-on-telephone-speech-1407.03802014-07-03 https://scifaro.com/en/abs/efficient-steered-response-power-methods-for-sound-source-localization-using-microphone-arrays-1407.23512015-02-17 https://scifaro.com/en/abs/speech-polarity-detection-using-hilbert-phase-information-1407.33982014-07-18 https://scifaro.com/en/abs/raking-the-cocktail-party-1407.55142019-05-08 https://scifaro.com/en/abs/co-localization-of-audio-sources-in-images-using-binaural-features-and-locally-linear-regression-1408.27002016-04-18 https://scifaro.com/en/abs/computerized-multi-microphone-test-system-1409.01172014-09-02 https://scifaro.com/en/abs/ad-hoc-microphone-array-calibration-euclidean-distance-matrix-completion-algorithm-and-theoretical-guarantees-1409.02032014-09-02 https://scifaro.com/en/abs/dsp-ear-leveraging-co-processor-support-for-continuous-audio-sensing-on-smartphones-1409.32062014-09-15 https://scifaro.com/en/abs/a-single-processor-approach-to-speech-processing-pipeline-of-bilateral-cochlear-implants-1409.65542014-09-24 https://scifaro.com/en/abs/audio-surveillance-a-systematic-review-1409.77872014-09-30 https://scifaro.com/en/abs/phase-optimized-k-svd-for-signal-extraction-from-underdetermined-multichannel-sparse-mixtures-1410.24302014-10-10 https://scifaro.com/en/abs/choice-of-mel-filter-bank-in-computing-mfcc-of-a-resampled-speech-1410.69032014-10-28 https://scifaro.com/en/abs/on-the-use-of-stress-information-in-speech-for-speaker-recognition-1410.69052014-10-28 https://scifaro.com/en/abs/detection-of-transitions-between-broad-phonetic-classes-in-a-speech-signal-1411.03702014-11-04 https://scifaro.com/en/abs/an-interesting-property-of-lpcs-for-sonorant-vs-fricative-discrimination-1411.12672014-11-06 https://scifaro.com/en/abs/a-novel-uncertainty-parameter-sr-signal-to-residual-spectrum-ratio-evaluation-approach-for-speech-enhancement-1411.18982014-11-10 https://scifaro.com/en/abs/spatial-source-subtraction-based-on-incomplete-measurements-of-relative-transfer-function-1411.27442016-11-17 https://scifaro.com/en/abs/speaker-identification-from-youtube-obtained-data-1411.27952014-11-12 https://scifaro.com/en/abs/acoustic-scene-classification-1411.37152015-04-08 https://scifaro.com/en/abs/which-are-you-in-a-photo-1411.48902014-11-19 https://scifaro.com/en/abs/a-complex-matrix-factorization-approach-to-joint-modeling-of-magnitude-and-phase-for-source-separation-1411.67412014-11-26 https://scifaro.com/en/abs/the-bag-of-frames-approach-a-not-so-sufficient-model-for-urban-soundscapes-1412.40522023-07-19 https://scifaro.com/en/abs/weakly-supervised-multi-embeddings-learning-of-acoustic-models-1412.66452015-04-21 https://scifaro.com/en/abs/musical-elements-in-the-discrete-time-representation-of-sound-1412.68532017-10-30 https://scifaro.com/en/abs/audio-source-separation-with-discriminative-scattering-networks-1412.70222015-04-29 https://scifaro.com/en/abs/audio-source-separation-using-a-deep-autoencoder-1412.71932014-12-24 https://scifaro.com/en/abs/listening-to-features-1501.049812015-01-22 https://scifaro.com/en/abs/implementation-of-an-automatic-syllabic-division-algorithm-from-speech-files-in-portuguese-language-1501.074962018-01-24 https://scifaro.com/en/abs/a-comparison-of-classifiers-in-performing-speaker-accent-recognition-using-mfccs-1501.078662015-02-02 https://scifaro.com/en/abs/unsupervised-incremental-learning-and-prediction-of-music-signals-1502.005242020-05-21 https://scifaro.com/en/abs/cs-reconstruction-of-the-speech-and-musical-signals-1502.017072015-02-06 https://scifaro.com/en/abs/sparse-head-related-impulse-response-for-efficient-direct-convolution-1502.031622015-02-12 https://scifaro.com/en/abs/gaussian-process-models-for-hrtf-based-sound-source-localization-and-active-learning-1502.031632015-02-12 https://scifaro.com/en/abs/a-full-frequency-masking-vocoder-for-legal-eavesdropping-conversation-recording-1502.033872018-01-24 https://scifaro.com/en/abs/coherent-to-diffuse-power-ratio-estimation-for-dereverberation-1502.037842015-04-01 https://scifaro.com/en/abs/joint-optimization-of-masks-and-deep-recurrent-neural-networks-for-monaural-source-separation-1502.041492015-10-02 https://scifaro.com/en/abs/mandarin-singing-voice-synthesis-based-on-harmonic-plus-noise-model-and-singing-expression-analysis-1502.043002015-02-17 https://scifaro.com/en/abs/efficient-synthesis-of-room-acoustics-via-scattering-delay-networks-1502.057512015-07-10 https://scifaro.com/en/abs/a-review-of-audio-features-and-statistical-models-exploited-for-voice-pattern-design-1502.068112015-02-25 https://scifaro.com/en/abs/plagiarism-detection-in-polyphonic-music-using-monaural-signal-separation-1503.000222016-06-08 https://scifaro.com/en/abs/evaluation-of-spatial-audio-reproduction-schemes-for-application-in-hearing-aid-research-1503.005862015-08-04 https://scifaro.com/en/abs/deep-transform-time-domain-audio-error-correction-via-probabilistic-re-synthesis-1503.058492015-03-20 https://scifaro.com/en/abs/deep-transform-cocktail-party-source-separation-via-probabilistic-re-synthesis-1503.060462015-03-23 https://scifaro.com/en/abs/probabilistic-binary-mask-cocktail-party-source-separation-in-a-convolutional-deep-neural-network-1503.069622015-03-25 https://scifaro.com/en/abs/online-monaural-speech-enhancement-based-on-periodicity-analysis-and-a-priori-snr-estimation-1503.070152015-07-09 https://scifaro.com/en/abs/acoustic-event-detection-for-multiple-overlapping-similar-sources-1503.071502015-07-10 https://scifaro.com/en/abs/deep-transform-cocktail-party-source-separation-via-complex-convolution-in-a-deep-neural-network-1504.029452015-04-14 https://scifaro.com/en/abs/absolute-geometry-calibration-of-distributed-microphone-arrays-in-an-audio-visual-sensor-network-1504.031282015-04-14 https://scifaro.com/en/abs/deep-karaoke-extracting-vocals-from-musical-mixtures-using-a-convolutional-deep-neural-network-1504.046582015-04-21 https://scifaro.com/en/abs/time-frequency-trade-offs-for-audio-source-separation-with-binary-masks-1504.073722015-04-29 https://scifaro.com/en/abs/who-spoke-what-a-latent-variable-framework-for-the-joint-decoding-of-multiple-speakers-and-their-keywords-1504.080212015-05-01 https://scifaro.com/en/abs/noise-sensitivity-of-teager-kaiser-energy-operators-and-their-ratios-1504.081772015-06-02 https://scifaro.com/en/abs/deep-remix-remixing-musical-mixtures-using-a-convolutional-deep-neural-network-1505.002892015-05-05 https://scifaro.com/en/abs/an-efficient-parameterization-of-the-room-transfer-function-1505.043852015-05-19 https://scifaro.com/en/abs/sparsity-and-cosparsity-for-audio-declipping-a-flexible-non-convex-approach-1506.018302015-06-10 https://scifaro.com/en/abs/hybridized-feature-extraction-and-acoustic-modelling-approach-for-dysarthric-speech-recognition-1506.021702015-06-09 https://scifaro.com/en/abs/binaural-coherent-to-diffuse-ratio-estimation-for-dereverberation-using-an-itd-model-1506.036042015-06-12 https://scifaro.com/en/abs/channel-interaction-and-current-level-affect-across-electrode-integration-of-interaural-time-differences-in-bilateral-cochlear-implant-listeners-1506.037012015-08-12 https://scifaro.com/en/abs/deep-denoising-auto-encoder-for-statistical-speech-synthesis-1506.052682015-06-18 https://scifaro.com/en/abs/detection-and-analysis-of-emotion-from-speech-signals-1506.068322015-06-24 https://scifaro.com/en/abs/towards-a-generalization-of-relative-transfer-functions-to-more-than-one-source-1507.002012015-07-02 https://scifaro.com/en/abs/cover-song-identification-with-timbral-shape-sequences-1507.051432015-07-21 https://scifaro.com/en/abs/automatic-identification-of-animal-breeds-and-species-using-bioacoustics-and-artificial-neural-networks-1507.055462015-10-27 https://scifaro.com/en/abs/the-sysu-system-for-the-interspeech-2015-automatic-speaker-verification-spoofing-and-countermeasures-challenge-1507.067112015-07-30 https://scifaro.com/en/abs/a-model-for-the-temporal-evolution-of-the-spatial-coherence-in-decaying-reverberant-sound-fields-1507.073482015-08-26 https://scifaro.com/en/abs/stc-anti-spoofing-systems-for-the-asvspoof-2015-challenge-1507.080742015-07-30 https://scifaro.com/en/abs/significance-of-maximum-spectral-amplitude-in-sub-bands-for-spectral-envelope-estimation-and-its-application-to-statistical-parametric-speech-synthesis-1508.003542015-08-04 https://scifaro.com/en/abs/using-deep-learning-for-detecting-spoofing-attacks-on-speech-signals-1508.017462016-01-20 https://scifaro.com/en/abs/semi-supervised-sound-source-localization-based-on-manifold-regularization-1508.031482015-08-14 https://scifaro.com/en/abs/histogram-of-gradients-of-time-frequency-representations-for-audio-scene-detection-1508.049092015-08-21 https://scifaro.com/en/abs/a-novel-reconfigurable-hardware-design-for-speech-enhancement-based-on-multi-band-spectral-subtraction-involving-magnitude-and-phase-components-1508.060562015-08-26 https://scifaro.com/en/abs/transposition-of-notations-in-just-intonation-1508.077392016-12-15 https://scifaro.com/en/abs/transform-ee-en-scattering-sur-la-spirale-temps-chroma-octave-1509.003342015-09-02 https://scifaro.com/en/abs/enhancement-and-recognition-of-reverberant-and-noisy-speech-by-extending-its-coherence-1509.005332015-09-03 https://scifaro.com/en/abs/source-localization-and-denoising-a-perspective-from-the-tdoa-space-1509.023802016-10-17 https://scifaro.com/en/abs/estimation-of-the-direct-path-relative-transfer-function-for-supervised-sound-source-localization-1509.032052016-09-08 https://scifaro.com/en/abs/background-tracking-acoustic-features-for-genre-identification-of-broadcast-shows-1509.049342016-11-17 https://scifaro.com/en/abs/melodic-contour-and-mid-level-global-features-applied-to-the-analysis-of-flamenco-cantes-1509.049562015-09-17 https://scifaro.com/en/abs/post-processing-speech-recordings-during-mri-1509.052542016-06-22 https://scifaro.com/en/abs/noise-robust-ioa-cas-speech-separation-and-recognition-system-for-the-third-chime-challenge-1509.061032015-09-22 https://scifaro.com/en/abs/sports-highlights-generation-based-on-acoustic-events-detection-a-rugby-case-study-1509.062792015-09-22 https://scifaro.com/en/abs/robust-coherence-based-spectral-enhancement-for-distant-speech-recognition-1509.068822015-09-24 https://scifaro.com/en/abs/noise-robust-asr-for-the-third-chime-challenge-exploiting-time-frequency-masking-based-multi-channel-speech-enhancement-and-recurrent-neural-network-1509.072112015-09-25 https://scifaro.com/en/abs/an-investigation-of-universal-background-sparse-coding-based-speaker-verification-on-timit-1509.072982017-03-14 https://scifaro.com/en/abs/speech-dereverberation-in-the-stft-domain-1509.074112015-09-25 https://scifaro.com/en/abs/a-dedicated-greedy-pursuit-algorithm-for-sparse-spectral-representation-of-music-sound-1509.076592016-11-08 https://scifaro.com/en/abs/processing-of-acoustical-signals-via-a-wavelet-based-analysis-1509.091132015-10-01 https://scifaro.com/en/abs/noise-robust-integration-for-blind-and-non-blind-reverberation-time-estimation-1510.002662015-10-02 https://scifaro.com/en/abs/the-icstm-tum-up-approach-to-the-3rd-chime-challenge-single-channel-lstm-speech-enhancement-with-multi-channel-correlation-shaping-dereverberation-and-lstm-language-models-1510.002682015-10-02 https://scifaro.com/en/abs/proceedings-of-the-ace-challenge-workshop-a-satellite-event-of-ieee-waspaa-2015-1510.003832015-10-05 https://scifaro.com/en/abs/reverberation-time-estimation-on-the-ace-corpus-using-the-sdd-method-1510.011932015-10-06 https://scifaro.com/en/abs/a-waveform-representation-framework-for-high-quality-statistical-parametric-speech-synthesis-1510.014432015-10-08 https://scifaro.com/en/abs/music-viewed-by-its-entropy-content-a-novel-window-for-comparative-analysis-1510.018062017-01-13 https://scifaro.com/en/abs/a-language-model-based-approach-towards-large-scale-and-lightweight-language-identification-systems-1510.036022016-01-26 https://scifaro.com/en/abs/corpus-cofla-a-research-corpus-for-the-computational-study-of-flamenco-music-1510.040292015-10-15 https://scifaro.com/en/abs/automatic-transcription-of-flamenco-singing-from-polyphonic-music-recordings-1510.040392016-11-17 https://scifaro.com/en/abs/reducing-one-to-many-problem-in-voice-conversion-by-equalizing-the-formant-locations-using-dynamic-frequency-warping-1510.042052015-10-15 https://scifaro.com/en/abs/a-variational-em-algorithm-for-the-separation-of-time-varying-convolutive-audio-mixtures-1510.045952016-08-29 https://scifaro.com/en/abs/evaluating-the-non-intrusive-room-acoustics-algorithm-with-the-ace-challenge-1510.046162015-10-16 https://scifaro.com/en/abs/joint-estimation-of-reverberation-time-and-direct-to-reverberation-ratio-from-speech-using-auditory-inspired-features-1510.046202015-10-16 https://scifaro.com/en/abs/srmr-variants-for-improved-blind-room-acoustics-characterization-1510.047072015-10-19 https://scifaro.com/en/abs/harmonic-and-timbre-analysis-of-tabla-strokes-1510.048802015-10-19 https://scifaro.com/en/abs/binary-speaker-embedding-1510.059372016-04-01 https://scifaro.com/en/abs/max-margin-metric-learning-for-speaker-recognition-1510.059402016-04-01 https://scifaro.com/en/abs/a-hybrid-approach-for-speech-enhancement-using-mog-model-and-neural-network-phoneme-classifier-1510.073152015-10-27 https://scifaro.com/en/abs/direct-to-reverberant-ratio-estimation-on-the-ace-corpus-using-a-two-channel-beamformer-1510.075462015-10-27 https://scifaro.com/en/abs/a-dictionary-learning-and-source-recovery-based-approach-to-classify-diverse-audio-sources-1510.077742015-10-28 https://scifaro.com/en/abs/musan-a-music-speech-and-noise-corpus-1510.084842015-10-30 https://scifaro.com/en/abs/estimation-of-the-direct-to-reverberant-energy-ratio-using-a-spherical-microphone-array-1510.089502015-11-02 https://scifaro.com/en/abs/psd-estimation-in-beamspace-for-estimating-direct-to-reverberant-ratio-from-a-reverberant-speech-signal-1510.089632015-11-02 https://scifaro.com/en/abs/sparsity-based-algorithm-for-detecting-faults-in-rotating-machines-1511.000672016-02-17 https://scifaro.com/en/abs/detection-of-faults-in-rotating-machinery-using-periodic-time-frequency-sparsity-1511.003932016-08-24 https://scifaro.com/en/abs/fault-diagnosis-of-rolling-element-bearings-with-a-spectrum-searching-method-1511.031742016-12-13 https://scifaro.com/en/abs/combination-of-binaural-and-harmonic-masking-release-effects-in-the-detection-of-a-single-component-in-complex-tones-1511.034402017-04-03 https://scifaro.com/en/abs/single-channel-maximum-likelihood-t60-estimation-exploiting-subband-information-1511.040632015-11-13 https://scifaro.com/en/abs/quality-assessment-of-voice-converted-speech-using-articulatory-features-1511.048672015-11-24 https://scifaro.com/en/abs/automatic-instrument-recognition-in-polyphonic-music-using-convolutional-neural-networks-1511.055202015-11-18 https://scifaro.com/en/abs/real-time-vowel-tremolo-detection-using-low-level-audio-descriptors-1511.070082015-11-24 https://scifaro.com/en/abs/high-quality-voice-conversion-using-prosodic-and-high-resolution-spectral-features-1512.018092015-12-08 https://scifaro.com/en/abs/joint-time-frequency-scattering-for-audio-classification-1512.021252018-08-06 https://scifaro.com/en/abs/deep-learning-for-single-and-multi-session-i-vector-speaker-recognition-1512.025602017-04-24 https://scifaro.com/en/abs/exploiting-a-geometrically-sampled-grid-in-the-srp-phat-for-localization-improvement-and-power-response-sensitivity-analysis-1512.032612018-03-08 https://scifaro.com/en/abs/trigonometric-dictionary-based-codec-for-music-compression-with-high-quality-recovery-1512.042432015-12-15 https://scifaro.com/en/abs/spectral-study-of-the-vocal-tract-in-vowel-synthesis-a-comparison-between-1d-and-3d-acoustic-analysis-1512.058112015-12-21 https://scifaro.com/en/abs/a-new-robust-adaptive-algorithm-for-underwater-acoustic-channel-equalization-1512.062222015-12-22 https://scifaro.com/en/abs/musical-instrument-sound-classification-with-deep-convolutional-neural-network-using-feature-fusion-approach-1512.073702015-12-24 https://scifaro.com/en/abs/real-time-audio-to-score-alignment-of-music-performances-containing-errors-and-arbitrary-repeats-and-skips-1512.077482022-12-05 https://scifaro.com/en/abs/multichannel-audio-signal-source-separation-based-on-an-interchannel-loudness-vector-sum-1512.080752015-12-29 https://scifaro.com/en/abs/technical-report-a-tool-for-measuring-prosodic-accommodation-1512.089822017-06-16 https://scifaro.com/en/abs/wavelet-scattering-on-the-pitch-spiral-1601.002872016-01-05 https://scifaro.com/en/abs/an-analysis-of-rhythmic-staccato-vocalization-based-on-frequency-demodulation-for-laughter-detection-in-conversational-meetings-1601.008332016-01-06 https://scifaro.com/en/abs/gender-identification-using-mfcc-for-telephone-applications-a-comparative-study-1601.015772016-01-08 https://scifaro.com/en/abs/dynamic-transposition-of-melodic-sequences-on-digital-devices-1601.020692016-01-12 https://scifaro.com/en/abs/wavelet-speech-enhancement-based-on-nonnegative-matrix-factorization-1601.023092016-08-24 https://scifaro.com/en/abs/repetitive-transients-extraction-algorithm-for-detecting-bearing-faults-1601.023392016-08-09 https://scifaro.com/en/abs/categorization-of-tablas-by-wavelet-analysis-1601.024892016-01-12 https://scifaro.com/en/abs/automatic-determination-of-chord-roots-1601.025462016-01-12 https://scifaro.com/en/abs/a-robust-frame-based-nonlinear-prediction-system-for-automatic-speech-coding-1601.060082016-01-25 https://scifaro.com/en/abs/a-perceptually-motivated-filter-bank-with-perfect-reconstruction-for-audio-signal-processing-1601.066522016-01-26 https://scifaro.com/en/abs/categorization-of-stringed-instruments-with-multifractal-detrended-fluctuation-analysis-1601.077092016-01-29 https://scifaro.com/en/abs/towards-a-topological-fingerprint-of-music-1602.007392016-02-03 https://scifaro.com/en/abs/lstm-deep-neural-networks-postfiltering-for-improving-the-quality-of-synthetic-voices-1602.026562016-02-09 https://scifaro.com/en/abs/a-high-quality-speech-and-audio-codec-with-less-than-10-ms-delay-1602.055262016-02-29 https://scifaro.com/en/abs/audio-recording-device-identification-based-on-deep-learning-1602.056822016-04-28 https://scifaro.com/en/abs/eeg-informed-attended-speaker-extraction-from-recorded-speech-mixtures-with-application-in-neuro-steered-hearing-prostheses-1602.057022019-02-06 https://scifaro.com/en/abs/an-iterative-linearised-solution-to-the-sinusoidal-parameter-estimation-problem-1602.059002016-02-19 https://scifaro.com/en/abs/near-field-signal-acquisition-for-smartglasses-using-two-acoustic-vector-sensors-1602.065822016-08-09 https://scifaro.com/en/abs/improving-trajectory-modelling-for-dnn-based-speech-synthesis-by-using-stacked-bottleneck-features-and-minimum-generation-error-training-1602.067272016-11-17 https://scifaro.com/en/abs/the-ibm-2016-speaker-recognition-system-1602.072912016-02-24 https://scifaro.com/en/abs/improved-accent-classification-combining-phonetic-vowels-with-acoustic-features-1602.073942016-02-25 https://scifaro.com/en/abs/breath-activity-detection-algorithm-1602.077672016-02-26 https://scifaro.com/en/abs/on-adjusting-the-learning-rate-in-frequency-domain-echo-cancellation-with-double-talk-1602.080442016-02-26 https://scifaro.com/en/abs/pca-lda-approach-for-text-independent-speaker-recognition-1602.080452016-10-04 https://scifaro.com/en/abs/pca-method-for-automated-detection-of-mispronounced-words-1602.081282016-02-29 https://scifaro.com/en/abs/adaptive-frequency-cepstral-coefficients-for-word-mispronunciation-detection-1602.081322016-02-29 https://scifaro.com/en/abs/extension-spectrale-d-un-signal-de-parole-de-la-bande-t-el-ephonique-a-la-bande-am-1602.081852016-02-29 https://scifaro.com/en/abs/bandwidth-extension-of-narrowband-speech-for-low-bit-rate-wideband-coding-1602.082152016-02-29 https://scifaro.com/en/abs/occupancy-estimation-in-smart-buildings-using-audio-processing-techniques-1602.085072016-03-01 https://scifaro.com/en/abs/a-new-robust-frequency-domain-echo-canceller-with-closed-loop-learning-rate-adaptation-1602.086092016-03-01 https://scifaro.com/en/abs/perceptually-motivated-nonlinear-channel-decorrelation-for-stereo-acoustic-echo-cancellation-1602.086332016-03-01 https://scifaro.com/en/abs/speex-a-free-codec-for-free-speech-1602.086682016-03-01 https://scifaro.com/en/abs/audio-word2vec-unsupervised-learning-of-audio-segment-representations-using-sequence-to-sequence-autoencoder-1603.009822016-06-14 https://scifaro.com/en/abs/an-argument-based-creative-assistant-for-harmonic-blending-1603.017702016-03-08 https://scifaro.com/en/abs/low-complexity-iterative-sinusoidal-parameter-estimation-1603.018242016-03-08 https://scifaro.com/en/abs/improved-noise-weighting-in-celp-coding-of-speech-applying-the-vorbis-psychoacoustic-model-to-speex-1603.018632016-03-08 https://scifaro.com/en/abs/microphone-array-post-filter-for-separation-of-simultaneous-non-stationary-sources-1603.032152016-03-11 https://scifaro.com/en/abs/channel-decorrelation-for-stereo-acoustic-echo-cancellation-in-high-quality-audio-communication-1603.033642016-03-11 https://scifaro.com/en/abs/spoofing-detection-goes-noisy-an-analysis-of-synthetic-speech-detection-in-the-presence-of-additive-noise-1603.039472016-09-16 https://scifaro.com/en/abs/performance-analysis-of-source-image-estimators-in-blind-source-separation-1603.041792017-08-02 https://scifaro.com/en/abs/novel-speech-features-for-improved-detection-of-spoofing-attacks-1603.042642016-11-18 https://scifaro.com/en/abs/guitar-solos-as-networks-1603.049792016-11-18 https://scifaro.com/en/abs/modified-group-delay-based-multipitch-estimation-in-co-channel-speech-1603.054352016-03-18 https://scifaro.com/en/abs/a-pairwise-approach-to-simultaneous-onset-offset-detection-for-singing-voice-using-correntropy-1603.060652020-10-29 https://scifaro.com/en/abs/deductive-refinement-of-species-labelling-in-weakly-labelled-birdsong-recordings-1603.071732016-03-24 https://scifaro.com/en/abs/individual-identity-in-songbirds-signal-representations-and-metric-learning-for-locating-the-information-in-complex-corvid-calls-1603.072362016-04-27 https://scifaro.com/en/abs/on-the-impact-of-localization-errors-on-hrtf-based-robust-least-squares-beamforming-1603.087402016-03-30 https://scifaro.com/en/abs/mathematical-harmony-analysis-1603.089042017-01-25 https://scifaro.com/en/abs/singing-voice-separation-and-vocal-f0-estimation-based-on-mutual-combination-of-robust-principal-component-analysis-and-subharmonic-summation-1604.001922016-11-29 https://scifaro.com/en/abs/recurrent-neural-networks-for-polyphonic-sound-event-detection-in-real-life-recordings-1604.008612016-11-17 https://scifaro.com/en/abs/ragas-in-bollywood-music-a-microscopic-view-through-multrifractal-cross-correlation-method-1604.022432021-05-27 https://scifaro.com/en/abs/variation-of-singing-styles-within-a-particular-gharana-of-hindustani-classical-music-a-nonlinear-multifractal-study-1604.022502021-05-27 https://scifaro.com/en/abs/noise-robust-speech-recognition-using-multi-channel-based-channel-selection-and-channelweighting-1604.032762016-10-04 https://scifaro.com/en/abs/robust-coherence-based-spectral-enhancement-for-speech-recognition-in-adverse-real-world-environments-1604.033932017-08-08 https://scifaro.com/en/abs/composition-of-deep-and-spiking-neural-networks-for-very-low-bit-rate-speech-coding-1604.043832016-11-16 https://scifaro.com/en/abs/two-pairwise-iterative-schemes-for-high-dimensional-blind-source-separation-1604.046692016-04-19 https://scifaro.com/en/abs/deep-convolutional-neural-networks-and-data-augmentation-for-acoustic-event-detection-1604.071602016-12-09 https://scifaro.com/en/abs/accent-classification-with-phonetic-vowel-representation-1604.080952016-04-28 https://scifaro.com/en/abs/robust-joint-alignment-of-multiple-versions-of-a-piece-of-music-1604.085162016-10-11 https://scifaro.com/en/abs/learning-compact-structural-representations-for-audio-events-using-regressor-banks-1604.087162016-11-15 https://scifaro.com/en/abs/music-transcription-modelling-and-composition-using-deep-learning-1604.087232016-05-02 https://scifaro.com/en/abs/joint-sound-source-separation-and-speaker-recognition-1604.088522016-05-02 https://scifaro.com/en/abs/diagonal-unloading-beamforming-for-source-localization-1605.008102018-01-18 https://scifaro.com/en/abs/single-channel-speech-enhancement-using-outlier-detection-1605.013292016-05-09 https://scifaro.com/en/abs/dctnet-and-pcanet-for-acoustic-signal-feature-extraction-1605.017552016-05-09 https://scifaro.com/en/abs/audio-event-detection-using-weakly-labeled-data-1605.024012016-07-07 https://scifaro.com/en/abs/speech-enhancement-in-multiple-noise-conditions-using-deep-neural-networks-1605.024272016-05-10 https://scifaro.com/en/abs/sub-vector-extraction-and-cascade-post-processing-for-speaker-verification-using-mllr-super-vectors-1605.037242016-05-13 https://scifaro.com/en/abs/deep-convolutional-networks-on-the-pitch-spiral-for-musical-instrument-recognition-1605.066442017-01-11 https://scifaro.com/en/abs/madmom-a-new-python-audio-and-music-signal-processing-library-1605.070082016-05-25 https://scifaro.com/en/abs/complex-nmf-under-phase-constraints-based-on-signal-modeling-application-to-audio-source-separation-1605.074662016-11-17 https://scifaro.com/en/abs/phase-reconstruction-of-spectrograms-with-linear-unwrapping-application-to-audio-signal-restoration-1605.074672016-05-25 https://scifaro.com/en/abs/phase-reconstruction-of-spectrograms-based-on-a-model-of-repeated-audio-events-1605.074682016-11-17 https://scifaro.com/en/abs/phase-recovery-in-nmf-for-audio-source-separation-an-insightful-benchmark-1605.074692016-11-17 https://scifaro.com/en/abs/using-instantaneous-frequency-and-aperiodicity-detection-to-estimate-f0-for-high-quality-speech-synthesis-1605.078092018-07-06 https://scifaro.com/en/abs/robust-downbeat-tracking-using-an-ensemble-of-convolutional-networks-1605.083962016-05-27 https://scifaro.com/en/abs/the-implementation-of-low-cost-urban-acoustic-monitoring-devices-1605.084502016-05-30 https://scifaro.com/en/abs/deep-convolutional-neural-networks-for-predominant-instrument-recognition-in-polyphonic-music-1605.095072016-12-28 https://scifaro.com/en/abs/nonnegative-tensor-factorization-with-frequency-modulation-cues-for-blind-audio-source-separation-1606.000372016-06-02 https://scifaro.com/en/abs/automatic-tagging-using-deep-convolutional-neural-networks-1606.002982016-06-02 https://scifaro.com/en/abs/piano-transcription-in-the-studio-using-an-extensible-alternating-directions-framework-1606.007852016-09-05 https://scifaro.com/en/abs/modelling-symbolic-music-beyond-the-piano-roll-1606.013682016-06-07 https://scifaro.com/en/abs/symbolic-music-data-version-1-0-1606.025422016-06-09 https://scifaro.com/en/abs/audio-content-based-geotagging-in-multimedia-1606.028162016-11-14 https://scifaro.com/en/abs/the-horse-inside-seeking-causes-behind-the-behaviours-of-music-content-analysis-systems-1606.030442016-06-10 https://scifaro.com/en/abs/acoustic-characterization-of-environments-ace-challenge-results-technical-report-1606.033652017-06-28 https://scifaro.com/en/abs/bigear-inferring-the-ambient-and-emotional-correlates-from-smartphone-based-acoustic-big-data-1606.036362016-11-17 https://scifaro.com/en/abs/weakly-supervised-scalable-audio-content-analysis-1606.036642016-06-14 https://scifaro.com/en/abs/statistical-parametric-speech-synthesis-using-bottleneck-representation-from-sequence-auto-encoder-1606.058442016-06-21 https://scifaro.com/en/abs/fast-compact-and-high-quality-lstm-rnn-based-statistical-parametric-speech-synthesizers-for-mobile-devices-1606.060612016-06-23 https://scifaro.com/en/abs/polymetric-rhythmic-feel-for-a-cognitive-drum-computer-1606.061972016-06-22 https://scifaro.com/en/abs/uncalibrated-3d-room-reconstruction-from-sound-1606.062582016-06-21 https://scifaro.com/en/abs/a-speaker-diarization-system-for-studying-peer-led-team-learning-groups-1606.071362016-06-24 https://scifaro.com/en/abs/an-active-machine-hearing-system-for-auditory-stream-segregation-1606.075982016-06-27 https://scifaro.com/en/abs/penambahan-emosi-menggunakan-metode-manipulasi-prosodi-untuk-sistem-text-to-speech-bahasa-indonesia-1606.092222016-06-30 https://scifaro.com/en/abs/spherical-harmonic-signal-covariance-and-sound-field-diffuseness-1607.002112016-07-04 https://scifaro.com/en/abs/car-forest-joint-classification-regression-decision-forests-for-overlapping-audio-event-detection-1607.023062016-08-16 https://scifaro.com/en/abs/acoustic-scene-classification-using-convolutional-neural-network-and-multiple-width-frequency-delta-data-augmentation-1607.023832016-07-11 https://scifaro.com/en/abs/unsupervised-feature-learning-based-on-deep-models-for-environmental-audio-tagging-1607.036812017-08-08 https://scifaro.com/en/abs/hierarchical-learning-for-dnn-based-acoustic-scene-classification-1607.036822016-08-16 https://scifaro.com/en/abs/audiopairbank-towards-a-large-scale-tag-pair-based-audio-content-analysis-1607.037662018-01-10 https://scifaro.com/en/abs/dcar-a-discriminative-and-compact-audio-representation-to-improve-event-detection-1607.043782016-07-18 https://scifaro.com/en/abs/automatic-environmental-sound-recognition-performance-versus-computational-cost-1607.045892016-09-09 https://scifaro.com/en/abs/features-and-kernels-for-audio-event-recognition-1607.057652016-07-21 https://scifaro.com/en/abs/hrtf-based-robust-least-squares-frequency-invariant-polynomial-beamforming-1607.066422016-09-09 https://scifaro.com/en/abs/inpainting-of-long-audio-segments-with-similarity-graphs-1607.066672018-02-26 https://scifaro.com/en/abs/experiments-on-the-dcase-challenge-2016-acoustic-scene-classification-and-sound-event-detection-in-real-life-recording-1607.067062016-08-26 https://scifaro.com/en/abs/abroa-audio-based-room-occupancy-analysis-using-gaussian-mixtures-and-hidden-markov-models-1607.078012016-07-27 https://scifaro.com/en/abs/early-and-late-time-acoustic-measures-for-underwater-seismic-airgun-signals-in-long-term-acoustic-data-sets-1607.084822016-07-29 https://scifaro.com/en/abs/l-evy-nmf-for-robust-nonnegative-source-separation-1608.018442016-11-09 https://scifaro.com/en/abs/model-based-stft-phase-recovery-for-audio-source-separation-1608.019532018-02-28 https://scifaro.com/en/abs/incorporation-of-speech-duration-information-in-score-fusion-of-speaker-recognition-systems-1608.022722016-08-09 https://scifaro.com/en/abs/bird-detection-in-audio-a-survey-and-a-challenge-1608.034172024-02-01 https://scifaro.com/en/abs/speech-signal-analysis-for-the-estimation-of-heart-rates-under-different-emotional-states-1608.037202016-08-15 https://scifaro.com/en/abs/design-of-variable-bandpass-filters-using-first-order-allpass-transformation-and-coefficient-decimation-1608.040692016-08-16 https://scifaro.com/en/abs/deep-convolutional-neural-networks-and-data-augmentation-for-environmental-sound-classification-1608.043632017-04-05 https://scifaro.com/en/abs/improving-the-efficiency-of-damas-for-sound-source-localization-via-wavelet-compression-computational-grid-1608.051792017-02-14 https://scifaro.com/en/abs/diffuse-field-coherence-of-sensors-with-arbitrary-directional-responses-1608.077132016-08-30 https://scifaro.com/en/abs/a-non-iterative-method-for-re-construction-of-phase-from-stft-magnitude-1609.002912019-03-27 https://scifaro.com/en/abs/discriminative-enhancement-for-single-channel-audio-source-separation-using-deep-neural-networks-1609.016782016-12-21 https://scifaro.com/en/abs/relaxed-binaural-lcmv-beamforming-1609.032132019-05-28 https://scifaro.com/en/abs/a-neural-network-alternative-to-non-negative-audio-models-1609.032962016-09-13 https://scifaro.com/en/abs/acoustic-intensity-energy-density-and-diffuseness-estimation-in-a-directionally-constrained-region-1609.034092016-09-14 https://scifaro.com/en/abs/wavenet-a-generative-model-for-raw-audio-1609.034992016-09-20 https://scifaro.com/en/abs/tristounet-triplet-loss-for-speaker-turn-embedding-1609.043012017-04-12 https://scifaro.com/en/abs/intrinsic-normalization-and-extrinsic-denormalization-of-formant-data-of-vowels-1609.051042016-12-13 https://scifaro.com/en/abs/an-approach-for-self-training-audio-event-detectors-using-web-data-1609.060262017-06-28 https://scifaro.com/en/abs/interference-reduction-in-music-recordings-combining-kernel-additive-modelling-and-non-negative-matrix-factorization-1609.062102017-11-01 https://scifaro.com/en/abs/ku-ispl-language-recognition-system-for-nist-2015-i-vector-machine-learning-challenge-1609.064042016-09-22 https://scifaro.com/en/abs/a-new-statistic-feature-of-the-short-time-amplitude-spectrum-values-for-human-s-unvoiced-pronunciation-1609.072452016-12-22 https://scifaro.com/en/abs/discovering-sound-concepts-and-acoustic-relations-in-text-1609.073842017-02-14 https://scifaro.com/en/abs/speaker-recognition-for-children-s-speech-1609.074982016-09-27 https://scifaro.com/en/abs/a-robust-diarization-system-for-measuring-dominance-in-peer-led-team-learning-groups-1609.082112016-09-28 https://scifaro.com/en/abs/deep-learning-for-detection-of-bird-vocalisations-1609.084082016-09-28 https://scifaro.com/en/abs/decision-making-based-on-cohort-scores-for-speaker-verification-1609.084192016-09-28 https://scifaro.com/en/abs/local-training-for-plda-in-speaker-verification-1609.084332016-09-28 https://scifaro.com/en/abs/collaborative-learning-for-language-and-speaker-recognition-1609.084422017-05-24 https://scifaro.com/en/abs/low-rank-and-sparsity-analysis-applied-to-speech-enhancement-via-online-estimated-dictionary-1609.092312016-12-21 https://scifaro.com/en/abs/measurement-of-sound-fields-using-moving-microphones-1609.093902016-09-30 https://scifaro.com/en/abs/cnn-architectures-for-large-scale-audio-classification-1609.094302017-01-11 https://scifaro.com/en/abs/semi-supervised-speech-enhancement-in-envelop-and-details-subspaces-1609.094432017-02-24 https://scifaro.com/en/abs/rectified-binaural-ratio-a-complex-t-distributed-feature-for-robust-sound-localization-1609.097432016-10-03 https://scifaro.com/en/abs/phase-unmixing-multichannel-source-separation-with-magnitude-constraints-1609.097442017-03-21 https://scifaro.com/en/abs/hearing-in-a-shoe-box-binaural-source-position-and-wall-absorption-estimation-using-virtually-supervised-learning-1609.097472017-03-21 https://scifaro.com/en/abs/adaptive-dictionary-based-approach-for-background-noise-and-speaker-classification-and-subsequent-source-separation-1609.097642016-10-31 https://scifaro.com/en/abs/very-deep-convolutional-neural-networks-for-raw-waveforms-1610.000872016-10-04 https://scifaro.com/en/abs/on-the-modeling-of-musical-solos-as-complex-networks-1610.004682016-10-06 https://scifaro.com/en/abs/speech-enhancement-via-two-stage-dual-tree-complex-wavelet-packet-transform-with-a-speech-presence-probability-estimator-1610.006442017-04-05 https://scifaro.com/en/abs/divide-and-conquer-based-ensemble-to-spot-emotions-in-speech-using-mfcc-and-random-forest-1610.013822016-10-06 https://scifaro.com/en/abs/a-joint-detection-classification-model-for-audio-tagging-of-weakly-labelled-data-1610.017972019-12-10 https://scifaro.com/en/abs/an-automatic-system-for-acoustic-microphone-geometry-calibration-based-on-minimal-solvers-1610.023922016-10-10 https://scifaro.com/en/abs/a-music-generating-system-inspired-by-the-science-of-complex-adaptive-systems-1610.024752019-07-17 https://scifaro.com/en/abs/domain-adaptation-based-speaker-recognition-on-short-utterances-1610.028312016-10-12 https://scifaro.com/en/abs/investigation-of-synthetic-speech-detection-using-frame-and-segment-specific-importance-weighting-1610.030092016-10-11 https://scifaro.com/en/abs/dnn-based-speaker-recognition-on-short-utterances-1610.031902016-10-12 https://scifaro.com/en/abs/raven-x-high-performance-data-mining-toolbox-for-bioacoustic-data-analysis-1610.037722016-10-13 https://scifaro.com/en/abs/tonal-consonance-parameters-link-microscopic-and-macroscopic-properties-of-music-exposing-a-hidden-order-in-melody-1610.045512017-04-25 https://scifaro.com/en/abs/non-negative-matrix-factorization-based-subband-decomposition-for-acoustic-source-localization-1610.046952016-10-18 https://scifaro.com/en/abs/semi-supervised-source-localization-on-multiple-manifolds-with-distributed-microphones-1610.047702016-10-18 https://scifaro.com/en/abs/making-mainstream-synthesizers-with-csound-1610.049222016-10-18 https://scifaro.com/en/abs/improving-short-utterance-plda-speaker-verification-using-suv-modelling-and-utterance-partitioning-approach-1610.049652016-10-18 https://scifaro.com/en/abs/acoustic-reflector-localization-novel-image-source-reversion-and-direct-localization-methods-1610.056532017-01-06 https://scifaro.com/en/abs/a-multi-task-learning-model-for-malware-classification-with-useful-file-access-pattern-from-api-call-sequence-1610.059452016-10-20 https://scifaro.com/en/abs/a-bayesian-approach-to-estimation-of-speaker-normalization-parameters-1610.059482016-10-20 https://scifaro.com/en/abs/a-model-of-infant-speech-perception-and-learning-1610.062142016-10-21 https://scifaro.com/en/abs/enhanced-factored-three-way-restricted-boltzmann-machines-for-speech-detection-1611.003262017-04-24 https://scifaro.com/en/abs/the-intelligent-voice-2016-speaker-recognition-system-1611.005142016-11-03 https://scifaro.com/en/abs/frame-theory-for-signal-processing-in-psychoacoustics-1611.009662020-09-11 https://scifaro.com/en/abs/multiple-speaker-localization-based-on-direct-path-features-and-likelihood-maximization-with-spatial-sparsity-regularization-1611.011722017-10-06 https://scifaro.com/en/abs/vr-space-opera-mimetic-spectralism-in-an-immersive-starlight-audification-system-1611.030812016-11-11 https://scifaro.com/en/abs/noise-reduction-combining-microphone-and-piezoelectric-device-1611.031782016-11-11 https://scifaro.com/en/abs/song-from-pi-a-musically-plausible-network-for-pop-music-generation-1611.034772016-11-14 https://scifaro.com/en/abs/detection-of-north-atlantic-right-whale-upcalls-using-local-binary-patterns-in-a-two-stage-strategy-1611.049472016-11-16 https://scifaro.com/en/abs/detecting-tala-computationally-in-polyphonic-context-a-novel-approach-1611.051822018-11-08 https://scifaro.com/en/abs/decision-based-transcription-of-jazz-guitar-solos-using-a-harmonic-bident-analysis-filter-bank-and-spectral-distribution-weighting-1611.065052016-11-22 https://scifaro.com/en/abs/momos-mt-mobile-monophonic-system-for-music-transcription-1611.073512016-11-23 https://scifaro.com/en/abs/fast-chirplet-transform-to-enhance-cnn-machine-listening-validation-on-animal-calls-and-speech-1611.087492017-01-24 https://scifaro.com/en/abs/siso-and-simo-accompaniment-cancellation-for-live-solo-recordings-based-on-short-time-erb-band-wiener-filtering-and-spectral-subtraction-1611.089052016-11-29 https://scifaro.com/en/abs/deep-attractor-network-for-single-microphone-speaker-separation-1611.089302017-11-30 https://scifaro.com/en/abs/fast-wavenet-generation-algorithm-1611.094822016-11-30 https://scifaro.com/en/abs/understanding-audio-pattern-using-convolutional-neural-network-from-raw-waveforms-1611.095242016-11-30 https://scifaro.com/en/abs/learning-filter-banks-using-deep-learning-for-acoustic-signals-1611.095262016-11-30 https://scifaro.com/en/abs/getting-closer-to-the-essence-of-music-the-con-espressione-manifesto-1611.097332016-11-30 https://scifaro.com/en/abs/a-non-linear-multifractal-study-to-illustrate-the-evolution-of-tagore-songs-over-a-century-1612.001712016-12-02 https://scifaro.com/en/abs/a-non-linear-approach-towards-automated-emotion-analysis-in-hindustani-music-1612.001722016-12-02 https://scifaro.com/en/abs/frida-fri-based-doa-estimation-for-arbitrary-array-layouts-1612.008762019-05-08 https://scifaro.com/en/abs/fma-a-dataset-for-music-analysis-1612.018402017-09-07 https://scifaro.com/en/abs/an-algorithm-to-assign-musical-prime-commas-to-every-prime-number-and-construct-a-universal-and-compact-free-just-intonation-musical-notation-1612.018602017-03-29 https://scifaro.com/en/abs/segmental-convolutional-neural-networks-for-detection-of-cardiac-abnormality-with-noisy-heart-sound-recordings-1612.019432016-12-07 https://scifaro.com/en/abs/towards-computer-assisted-understanding-of-dynamics-in-symphonic-music-1612.021982016-12-14 https://scifaro.com/en/abs/convolutional-neural-networks-for-passive-monitoring-of-a-shallow-water-environment-using-a-single-sensor-1612.035052017-10-30 https://scifaro.com/en/abs/a-unit-selection-methodology-for-music-generation-using-deep-neural-networks-1612.037892016-12-19 https://scifaro.com/en/abs/adaptive-dctnet-for-audio-signal-classification-1612.040282017-05-02 https://scifaro.com/en/abs/joint-bayesian-gaussian-discriminant-analysis-for-speaker-verification-1612.040562017-01-20 https://scifaro.com/en/abs/imposing-higher-level-structure-in-polyphonic-music-generation-using-convolutional-restricted-boltzmann-machines-and-constraints-1612.047422018-04-18 https://scifaro.com/en/abs/combination-of-linear-prediction-and-phase-decomposition-for-glottal-source-analysis-on-voiced-speech-1612.049192016-12-16 https://scifaro.com/en/abs/music-generation-with-deep-learning-1612.049282016-12-16 https://scifaro.com/en/abs/feature-learning-for-chord-recognition-the-deep-chroma-extractor-1612.050652016-12-16 https://scifaro.com/en/abs/towards-end-to-end-audio-sheet-music-retrieval-1612.050702016-12-16 https://scifaro.com/en/abs/live-score-following-on-sheet-music-images-1612.050762016-12-16 https://scifaro.com/en/abs/on-the-potential-of-simple-framewise-approaches-to-piano-transcription-1612.051532016-12-16 https://scifaro.com/en/abs/a-phase-vocoder-based-on-nonstationary-gabor-frames-1612.051562017-09-14 https://scifaro.com/en/abs/lia-system-description-for-nist-sre-2016-1612.051682016-12-16 https://scifaro.com/en/abs/neural-networks-based-eeg-speech-models-1612.053692017-04-04 https://scifaro.com/en/abs/basis-function-modeling-of-loudness-variations-in-ensemble-performance-1612.054322016-12-19 https://scifaro.com/en/abs/on-bird-sound-recordings-automatic-acoustic-recognition-of-activities-and-contexts-1612.054892016-12-19 https://scifaro.com/en/abs/hrtf-based-two-dimensional-robust-least-squares-frequency-invariant-beamformer-design-for-robot-audition-1612.061512017-03-10 https://scifaro.com/en/abs/vast-the-virtual-acoustic-space-traveler-dataset-1612.062872016-12-20 https://scifaro.com/en/abs/efficient-target-activity-detection-based-on-recurrent-neural-networks-1612.066422016-12-21 https://scifaro.com/en/abs/robustness-of-voice-conversion-techniques-under-mismatched-conditions-1612.075232016-12-23 https://scifaro.com/en/abs/samplernn-an-unconditional-end-to-end-neural-audio-generation-model-1612.078372017-02-14 https://scifaro.com/en/abs/what-makes-audio-event-detection-harder-than-classification-1612.090892018-05-18 https://scifaro.com/en/abs/phase-incorporating-speech-enhancement-based-on-complex-valued-gaussian-process-latent-variable-model-1612.091502017-01-02 https://scifaro.com/en/abs/on-higher-order-positive-differential-energy-operator-1701.038342017-01-17 https://scifaro.com/en/abs/empirical-study-of-drone-sound-detection-in-real-life-environment-with-deep-neural-networks-1701.057792017-01-23 https://scifaro.com/en/abs/lyrics-to-audio-alignment-by-unsupervised-discovery-of-repetitive-patterns-in-vowel-acoustics-1701.060782020-10-29 https://scifaro.com/en/abs/a-comprehensive-survey-on-bengali-phoneme-recognition-1701.081562018-04-30 https://scifaro.com/en/abs/an-experimental-analysis-of-the-entanglement-problem-in-neural-network-based-music-transcription-systems-1702.000252017-02-02 https://scifaro.com/en/abs/on-the-futility-of-learning-complex-frame-level-language-models-for-chord-recognition-1702.001782017-06-27 https://scifaro.com/en/abs/ku-ispl-speaker-recognition-systems-under-language-mismatch-condition-for-nist-2016-speaker-recognition-evaluation-1702.009562017-02-07 https://scifaro.com/en/abs/identification-of-voice-utterance-with-aging-factor-using-the-method-of-mfcc-multichannel-1702.019992017-02-08 https://scifaro.com/en/abs/on-the-importance-of-temporal-context-in-proximity-kernels-a-vocal-separation-case-study-1702.021302017-11-01 https://scifaro.com/en/abs/speaker-change-detection-using-features-through-a-neural-network-speaker-classifier-1702.022852017-03-20 https://scifaro.com/en/abs/neural-network-based-speaker-classification-and-verification-systems-with-enhanced-features-1702.022892017-03-20 https://scifaro.com/en/abs/dnn-filter-bank-cepstral-coefficients-for-spoofing-detection-1702.037912017-02-14 https://scifaro.com/en/abs/multichannel-linear-prediction-for-blind-reverberant-audio-source-separation-1702.077132017-02-28 https://scifaro.com/en/abs/convolutional-gated-recurrent-neural-network-incorporating-spatial-features-for-audio-tagging-1702.077872017-02-28 https://scifaro.com/en/abs/nonlinear-model-and-its-inverse-of-an-audio-system-1703.000092017-03-02 https://scifaro.com/en/abs/nonlinear-volterra-model-of-a-loudspeaker-behavior-based-on-laser-doppler-vibrometry-1703.003842017-03-02 https://scifaro.com/en/abs/sample-level-deep-convolutional-neural-networks-for-music-auto-tagging-using-raw-waveforms-1703.017892017-05-23 https://scifaro.com/en/abs/convolutional-recurrent-neural-networks-for-bird-audio-detection-1703.023172017-03-08 https://scifaro.com/en/abs/linear-and-circular-microphone-array-for-remote-surveillance-simulated-performance-analysis-1703.023182017-03-08 https://scifaro.com/en/abs/audio-scene-classification-with-deep-recurrent-neural-networks-1703.047702017-06-06 https://scifaro.com/en/abs/multichannel-end-to-end-speech-recognition-1703.047832017-03-16 https://scifaro.com/en/abs/on-the-importance-of-super-gaussian-speech-priors-for-machine-learning-based-speech-enhancement-1703.050032018-01-17 https://scifaro.com/en/abs/deducing-the-severity-of-psychiatric-symptoms-from-the-human-voice-1703.053442017-03-17 https://scifaro.com/en/abs/attention-and-localization-based-on-a-deep-convolutional-recurrent-model-for-weakly-supervised-audio-tagging-1703.060522017-03-20 https://scifaro.com/en/abs/multi-talker-speech-separation-with-utterance-level-permutation-invariant-training-of-deep-recurrent-neural-networks-1703.062842018-12-06 https://scifaro.com/en/abs/gestalt-phenomenon-in-music-a-neurocognitive-physics-study-with-eeg-1703.064912017-03-21 https://scifaro.com/en/abs/timbre-analysis-of-music-audio-signals-with-convolutional-neural-networks-1703.066972017-06-05 https://scifaro.com/en/abs/a-heuristic-approach-to-obtain-signal-envelope-with-a-simple-software-implementation-1703.068122019-08-19 https://scifaro.com/en/abs/a-comparison-of-deep-learning-methods-for-environmental-sound-1703.069022017-03-22 https://scifaro.com/en/abs/adaptive-multi-class-audio-classification-in-noisy-in-vehicle-environment-1703.070652018-04-11 https://scifaro.com/en/abs/multi-objective-learning-and-mask-based-post-processing-for-deep-neural-network-based-speech-enhancement-1703.071722017-03-22 https://scifaro.com/en/abs/gate-activation-signal-analysis-for-gated-recurrent-neural-networks-and-its-correlation-with-phoneme-boundaries-1703.075882017-09-01 https://scifaro.com/en/abs/single-channel-audio-source-separation-using-convolutional-denoising-autoencoders-1703.080192017-10-16 https://scifaro.com/en/abs/speech-enhancement-using-a-deep-mixture-of-experts-1703.093022017-03-29 https://scifaro.com/en/abs/midinet-a-convolutional-generative-adversarial-network-for-symbolic-domain-music-generation-1703.108472017-07-19 https://scifaro.com/en/abs/audio-visual-speech-enhancement-using-multimodal-deep-convolutional-neural-networks-1703.108932018-01-25 https://scifaro.com/en/abs/revisiting-the-problem-of-audio-based-hit-song-prediction-using-convolutional-neural-networks-1704.012802017-04-06 https://scifaro.com/en/abs/recognizing-multi-talker-speech-with-permutation-invariant-training-1704.019852018-12-06 https://scifaro.com/en/abs/obtain-real-time-beat-tracking-in-audio-signals-1704.022162017-10-31 https://scifaro.com/en/abs/voice-conversion-using-sequence-to-sequence-learning-of-context-posterior-probabilities-1704.023602017-08-08 https://scifaro.com/en/abs/time-contrastive-learning-based-dnn-bottleneck-features-for-text-dependent-speaker-verification-1704.023732019-05-14 https://scifaro.com/en/abs/sampling-based-speech-parameter-generation-using-moment-matching-networks-1704.036262017-04-13 https://scifaro.com/en/abs/a-neural-parametric-singing-synthesizer-1704.038092017-08-18 https://scifaro.com/en/abs/i-vector-used-in-speaker-identification-by-dimension-compactness-1704.039342017-04-14 https://scifaro.com/en/abs/speaker-identification-by-gmm-based-i-vector-1704.039392017-04-14 https://scifaro.com/en/abs/effects-of-virtual-acoustics-on-dynamic-auditory-distance-perception-1704.060082017-05-24 https://scifaro.com/en/abs/using-speech-technology-for-quantifying-behavioral-characteristics-in-peer-led-team-learning-sessions-1704.072742017-04-25 https://scifaro.com/en/abs/design-of-robust-two-dimensional-polynomial-beamformers-as-a-convex-optimization-problem-with-application-to-robot-audition-1704.089532017-08-02 https://scifaro.com/en/abs/broadband-doa-estimation-using-convolutional-neural-networks-trained-with-noise-signals-1705.009192019-12-18 https://scifaro.com/en/abs/modeling-temporal-constraints-for-a-system-of-interactive-scores-1705.016512017-05-05 https://scifaro.com/en/abs/end-to-end-source-separation-with-adaptive-front-ends-1705.025142017-11-01 https://scifaro.com/en/abs/deep-speaker-feature-learning-for-text-independent-speaker-verification-1705.036702017-05-11 https://scifaro.com/en/abs/frequency-domain-singular-value-decomposition-for-efficient-spatial-audio-coding-1705.038772017-05-17 https://scifaro.com/en/abs/monaural-audio-speaker-separation-with-source-contrastive-estimation-1705.046622017-05-22 https://scifaro.com/en/abs/riddim-a-rhythm-analysis-and-decomposition-tool-based-on-independent-subspace-analysis-1705.047922017-05-16 https://scifaro.com/en/abs/musical-instrument-recognition-using-their-distinctive-characteristics-in-artificial-neural-networks-1705.049712017-05-16 https://scifaro.com/en/abs/modeling-of-the-latent-embedding-of-music-using-deep-neural-network-1705.052292017-05-16 https://scifaro.com/en/abs/texture-features-for-the-reproduction-of-the-perceptual-organization-of-sound-1705.052712017-05-16 https://scifaro.com/en/abs/understanding-midi-a-painless-tutorial-on-midi-format-1705.053222018-01-24 https://scifaro.com/en/abs/music-generation-with-variational-recurrent-autoencoder-supported-by-history-1705.054582021-05-21 https://scifaro.com/en/abs/a-biomimetic-vocalisation-system-for-miro-1705.054722017-05-17 https://scifaro.com/en/abs/time-frequency-or-time-scale-representation-fission-and-fusion-rules-1705.058742017-05-18 https://scifaro.com/en/abs/microphone-subset-selection-for-mvdr-beamformer-based-noise-reduction-1705.082552017-05-24 https://scifaro.com/en/abs/matrix-of-polynomials-model-based-polynomial-dictionary-learning-method-for-acoustic-impulse-response-modeling-1705.086602017-05-25 https://scifaro.com/en/abs/audio-replay-attack-detection-countermeasures-1705.088582017-05-25 https://scifaro.com/en/abs/anti-spoofing-methods-for-automatic-speakerverification-system-1705.088652017-05-25 https://scifaro.com/en/abs/investigation-of-using-vae-for-i-vector-speaker-verification-1705.091852017-05-26 https://scifaro.com/en/abs/improved-i-vector-based-speaker-recognition-for-utterances-with-speaker-generated-non-speech-sounds-1705.092892017-05-29 https://scifaro.com/en/abs/on-residual-cnn-in-text-dependent-speaker-verification-task-1705.101342017-05-31 https://scifaro.com/en/abs/dnn-based-uncertainty-estimation-for-weighted-dnn-hmm-asr-1705.103682017-05-31 https://scifaro.com/en/abs/collaborative-deep-learning-for-speech-enhancement-a-run-time-model-selection-method-using-autoencoders-1705.103852017-05-31 https://scifaro.com/en/abs/deep-learning-for-environmentally-robust-speech-recognition-an-overview-of-recent-developments-1705.108742018-09-24 https://scifaro.com/en/abs/feature-extraction-for-machine-learning-based-crackle-detection-in-lung-sounds-from-a-health-survey-1706.000052017-12-27 https://scifaro.com/en/abs/mixed-penalization-in-convolutive-nonnegative-matrix-factorization-for-blind-speech-dereverberation-1706.001142017-06-02 https://scifaro.com/en/abs/deep-factorization-for-speech-signal-1706.017772017-06-27 https://scifaro.com/en/abs/stacked-convolutional-and-recurrent-neural-networks-for-bird-audio-detection-1706.020472017-06-08 https://scifaro.com/en/abs/a-study-on-replay-attack-and-anti-spoofing-for-automatic-speaker-verification-1706.021012017-06-08 https://scifaro.com/en/abs/sound-event-detection-using-spatial-features-and-convolutional-recurrent-neural-network-1706.022912017-06-09 https://scifaro.com/en/abs/stacked-convolutional-and-recurrent-neural-networks-for-music-emotion-recognition-1706.022922017-06-09 https://scifaro.com/en/abs/sound-event-detection-in-multichannel-audio-using-spatial-and-harmonic-features-1706.022932017-06-09 https://scifaro.com/en/abs/adversarial-network-bottleneck-features-for-noise-robust-speaker-verification-1706.033972017-06-13 https://scifaro.com/en/abs/blind-multichannel-identification-and-equalization-for-dereverberation-and-noise-reduction-based-on-convolutive-transfer-function-1706.036522018-10-15 https://scifaro.com/en/abs/learning-and-evaluating-musical-features-with-deep-autoencoders-1706.044862017-06-19 https://scifaro.com/en/abs/investigating-the-potential-of-pseudo-quadrature-mirror-filter-banks-in-music-source-separation-tasks-1706.049242017-06-16 https://scifaro.com/en/abs/sut-system-description-for-nist-sre-2016-1706.050772017-06-19 https://scifaro.com/en/abs/kapre-on-gpu-audio-preprocessing-layers-for-a-quick-implementation-of-deep-neural-network-models-with-keras-1706.057812017-06-20 https://scifaro.com/en/abs/a-hybrid-approach-with-multi-channel-i-vectors-and-convolutional-neural-networks-for-acoustic-scene-classification-1706.065252017-11-15 https://scifaro.com/en/abs/multi-level-and-multi-scale-feature-aggregation-using-sample-level-deep-convolutional-neural-networks-for-music-classification-1706.068102017-06-22 https://scifaro.com/en/abs/a-wavenet-for-speech-denoising-1706.071622018-02-01 https://scifaro.com/en/abs/a-universal-negative-group-delay-filter-for-the-prediction-of-band-limited-signals-1706.073262017-11-29 https://scifaro.com/en/abs/toward-faultless-content-based-playlists-generation-for-instrumentals-1706.076132017-11-23 https://scifaro.com/en/abs/personalized-acoustic-modeling-by-weakly-supervised-multi-task-deep-learning-using-acoustic-tokens-discovered-from-unlabeled-data-1706.077932017-06-27 https://scifaro.com/en/abs/deep-speaker-verification-do-we-need-end-to-end-1706.078592017-06-27 https://scifaro.com/en/abs/speaker-recognition-with-cough-laugh-and-wei-1706.078602017-06-27 https://scifaro.com/en/abs/cross-lingual-speaker-verification-with-deep-feature-learning-1706.078612017-06-27 https://scifaro.com/en/abs/a-variational-em-method-for-pole-zero-modeling-of-speech-with-mixed-block-sparse-and-gaussian-excitation-1706.079272017-06-27 https://scifaro.com/en/abs/between-homomorphic-signal-processing-and-deep-neural-networks-constructing-deep-algorithms-for-polyphonic-music-transcription-1706.082312017-06-27 https://scifaro.com/en/abs/voxceleb-a-large-scale-speaker-identification-dataset-1706.086122020-11-05 https://scifaro.com/en/abs/impulsive-sound-detection-by-a-novel-energy-formula-and-its-usage-for-gunshot-recognition-1706.087592017-06-28 https://scifaro.com/en/abs/gabor-frames-and-deep-scattering-networks-in-audio-processing-1706.088182019-10-02 https://scifaro.com/en/abs/acoustic-modeling-using-a-shallow-cnn-htsvm-architecture-1706.090552017-06-29 https://scifaro.com/en/abs/modeling-musical-context-with-word2vec-1706.090882017-06-30 https://scifaro.com/en/abs/on-a-novel-speech-representation-using-multitapered-modified-group-delay-function-1706.093862018-07-04 https://scifaro.com/en/abs/toward-inverse-control-of-physics-based-sound-synthesis-1706.095512017-06-30 https://scifaro.com/en/abs/chord-label-personalization-through-deep-learning-of-integrated-harmonic-interval-based-representations-1706.095522017-06-30 https://scifaro.com/en/abs/transforming-musical-signals-through-a-genre-classifying-convolutional-neural-network-1706.095532017-06-30 https://scifaro.com/en/abs/music-signal-processing-using-vector-product-neural-networks-1706.095552017-06-30 https://scifaro.com/en/abs/machine-listening-intelligence-1706.095572017-06-30 https://scifaro.com/en/abs/talking-drums-generating-drum-grooves-with-neural-networks-1706.095582017-06-30 https://scifaro.com/en/abs/audio-spectrogram-representations-for-processing-with-convolutional-neural-networks-1706.095592017-06-30 https://scifaro.com/en/abs/multi-scale-multi-band-densenets-for-audio-source-separation-1706.095882017-06-30 https://scifaro.com/en/abs/speaker-identification-in-the-shouted-environment-using-suprasegmental-hidden-markov-models-1706.096912017-07-03 https://scifaro.com/en/abs/enhancing-speaker-identification-performance-under-the-shouted-talking-condition-using-second-order-circular-hidden-markov-models-1706.097162017-07-03 https://scifaro.com/en/abs/employing-second-order-circular-suprasegmental-hidden-markov-models-to-enhance-speaker-identification-performance-in-shouted-talking-environments-1706.097222017-07-03 https://scifaro.com/en/abs/talking-condition-recognition-in-stressful-and-emotional-talking-environments-based-on-csphmm2s-1706.097292017-07-03 https://scifaro.com/en/abs/speaking-style-authentication-using-suprasegmental-hidden-markov-models-1706.097362017-07-03 https://scifaro.com/en/abs/speaker-identification-investigation-and-analysis-in-unbiased-and-biased-emotional-talking-environments-1706.097542017-07-03 https://scifaro.com/en/abs/using-second-order-hidden-markov-model-to-improve-speaker-identification-recognition-performance-under-neutral-condition-1706.097582017-07-03 https://scifaro.com/en/abs/employing-both-gender-and-emotion-cues-to-enhance-speaker-identification-performance-in-emotional-talking-environments-1706.097602017-06-30 https://scifaro.com/en/abs/automated-audio-captioning-with-recurrent-neural-networks-1706.100062017-10-25 https://scifaro.com/en/abs/employing-emotion-cues-to-verify-speakers-in-emotional-talking-environments-1707.001372017-07-04 https://scifaro.com/en/abs/speaker-identification-in-shouted-talking-environments-based-on-novel-third-order-hidden-markov-models-1707.001382017-07-04 https://scifaro.com/en/abs/modeling-and-analyzing-the-vocal-tract-under-normal-and-stressful-talking-conditions-1707.001492017-07-04 https://scifaro.com/en/abs/an-augmented-lagrangian-method-for-piano-transcription-using-equal-loudness-thresholding-and-lstm-based-decoding-1707.001602017-11-01 https://scifaro.com/en/abs/rank-1-constrained-multichannel-wiener-filter-for-speech-recognition-in-noisy-environments-1707.002012017-11-16 https://scifaro.com/en/abs/emirati-speaker-verification-based-on-hmm1s-hmm2s-and-hmm3s-1707.002762017-07-04 https://scifaro.com/en/abs/talking-condition-identification-using-second-order-hidden-markov-models-1707.006792017-07-05 https://scifaro.com/en/abs/studying-and-enhancing-talking-condition-recognition-in-stressful-and-emotional-talking-environments-based-on-hmms-chmm2s-and-sphmms-1707.006802017-07-05 https://scifaro.com/en/abs/speaker-identification-in-a-shouted-talking-environment-based-on-novel-third-order-circular-suprasegmental-hidden-markov-models-1707.006862017-07-07 https://scifaro.com/en/abs/automatic-estimation-of-harmonic-tension-by-distributed-representation-of-chords-1707.009722017-07-05 https://scifaro.com/en/abs/hidden-markov-model-based-speech-enhancement-1707.010902017-07-06 https://scifaro.com/en/abs/pch2csd-an-application-for-converting-nord-modular-g2-patches-into-csound-code-1707.016532017-07-07 https://scifaro.com/en/abs/statistical-parametric-speech-synthesis-using-generative-adversarial-networks-under-a-multi-task-learning-framework-1707.016702017-07-12 https://scifaro.com/en/abs/deep-cnn-framework-for-audio-event-recognition-using-weakly-labeled-web-data-1707.025302022-10-04 https://scifaro.com/en/abs/model-based-speech-enhancement-in-the-modulation-domain-1707.026512018-02-01 https://scifaro.com/en/abs/feature-joint-state-posterior-estimation-in-factorial-speech-processing-models-using-deep-neural-networks-1707.026612017-07-11 https://scifaro.com/en/abs/score-informed-syllable-segmentation-for-a-cappella-singing-voice-with-convolutional-neural-networks-1707.035442017-07-13 https://scifaro.com/en/abs/audio-to-score-matching-by-combining-phonetic-and-duration-information-1707.035472017-07-13 https://scifaro.com/en/abs/speaker-independent-speech-separation-with-deep-attractor-network-1707.036342018-04-19 https://scifaro.com/en/abs/comparison-of-multiple-features-and-modeling-methods-for-text-dependent-speaker-verification-1707.043732017-09-12 https://scifaro.com/en/abs/localization-of-sound-sources-in-a-room-with-one-microphone-1707.045042026-01-08 https://scifaro.com/en/abs/recognizing-abnormal-heart-sounds-using-deep-learning-1707.046422017-10-20 https://scifaro.com/en/abs/metrical-accent-aware-vocal-onset-detection-in-polyphonic-audio-1707.061632017-07-20 https://scifaro.com/en/abs/from-bach-to-the-beatles-the-simulation-of-human-tonal-expectation-using-ecologically-trained-predictive-models-1707.062312017-07-21 https://scifaro.com/en/abs/single-channel-multi-talker-speech-recognition-with-permutation-invariant-training-1707.065272018-12-06 https://scifaro.com/en/abs/learning-audio-sequence-representations-for-acoustic-event-classification-1707.087292021-06-22 https://scifaro.com/en/abs/bearing-fault-diagnosis-under-varying-working-condition-based-on-domain-adaptation-1707.098902017-08-01 https://scifaro.com/en/abs/a-breakthrough-in-speech-emotion-recognition-using-deep-retinal-convolution-neural-networks-1707.099172017-08-01 https://scifaro.com/en/abs/audio-super-resolution-using-neural-networks-1708.008532017-08-03 https://scifaro.com/en/abs/autoencoder-based-domain-adaptation-for-speaker-recognition-under-insufficient-channel-information-1708.012272017-08-29 https://scifaro.com/en/abs/recursive-whitening-transformation-for-speaker-recognition-on-language-mismatched-condition-1708.012322017-08-29 https://scifaro.com/en/abs/phase-aware-single-channel-speech-enhancement-with-modulation-domain-kalman-filtering-1708.021712017-08-08 https://scifaro.com/en/abs/automatic-raga-recognition-in-hindustani-classical-music-1708.023222017-08-09 https://scifaro.com/en/abs/speaker-diarization-using-deep-recurrent-convolutional-neural-networks-for-speaker-embeddings-1708.028402017-09-18 https://scifaro.com/en/abs/dnn-and-cnn-with-weighted-and-multi-task-loss-functions-for-audio-event-detection-1708.032112017-10-19 https://scifaro.com/en/abs/dnn-transfer-learning-based-non-linear-feature-extraction-for-acoustic-event-classification-1708.034652017-10-11 https://scifaro.com/en/abs/neural-translation-of-musical-style-1708.035352017-08-14 https://scifaro.com/en/abs/classical-music-composition-using-state-space-models-1708.038222018-10-02 https://scifaro.com/en/abs/creating-an-a-cappella-singing-audio-dataset-for-automatic-jingju-singing-evaluation-research-1708.039862017-08-15 https://scifaro.com/en/abs/convolutive-audio-source-separation-using-robust-ica-and-an-intelligent-evolving-permutation-ambiguity-solution-1708.039892018-11-27 https://scifaro.com/en/abs/independent-low-rank-matrix-analysis-based-on-complex-student-s-t-distribution-for-blind-audio-source-separation-1708.047952017-08-17 https://scifaro.com/en/abs/a-generalised-directional-laplacian-distribution-estimation-mixture-models-and-audio-source-separation-1708.048162017-08-21 https://scifaro.com/en/abs/underdetermined-source-separation-using-a-sparse-stft-framework-and-weighted-laplacian-directional-modelling-1708.048212017-08-17 https://scifaro.com/en/abs/an-instrumental-intelligibility-metric-based-on-information-theory-1708.051322018-01-16 https://scifaro.com/en/abs/learning-musical-relations-using-gated-autoencoders-1708.053252017-08-18 https://scifaro.com/en/abs/ensemble-of-deep-neural-networks-for-acoustic-scene-classification-1708.058262017-10-04 https://scifaro.com/en/abs/perceptual-audio-loss-function-for-deep-learning-1708.059872017-08-22 https://scifaro.com/en/abs/an-evaluation-of-intrusive-instrumental-intelligibility-metrics-1708.060272018-07-31 https://scifaro.com/en/abs/bitwise-source-separation-on-hashed-spectra-an-efficient-posterior-estimation-scheme-using-partial-rank-order-metrics-1708.067502017-12-04 https://scifaro.com/en/abs/capturing-long-term-temporal-dependencies-with-convolutional-networks-for-continuous-emotion-recognition-1708.070502017-08-24 https://scifaro.com/en/abs/object-based-audio-rendering-1708.072182017-08-25 https://scifaro.com/en/abs/integrated-speech-enhancement-method-based-on-weighted-prediction-error-and-dnn-for-dereverberation-and-denoising-1708.082512017-08-29 https://scifaro.com/en/abs/improving-source-separation-via-multi-speaker-representations-1708.087402017-08-30 https://scifaro.com/en/abs/joint-separation-and-denoising-of-noisy-multi-talker-speech-using-recurrent-neural-networks-and-permutation-invariant-training-1708.095882018-12-06 https://scifaro.com/en/abs/2-3-4-harmony-within-the-tritave-1709.003752019-06-27 https://scifaro.com/en/abs/surrey-cvssp-system-for-dcase2017-challenge-task4-1709.005512017-11-28 https://scifaro.com/en/abs/a-recurrent-encoder-decoder-approach-with-skip-filtering-connections-for-monaural-singing-voice-separation-1709.006112018-04-25 https://scifaro.com/en/abs/using-optimal-ratio-mask-as-training-target-for-supervised-speech-separation-1709.009172017-09-05 https://scifaro.com/en/abs/audio-visual-speech-enhancement-using-multimodal-deep-convolutional-neural-networks-1709.009442022-04-19 https://scifaro.com/en/abs/information-theoretic-analysis-of-dnn-hmm-acoustic-modeling-1709.011442017-11-09 https://scifaro.com/en/abs/psd-estimation-of-multiple-sound-sources-in-a-reverberant-room-using-a-spherical-microphone-array-1709.013462018-05-21 https://scifaro.com/en/abs/deep-learning-techniques-for-music-generation-a-survey-1709.016202019-08-09 https://scifaro.com/en/abs/a-comparison-of-audio-signal-preprocessing-methods-for-deep-neural-networks-on-music-tagging-1709.019222021-02-23 https://scifaro.com/en/abs/composition-by-conversation-1709.020762017-09-08 https://scifaro.com/en/abs/normalized-features-for-improving-the-generalization-of-dnn-based-speech-enhancement-1709.021752018-01-16 https://scifaro.com/en/abs/what-were-you-expecting-using-expectancy-features-to-predict-expressive-performances-of-classical-piano-music-1709.036292017-09-13 https://scifaro.com/en/abs/supervised-and-unsupervised-speech-enhancement-using-nonnegative-matrix-factorization-1709.053622017-09-19 https://scifaro.com/en/abs/speech-dereverberation-using-nonnegative-convolutive-transfer-function-and-spectro-temporal-modeling-1709.055572017-09-19 https://scifaro.com/en/abs/nonnegative-hmm-for-babble-noise-derived-from-speech-hmm-application-to-speech-enhancement-1709.055592017-09-19 https://scifaro.com/en/abs/linear-computer-music-through-sequences-over-galois-fields-1709.066632018-01-24 https://scifaro.com/en/abs/deep-recurrent-nmf-for-speech-separation-by-unfolding-iterative-thresholding-1709.071242017-09-22 https://scifaro.com/en/abs/large-vocabulary-automatic-chord-estimation-using-deep-neural-nets-design-framework-system-variations-and-limitations-1709.071532017-09-25 https://scifaro.com/en/abs/a-fundamental-frequency-estimation-method-for-tonal-sounds-inspired-on-bird-song-studies-1709.075412019-08-19 https://scifaro.com/en/abs/techniques-and-challenges-in-speech-synthesis-1709.075522017-09-25 https://scifaro.com/en/abs/neural-network-alternatives-to-convolutive-audio-models-for-source-separation-1709.079082017-09-26 https://scifaro.com/en/abs/statistical-parametric-speech-synthesis-incorporating-generative-adversarial-networks-1709.080412017-09-26 https://scifaro.com/en/abs/a-hybrid-dsp-deep-learning-approach-to-real-time-full-band-speech-enhancement-1709.082432018-06-04 https://scifaro.com/en/abs/predicting-interviewee-attitude-and-body-language-from-speech-descriptors-1709.083442017-09-26 https://scifaro.com/en/abs/research-on-several-key-technologies-in-practical-speech-emotion-recognition-1709.093642017-09-28 https://scifaro.com/en/abs/on-the-complex-network-structure-of-musical-pieces-analysis-of-some-use-cases-from-different-music-genres-1709.097082017-09-29 https://scifaro.com/en/abs/real-time-wind-noise-detection-and-suppression-with-neural-based-signal-reconstruction-for-mult-channel-low-power-devices-1710.000822017-10-03 https://scifaro.com/en/abs/large-scale-weakly-supervised-audio-classification-using-gated-convolutional-neural-network-1710.003432017-10-03 https://scifaro.com/en/abs/improving-compression-based-dissimilarity-measure-for-music-score-analysis-1710.014462017-10-05 https://scifaro.com/en/abs/independent-low-rank-matrix-analysis-based-on-parametric-majorization-equalization-algorithm-1710.015892017-10-05 https://scifaro.com/en/abs/generating-nontrivial-melodies-for-music-as-a-service-1710.022802017-10-09 https://scifaro.com/en/abs/a-report-on-sound-event-detection-with-different-binaural-features-1710.029972017-10-10 https://scifaro.com/en/abs/sound-event-detection-using-weakly-labeled-dataset-with-stacked-convolutional-and-recurrent-neural-network-1710.029982017-10-10 https://scifaro.com/en/abs/pyroomacoustics-a-python-package-for-audio-room-simulations-and-array-processing-algorithms-1710.041962019-05-08 https://scifaro.com/en/abs/representation-learning-of-music-using-artist-labels-1710.066482018-06-20 https://scifaro.com/en/abs/deep-voice-3-scaling-text-to-speech-with-convolutional-sequence-learning-1710.076542018-02-23 https://scifaro.com/en/abs/deep-triphone-embedding-improves-phoneme-recognition-1710.078682017-10-25 https://scifaro.com/en/abs/listening-to-the-world-improves-speech-command-recognition-1710.083772017-10-24 https://scifaro.com/en/abs/inferring-room-semantics-using-acoustic-monitoring-1710.086842018-04-03 https://scifaro.com/en/abs/efficiently-trainable-text-to-speech-system-based-on-deep-convolutional-networks-with-guided-attention-1710.089692020-10-01 https://scifaro.com/en/abs/end-to-end-optimized-speech-coding-with-deep-neural-networks-1710.090642021-07-09 https://scifaro.com/en/abs/relative-transfer-function-inverse-regression-from-low-dimensional-manifold-1710.090912017-10-26 https://scifaro.com/en/abs/separation-of-moving-sound-sources-using-multichannel-nmf-and-acoustic-tracking-1710.100052017-10-30 https://scifaro.com/en/abs/direction-of-arrival-estimation-for-multiple-sound-sources-using-convolutional-recurrent-neural-network-1710.100592018-08-07 https://scifaro.com/en/abs/investigation-of-frame-alignments-for-gmm-based-digit-prompted-speaker-verification-1710.104362018-09-05 https://scifaro.com/en/abs/sample-level-cnn-architectures-for-music-auto-tagging-using-raw-waveforms-1710.104512018-02-15 https://scifaro.com/en/abs/generative-adversarial-source-separation-1710.107792017-10-31 https://scifaro.com/en/abs/sound-source-localization-in-a-multipath-environment-using-convolutional-neural-networks-1710.109482017-10-31 https://scifaro.com/en/abs/content-based-representations-of-audio-using-siamese-neural-networks-1710.109742018-02-16 https://scifaro.com/en/abs/onsets-and-frames-dual-objective-piano-transcription-1710.111532018-06-06 https://scifaro.com/en/abs/audio-style-transfer-1710.113852019-04-29 https://scifaro.com/en/abs/polyphonic-music-generation-with-sequence-generative-adversarial-networks-1710.114182018-07-03 https://scifaro.com/en/abs/svsgan-singing-voice-separation-via-generative-adversarial-network-1710.114282017-11-15 https://scifaro.com/en/abs/statistical-speech-enhancement-based-on-probabilistic-integration-of-variational-autoencoder-and-non-negative-matrix-factorization-1710.114392019-03-12 https://scifaro.com/en/abs/multi-resolution-fully-convolutional-neural-networks-for-monaural-audio-source-separation-1710.114732017-11-01 https://scifaro.com/en/abs/melody-generation-for-pop-music-via-word-representation-of-musical-properties-1710.115492017-11-01 https://scifaro.com/en/abs/user-environment-detection-with-acoustic-sensors-embedded-on-mobile-devices-for-the-recognition-of-activities-of-daily-living-1711.001242017-11-02 https://scifaro.com/en/abs/reducing-model-complexity-for-dnn-based-large-scale-audio-classification-1711.002292018-10-31 https://scifaro.com/en/abs/shift-invariant-kernel-additive-modelling-for-audio-source-separation-1711.003512018-02-19 https://scifaro.com/en/abs/full-info-training-for-deep-speaker-feature-learning-1711.003662018-02-28 https://scifaro.com/en/abs/tasnet-time-domain-audio-separation-network-for-real-time-single-channel-speech-separation-1711.005412018-04-19 https://scifaro.com/en/abs/framework-for-evaluation-of-sound-event-detection-in-web-videos-1711.008042018-04-05 https://scifaro.com/en/abs/does-phase-matter-for-monaural-source-separation-1711.009132017-11-06 https://scifaro.com/en/abs/audio-set-classification-with-attention-model-a-probabilistic-perspective-1711.009272019-12-10 https://scifaro.com/en/abs/knowledge-transfer-from-weakly-labeled-audio-using-convolutional-neural-network-for-sound-events-and-scenes-1711.013692018-09-10 https://scifaro.com/en/abs/monaural-singing-voice-separation-with-skip-filtering-connections-and-recurrent-inference-of-time-frequency-mask-1711.014372018-02-14 https://scifaro.com/en/abs/mandarin-tone-modeling-using-recurrent-neural-networks-1711.019462017-11-07 https://scifaro.com/en/abs/unsupervised-learning-of-semantic-audio-representations-1711.022092017-11-08 https://scifaro.com/en/abs/non-uniform-time-scaling-of-carnatic-music-transients-1711.023182017-11-08 https://scifaro.com/en/abs/the-accompanion-v0-1-an-expressive-accompaniment-system-1711.024272017-11-08 https://scifaro.com/en/abs/end-to-end-learning-for-music-audio-tagging-at-scale-1711.025202018-06-18 https://scifaro.com/en/abs/a-joint-separation-classification-model-for-sound-event-detection-of-weakly-labelled-data-1711.030372019-12-10 https://scifaro.com/en/abs/weakly-supervised-audio-source-separation-via-spectrum-energy-preserved-wasserstein-learning-1711.041212018-05-18 https://scifaro.com/en/abs/audio-to-score-alignment-of-piano-music-using-rnn-based-automatic-music-transcription-1711.044802017-11-15 https://scifaro.com/en/abs/optimal-tuning-of-two-dimensional-keyboards-1711.052602017-11-16 https://scifaro.com/en/abs/human-and-machine-speaker-recognition-based-on-short-trivial-events-1711.054432018-02-07 https://scifaro.com/en/abs/emotional-end-to-end-neural-speech-synthesizer-1711.054472018-11-07 https://scifaro.com/en/abs/exploring-speech-enhancement-with-generative-adversarial-networks-for-robust-speech-recognition-1711.057472018-11-01 https://scifaro.com/en/abs/speech-dereverberation-with-context-aware-recurrent-neural-networks-1711.063092017-11-20 https://scifaro.com/en/abs/a-double-joint-bayesian-approach-for-j-vector-based-text-dependent-speaker-verification-1711.064342017-11-20 https://scifaro.com/en/abs/separake-source-separation-with-a-little-help-from-echoes-1711.068052019-05-08 https://scifaro.com/en/abs/hello-edge-keyword-spotting-on-microcontrollers-1711.071282018-02-16 https://scifaro.com/en/abs/jambot-music-theory-aware-chord-based-generation-of-polyphonic-music-with-lstms-1711.076822017-11-22 https://scifaro.com/en/abs/reflection-aware-sound-source-localization-1711.077912017-11-22 https://scifaro.com/en/abs/multichannel-speech-separation-and-enhancement-using-the-convolutive-transfer-function-1711.079112019-01-31 https://scifaro.com/en/abs/assessment-of-sound-spatialisation-algorithms-for-sonic-rendering-with-headsets-1711.092342017-11-28 https://scifaro.com/en/abs/exploiting-nontrivial-connectivity-for-automatic-speech-recognition-1711.102712017-11-29 https://scifaro.com/en/abs/now-playing-continuous-low-power-music-recognition-1711.109582017-11-30 https://scifaro.com/en/abs/stream-attention-for-far-field-multi-microphone-asr-1711.111412017-12-01 https://scifaro.com/en/abs/time-domain-neural-audio-style-transfer-1711.111602017-12-01 https://scifaro.com/en/abs/a-modeling-and-algorithmic-framework-for-non-social-co-sparse-audio-restoration-1711.112592017-12-01 https://scifaro.com/en/abs/deep-neural-networks-for-multiple-speaker-detection-and-localization-1711.115652018-09-18 https://scifaro.com/en/abs/audio-cover-song-identification-using-convolutional-neural-network-1712.001662020-10-29 https://scifaro.com/en/abs/speaker-identification-from-the-sound-of-the-human-breath-1712.001712017-12-05 https://scifaro.com/en/abs/utilizing-domain-knowledge-in-end-to-end-audio-processing-1712.002542017-12-04 https://scifaro.com/en/abs/raw-waveform-based-audio-classification-using-sample-level-cnn-architectures-1712.008662017-12-05 https://scifaro.com/en/abs/a-text-independent-speaker-verification-model-a-comparative-analysis-1712.009172017-12-05 https://scifaro.com/en/abs/chord-generation-from-symbolic-melody-using-blstm-networks-1712.010112017-12-05 https://scifaro.com/en/abs/enabling-early-audio-event-detection-with-neural-networks-1712.021162019-04-09 https://scifaro.com/en/abs/representations-of-sound-in-deep-learning-of-audio-features-from-music-1712.028982017-12-11 https://scifaro.com/en/abs/music-transcription-by-deep-learning-with-data-and-artificial-semantic-augmentation-1712.032282017-12-12 https://scifaro.com/en/abs/efficient-implementation-of-the-room-simulator-for-training-deep-neural-network-acoustic-models-1712.034392019-01-03 https://scifaro.com/en/abs/the-organization-of-a-three-manual-keyboard-for-53-tone-tempered-and-other-tempered-systems-1712.035692017-12-12 https://scifaro.com/en/abs/prodorshok-i-a-bengali-isolated-speech-dataset-for-voice-based-assistive-technologies-a-comparative-analysis-of-the-effects-of-data-augmentation-on-hmm-gmm-and-dnn-classifiers-1712.035792017-12-12 https://scifaro.com/en/abs/a-cascade-architecture-for-keyword-spotting-on-mobile-devices-1712.036032017-12-12 https://scifaro.com/en/abs/multi-speaker-localization-using-convolutional-neural-network-trained-with-noise-1712.042762017-12-13 https://scifaro.com/en/abs/music-generation-by-deep-learning-challenges-and-directions-1712.043712018-11-13 https://scifaro.com/en/abs/audeep-unsupervised-learning-of-representations-from-audio-with-deep-recurrent-neural-networks-1712.043822017-12-25 https://scifaro.com/en/abs/dlr-toward-a-deep-learned-rhythmic-representation-for-music-content-analysis-1712.051192017-12-15 https://scifaro.com/en/abs/a-hierarchical-recurrent-neural-network-for-symbolic-melody-generation-1712.052742018-09-06 https://scifaro.com/en/abs/language-and-noise-transfer-in-speech-enhancement-generative-adversarial-network-1712.063402017-12-19 https://scifaro.com/en/abs/joint-model-based-recognition-and-localization-of-overlapped-acoustic-events-using-a-set-of-distributed-small-microphone-arrays-1712.070652017-12-20 https://scifaro.com/en/abs/towards-a-deep-improviser-a-prototype-deep-learning-post-tonal-free-music-generator-1712.077992017-12-22 https://scifaro.com/en/abs/indoor-sound-source-localization-with-probabilistic-neural-network-1712.078142018-12-05 https://scifaro.com/en/abs/rate-distributed-spatial-filtering-based-noise-reduction-in-wireless-acoustic-sensor-networks-1712.079412017-12-22 https://scifaro.com/en/abs/on-using-backpropagation-for-speech-texture-generation-and-voice-conversion-1712.083632018-03-09 https://scifaro.com/en/abs/music-genre-classification-with-paralleling-recurrent-convolutional-neural-network-1712.083702017-12-25 https://scifaro.com/en/abs/variational-autoencoders-for-learning-latent-representations-of-speech-emotion-a-preliminary-study-1712.087082020-07-29 https://scifaro.com/en/abs/eventness-object-detection-on-spectrograms-for-temporal-localization-of-audio-events-1712.096682018-02-20 https://scifaro.com/en/abs/multiple-instance-deep-learning-for-weakly-supervised-small-footprint-audio-event-detection-1712.096732018-03-28 https://scifaro.com/en/abs/a-light-weight-multimodal-framework-for-improved-environmental-audio-tagging-1712.096802018-03-02 https://scifaro.com/en/abs/deepj-style-specific-music-generation-1801.008872018-02-06 https://scifaro.com/en/abs/neural-style-transfer-for-audio-spectograms-1801.015892024-12-24 https://scifaro.com/en/abs/tree-based-classification-of-tabla-strokes-1801.017122018-01-08 https://scifaro.com/en/abs/binning-based-algorithm-for-pitch-detection-in-hindustani-classical-music-1801.021552018-01-09 https://scifaro.com/en/abs/attacking-speaker-recognition-with-deep-generative-models-1801.023842018-01-09 https://scifaro.com/en/abs/dcase-2017-task-1-acoustic-scene-classification-using-shift-invariant-kernels-and-random-features-1801.026902018-01-10 https://scifaro.com/en/abs/speech-dereverberation-based-on-integrated-deep-and-ensemble-learning-algorithm-1801.040522018-02-20 https://scifaro.com/en/abs/separation-of-instrument-sounds-using-non-negative-matrix-factorization-with-spectral-envelope-constraints-1801.040812018-01-15 https://scifaro.com/en/abs/automatic-classification-of-music-genre-using-masked-conditional-neural-networks-1801.055042019-04-30 https://scifaro.com/en/abs/nels-never-ending-learner-of-sounds-1801.055442023-03-31 https://scifaro.com/en/abs/gender-dependent-emotion-recognition-based-on-hmms-and-sphmms-1801.066572018-01-23 https://scifaro.com/en/abs/identifying-speakers-using-their-emotion-cues-1801.070542018-01-23 https://scifaro.com/en/abs/waveform-modeling-and-generation-using-hierarchical-recurrent-neural-networks-for-speech-bandwidth-extension-1801.079102018-01-26 https://scifaro.com/en/abs/multichannel-sound-event-detection-using-3d-convolutional-neural-networks-for-learning-inter-channel-features-1801.095222018-01-30 https://scifaro.com/en/abs/on-psychoacoustically-weighted-cost-functions-towards-resource-efficient-deep-neural-networks-for-speech-denoising-1801.097742018-01-31 https://scifaro.com/en/abs/deep-predictive-models-in-interactive-music-1801.104922018-12-21 https://scifaro.com/en/abs/phonetic-and-graphemic-systems-for-multi-genre-broadcast-transcription-1802.002542018-02-02 https://scifaro.com/en/abs/mad-twinnet-masker-denoiser-architecture-with-twin-networks-for-monaural-sound-source-separation-1802.003002018-02-02 https://scifaro.com/en/abs/approximate-message-passing-for-underdetermined-audio-source-separation-1802.003802018-02-02 https://scifaro.com/en/abs/monaural-speech-enhancement-using-deep-neural-networks-by-maximizing-a-short-time-objective-intelligibility-measure-1802.006042018-02-05 https://scifaro.com/en/abs/comparing-approaches-for-mitigating-intergroup-variability-in-personality-recognition-1802.014052018-02-06 https://scifaro.com/en/abs/complex-isnmf-a-phase-aware-model-for-monaural-audio-source-separation-1802.031562018-10-02 https://scifaro.com/en/abs/2-gram-based-phonetic-feature-generation-for-convolutional-neural-network-in-assessment-of-trademark-similarity-1802.035812018-02-13 https://scifaro.com/en/abs/linear-regression-for-speaker-verification-1802.041132018-02-13 https://scifaro.com/en/abs/adversarial-audio-synthesis-1802.042082019-02-12 https://scifaro.com/en/abs/bachprop-learning-to-compose-music-in-multiple-styles-1802.051622018-02-21 https://scifaro.com/en/abs/blind-source-separation-with-optimal-transport-non-negative-matrix-factorization-1802.054292018-09-26 https://scifaro.com/en/abs/cnn-lstm-architecture-for-speech-emotion-recognition-with-data-augmentation-1802.056302018-09-13 https://scifaro.com/en/abs/voice-impersonation-using-generative-adversarial-networks-1802.068402018-02-21 https://scifaro.com/en/abs/neural-predictive-coding-using-convolutional-neural-networks-towards-unsupervised-learning-of-speaker-characteristics-1802.078602019-07-18 https://scifaro.com/en/abs/sounderfeit-cloning-a-physical-model-with-conditional-adversarial-autoencoders-1802.080082018-02-23 https://scifaro.com/en/abs/do-wavenets-dream-of-acoustic-waves-1802.083702018-02-26 https://scifaro.com/en/abs/efficient-neural-audio-synthesis-1802.084352018-06-27 https://scifaro.com/en/abs/convolutional-neural-network-achieves-human-level-accuracy-in-music-genre-classification-1802.096972024-10-16 https://scifaro.com/en/abs/effect-of-transducer-positioning-in-active-noise-control-1802.100582018-02-28 https://scifaro.com/en/abs/interplay-between-musical-practices-and-tuning-in-the-marimba-de-chonta-music-1802.101622018-03-01 https://scifaro.com/en/abs/mode-domain-spatial-active-noise-control-using-sparse-signal-representation-1803.001872018-03-02 https://scifaro.com/en/abs/raw-multi-channel-audio-source-separation-using-multi-resolution-convolutional-auto-encoders-1803.007022018-03-05 https://scifaro.com/en/abs/speechpy-a-library-for-speech-processing-and-recognition-1803.010942018-07-25 https://scifaro.com/en/abs/audio-only-bird-species-automated-identification-method-with-limited-training-data-based-on-multi-channel-deep-convolutional-neural-networks-1803.011072018-03-06 https://scifaro.com/en/abs/multiple-sound-source-localisation-with-steered-response-power-density-and-hierarchical-grid-refinement-1803.013392018-03-06 https://scifaro.com/en/abs/convolutional-neural-networks-and-language-embeddings-for-end-to-end-dialect-recognition-1803.045672018-04-24 https://scifaro.com/en/abs/music-genre-classification-using-spectral-analysis-and-sparse-representation-of-the-signals-1803.046522018-03-14 https://scifaro.com/en/abs/investigating-the-effect-of-music-and-lyrics-on-spoken-word-recognition-1803.050582018-03-15 https://scifaro.com/en/abs/learning-to-recognize-musical-genre-from-audio-1803.053372018-03-15 https://scifaro.com/en/abs/music-style-transfer-a-position-paper-1803.068412018-07-20 https://scifaro.com/en/abs/speaker-clustering-with-neural-networks-and-audio-processing-1803.082762018-03-23 https://scifaro.com/en/abs/generalization-challenges-for-neural-architectures-in-audio-source-separation-1803.086292018-05-29 https://scifaro.com/en/abs/automatic-music-accompanist-1803.090332018-03-28 https://scifaro.com/en/abs/mtgan-speaker-verification-through-multitasking-triplet-generative-adversarial-networks-1803.090592018-03-28 https://scifaro.com/en/abs/spectral-feature-mapping-with-mimic-loss-for-robust-speech-recognition-1803.098162018-03-28 https://scifaro.com/en/abs/building-state-of-the-art-distant-speech-recognition-using-the-chime-4-challenge-with-a-setup-of-speech-enhancement-baseline-1803.101092018-03-28 https://scifaro.com/en/abs/investigating-generative-adversarial-networks-based-speech-dereverberation-for-robust-speech-recognition-1803.101322019-01-01 https://scifaro.com/en/abs/empirical-evaluation-of-speaker-adaptation-on-dnn-based-acoustic-model-1803.101462019-01-01 https://scifaro.com/en/abs/learning-environmental-sounds-with-multi-scale-convolutional-neural-network-1803.102192018-03-29 https://scifaro.com/en/abs/the-fifth-chime-speech-separation-and-recognition-challenge-dataset-task-and-baselines-1803.106092018-03-29 https://scifaro.com/en/abs/attention-based-end-to-end-models-for-small-footprint-keyword-spotting-1803.109162018-03-30 https://scifaro.com/en/abs/cracking-the-cocktail-party-problem-by-multi-beam-deep-attractor-network-1803.109242018-03-30 https://scifaro.com/en/abs/conditional-end-to-end-audio-transforms-1804.000472018-06-08 https://scifaro.com/en/abs/speaker-verification-in-emotional-talking-environments-based-on-three-stage-framework-1804.001552018-04-03 https://scifaro.com/en/abs/emirati-accented-speaker-identification-in-each-of-neutral-and-shouted-talking-environments-1804.009812018-04-04 https://scifaro.com/en/abs/comparing-the-max-and-noisy-or-pooling-functions-in-multiple-instance-learning-for-weakly-supervised-sequence-learning-tasks-1804.011462018-04-05 https://scifaro.com/en/abs/music-genre-classification-using-machine-learning-techniques-1804.011492018-04-05 https://scifaro.com/en/abs/classification-of-vehicles-based-on-audio-signals-using-quadratic-discriminant-analysis-and-high-energy-feature-vectors-1804.012122018-04-05 https://scifaro.com/en/abs/jointly-detecting-and-separating-singing-voice-a-multi-task-approach-1804.016502018-04-06 https://scifaro.com/en/abs/does-k-matter-k-nn-hubness-analysis-for-kernel-additive-modelling-vocal-separation-1804.023252018-04-09 https://scifaro.com/en/abs/polyphonic-pitch-tracking-with-deep-layered-learning-1804.029182019-03-19 https://scifaro.com/en/abs/realtime-active-sound-source-localization-for-unmanned-ground-robots-using-a-self-rotational-bi-microphone-array-1804.033722018-04-11 https://scifaro.com/en/abs/looking-to-listen-at-the-cocktail-party-a-speaker-independent-audio-visual-model-for-speech-separation-1804.036192018-08-13 https://scifaro.com/en/abs/sound-event-detection-and-time-frequency-segmentation-from-weakly-labelled-data-1804.047152019-12-11 https://scifaro.com/en/abs/speaker-embedding-extraction-with-phonetic-information-1804.048622018-06-15 https://scifaro.com/en/abs/voices-obscured-in-complex-environmental-settings-voices-corpus-1804.050532018-05-17 https://scifaro.com/en/abs/multi-sound-source-localization-using-machine-learning-for-small-autonomous-unmanned-vehicles-with-a-self-rotating-bi-microphone-array-1804.051112020-06-30 https://scifaro.com/en/abs/transcribing-lyrics-from-commercial-song-audio-the-first-step-towards-singing-content-processing-1804.053062018-04-17 https://scifaro.com/en/abs/computing-information-quantity-as-similarity-measure-for-music-classification-task-1804.054862018-04-17 https://scifaro.com/en/abs/automatic-rain-and-cicada-chorus-filtering-of-bird-acoustic-data-1804.055022018-04-17 https://scifaro.com/en/abs/unspeech-unsupervised-speech-context-embeddings-1804.067752018-08-24 https://scifaro.com/en/abs/shaking-acoustic-spectral-sub-bands-can-better-regularize-learning-in-affective-computing-1804.067792018-04-19 https://scifaro.com/en/abs/deep-layered-learning-in-mir-1804.072972018-12-11 https://scifaro.com/en/abs/generating-music-using-an-lstm-network-1804.073002018-04-23 https://scifaro.com/en/abs/tempo-invariant-processing-of-rhythm-with-convolutional-neural-networks-1804.081672018-05-01 https://scifaro.com/en/abs/an-overview-of-lead-and-accompaniment-separation-in-music-1804.083002018-04-24 https://scifaro.com/en/abs/perceptual-evaluation-of-the-effectiveness-of-voice-disguise-by-age-modification-1804.089102018-05-29 https://scifaro.com/en/abs/vocal-melody-extraction-using-patch-based-cnn-1804.092022018-04-26 https://scifaro.com/en/abs/a-closer-look-at-weak-label-learning-for-audio-events-1804.092882018-04-26 https://scifaro.com/en/abs/off-the-beaten-track-using-deep-learning-to-interpolate-between-music-genres-1804.098082018-05-03 https://scifaro.com/en/abs/adaptive-pooling-operators-for-weakly-labeled-sound-event-detection-1804.100702018-08-13 https://scifaro.com/en/abs/on-deep-speaker-embeddings-for-text-independent-speaker-recognition-1804.100802018-04-27 https://scifaro.com/en/abs/detection-of-glottal-closure-instants-from-raw-speech-using-convolutional-neural-networks-1804.101472019-07-11 https://scifaro.com/en/abs/end-to-end-speech-separation-with-unfolded-iterative-phase-reconstruction-1804.102042018-04-30 https://scifaro.com/en/abs/deep-speech-denoising-with-vector-space-projections-1804.106692018-05-01 https://scifaro.com/en/abs/automatic-documentation-of-icd-codes-with-far-field-speech-recognition-1804.110462018-11-28 https://scifaro.com/en/abs/waaw-csound-1804.111202018-05-04 https://scifaro.com/en/abs/a-toolbox-for-rendering-virtual-acoustic-environments-in-the-context-of-audiology-1804.113002025-05-01 https://scifaro.com/en/abs/randomly-weighted-cnns-for-music-audio-classification-1805.002372019-02-18 https://scifaro.com/en/abs/convolutional-recurrent-neural-networks-for-speech-enhancement-1805.005792018-05-03 https://scifaro.com/en/abs/end-to-end-residual-cnn-with-l-gm-loss-speaker-verification-system-1805.006452018-09-05 https://scifaro.com/en/abs/sonyc-a-system-for-the-monitoring-analysis-and-mitigation-of-urban-noise-pollution-1805.008892018-05-22 https://scifaro.com/en/abs/single-channel-blind-source-separation-for-singing-voice-detection-a-comparative-study-1805.012012018-05-04 https://scifaro.com/en/abs/noise-invariant-frame-selection-a-simple-method-to-address-the-background-noise-problem-for-text-independent-speaker-verification-1805.012592018-05-04 https://scifaro.com/en/abs/generation-of-infra-sound-to-replicate-a-wind-turbine-1805.012972018-05-04 https://scifaro.com/en/abs/deep-discriminant-analysis-for-i-vector-based-robust-speaker-recognition-1805.013442018-05-04 https://scifaro.com/en/abs/boosting-noise-robustness-of-acoustic-model-via-deep-adversarial-training-1805.013572018-05-04 https://scifaro.com/en/abs/omg-emotion-challenge-excouple-team-1805.015762018-05-07 https://scifaro.com/en/abs/a-convex-approximation-of-the-relaxed-binaural-beamforming-optimization-problem-1805.016922019-05-28 https://scifaro.com/en/abs/mmdenselstm-an-efficient-combination-of-convolutional-and-recurrent-neural-networks-for-audio-source-separation-1805.024102018-05-30 https://scifaro.com/en/abs/a-data-driven-approach-to-smooth-pitch-correction-for-singing-voice-in-pop-music-1805.026032018-05-08 https://scifaro.com/en/abs/end-to-end-polyphonic-sound-event-detection-using-convolutional-recurrent-neural-networks-with-learned-time-frequency-representation-input-1805.036472018-05-11 https://scifaro.com/en/abs/extended-pipeline-for-content-based-feature-engineering-in-music-genre-recognition-1805.053242021-04-08 https://scifaro.com/en/abs/a-purely-end-to-end-system-for-multi-speaker-speech-recognition-1805.058262018-05-16 https://scifaro.com/en/abs/psd-estimation-and-source-separation-in-a-noisy-reverberant-environment-using-a-spherical-microphone-array-1805.062342018-05-17 https://scifaro.com/en/abs/fastfca-a-joint-diagonalization-based-fast-algorithm-for-audio-source-separation-using-a-full-rank-spatial-covariance-model-1805.065722018-05-18 https://scifaro.com/en/abs/sparse-architectures-for-text-independent-speaker-verification-using-deep-neural-networks-1805.076282018-08-13 https://scifaro.com/en/abs/a-universal-music-translation-network-1805.078482018-05-24 https://scifaro.com/en/abs/generative-timbre-spaces-regularizing-variational-auto-encoders-with-perceptual-metrics-1805.085012018-10-02 https://scifaro.com/en/abs/music-source-separation-using-stacked-hourglass-networks-1805.085592018-06-25 https://scifaro.com/en/abs/speaker-clustering-using-dominant-sets-1805.086412018-05-23 https://scifaro.com/en/abs/fastfca-as-joint-diagonalization-based-acceleration-of-full-rank-spatial-covariance-analysis-for-separating-any-number-of-sources-1805.094982018-05-25 https://scifaro.com/en/abs/environmental-sound-classification-based-on-multi-temporal-resolution-convolutional-neural-network-combining-with-multi-level-features-1805.097522018-06-15 https://scifaro.com/en/abs/real-valued-parametric-conditioning-of-an-rnn-for-interactive-sound-synthesis-1805.108082018-05-31 https://scifaro.com/en/abs/investigating-label-noise-sensitivity-of-convolutional-neural-networks-for-fine-grained-audio-signal-labelling-1805.108802018-05-29 https://scifaro.com/en/abs/learning-to-transcribe-by-ear-1805.115262018-05-30 https://scifaro.com/en/abs/receiver-placement-for-speech-enhancement-using-sound-propagation-optimization-1805.115332020-02-11 https://scifaro.com/en/abs/acoustic-scene-analysis-using-partially-connected-microphones-based-on-graph-cepstrum-1805.117822018-07-10 https://scifaro.com/en/abs/voice-imitating-text-to-speech-neural-networks-1806.009272018-06-05 https://scifaro.com/en/abs/dnn-hmm-based-speaker-adaptive-emotion-recognition-using-proposed-epoch-and-mfcc-features-1806.009842021-08-09 https://scifaro.com/en/abs/machines-hear-better-when-they-have-ears-1806.011452018-06-06 https://scifaro.com/en/abs/revisiting-singing-voice-detection-a-quantitative-review-and-the-future-outlook-1806.011802018-06-05 https://scifaro.com/en/abs/attention-based-fully-convolutional-network-for-speech-emotion-recognition-1806.015062019-05-03 https://scifaro.com/en/abs/singing-voice-phoneme-segmentation-by-hierarchically-inferring-syllable-and-phoneme-onset-positions-1806.016652018-06-06 https://scifaro.com/en/abs/stargan-vc-non-parallel-many-to-many-voice-conversion-with-star-generative-adversarial-networks-1806.021692018-07-02 https://scifaro.com/en/abs/wave-u-net-a-multi-scale-neural-network-for-end-to-end-audio-source-separation-1806.031852018-06-11 https://scifaro.com/en/abs/the-nes-music-database-a-multi-instrumental-dataset-with-expressive-performance-attributes-1806.042782018-06-13 https://scifaro.com/en/abs/capsule-routing-for-sound-event-detection-1806.046992018-06-14 https://scifaro.com/en/abs/a-data-driven-approach-to-mid-level-perceptual-musical-feature-modeling-1806.049032018-06-14 https://scifaro.com/en/abs/voxceleb2-deep-speaker-recognition-1806.056222020-11-05 https://scifaro.com/en/abs/monaural-source-enhancement-maximizing-source-to-distortion-ratio-via-automatic-differentiation-1806.057912018-06-18 https://scifaro.com/en/abs/extending-recurrent-neural-aligner-for-streaming-end-to-end-speech-recognition-in-mandarin-1806.063422019-02-27 https://scifaro.com/en/abs/cover-song-synthesis-by-analogy-1806.063472018-07-02 https://scifaro.com/en/abs/towards-multi-instrument-drum-transcription-1806.066762018-10-04 https://scifaro.com/en/abs/towards-an-efficient-deep-learning-model-for-musical-onset-detection-1806.067732018-06-20 https://scifaro.com/en/abs/frequency-domain-variants-of-velvet-noise-and-their-application-to-speech-processing-and-synthesis-with-appendices-1806.068122018-07-06 https://scifaro.com/en/abs/a-simple-fusion-of-deep-and-shallow-learning-for-acoustic-scene-classification-1806.075062018-06-29 https://scifaro.com/en/abs/quaternion-convolutional-neural-networks-for-end-to-end-automatic-speech-recognition-1806.077892018-06-21 https://scifaro.com/en/abs/synthesizing-diverse-high-quality-audio-textures-1806.080022018-06-22 https://scifaro.com/en/abs/learning-transposition-invariant-interval-features-from-symbolic-music-and-audio-1806.082362019-02-05 https://scifaro.com/en/abs/on-the-relationship-between-short-time-objective-intelligibility-and-short-time-spectral-amplitude-mean-square-error-for-speech-enhancement-1806.084042018-12-05 https://scifaro.com/en/abs/weakly-supervised-training-of-speaker-identification-models-1806.086212018-06-25 https://scifaro.com/en/abs/a-predictive-model-for-music-based-on-learned-interval-representations-1806.086862018-06-25 https://scifaro.com/en/abs/evaluating-language-models-of-tonal-harmony-1806.087242018-06-25 https://scifaro.com/en/abs/evaluating-gammatone-frequency-cepstral-coefficients-with-neural-networks-for-emotion-recognition-from-speech-1806.090102018-06-26 https://scifaro.com/en/abs/robust-feature-clustering-for-unsupervised-speech-activity-detection-1806.093012018-06-26 https://scifaro.com/en/abs/single-channel-speech-dereverberation-via-generative-adversarial-training-1806.093252018-06-26 https://scifaro.com/en/abs/frame-level-instrument-recognition-by-timbre-and-pitch-1806.095872018-06-26 https://scifaro.com/en/abs/sounderfeit-cloning-a-physical-model-using-a-conditional-adversarial-autoencoder-1806.096172018-06-27 https://scifaro.com/en/abs/conditioning-deep-generative-raw-audio-models-for-structured-automatic-music-1806.099052018-06-27 https://scifaro.com/en/abs/text-independent-speaker-verification-based-on-deep-neural-networks-and-segmental-dynamic-time-warping-1806.099322018-06-27 https://scifaro.com/en/abs/the-challenge-of-realistic-music-generation-modelling-raw-audio-at-scale-1806.104742018-06-28 https://scifaro.com/en/abs/modeling-majorness-as-a-perceptual-property-in-music-from-listener-ratings-1806.105702018-06-28 https://scifaro.com/en/abs/generationmania-learning-to-semantically-choreograph-1806.111702019-08-13 https://scifaro.com/en/abs/exploratory-analysis-of-a-large-flamenco-corpus-using-an-ensemble-of-convolutional-neural-networks-as-a-structural-annotation-backend-1807.000692018-07-03 https://scifaro.com/en/abs/sound-event-localization-and-detection-of-overlapping-sources-using-convolutional-recurrent-neural-networks-1807.001292018-12-18 https://scifaro.com/en/abs/harnessing-ai-for-speech-reconstruction-using-multi-view-silent-video-feed-1807.006192018-08-14 https://scifaro.com/en/abs/an-energy-based-generative-sequence-model-for-testing-sensory-theories-of-western-harmony-1807.007902018-07-03 https://scifaro.com/en/abs/exploring-end-to-end-techniques-for-low-resource-speech-recognition-1807.008682018-07-04 https://scifaro.com/en/abs/a-computational-study-of-the-role-of-tonal-tension-in-expressive-piano-performance-1807.010802018-07-04 https://scifaro.com/en/abs/denoising-auto-encoder-with-recurrent-skip-connections-and-residual-regression-for-music-source-separation-1807.018982018-07-07 https://scifaro.com/en/abs/singing-style-transfer-using-cycle-consistent-boundary-equilibrium-generative-adversarial-networks-1807.022542018-07-09 https://scifaro.com/en/abs/improving-dnn-based-music-source-separation-using-phase-features-1807.027102018-07-17 https://scifaro.com/en/abs/densely-connected-cnns-for-bird-audio-detection-1807.027762018-07-10 https://scifaro.com/en/abs/deep-learning-for-singing-processing-achievements-challenges-and-impact-on-singers-and-listeners-1807.030462018-07-10 https://scifaro.com/en/abs/audiomnist-exploring-explainable-artificial-intelligence-for-audio-analysis-on-a-simple-benchmark-1807.034182023-11-28 https://scifaro.com/en/abs/phase-reconstruction-from-amplitude-spectrograms-based-on-von-mises-distribution-deep-neural-network-1807.034742018-07-11 https://scifaro.com/en/abs/foreign-english-accent-adjustment-by-learning-phonetic-patterns-1807.036252018-07-11 https://scifaro.com/en/abs/emotion-recognition-from-speech-based-on-relevant-feature-and-majority-voting-1807.039092018-07-12 https://scifaro.com/en/abs/a-punishment-voting-algorithm-based-on-super-categories-construction-for-acoustic-scene-classification-1807.040732021-03-31 https://scifaro.com/en/abs/analysis-acoustic-features-for-acoustic-scene-classification-and-score-fusion-of-multi-classification-systems-applied-to-dcase-2016-challenge-1807.049702018-07-16 https://scifaro.com/en/abs/automatic-acoustic-detection-of-birds-through-deep-learning-the-first-bird-audio-detection-challenge-1807.058122024-02-01 https://scifaro.com/en/abs/subjective-and-objective-experiments-on-the-influence-of-speaker-s-gender-on-the-unvoiced-segments-1807.058132018-07-17 https://scifaro.com/en/abs/psychological-constraints-on-string-based-methods-for-pattern-discovery-in-polyphonic-corpora-1807.067002018-07-19 https://scifaro.com/en/abs/deep-neural-network-based-speech-separation-optimizing-an-objective-estimator-of-intelligibility-for-low-latency-applications-1807.068992018-07-19 https://scifaro.com/en/abs/data-efficient-weakly-supervised-learning-for-low-resource-audio-event-detection-using-deep-learning-1807.069722018-10-29 https://scifaro.com/en/abs/audio-to-score-alignment-using-transposition-invariant-features-1807.072782018-07-20 https://scifaro.com/en/abs/noise-adaptive-speech-enhancement-using-domain-adversarial-training-1807.075012019-07-02 https://scifaro.com/en/abs/a-fully-convolutional-neural-network-approach-to-end-to-end-speech-enhancement-1807.079592018-07-24 https://scifaro.com/en/abs/auto-adaptive-resonance-equalization-using-dilated-residual-networks-1807.086362024-12-09 https://scifaro.com/en/abs/joint-time-frequency-scattering-1807.088692019-07-16 https://scifaro.com/en/abs/deep-extractor-network-for-target-speaker-recovery-from-single-channel-speech-mixtures-1807.089742018-07-25 https://scifaro.com/en/abs/a-hybrid-of-deep-audio-feature-and-i-vector-for-artist-recognition-1807.092082018-07-25 https://scifaro.com/en/abs/general-purpose-tagging-of-freesound-audio-with-audioset-labels-task-description-dataset-and-baseline-1807.099022018-10-09 https://scifaro.com/en/abs/modulation-domain-kalman-filtering-for-monaural-blind-speech-denoising-and-dereverberation-1807.102362018-07-27 https://scifaro.com/en/abs/large-scale-weakly-labeled-semi-supervised-sound-event-detection-in-domestic-environments-1807.105012018-07-30 https://scifaro.com/en/abs/towards-automatic-speech-identification-from-vocal-tract-shape-dynamics-in-real-time-mri-1807.110892018-07-31 https://scifaro.com/en/abs/towards-end-to-end-acoustic-localization-using-deep-learning-from-audio-signal-to-source-position-coordinates-1807.110942019-02-01 https://scifaro.com/en/abs/audio-segmentation-based-on-melodic-style-with-hand-crafted-features-and-with-convolutional-neural-networks-1807.111382018-07-31 https://scifaro.com/en/abs/lead-sheet-generation-and-arrangement-by-conditional-generative-adversarial-network-1807.111612018-07-31 https://scifaro.com/en/abs/harmonic-percussive-source-separation-with-deep-neural-networks-and-phase-recovery-1807.112982018-07-31 https://scifaro.com/en/abs/dnn-driven-speaker-independent-audio-visual-mask-estimation-for-speech-separation-1808.000602018-09-12 https://scifaro.com/en/abs/ava-speech-a-densely-labeled-dataset-of-speech-activity-in-movies-1808.006062018-08-27 https://scifaro.com/en/abs/dcase-2018-challenge-surrey-cross-task-convolutional-neural-network-baseline-1808.007732019-12-10 https://scifaro.com/en/abs/histogram-transform-based-speaker-identification-1808.009592020-02-04 https://scifaro.com/en/abs/statistical-speech-model-description-with-vmf-mixture-model-1808.009602020-02-04 https://scifaro.com/en/abs/simulating-raga-notes-with-a-markov-chain-of-order-1-2-1808.016032018-08-07 https://scifaro.com/en/abs/audio-tagging-with-connectionist-temporal-classification-model-using-sequential-labelled-data-1808.019352018-08-07 https://scifaro.com/en/abs/towards-learning-fine-grained-disentangled-representations-from-speech-1808.029392018-08-10 https://scifaro.com/en/abs/rhythm-flexible-voice-conversion-without-parallel-data-using-cycle-gan-over-phoneme-posteriorgram-sequences-1808.031132018-08-10 https://scifaro.com/en/abs/this-time-with-feeling-learning-expressive-musical-performance-1808.037152018-08-14 https://scifaro.com/en/abs/sample-mixed-based-data-augmentation-for-domestic-audio-tagging-1808.038832018-08-14 https://scifaro.com/en/abs/murmur-detection-using-parallel-recurrent-convolutional-neural-networks-1808.044112018-08-15 https://scifaro.com/en/abs/investigation-of-using-disentangled-and-interpretable-representations-for-one-shot-cross-lingual-voice-conversion-1808.052942018-08-17 https://scifaro.com/en/abs/improved-chord-recognition-by-combining-duration-and-harmonic-language-models-1808.053352018-08-17 https://scifaro.com/en/abs/genre-agnostic-key-classification-with-convolutional-neural-networks-1808.053402018-08-17 https://scifaro.com/en/abs/automatic-chord-recognition-with-higher-order-harmonic-language-modelling-1808.053412018-08-17 https://scifaro.com/en/abs/quality-net-an-end-to-end-non-intrusive-speech-quality-assessment-model-based-on-blstm-1808.053442018-08-20 https://scifaro.com/en/abs/robust-speaker-clustering-using-mixtures-of-von-mises-fisher-distributions-for-naturalistic-audio-streams-1808.060452018-08-21 https://scifaro.com/en/abs/deep-residual-network-for-sound-source-localization-in-the-time-domain-1808.064292018-08-21 https://scifaro.com/en/abs/r-crnn-region-based-convolutional-recurrent-neural-network-for-audio-event-detection-1808.066272018-08-22 https://scifaro.com/en/abs/a-simple-model-for-detection-of-rare-sound-events-1808.066762018-08-22 https://scifaro.com/en/abs/fast-spectrogram-inversion-using-multi-head-convolutional-neural-networks-1808.067192018-12-26 https://scifaro.com/en/abs/exploring-a-unified-attention-based-pooling-framework-for-speaker-verification-1808.071202018-08-23 https://scifaro.com/en/abs/voice-conversion-with-conditional-samplernn-1808.083112018-10-30 https://scifaro.com/en/abs/multiobjective-optimization-training-of-plda-for-speaker-verification-1808.083442018-11-13 https://scifaro.com/en/abs/deep-convolutional-neural-network-with-mixup-for-environmental-sound-classification-1808.084052018-08-28 https://scifaro.com/en/abs/augmenting-bottleneck-features-of-deep-neural-network-employing-motor-state-for-speech-recognition-at-humanoid-robots-1808.087022018-08-28 https://scifaro.com/en/abs/extended-playing-techniques-the-next-milestone-in-musical-instrument-recognition-1808.097302018-08-30 https://scifaro.com/en/abs/mes-p-an-emotional-tonal-speech-dataset-in-mandarin-chinese-with-distal-and-proximal-labels-1808.100952018-10-17 https://scifaro.com/en/abs/contribution-of-glottal-waveform-in-speech-emotion-a-comparative-pairwise-investigation-1808.101442018-08-31 https://scifaro.com/en/abs/single-microphone-speech-enhancement-and-separation-using-deep-learning-1808.106202018-12-05 https://scifaro.com/en/abs/self-attention-linguistic-acoustic-decoder-1808.106782018-11-07 https://scifaro.com/en/abs/whispered-to-voiced-alaryngeal-speech-conversion-with-generative-adversarial-networks-1808.106872018-11-07 https://scifaro.com/en/abs/a-machine-learning-driven-iot-solution-for-noise-classification-in-smart-cities-1809.002382018-09-05 https://scifaro.com/en/abs/multitask-learning-for-fundamental-frequency-estimation-in-music-1809.003812018-09-05 https://scifaro.com/en/abs/deep-learning-of-human-perception-in-audio-event-classification-1809.005022018-09-10 https://scifaro.com/en/abs/deep-room-recognition-using-inaudible-echos-1809.005312018-09-10 https://scifaro.com/en/abs/automated-bird-sound-recognition-in-realistic-settings-1809.011332018-09-06 https://scifaro.com/en/abs/three-stage-speaker-verification-architecture-in-emotional-talking-environments-1809.017212018-09-07 https://scifaro.com/en/abs/self-supervised-generation-of-spatial-audio-for-360-video-1809.025872018-09-10 https://scifaro.com/en/abs/transforming-acoustic-characteristics-to-deceive-playback-spoofing-countermeasures-of-speaker-verification-systems-1809.042742018-09-14 https://scifaro.com/en/abs/isolated-and-ensemble-audio-preprocessing-methods-for-detecting-adversarial-examples-against-automatic-speech-recognition-1809.043972018-09-13 https://scifaro.com/en/abs/a-multi-stage-algorithm-for-acoustic-physical-model-parameters-estimation-1809.054832019-02-13 https://scifaro.com/en/abs/attention-as-a-perspective-for-learning-tempo-invariant-audio-queries-1809.056892018-09-18 https://scifaro.com/en/abs/cocktails-but-no-party-multipath-enabled-private-audio-1809.058622018-09-18 https://scifaro.com/en/abs/deepdrum-an-adaptive-conditional-neural-network-1809.061272019-01-23 https://scifaro.com/en/abs/switching-divergences-for-spectral-learning-in-blind-speech-dereverberation-1809.073752018-09-21 https://scifaro.com/en/abs/conv-tasnet-surpassing-ideal-time-frequency-magnitude-masking-for-speech-separation-1809.074542019-05-16 https://scifaro.com/en/abs/symbolic-music-genre-transfer-with-cyclegan-1809.075752018-09-21 https://scifaro.com/en/abs/midi-vae-modeling-dynamics-and-instrumentation-of-music-with-applications-to-style-transfer-1809.076002018-09-21 https://scifaro.com/en/abs/attention-mechanism-in-speaker-recognition-what-does-it-learn-in-deep-speaker-embedding-1809.093112018-09-26 https://scifaro.com/en/abs/an-exploration-of-mimic-architectures-for-residual-network-based-spectral-mapping-1809.097562018-09-27 https://scifaro.com/en/abs/an-extensible-cluster-graph-taxonomy-for-open-set-sound-scene-analysis-1809.100472018-09-27 https://scifaro.com/en/abs/acoustic-probing-for-estimating-the-storage-time-and-firmness-of-tomatoes-and-mandarin-oranges-1809.105812019-05-01 https://scifaro.com/en/abs/online-localization-and-tracking-of-multiple-moving-speakers-in-reverberant-environments-1809.109362019-04-11 https://scifaro.com/en/abs/spoken-pass-phrase-verification-in-the-i-vector-space-1809.110682018-10-01 https://scifaro.com/en/abs/modulated-variational-auto-encoders-for-many-to-many-musical-timbre-transfer-1810.002222018-10-02 https://scifaro.com/en/abs/eigentriads-and-eigenprogressions-on-the-tonnetz-1810.007902018-10-02 https://scifaro.com/en/abs/a-lightweight-music-texture-transfer-system-1810.012482021-08-05 https://scifaro.com/en/abs/phasebook-and-friends-leveraging-discrete-representations-for-source-separation-1810.013952019-06-26 https://scifaro.com/en/abs/deep-learning-approaches-for-understanding-simple-speech-commands-1810.023642018-10-08 https://scifaro.com/en/abs/rethinking-recurrent-latent-variable-model-for-music-composition-1810.032262018-10-09 https://scifaro.com/en/abs/sam-gcnn-a-gated-convolutional-neural-network-with-segment-level-attention-mechanism-for-home-activity-monitoring-1810.039862018-11-15 https://scifaro.com/en/abs/tramp-tracking-by-a-real-time-ambisonic-based-particle-filter-1810.040802018-12-06 https://scifaro.com/en/abs/current-trends-and-future-research-directions-for-interactive-music-1810.042762018-10-11 https://scifaro.com/en/abs/on-time-frequency-scattering-and-computer-music-1810.045062019-05-22 https://scifaro.com/en/abs/novel-cascaded-gaussian-mixture-model-deep-neural-network-classifier-for-speaker-identification-in-emotional-talking-environments-1810.049082018-10-12 https://scifaro.com/en/abs/listening-for-sirens-locating-and-classifying-acoustic-alarms-in-city-scenes-1810.049892022-03-29 https://scifaro.com/en/abs/sequence-to-sequence-acoustic-modeling-for-voice-conversion-1810.068652020-01-14 https://scifaro.com/en/abs/sound-event-detection-using-weakly-labeled-semi-supervised-data-with-gcrnns-vat-and-self-adaptive-label-refinement-1810.068972018-10-17 https://scifaro.com/en/abs/the-trajectory-of-voice-onset-time-with-vocal-aging-1810.070302018-10-17 https://scifaro.com/en/abs/a-database-linking-piano-and-orchestral-midi-scores-with-application-to-automatic-projective-orchestration-1810.086112018-10-23 https://scifaro.com/en/abs/a-comparison-of-five-multiple-instance-learning-pooling-functions-for-sound-event-detection-with-weak-labeling-1810.090502019-02-20 https://scifaro.com/en/abs/connectionist-temporal-localization-for-sound-event-detection-with-sequential-labeling-1810.090522019-02-20 https://scifaro.com/en/abs/investigation-of-monaural-front-end-processing-for-robust-asr-without-retraining-or-joint-training-1810.090672018-10-25 https://scifaro.com/en/abs/our-practice-of-using-machine-learning-to-recognize-species-by-voice-1810.090782018-10-23 https://scifaro.com/en/abs/automatic-acoustic-identification-of-individual-animals-improving-generalisation-across-species-and-recording-conditions-1810.092732018-10-23 https://scifaro.com/en/abs/sing-symbol-to-instrument-neural-generator-1810.097852018-10-24 https://scifaro.com/en/abs/chord-recognition-in-symbolic-music-a-segmental-crf-model-segment-level-features-and-comparative-evaluations-on-classical-and-popular-music-1810.100022018-10-29 https://scifaro.com/en/abs/training-neural-audio-classifiers-with-few-data-1810.102742018-11-07 https://scifaro.com/en/abs/multi-channel-auto-encoder-for-speech-emotion-recognition-1810.106622018-10-26 https://scifaro.com/en/abs/reducing-over-smoothness-in-speech-synthesis-using-generative-adversarial-networks-1810.109892018-12-18 https://scifaro.com/en/abs/a-novel-pyramidal-fsmn-architecture-with-lattice-free-mmi-for-speech-recognition-1810.113522018-11-01 https://scifaro.com/en/abs/spectrogram-channels-u-net-a-source-separation-model-viewing-each-channel-as-the-spectrogram-of-each-source-1810.115202018-10-31 https://scifaro.com/en/abs/short-segment-heart-sound-classification-using-an-ensemble-of-deep-convolutional-neural-networks-1810.115732020-04-27 https://scifaro.com/en/abs/learning-how-to-listen-a-temporal-frequential-attention-model-for-sound-event-detection-1810.119392025-05-06 https://scifaro.com/en/abs/improved-multipath-time-delay-estimation-using-cepstrum-subtraction-1810.119902018-10-30 https://scifaro.com/en/abs/an-improved-hybrid-ctc-attention-model-for-speech-recognition-1810.120202018-11-02 https://scifaro.com/en/abs/speaking-style-adaptation-in-text-to-speech-synthesis-using-sequence-to-sequence-models-with-attention-1810.120512018-10-30 https://scifaro.com/en/abs/audio-inpainting-of-music-by-means-of-neural-networks-1810.121382022-02-21 https://scifaro.com/en/abs/end-to-end-music-source-separation-is-it-possible-in-the-waveform-domain-1810.121872019-07-01 https://scifaro.com/en/abs/enabling-factorized-piano-music-modeling-and-generation-with-the-maestro-dataset-1810.122472019-01-21 https://scifaro.com/en/abs/the-airbus-air-traffic-control-speech-recognition-2018-challenge-towards-atc-automatic-transcription-and-call-sign-detection-1810.126142020-03-11 https://scifaro.com/en/abs/subspectralnet-using-sub-spectrogram-based-convolutional-neural-networks-for-acoustic-scene-classification-1810.126422019-02-26 https://scifaro.com/en/abs/feature-trajectory-dynamic-time-warping-for-clustering-of-speech-segments-1810.127222018-10-31 https://scifaro.com/en/abs/audio-source-separation-using-variational-autoencoders-and-weak-class-supervision-1810.131042019-08-06 https://scifaro.com/en/abs/introducing-spain-sparse-audio-inpainter-1810.131372020-01-17 https://scifaro.com/en/abs/mulan-a-blind-and-off-grid-method-for-multichannel-echo-retrieval-1810.133382018-11-01 https://scifaro.com/en/abs/waveglow-a-flow-based-generative-network-for-speech-synthesis-1811.000022018-11-02 https://scifaro.com/en/abs/deep-net-features-for-complex-emotion-recognition-1811.000032018-11-05 https://scifaro.com/en/abs/on-single-channel-speech-enhancement-and-on-non-linear-modulation-domain-kalman-filtering-1811.000782018-11-02 https://scifaro.com/en/abs/neural-music-synthesis-for-flexible-timbre-control-1811.002232018-11-02 https://scifaro.com/en/abs/weakly-supervised-crnn-system-for-sound-event-detection-with-large-scale-unlabeled-in-domain-data-1811.003012018-11-02 https://scifaro.com/en/abs/sequence-to-sequence-models-for-small-footprint-keyword-spotting-1811.003482018-11-02 https://scifaro.com/en/abs/end-to-end-models-with-auditory-attention-in-multi-channel-keyword-spotting-1811.003502018-11-06 https://scifaro.com/en/abs/referenceless-performance-evaluation-of-audio-source-separation-using-deep-neural-networks-1811.004542019-06-25 https://scifaro.com/en/abs/acoustic-features-fusion-using-attentive-multi-channel-deep-architecture-1811.009362018-11-05 https://scifaro.com/en/abs/beyond-equal-length-snippets-how-long-is-sufficient-to-recognize-an-audio-scene-1811.010952019-05-10 https://scifaro.com/en/abs/multitask-learning-for-frame-level-instrument-recognition-1811.011432019-02-19 https://scifaro.com/en/abs/deep-ad-hoc-beamforming-1811.012332021-02-10 https://scifaro.com/en/abs/multi-view-networks-for-multi-channel-audio-classification-1811.012512019-02-28 https://scifaro.com/en/abs/convs2s-vc-fully-convolutional-sequence-to-sequence-voice-conversion-1811.016092020-10-08 https://scifaro.com/en/abs/end-to-end-sound-source-separation-conditioned-on-instrument-labels-1811.018502019-05-10 https://scifaro.com/en/abs/how-to-improve-your-speaker-embeddings-extractor-in-generic-toolkits-1811.020662018-11-07 https://scifaro.com/en/abs/bootstrapping-single-channel-source-separation-via-unsupervised-spatial-clustering-on-stereo-mixtures-1811.021302018-11-07 https://scifaro.com/en/abs/flowavenet-a-generative-flow-for-raw-audio-1811.021552019-05-21 https://scifaro.com/en/abs/nips4bplus-a-richly-annotated-birdsong-audio-dataset-1811.022752018-11-15 https://scifaro.com/en/abs/user-specific-adaptation-in-automatic-transcription-of-vocalised-percussion-1811.024062018-11-07 https://scifaro.com/en/abs/an-audio-only-method-for-advertisement-detection-in-broadcast-television-content-1811.024112018-11-07 https://scifaro.com/en/abs/sdr-half-baked-or-well-done-1811.025082018-11-07 https://scifaro.com/en/abs/reconstructing-speech-stimuli-from-human-auditory-cortex-activity-using-a-wavenet-approach-1811.026942018-11-09 https://scifaro.com/en/abs/class-conditional-embeddings-for-music-source-separation-1811.030762018-11-08 https://scifaro.com/en/abs/learning-disentangled-representations-for-timber-and-pitch-in-music-audio-1811.032712018-11-09 https://scifaro.com/en/abs/integrating-recurrence-dynamics-for-speech-emotion-recognition-1811.041332018-11-13 https://scifaro.com/en/abs/audio-spectrogram-factorization-for-classification-of-telephony-signals-below-the-auditory-threshold-1811.041392018-11-13 https://scifaro.com/en/abs/performancenet-score-to-audio-music-generation-with-multi-band-convolutional-residual-network-1811.043572018-11-13 https://scifaro.com/en/abs/multi-temporal-resolution-convolutional-neural-networks-for-acoustic-scene-classification-1811.044192018-11-13 https://scifaro.com/en/abs/a-multi-modal-deep-neural-network-approach-to-bird-song-identification-1811.044482018-11-13 https://scifaro.com/en/abs/vectorization-of-hypotheses-and-speech-for-faster-beam-search-in-encoder-decoder-based-speech-recognition-1811.045682018-11-13 https://scifaro.com/en/abs/neural-wavetable-a-playable-wavetable-synthesizer-using-neural-networks-1811.055502018-11-20 https://scifaro.com/en/abs/to-bee-or-not-to-bee-investigating-machine-learning-approaches-for-beehive-sound-recognition-1811.060162021-12-03 https://scifaro.com/en/abs/audio-based-identification-of-beehive-states-1811.063302019-02-18 https://scifaro.com/en/abs/generating-albums-with-samplernn-to-imitate-metal-rock-and-punk-bands-1811.066332018-11-19 https://scifaro.com/en/abs/generating-black-metal-and-math-rock-beyond-bach-beethoven-and-beatles-1811.066392018-11-19 https://scifaro.com/en/abs/aclnet-efficient-end-to-end-audio-classification-cnn-1811.066692018-11-19 https://scifaro.com/en/abs/semi-supervised-multichannel-speech-enhancement-with-variational-autoencoders-and-non-negative-matrix-factorization-1811.067132019-05-01 https://scifaro.com/en/abs/direction-of-arrival-estimation-of-wide-band-signals-with-planar-microphone-arrays-1811.067562018-11-19 https://scifaro.com/en/abs/exploring-tradeoffs-in-models-for-low-latency-speech-enhancement-1811.070302018-11-20 https://scifaro.com/en/abs/polyphonic-audio-tagging-with-sequentially-labelled-data-using-crnn-with-learnable-gated-linear-units-1811.070722018-11-20 https://scifaro.com/en/abs/the-intrinsic-memorability-of-everyday-sounds-1811.070822018-11-20 https://scifaro.com/en/abs/harmonic-recomposition-using-conditional-autoregressive-modeling-1811.074262018-11-20 https://scifaro.com/en/abs/limitations-of-source-filter-coupling-in-phonation-1811.074352018-11-28 https://scifaro.com/en/abs/sound-stream-ii-towards-real-time-gesture-controlled-articulatory-sound-synthesis-1811.080292018-11-21 https://scifaro.com/en/abs/coupled-recurrent-models-for-polyphonic-music-composition-1811.080452019-11-28 https://scifaro.com/en/abs/improving-sequence-to-sequence-acoustic-modeling-by-adding-text-supervision-1811.081112020-01-14 https://scifaro.com/en/abs/the-effect-of-explicit-structure-encoding-of-deep-neural-networks-for-symbolic-music-generation-1811.083802020-03-03 https://scifaro.com/en/abs/differentiable-consistency-constraints-for-improved-deep-speech-enhancement-1811.085212018-11-22 https://scifaro.com/en/abs/deep-learning-based-phase-reconstruction-for-speaker-separation-a-trigonometric-perspective-1811.090102018-11-26 https://scifaro.com/en/abs/training-multi-task-adversarial-network-for-extracting-noise-robust-speaker-embedding-1811.093552019-05-14 https://scifaro.com/en/abs/improved-frequency-modulation-features-for-multichannel-distant-speech-recognition-1811.093812019-09-04 https://scifaro.com/en/abs/towards-emotion-recognition-a-persistent-entropy-application-1811.096072019-03-22 https://scifaro.com/en/abs/timbretron-a-wavenet-cyclegan-cqt-audio-pipeline-for-musical-timbre-transfer-1811.096202023-10-24 https://scifaro.com/en/abs/glottal-closure-instants-detection-from-pathological-acoustic-speech-signal-using-deep-learning-1811.099562018-11-28 https://scifaro.com/en/abs/learning-sound-events-from-webly-labeled-data-1811.099672019-07-16 https://scifaro.com/en/abs/combining-high-level-features-of-raw-audio-waves-and-mel-spectrograms-for-audio-tagging-1811.107082018-11-28 https://scifaro.com/en/abs/improved-speech-enhancement-with-the-wave-u-net-1811.113072018-11-29 https://scifaro.com/en/abs/multiple-source-direction-of-arrival-estimation-using-subspace-pseudointensity-vectors-1811.116632018-11-29 https://scifaro.com/en/abs/ufans-u-shaped-fully-parallel-acoustic-neural-structure-for-statistical-parametric-speech-synthesis-with-20x-faster-1811.122082018-11-30 https://scifaro.com/en/abs/play-as-you-like-timbre-enhanced-multi-modal-music-style-transfer-1811.122142018-11-30 https://scifaro.com/en/abs/from-context-to-concept-exploring-semantic-relationships-in-music-with-word2vec-1811.124082018-12-03 https://scifaro.com/en/abs/bach2bach-generating-music-using-a-deep-reinforcement-learning-approach-1812.010602018-12-05 https://scifaro.com/en/abs/learning-to-match-transient-sound-events-using-attentional-similarity-for-few-shot-sound-recognition-1812.012692019-02-19 https://scifaro.com/en/abs/singing-voice-separation-using-a-deep-convolutional-neural-network-trained-by-ideal-binary-mask-and-cross-entropy-1812.012782018-12-05 https://scifaro.com/en/abs/localization-and-tracking-of-an-acoustic-source-using-a-diagonal-unloading-beamforming-and-a-kalman-filter-1812.015212018-12-05 https://scifaro.com/en/abs/intensity-particle-flow-smc-phd-filter-for-audio-speaker-tracking-1812.015702018-12-05 https://scifaro.com/en/abs/domain-mismatch-robust-acoustic-scene-classification-using-channel-information-conversion-1812.017312018-12-06 https://scifaro.com/en/abs/binaural-source-localization-based-on-modulation-domain-features-and-decision-pooling-1812.023992018-12-07 https://scifaro.com/en/abs/estimates-of-the-reconstruction-error-in-partially-redressed-warped-frames-expansions-1812.032792018-12-11 https://scifaro.com/en/abs/increase-apparent-public-speaking-fluency-by-speech-augmentation-1812.034152019-08-06 https://scifaro.com/en/abs/a-computationally-efficient-and-practically-feasible-two-microphones-blind-speech-separation-method-1812.039142018-12-11 https://scifaro.com/en/abs/an-individualized-super-gaussian-single-microphone-speech-enhancement-for-hearing-aid-users-with-smartphone-as-an-assistive-device-1812.039162019-07-04 https://scifaro.com/en/abs/a-functional-taxonomy-of-music-generation-systems-1812.041862018-12-12 https://scifaro.com/en/abs/a-cascaded-multiple-speaker-localization-and-tracking-system-1812.044172018-12-12 https://scifaro.com/en/abs/morpheus-generating-structured-music-with-constrained-patterns-and-tension-1812.048322018-12-13 https://scifaro.com/en/abs/description-of-algorithms-for-ben-gurion-university-submission-to-the-locata-challenge-1812.049422018-12-13 https://scifaro.com/en/abs/parameterization-of-sequence-of-mfccs-for-dnn-based-voice-disorder-detection-1812.058882018-12-17 https://scifaro.com/en/abs/evaluation-of-an-open-source-implementation-of-the-srp-phat-algorithm-within-the-2018-locata-challenge-1812.059012018-12-17 https://scifaro.com/en/abs/semi-supervised-monaural-singing-voice-separation-with-a-masking-network-trained-on-synthetic-mixtures-1812.060872019-05-07 https://scifaro.com/en/abs/inversynth-deep-estimation-of-synthesizer-parameter-configurations-from-audio-signals-1812.063492019-11-22 https://scifaro.com/en/abs/voiceprint-recognition-of-parkinson-patients-based-on-deep-learning-1812.066132018-12-18 https://scifaro.com/en/abs/learning-to-generate-music-with-bachprop-1812.066692020-07-07 https://scifaro.com/en/abs/circular-statistics-based-low-complexity-doa-estimation-for-hearing-aid-application-1812.066972018-12-18 https://scifaro.com/en/abs/persian-vowel-recognition-with-mfcc-and-ann-on-pcvc-speech-dataset-1812.069532018-12-18 https://scifaro.com/en/abs/instrument-independent-dastgah-recognition-of-iranian-classical-music-using-azarnet-1812.070172019-01-10 https://scifaro.com/en/abs/bandnet-a-neural-network-based-multi-instrument-beatles-style-midi-music-composition-machine-1812.071262018-12-19 https://scifaro.com/en/abs/autoencoder-based-architecture-for-fast-real-time-audio-style-transfer-1812.071592018-12-27 https://scifaro.com/en/abs/uniform-convergence-bounds-for-codec-selection-1812.075682018-12-20 https://scifaro.com/en/abs/tracking-multiple-audio-sources-with-the-von-mises-distribution-and-variational-em-1812.082462019-04-11 https://scifaro.com/en/abs/multichannel-online-dereverberation-based-on-spectral-magnitude-inverse-filtering-1812.084712020-11-10 https://scifaro.com/en/abs/differentiable-supervector-extraction-for-encoding-speaker-and-phrase-information-in-text-dependent-speaker-verification-1812.094842018-12-27 https://scifaro.com/en/abs/noise-flooding-for-detecting-audio-adversarial-examples-against-automatic-speech-recognition-1812.100612019-02-26 https://scifaro.com/en/abs/tensor-train-long-short-term-memory-for-monaural-speech-enhancement-1812.100952018-12-27 https://scifaro.com/en/abs/a-multiversion-programming-inspired-approach-to-detecting-audio-adversarial-examples-1812.101992019-12-05 https://scifaro.com/en/abs/a-framework-for-automated-pop-song-melody-generation-with-piano-accompaniment-arrangement-1812.109062018-12-31 https://scifaro.com/en/abs/end-to-end-model-for-speech-enhancement-by-consistent-spectrogram-masking-1901.002952019-01-03 https://scifaro.com/en/abs/deep-speech-enhancement-for-reverberated-and-noisy-signals-using-wide-residual-networks-1901.006602019-01-04 https://scifaro.com/en/abs/feature-reinforcement-with-word-embedding-and-parsing-information-in-neural-tts-1901.007072019-03-07 https://scifaro.com/en/abs/introduction-to-voice-presentation-attack-detection-and-recent-advances-1901.010852019-01-07 https://scifaro.com/en/abs/learning-sound-event-classifiers-from-web-audio-with-noisy-labels-1901.011892019-03-11 https://scifaro.com/en/abs/enhancing-sound-texture-in-cnn-based-acoustic-scene-classification-1901.015022019-01-08 https://scifaro.com/en/abs/sinusoidal-wave-generating-network-based-on-adversarial-learning-and-its-application-synthesizing-frog-sounds-for-data-augmentation-1901.020502019-01-09 https://scifaro.com/en/abs/presence-absence-estimation-in-audio-recordings-of-tropical-frog-communities-1901.024952019-01-10 https://scifaro.com/en/abs/cosine-similarity-penalty-to-discriminate-sound-classes-in-weakly-supervised-sound-event-detection-1901.031462019-04-02 https://scifaro.com/en/abs/ubiquitous-acoustic-sensing-on-commodity-iot-devices-a-survey-1901.034502021-08-13 https://scifaro.com/en/abs/prototypical-metric-transfer-learning-for-continuous-speech-keyword-spotting-with-limited-training-data-1901.038602019-01-15 https://scifaro.com/en/abs/machine-learning-for-the-recognition-of-emotion-in-the-speech-of-couples-in-psychotherapy-using-the-stanford-suppes-brain-lab-psychotherapy-dataset-1901.041102019-01-15 https://scifaro.com/en/abs/exploring-transfer-learning-for-low-resource-emotional-tts-1901.042762019-01-15 https://scifaro.com/en/abs/music-artist-classification-with-convolutional-recurrent-neural-networks-1901.045552019-03-18 https://scifaro.com/en/abs/classical-music-generation-in-distinct-dastgahs-with-alimnet-acgan-1901.046962019-01-16 https://scifaro.com/en/abs/phoneme-based-persian-speech-recognition-1901.046992019-01-16 https://scifaro.com/en/abs/spectrogram-feature-losses-for-music-source-separation-1901.050612019-06-28 https://scifaro.com/en/abs/speech-separation-using-gain-adapted-factorial-hidden-markov-models-1901.076042019-01-24 https://scifaro.com/en/abs/multi-stream-network-with-temporal-attention-for-environmental-sound-classification-1901.086082019-01-28 https://scifaro.com/en/abs/bottom-up-broadcast-neural-network-for-music-genre-classification-1901.089282019-01-28 https://scifaro.com/en/abs/locata-challenge-speaker-localization-with-a-planar-array-1901.089832019-01-28 https://scifaro.com/en/abs/end-to-end-multi-task-denoising-for-joint-sdr-and-pesq-optimization-1901.091462023-03-10 https://scifaro.com/en/abs/applying-visual-domain-style-transfer-and-texture-synthesis-techniques-to-audio-insights-and-challenges-1901.102402020-08-10 https://scifaro.com/en/abs/discriminate-natural-versus-loudspeaker-emitted-speech-1901.112912019-02-19 https://scifaro.com/en/abs/optimization-of-the-area-under-the-roc-curve-using-neural-network-supervectors-for-text-dependent-speaker-verification-1901.113322019-05-01 https://scifaro.com/en/abs/is-cqt-more-suitable-for-monaural-speech-separation-than-stft-an-empirical-study-1902.006312019-02-05 https://scifaro.com/en/abs/furcanet-an-end-to-end-deep-gated-convolutional-long-short-term-memory-deep-neural-networks-for-single-channel-speech-separation-1902.006512019-03-19 https://scifaro.com/en/abs/sound-event-detection-using-graph-laplacian-regularization-based-on-event-co-occurrence-1902.008162019-02-19 https://scifaro.com/en/abs/deep-autotuner-a-data-driven-approach-to-natural-sounding-pitch-correction-for-singing-voice-in-karaoke-performances-1902.009562019-02-05 https://scifaro.com/en/abs/an-ensemble-svm-based-approach-for-voice-activity-detection-1902.015442019-02-06 https://scifaro.com/en/abs/a-variance-modeling-framework-based-on-variational-autoencoders-for-speech-enhancement-1902.016052019-02-06 https://scifaro.com/en/abs/polyphonic-music-composition-with-lstm-neural-networks-and-reinforcement-learning-1902.019732019-03-05 https://scifaro.com/en/abs/hide-and-speak-towards-deep-neural-networks-for-speech-steganography-1902.030832020-07-28 https://scifaro.com/en/abs/generative-moment-matching-network-based-random-modulation-post-filter-for-dnn-based-singing-voice-synthesis-and-neural-double-tracking-1902.033892019-02-12 https://scifaro.com/en/abs/speech-enhancement-with-variational-autoencoders-and-alpha-stable-distributions-1902.039262019-05-01 https://scifaro.com/en/abs/adversarial-generation-of-time-frequency-features-with-application-in-audio-synthesis-1902.040722019-05-17 https://scifaro.com/en/abs/multitask-learning-for-polyphonic-piano-transcription-a-case-study-1902.043902019-02-13 https://scifaro.com/en/abs/furcanext-end-to-end-monaural-speech-separation-with-dynamic-gated-dilated-temporal-convolutional-networks-1902.048912023-06-27 https://scifaro.com/en/abs/improving-performance-and-inference-on-audio-classification-tasks-using-capsule-networks-1902.050692019-02-15 https://scifaro.com/en/abs/enhanced-robot-speech-recognition-using-biomimetic-binaural-sound-source-localization-1902.054462019-02-15 https://scifaro.com/en/abs/an-improved-uncertainty-propagation-method-for-robust-i-vector-based-speaker-recognition-1902.057612019-02-20 https://scifaro.com/en/abs/end-to-end-lyrics-alignment-for-polyphonic-music-using-an-audio-to-character-recognition-model-1902.067972019-02-20 https://scifaro.com/en/abs/p-reverb-perceptual-characterization-of-early-and-late-reflections-for-auditory-displays-1902.068802019-02-20 https://scifaro.com/en/abs/low-latency-deep-clustering-for-speech-separation-1902.070332019-02-20 https://scifaro.com/en/abs/data-efficient-voice-cloning-for-neural-singing-synthesis-1902.072922019-02-21 https://scifaro.com/en/abs/audio-linguistic-embeddings-for-spoken-sentences-1902.078172019-02-22 https://scifaro.com/en/abs/the-nigens-general-sound-events-database-1902.083142020-01-03 https://scifaro.com/en/abs/gansynth-adversarial-neural-audio-synthesis-1902.087102019-04-16 https://scifaro.com/en/abs/automatic-detection-and-compression-for-passive-acoustic-monitoring-of-the-african-forest-elephant-1902.090692019-02-26 https://scifaro.com/en/abs/robust-sound-source-localization-considering-similarity-of-back-propagation-signals-1902.091792019-02-26 https://scifaro.com/en/abs/audio-caption-listen-and-tell-1902.092542020-05-11 https://scifaro.com/en/abs/acoustic-scene-classification-using-multi-layer-temporal-pooling-based-on-convolutional-neural-network-1902.100632019-04-04 https://scifaro.com/en/abs/a-unified-neural-architecture-for-instrumental-audio-tasks-1903.001422019-03-04 https://scifaro.com/en/abs/weakly-labelled-audioset-tagging-with-attention-neural-networks-1903.007652019-12-11 https://scifaro.com/en/abs/traditional-machine-learning-for-pitch-detection-1903.012902019-03-06 https://scifaro.com/en/abs/improving-singing-voice-separation-using-deep-u-net-and-wave-u-net-with-data-augmentation-1903.014152019-06-25 https://scifaro.com/en/abs/data-augmentation-for-drum-transcription-with-convolutional-neural-networks-1903.014162019-06-25 https://scifaro.com/en/abs/spectral-visibility-graphs-application-to-similarity-of-harmonic-signals-1903.019762019-06-21 https://scifaro.com/en/abs/enhancing-music-features-by-knowledge-transfer-from-user-item-log-data-1903.027942019-03-08 https://scifaro.com/en/abs/voice-activity-detection-merging-source-and-filter-based-information-1903.028442019-03-08 https://scifaro.com/en/abs/phase-aware-speech-enhancement-with-deep-complex-u-net-1903.031072019-04-03 https://scifaro.com/en/abs/the-life-of-a-new-york-city-noise-sensor-network-1903.031952020-08-10 https://scifaro.com/en/abs/fast-multichannel-source-separation-based-on-jointly-diagonalizable-spatial-covariance-matrices-1903.032372019-03-11 https://scifaro.com/en/abs/a-deep-generative-model-of-speech-complex-spectrograms-1903.032692022-07-18 https://scifaro.com/en/abs/deep-griffin-lim-iteration-1903.039712019-03-12 https://scifaro.com/en/abs/progressive-generative-adversarial-binary-networks-for-music-generation-1903.047222019-03-13 https://scifaro.com/en/abs/a-vocoder-based-method-for-singing-voice-extraction-1903.075542020-02-13 https://scifaro.com/en/abs/smart-edition-of-midi-files-1903.084592019-03-21 https://scifaro.com/en/abs/craft-a-multifunction-online-platform-for-speech-prosody-visualisation-1903.087182019-03-22 https://scifaro.com/en/abs/improving-machine-hearing-on-limited-data-sets-1903.089502025-02-20 https://scifaro.com/en/abs/bandwidth-extension-on-raw-audio-via-generative-adversarial-networks-1903.090272019-03-22 https://scifaro.com/en/abs/unsupervised-speech-enhancement-based-on-multichannel-nmf-informed-beamforming-for-noise-robust-automatic-speech-recognition-1903.093412019-04-02 https://scifaro.com/en/abs/emotion-recognition-based-on-third-order-circular-suprasegmental-hidden-markov-model-1903.098032019-03-26 https://scifaro.com/en/abs/conditioning-a-recurrent-neural-network-to-synthesize-musical-instrument-transients-1903.107032019-03-27 https://scifaro.com/en/abs/wgansing-a-multi-voice-singing-voice-synthesizer-based-on-the-wasserstein-gan-1903.107292020-02-13 https://scifaro.com/en/abs/musical-tempo-and-key-estimation-using-convolutional-neural-networks-with-directional-filters-1903.108392019-03-27 https://scifaro.com/en/abs/muse-ing-on-the-impact-of-utterance-ordering-on-crowdsourced-emotion-annotations-1903.116722019-04-01 https://scifaro.com/en/abs/hierarchical-pooling-structure-for-weakly-labeled-sound-event-detection-1903.117912025-05-06 https://scifaro.com/en/abs/joining-sound-event-detection-and-localization-through-spatial-segregation-1904.000552019-12-24 https://scifaro.com/en/abs/multi-scale-time-frequency-attention-for-acoustic-event-detection-1904.000632019-09-10 https://scifaro.com/en/abs/static-visual-spatial-priors-for-doa-estimation-1904.002022019-04-02 https://scifaro.com/en/abs/unsupervised-training-of-neural-mask-based-beamforming-1904.015782019-04-09 https://scifaro.com/en/abs/end-to-end-binaural-sound-localisation-from-the-raw-waveform-1904.019162019-04-04 https://scifaro.com/en/abs/gedi-gammachirp-envelope-distortion-index-for-predicting-intelligibility-of-enhanced-speech-1904.020962020-07-21 https://scifaro.com/en/abs/multi-modal-blind-source-separation-with-microphones-and-blinkies-1904.023342019-05-08 https://scifaro.com/en/abs/libritts-a-corpus-derived-from-librispeech-for-text-to-speech-1904.028822019-04-08 https://scifaro.com/en/abs/wavecyclegan2-time-domain-neural-post-filter-for-speech-waveform-generation-1904.028922019-04-10 https://scifaro.com/en/abs/recursive-speech-separation-for-unknown-number-of-speakers-1904.030652019-09-04 https://scifaro.com/en/abs/towards-generalized-speech-enhancement-with-generative-adversarial-networks-1904.034182019-04-09 https://scifaro.com/en/abs/cross-task-learning-for-audio-tagging-sound-event-detection-and-spatial-localization-dcase-2019-baseline-systems-1904.034762019-06-11 https://scifaro.com/en/abs/large-margin-softmax-loss-for-speaker-verification-1904.034792019-04-09 https://scifaro.com/en/abs/taco-vc-a-single-speaker-tacotron-based-voice-conversion-with-limited-data-1904.035222020-06-22 https://scifaro.com/en/abs/spatio-temporal-attention-pooling-for-audio-scene-classification-1904.035432019-07-01 https://scifaro.com/en/abs/vae-based-regularization-for-deep-speaker-embedding-1904.036172019-04-09 https://scifaro.com/en/abs/bayesian-non-parametric-multi-source-modelling-based-determined-blind-source-separation-1904.037872019-04-09 https://scifaro.com/en/abs/temporal-convolution-for-real-time-keyword-spotting-on-mobile-devices-1904.038142019-11-19 https://scifaro.com/en/abs/direct-modelling-of-speech-emotion-from-raw-speech-1904.038332020-07-29 https://scifaro.com/en/abs/duration-robust-weakly-supervised-sound-event-detection-1904.038412020-04-13 https://scifaro.com/en/abs/crossmodal-voice-conversion-1904.045402019-04-10 https://scifaro.com/en/abs/cyclegan-vc2-improved-cyclegan-based-non-parallel-voice-conversion-1904.046312019-04-10 https://scifaro.com/en/abs/distributed-deep-learning-strategies-for-automatic-speech-recognition-1904.049562019-04-11 https://scifaro.com/en/abs/an-interactive-musical-prediction-system-with-mixture-density-recurrent-neural-networks-1904.050092019-04-11 https://scifaro.com/en/abs/neuralogram-a-deep-neural-network-based-representation-for-audio-signals-1904.050732019-04-11 https://scifaro.com/en/abs/a-framework-for-multi-f0-modeling-in-satb-choir-recordings-1904.050862019-04-11 https://scifaro.com/en/abs/acoustic-scene-classification-by-implicitly-identifying-distinct-sound-events-1904.052042019-10-23 https://scifaro.com/en/abs/a-compact-and-discriminative-feature-based-on-auditory-summary-statistics-for-acoustic-scene-classification-1904.052432019-04-11 https://scifaro.com/en/abs/expectation-maximization-for-speech-source-separation-using-convolutive-transfer-function-1904.052492019-04-11 https://scifaro.com/en/abs/autoencoder-based-articulatory-to-acoustic-mapping-for-ultrasound-silent-speech-interfaces-1904.052592019-04-11 https://scifaro.com/en/abs/stc-antispoofing-systems-for-the-asvspoof2019-challenge-1904.055762019-04-12 https://scifaro.com/en/abs/cross-task-learning-for-audio-tagging-sound-event-detection-spatial-localization-dcase-2019-baseline-systems-1904.056352019-04-16 https://scifaro.com/en/abs/rnn-based-speech-synthesis-using-a-continuous-sinusoidal-model-1904.060752019-04-16 https://scifaro.com/en/abs/dnn-based-acoustic-to-articulatory-inversion-using-ultrasound-tongue-imaging-1904.060832019-04-16 https://scifaro.com/en/abs/stc-speaker-recognition-systems-for-the-voices-from-a-distance-challenge-1904.060932019-04-15 https://scifaro.com/en/abs/assisted-sound-sample-generation-with-musical-conditioning-in-adversarial-auto-encoders-1904.062152019-06-25 https://scifaro.com/en/abs/proximal-binaural-sound-can-induce-subjective-frisson-1904.068512020-04-09 https://scifaro.com/en/abs/speech-denoising-by-accumulating-per-frequency-modeling-fluctuations-1904.076122020-06-11 https://scifaro.com/en/abs/improved-speech-separation-with-time-and-frequency-cross-domain-joint-embedding-and-clustering-1904.078452019-04-17 https://scifaro.com/en/abs/expediting-tts-synthesis-with-adversarial-vocoding-1904.079442019-07-29 https://scifaro.com/en/abs/hard-sample-mining-for-the-improved-retraining-of-automatic-speech-recognition-1904.080312019-04-18 https://scifaro.com/en/abs/a-multi-task-learning-framework-for-overcoming-the-catastrophic-forgetting-in-automatic-speech-recognition-1904.080392019-04-18 https://scifaro.com/en/abs/mosnet-deep-learning-based-objective-assessment-for-voice-conversion-1904.083522022-03-01 https://scifaro.com/en/abs/deep-filtering-signal-extraction-and-reconstruction-using-complex-time-frequency-filters-1904.083692019-12-10 https://scifaro.com/en/abs/regression-and-classification-for-direction-of-arrival-estimation-with-convolutional-recurrent-neural-networks-1904.084522020-02-11 https://scifaro.com/en/abs/inspecting-and-interacting-with-meaningful-music-representations-using-vae-1904.088422019-04-19 https://scifaro.com/en/abs/on-acoustic-modeling-for-broadband-beamforming-1904.089712019-06-21 https://scifaro.com/en/abs/tts-skins-speaker-conversion-via-asr-1904.089832020-07-28 https://scifaro.com/en/abs/end-to-end-environmental-sound-classification-using-a-1d-convolutional-neural-network-1904.089902019-04-22 https://scifaro.com/en/abs/hf0-a-hybrid-pitch-extraction-method-for-multimodal-voice-1904.097652019-04-23 https://scifaro.com/en/abs/harmonic-aligned-frame-mask-based-on-non-stationary-gabor-transform-with-application-to-content-dependent-speaker-comparison-1904.103802019-04-24 https://scifaro.com/en/abs/realizing-petabyte-scale-acoustic-modeling-1904.105842019-04-25 https://scifaro.com/en/abs/unsupervised-adversarial-domain-adaptation-based-on-the-wasserstein-distance-for-acoustic-scene-classification-1904.106782019-11-07 https://scifaro.com/en/abs/an-attentional-neural-network-architecture-for-folk-song-classification-1904.110742019-04-26 https://scifaro.com/en/abs/divide-and-conquer-a-deep-casa-approach-to-talker-independent-monaural-speaker-separation-1904.111482019-04-26 https://scifaro.com/en/abs/speaker-sincerity-detection-based-on-covariance-feature-vectors-and-ensemble-methods-1904.116412019-04-29 https://scifaro.com/en/abs/sound-event-detection-with-sequentially-labelled-data-based-on-connectionist-temporal-classification-and-unsupervised-clustering-1904.121022019-04-30 https://scifaro.com/en/abs/joint-analysis-of-acoustic-events-and-scenes-based-on-multitask-learning-1904.121462019-07-22 https://scifaro.com/en/abs/towards-automation-of-creativity-a-machine-intelligence-approach-1904.121942019-04-30 https://scifaro.com/en/abs/cough-detection-using-hidden-markov-models-1904.123542019-04-30 https://scifaro.com/en/abs/a-comparison-of-online-automatic-speech-recognition-systems-and-the-nonverbal-responses-to-unintelligible-speech-1904.124032019-04-30 https://scifaro.com/en/abs/adversarial-speaker-verification-1904.124062019-04-30 https://scifaro.com/en/abs/localization-detection-and-tracking-of-multiple-moving-sound-sources-with-a-convolutional-recurrent-neural-network-1904.127692019-04-30 https://scifaro.com/en/abs/performing-structured-improvisations-with-pre-trained-deep-learning-models-1904.132852019-05-01 https://scifaro.com/en/abs/deep-learning-for-audio-signal-processing-1905.000782019-05-28 https://scifaro.com/en/abs/a-style-transfer-approach-to-source-separation-1905.001512019-05-10 https://scifaro.com/en/abs/polyphonic-sound-event-detection-and-localization-using-a-two-stage-strategy-1905.002682019-11-06 https://scifaro.com/en/abs/a-statistically-principled-and-computationally-efficient-approach-to-speech-enhancement-using-variational-autoencoders-1905.012092019-05-15 https://scifaro.com/en/abs/deep-tensor-factorization-for-spatially-aware-scene-decomposition-1905.013912019-09-30 https://scifaro.com/en/abs/topology-of-networks-in-generalized-musical-spaces-1905.018422019-05-07 https://scifaro.com/en/abs/learning-with-learned-loss-function-speech-enhancement-with-quality-net-to-improve-perceptual-evaluation-of-speech-quality-1905.018982020-02-19 https://scifaro.com/en/abs/investigating-kernel-shapes-and-skip-connections-for-deep-learning-based-harmonic-percussive-separation-1905.018992019-07-31 https://scifaro.com/en/abs/on-the-representation-of-speech-and-music-1905.032782019-05-10 https://scifaro.com/en/abs/universal-sound-separation-1905.033302019-08-06 https://scifaro.com/en/abs/analysis-of-deep-clustering-as-preprocessing-for-automatic-speech-recognition-of-sparsely-overlapping-speech-1905.035002019-09-26 https://scifaro.com/en/abs/block-online-multi-channel-speech-enhancement-using-dnn-supported-relative-transfer-function-estimates-1905.036322020-05-27 https://scifaro.com/en/abs/sound-texture-synthesis-using-convolutional-neural-networks-1905.036372019-05-10 https://scifaro.com/en/abs/multiclass-language-identification-using-deep-learning-on-spectral-images-of-audio-signals-1905.043482019-05-14 https://scifaro.com/en/abs/time-contrastive-learning-based-deep-bottleneck-features-for-text-dependent-speaker-verification-1905.045542019-05-14 https://scifaro.com/en/abs/metricgan-generative-adversarial-networks-based-black-box-metric-scores-optimization-for-speech-enhancement-1905.048742019-05-14 https://scifaro.com/en/abs/self-supervised-audio-spatialization-with-correspondence-classifier-1905.053752019-05-15 https://scifaro.com/en/abs/learning-to-groove-with-inverse-sequence-transformations-1905.061182019-07-29 https://scifaro.com/en/abs/end-to-end-multi-channel-speech-separation-1905.062862019-05-29 https://scifaro.com/en/abs/multi-web-audio-sequencer-collaborative-music-making-1905.067172019-05-17 https://scifaro.com/en/abs/a-comprehensive-study-of-speech-separation-spectrogram-vs-waveform-separation-1905.074972019-07-25 https://scifaro.com/en/abs/independent-vector-analysis-with-more-microphones-than-sources-1905.078802019-08-08 https://scifaro.com/en/abs/dance-hit-song-prediction-1905.080762019-05-21 https://scifaro.com/en/abs/robust-sound-event-detection-in-bioacoustic-sensor-networks-1905.083522019-10-31 https://scifaro.com/en/abs/a-multi-room-reverberant-dataset-for-sound-event-localization-and-detection-1905.085462019-05-27 https://scifaro.com/en/abs/bayesian-pitch-tracking-based-on-the-harmonic-model-1905.085572019-05-22 https://scifaro.com/en/abs/une-ou-deux-composantes-la-r-eponse-de-la-diffusion-en-ondelettes-1905.086012019-07-02 https://scifaro.com/en/abs/specialized-decision-surface-and-disentangled-feature-for-weakly-supervised-polyphonic-sound-event-detection-1905.100912020-04-13 https://scifaro.com/en/abs/reconstructing-faces-from-voices-1905.106042019-06-04 https://scifaro.com/en/abs/auditory-separation-of-a-conversation-from-background-via-attentional-gating-1905.107512019-05-28 https://scifaro.com/en/abs/et-gan-cross-language-emotion-transfer-based-on-cycle-consistent-generative-adversarial-networks-1905.111732020-03-06 https://scifaro.com/en/abs/demonstration-of-performancenet-a-convolutional-neural-network-model-for-score-to-audio-music-generation-1905.116892019-05-29 https://scifaro.com/en/abs/ensemble-based-cover-song-detection-1905.117002019-05-29 https://scifaro.com/en/abs/two-level-explanations-in-music-emotion-recognition-1905.117602019-05-29 https://scifaro.com/en/abs/texture-selection-for-automatic-music-genre-classification-1905.119592020-03-12 https://scifaro.com/en/abs/a-new-definition-of-the-distortion-matrix-for-an-audio-to-score-alignment-system-1905.123242019-05-30 https://scifaro.com/en/abs/towards-robust-audio-spoofing-detection-a-detailed-comparison-of-traditional-and-learned-features-1905.124392019-06-20 https://scifaro.com/en/abs/a-new-multilabel-system-for-automatic-music-emotion-recognition-1905.126292021-06-04 https://scifaro.com/en/abs/a-music-classification-model-based-on-metric-learning-and-feature-extraction-from-mp3-audio-files-1905.128042019-09-19 https://scifaro.com/en/abs/audio-caption-in-a-car-setting-with-a-sentence-level-loss-1905.134482020-10-26 https://scifaro.com/en/abs/problem-agnostic-speech-embeddings-for-multi-speaker-text-to-speech-with-samplernn-1906.007332019-09-24 https://scifaro.com/en/abs/a-surprising-density-of-illusionable-natural-speech-1906.010402019-08-20 https://scifaro.com/en/abs/dilated-convolution-with-dilated-gru-for-music-source-separation-1906.012032019-06-05 https://scifaro.com/en/abs/musicntwrk-data-tools-for-music-theory-analysis-and-composition-1906.014532020-07-22 https://scifaro.com/en/abs/efficient-full-rank-spatial-covariance-estimation-using-independent-low-rank-matrix-analysis-for-blind-source-separation-1906.024822019-06-19 https://scifaro.com/en/abs/singing-voice-separation-a-study-on-training-data-1906.026182019-06-07 https://scifaro.com/en/abs/audio-tagging-with-noisy-labels-and-minimal-supervision-1906.029752020-01-22 https://scifaro.com/en/abs/rvad-an-unsupervised-segment-based-robust-voice-activity-detection-method-1906.035882022-01-12 https://scifaro.com/en/abs/deep-music-analogy-via-latent-representation-disentanglement-1906.036262019-10-22 https://scifaro.com/en/abs/deep-unsupervised-drum-transcription-1906.036972020-10-26 https://scifaro.com/en/abs/cnn-depth-analysis-with-different-channel-inputs-for-acoustic-scene-classification-1906.045912021-08-16 https://scifaro.com/en/abs/toward-interpretable-music-tagging-with-self-attention-1906.049722019-06-13 https://scifaro.com/en/abs/a-data-in-the-life-authorship-attribution-of-lennon-mccartney-songs-1906.054272019-08-02 https://scifaro.com/en/abs/cross-cultural-data-shows-musical-scales-evolved-to-maximise-imperfect-fifths-1906.061712020-06-02 https://scifaro.com/en/abs/user-curated-shaping-of-expressive-performances-1906.064282019-06-18 https://scifaro.com/en/abs/modeling-consonance-and-its-relationships-with-temperament-harmony-and-electronic-amplification-1906.065592019-06-18 https://scifaro.com/en/abs/a-new-approach-to-real-time-impulsive-sound-detection-for-surveillance-applications-1906.065862019-06-18 https://scifaro.com/en/abs/multi-scale-embedded-cnn-for-music-tagging-mse-cnn-1906.067462019-06-18 https://scifaro.com/en/abs/parametric-resynthesis-with-neural-vocoders-1906.067622019-11-15 https://scifaro.com/en/abs/modeling-music-modality-with-a-key-class-invariant-pitch-chroma-cnn-1906.071452019-06-18 https://scifaro.com/en/abs/a-monaural-speech-enhancement-method-for-robust-small-footprint-keyword-spotting-1906.084152019-06-21 https://scifaro.com/en/abs/adversarial-learning-for-improved-onsets-and-frames-music-transcription-1906.085122019-06-21 https://scifaro.com/en/abs/learning-discriminative-features-using-center-loss-and-reconstruction-as-regularizer-for-speech-emotion-recognition-1906.088732019-09-04 https://scifaro.com/en/abs/understanding-and-classifying-cultural-music-using-melodic-features-case-of-hindustani-carnatic-and-turkish-music-1906.089162019-06-24 https://scifaro.com/en/abs/singing-voice-synthesis-using-deep-autoregressive-neural-networks-for-acoustic-modeling-1906.089772019-06-24 https://scifaro.com/en/abs/query-based-deep-improvisation-1906.091552019-06-24 https://scifaro.com/en/abs/deep-polyphonic-adsr-piano-note-transcription-1906.091652019-06-24 https://scifaro.com/en/abs/the-shape-of-remixxxes-to-come-audio-texture-synthesis-with-time-frequency-scattering-1906.093342019-07-02 https://scifaro.com/en/abs/keyword-spotting-for-hearing-assistive-devices-robust-to-external-speakers-1906.094172019-06-27 https://scifaro.com/en/abs/a-neural-vocoder-with-hierarchical-generation-of-amplitude-and-phase-spectra-for-statistical-parametric-speech-synthesis-1906.095732020-02-06 https://scifaro.com/en/abs/ultrasound-based-silent-speech-interface-built-on-a-continuous-vocoder-1906.098852020-08-10 https://scifaro.com/en/abs/self-multi-head-attention-for-speaker-recognition-1906.098902019-07-03 https://scifaro.com/en/abs/classical-music-prediction-and-composition-by-means-of-variational-autoencoders-1906.099722019-06-25 https://scifaro.com/en/abs/single-channel-speech-separation-with-auxiliary-speaker-embeddings-1906.099972019-06-25 https://scifaro.com/en/abs/who-said-that-audio-visual-speaker-diarisation-of-real-world-meetings-1906.100422019-06-25 https://scifaro.com/en/abs/a-convolutional-approach-to-melody-line-identification-in-symbolic-scores-1906.105472021-12-28 https://scifaro.com/en/abs/naver-at-activitynet-challenge-2019-task-b-active-speaker-detection-ava-1906.105552019-06-26 https://scifaro.com/en/abs/on-the-performance-of-residual-block-design-alternatives-in-convolutional-neural-networks-for-end-to-end-audio-classification-1906.108912019-09-27 https://scifaro.com/en/abs/learning-a-joint-embedding-space-of-monophonic-and-mixed-music-signals-for-singing-voice-1906.111392019-06-27 https://scifaro.com/en/abs/wham-extending-speech-separation-to-noisy-environments-1907.011602019-07-03 https://scifaro.com/en/abs/can-a-robot-hear-the-shape-and-dimensions-of-a-room-1907.011692019-07-03 https://scifaro.com/en/abs/kite-automatic-speech-recognition-for-unmanned-aerial-vehicles-1907.011952019-07-03 https://scifaro.com/en/abs/supervised-classifiers-for-audio-impairments-with-noisy-labels-1907.017422019-07-04 https://scifaro.com/en/abs/a-case-study-of-deep-learned-activations-via-hand-crafted-audio-features-1907.018132019-07-04 https://scifaro.com/en/abs/cover-detection-using-dominant-melody-embeddings-1907.018242019-07-05 https://scifaro.com/en/abs/attention-based-convolutional-recurrent-neural-network-for-environmental-sound-classification-1907.022302019-07-05 https://scifaro.com/en/abs/supervised-symbolic-music-style-translation-using-synthetic-data-1907.022652021-06-11 https://scifaro.com/en/abs/convolutional-neural-network-based-speech-enhancement-for-cochlear-implant-recipients-1907.025262019-07-08 https://scifaro.com/en/abs/neural-drum-machine-an-interactive-system-for-real-time-synthesis-of-drum-sounds-1907.026372019-11-14 https://scifaro.com/en/abs/a-bi-directional-transformer-for-musical-chord-recognition-1907.026982019-07-08 https://scifaro.com/en/abs/deep-neural-baselines-for-computational-paralinguistics-1907.028642020-04-01 https://scifaro.com/en/abs/towards-explainable-music-emotion-recognition-the-route-via-mid-level-features-1907.035722019-07-09 https://scifaro.com/en/abs/improving-reverberant-speech-training-using-diffuse-acoustic-simulation-1907.039882021-09-28 https://scifaro.com/en/abs/evolution-of-the-informational-complexity-of-contemporary-western-music-1907.042922023-04-19 https://scifaro.com/en/abs/exploring-conditioning-for-generative-music-systems-with-human-interpretable-controls-1907.043522022-02-22 https://scifaro.com/en/abs/lakhnes-improving-multi-instrumental-music-generation-with-cross-domain-pre-training-1907.048682019-07-12 https://scifaro.com/en/abs/multichannel-loss-function-for-supervised-speech-source-separation-by-mask-based-beamforming-1907.049842019-07-12 https://scifaro.com/en/abs/explicitly-conditioned-melody-generation-a-case-study-with-interdependent-rnns-1907.052082019-07-12 https://scifaro.com/en/abs/toeplitz-inverse-covariance-based-robust-speaker-clustering-for-naturalistic-audio-streams-1907.055842019-07-15 https://scifaro.com/en/abs/learning-complex-basis-functions-for-invariant-representations-of-audio-1907.059822019-07-16 https://scifaro.com/en/abs/multi-task-semi-supervised-adversarial-autoencoding-for-speech-emotion-recognition-1907.060782020-03-24 https://scifaro.com/en/abs/unsupervised-adversarial-domain-adaptation-for-cross-lingual-speech-emotion-recognition-1907.060832020-07-29 https://scifaro.com/en/abs/towards-robust-voice-pathology-detection-1907.061292019-07-16 https://scifaro.com/en/abs/the-bach-doodle-approachable-music-composition-with-machine-learning-at-scale-1907.066372019-07-17 https://scifaro.com/en/abs/hodgepodge-sound-event-detection-based-on-ensemble-of-semi-supervised-learning-methods-1907.073982019-07-18 https://scifaro.com/en/abs/language-modelling-for-sound-event-detection-with-teacher-forcing-and-scheduled-sampling-1907.085062019-11-07 https://scifaro.com/en/abs/data-augmentation-for-instrument-classification-robust-to-audio-effects-1907.085202019-07-22 https://scifaro.com/en/abs/leveraging-knowledge-bases-and-parallel-annotations-for-music-genre-translation-1907.086982019-07-30 https://scifaro.com/en/abs/crowdsourcing-a-dataset-of-audio-captions-1907.092382019-07-23 https://scifaro.com/en/abs/discriminative-learning-for-monaural-speech-separation-using-deep-embedding-features-1907.098842019-07-24 https://scifaro.com/en/abs/log-complex-color-for-visual-pattern-recognition-of-total-sound-1907.099362019-07-24 https://scifaro.com/en/abs/interactive-lungs-auscultation-with-reinforcement-learning-agent-1907.112382019-07-29 https://scifaro.com/en/abs/dilated-fcn-listening-longer-to-hear-better-1907.119562022-10-13 https://scifaro.com/en/abs/stargan-vc2-rethinking-conditional-methods-for-stargan-based-voice-conversion-1907.122792019-08-08 https://scifaro.com/en/abs/marine-mammal-species-classification-using-convolutional-neural-networks-and-a-novel-acoustic-representation-1907.131882019-08-01 https://scifaro.com/en/abs/quantifying-cochlear-implant-users-ability-for-speaker-identification-using-ci-auditory-stimuli-1908.000312019-08-02 https://scifaro.com/en/abs/high-level-control-of-drum-track-generation-using-learned-patterns-of-rhythmic-interaction-1908.009482019-08-05 https://scifaro.com/en/abs/lstm-based-music-generation-system-1908.010802019-08-06 https://scifaro.com/en/abs/v2s-attack-building-dnn-based-voice-conversion-from-automatic-speaker-verification-1908.014542019-08-06 https://scifaro.com/en/abs/acoustic-sounds-for-wellbeing-a-novel-dataset-and-baseline-results-1908.016712019-10-23 https://scifaro.com/en/abs/adversarially-trained-end-to-end-korean-singing-voice-synthesis-system-1908.019192019-08-07 https://scifaro.com/en/abs/acceleration-of-rank-constrained-spatial-covariance-matrix-estimation-for-blind-speech-extraction-1908.019642019-08-07 https://scifaro.com/en/abs/audio-visual-speech-enhancement-using-conditional-variational-auto-encoders-1908.025902020-12-18 https://scifaro.com/en/abs/viterbi-extraction-tutorial-with-hidden-markov-toolkit-1908.031432019-08-09 https://scifaro.com/en/abs/interleaved-multitask-learning-for-audio-source-separation-with-independent-databases-1908.051822019-08-15 https://scifaro.com/en/abs/speaker-verification-using-simple-temporal-features-and-pitch-synchronous-cepstral-coefficients-1908.055532019-08-16 https://scifaro.com/en/abs/sub-spectrogram-segmentation-for-environmental-sound-classification-via-convolutional-recurrent-neural-network-and-score-level-fusion-1908.058632019-08-19 https://scifaro.com/en/abs/jvs-corpus-free-japanese-multi-speaker-voice-corpus-1908.062482019-08-20 https://scifaro.com/en/abs/a-dual-staged-context-aggregation-method-towards-efficient-end-to-end-speech-enhancement-1908.064682020-02-10 https://scifaro.com/en/abs/audio-query-based-music-source-separation-1908.065932019-08-20 https://scifaro.com/en/abs/towards-generating-ambisonics-using-audio-visual-cue-for-virtual-reality-1908.067522019-08-20 https://scifaro.com/en/abs/musical-rhythm-transcription-based-on-bayesian-piece-specific-score-models-capturing-repetitions-1908.069692021-02-17 https://scifaro.com/en/abs/a-microphone-array-and-voice-algorithm-based-smart-hearing-aid-1908.073242020-06-09 https://scifaro.com/en/abs/ai-for-earth-rainforest-conservation-by-acoustic-surveillance-1908.075172019-08-22 https://scifaro.com/en/abs/coarse-to-fine-optimization-for-speech-enhancement-1908.080442019-08-23 https://scifaro.com/en/abs/sound-localization-and-separation-in-three-dimensional-space-using-a-single-microphone-with-a-metamaterial-enclosure-1908.081602019-11-11 https://scifaro.com/en/abs/improving-automatic-jazz-melody-generation-by-transfer-learning-techniques-1908.094842019-08-27 https://scifaro.com/en/abs/overview-of-tasks-and-investigation-of-subjective-evaluation-methods-in-environmental-sound-synthesis-and-conversion-1908.100552019-08-28 https://scifaro.com/en/abs/a-hybrid-parametric-deep-learning-approach-for-sound-event-localization-and-detection-1908.101332019-08-28 https://scifaro.com/en/abs/convolutional-recurrent-neural-network-based-progressive-learning-for-monaural-speech-enhancement-1908.107682020-01-14 https://scifaro.com/en/abs/environment-sound-classification-using-multiple-feature-channels-and-attention-based-deep-convolutional-neural-network-1908.112192020-12-09 https://scifaro.com/en/abs/deep-bayesian-unsupervised-source-separation-based-on-a-complex-gaussian-mixture-model-1908.113072019-08-30 https://scifaro.com/en/abs/voice-spoofing-detection-corpus-for-single-and-multi-order-audio-replays-1909.009352019-09-04 https://scifaro.com/en/abs/on-loss-functions-for-supervised-monaural-time-domain-speech-enhancement-1909.010192020-01-31 https://scifaro.com/en/abs/demucs-deep-extractor-for-music-sources-with-extra-unlabeled-data-remixed-1909.011742019-09-04 https://scifaro.com/en/abs/multiresolution-analysis-discrete-wavelet-transform-through-daubechies-family-for-emotion-recognition-in-speech-1909.012652019-09-04 https://scifaro.com/en/abs/an-efficient-and-perceptually-motivated-auditory-neural-encoding-and-decoding-algorithm-for-spiking-neural-networks-1909.013022019-09-05 https://scifaro.com/en/abs/towards-interpretable-polyphonic-transcription-with-invertible-neural-networks-1909.016222019-09-05 https://scifaro.com/en/abs/neural-network-based-modeling-of-phonetic-durations-1909.030302019-09-09 https://scifaro.com/en/abs/impulse-response-data-augmentation-and-deep-neural-networks-for-blind-room-acoustic-parameter-estimation-1909.036422019-10-23 https://scifaro.com/en/abs/real-time-and-interactive-tools-for-vocal-training-based-on-an-analytic-signal-with-a-cosine-series-envelope-1909.036502021-02-16 https://scifaro.com/en/abs/automatic-detection-of-estuarine-dolphin-whistles-in-spectrogram-images-1909.044252019-09-11 https://scifaro.com/en/abs/computer-assisted-composition-in-continuous-time-1909.050302019-09-12 https://scifaro.com/en/abs/the-emotions-that-we-perceive-in-music-the-influence-of-language-and-lyrics-comprehension-on-agreement-1909.058822019-10-28 https://scifaro.com/en/abs/musicnn-pre-trained-convolutional-neural-networks-for-music-audio-tagging-1909.066542019-09-17 https://scifaro.com/en/abs/a-scalable-noisy-speech-dataset-and-online-subjective-test-framework-1909.080502019-09-19 https://scifaro.com/en/abs/musical-instrument-classification-via-low-dimensional-feature-vectors-1909.084442022-07-15 https://scifaro.com/en/abs/cutting-music-source-separation-some-slakh-a-dataset-to-study-the-impact-of-training-data-quality-and-quantity-1909.084942019-09-19 https://scifaro.com/en/abs/on-the-impact-of-ground-sound-1909.092352019-09-23 https://scifaro.com/en/abs/mimii-dataset-sound-dataset-for-malfunctioning-industrial-machine-investigation-and-inspection-1909.093472019-09-23 https://scifaro.com/en/abs/an-extended-two-dimensional-vocal-tract-model-for-fast-acoustic-simulation-of-single-axis-symmetric-three-dimensional-tubes-1909.095852019-09-23 https://scifaro.com/en/abs/cochleanet-a-robust-language-independent-audio-visual-model-for-speech-enhancement-1909.104072019-09-24 https://scifaro.com/en/abs/humangan-generative-adversarial-network-with-human-based-discriminator-and-its-evaluation-in-speech-perception-modeling-1909.113912019-09-26 https://scifaro.com/en/abs/high-fidelity-speech-synthesis-with-adversarial-networks-1909.116462019-09-30 https://scifaro.com/en/abs/multichannel-speech-enhancement-by-raw-waveform-mapping-using-fully-convolutional-networks-1909.119092020-02-25 https://scifaro.com/en/abs/improving-the-intelligibility-of-electric-and-acoustic-stimulation-speech-using-fully-convolutional-networks-based-speech-enhancement-1909.119122019-09-27 https://scifaro.com/en/abs/a-study-of-joint-effect-on-denoising-techniques-and-visual-cues-to-improve-speech-intelligibility-in-cochlear-implant-simulation-1909.119192020-12-21 https://scifaro.com/en/abs/urban-sound-tagging-using-convolutional-neural-networks-1909.126992019-09-30 https://scifaro.com/en/abs/emirati-accented-speaker-identification-in-stressful-talking-conditions-1909.130702019-10-30 https://scifaro.com/en/abs/speaker-verification-in-emotional-talking-environments-based-on-third-order-circular-suprasegmental-hidden-markov-model-1909.132442019-10-31 https://scifaro.com/en/abs/av-speech-enhancement-challenge-using-a-real-noisy-corpus-1910.004242019-10-02 https://scifaro.com/en/abs/latent-space-representation-for-multi-target-speaker-detection-and-identification-with-a-sparse-dataset-using-triplet-neural-networks-1910.014632019-10-07 https://scifaro.com/en/abs/midi-miner-a-python-library-for-tonal-tension-and-track-classification-1910.020492020-05-27 https://scifaro.com/en/abs/modeling-the-comb-filter-effect-and-interaural-coherence-for-binaural-source-separation-1910.021272019-10-10 https://scifaro.com/en/abs/the-sounds-of-music-science-of-musical-scales-iii-indian-classical-1910.063752019-10-16 https://scifaro.com/en/abs/vfnet-a-convolutional-architecture-for-accent-classification-1910.066972019-10-16 https://scifaro.com/en/abs/acoustic-scene-classification-based-on-a-large-margin-factorized-cnn-1910.067842019-10-16 https://scifaro.com/en/abs/weakly-labeled-sound-event-detection-using-tri-training-and-adversarial-learning-1910.067902019-10-16 https://scifaro.com/en/abs/frequency-and-temporal-convolutional-attention-for-text-independent-speaker-recognition-1910.073642019-10-22 https://scifaro.com/en/abs/end-to-end-speech-enhancement-based-on-discrete-cosine-transform-1910.078402019-10-23 https://scifaro.com/en/abs/speech-based-parameter-estimation-of-an-asymmetric-vocal-fold-oscillation-model-and-its-application-in-discriminating-vocal-fold-pathologies-1910.088862020-02-13 https://scifaro.com/en/abs/representation-learning-for-discovering-phonemic-tone-contours-1910.089872020-05-18 https://scifaro.com/en/abs/musical-instrument-playing-technique-detection-based-on-fcn-using-chinese-bowed-stringed-instrument-as-an-example-1910.090212019-10-22 https://scifaro.com/en/abs/deep-speech-inpainting-of-time-frequency-masks-1910.090582020-11-12 https://scifaro.com/en/abs/multi-band-multi-resolution-fully-convolutional-neural-networks-for-singing-voice-separation-1910.092662019-10-22 https://scifaro.com/en/abs/clotho-an-audio-captioning-dataset-1910.093872019-10-22 https://scifaro.com/en/abs/sound-texture-synthesis-using-ri-spectrograms-1910.094972019-10-22 https://scifaro.com/en/abs/cross-task-pre-training-for-on-device-acoustic-scene-classification-1910.099352020-10-27 https://scifaro.com/en/abs/sequence-to-sequence-singing-synthesis-using-the-feed-forward-transformer-1910.099892020-02-21 https://scifaro.com/en/abs/cross-representation-transferability-of-adversarial-attacks-from-spectrograms-to-audio-waveforms-1910.101062020-07-30 https://scifaro.com/en/abs/learning-the-helix-topology-of-musical-pitch-1910.102462020-02-06 https://scifaro.com/en/abs/whamr-noisy-and-reverberant-single-channel-speech-separation-1910.102792020-02-17 https://scifaro.com/en/abs/filterbank-design-for-end-to-end-speech-separation-1910.104002020-03-02 https://scifaro.com/en/abs/fast-independent-vector-extraction-by-iterative-sinr-maximization-1910.106542019-10-24 https://scifaro.com/en/abs/a-comparative-study-of-multilateration-methods-for-single-source-localization-in-distributed-audio-1910.106612020-07-29 https://scifaro.com/en/abs/end-to-end-multi-task-denoising-for-the-joint-optimization-of-perceptual-speech-metrics-1910.107072020-05-12 https://scifaro.com/en/abs/low-frequency-compensated-synthetic-impulse-responses-for-improved-far-field-speech-recognition-1910.108152021-09-28 https://scifaro.com/en/abs/multi-channel-speech-separation-using-deep-embedding-model-with-multilayer-bootstrap-networks-1910.109122019-10-25 https://scifaro.com/en/abs/syntonets-toward-a-harmony-inspired-general-model-of-complex-networks-1910.110472020-12-09 https://scifaro.com/en/abs/graph-representation-learning-for-audio-music-genre-classification-1910.111172019-10-25 https://scifaro.com/en/abs/bootstrapping-deep-music-separation-from-primitive-auditory-grouping-principles-1910.111332019-10-25 https://scifaro.com/en/abs/delving-into-voxceleb-environment-invariant-speaker-recognition-1910.112382020-02-04 https://scifaro.com/en/abs/pre-training-in-deep-reinforcement-learning-for-automatic-speech-recognition-1910.112562019-10-29 https://scifaro.com/en/abs/towards-fine-grained-prosody-control-for-voice-conversion-1910.112692020-06-01 https://scifaro.com/en/abs/exploring-lexicon-free-modeling-units-for-end-to-end-korean-and-korean-english-code-switching-speech-recognition-1910.115902019-10-28 https://scifaro.com/en/abs/channel-adversarial-training-for-speaker-verification-and-diarization-1910.116432020-04-17 https://scifaro.com/en/abs/secost-sequential-co-supervision-for-large-scale-weakly-labeled-audio-event-detection-1910.117892020-05-05 https://scifaro.com/en/abs/mellotron-multispeaker-expressive-voice-synthesis-by-conditioning-on-rhythm-pitch-and-global-style-tokens-1910.119972019-10-29 https://scifaro.com/en/abs/model-agnostic-approaches-to-handling-noisy-labels-when-training-sound-event-classifiers-1910.120042019-10-29 https://scifaro.com/en/abs/a-holistic-approach-to-polyphonic-music-transcription-with-neural-networks-1910.120862019-10-29 https://scifaro.com/en/abs/meta-learning-for-end-to-end-low-resource-speech-recognition-1910.120942019-10-29 https://scifaro.com/en/abs/sound-event-recognition-in-a-smart-city-surveillance-context-1910.123692020-02-04 https://scifaro.com/en/abs/unsupervised-pre-training-for-sequence-to-sequence-speech-recognition-1910.124182020-01-03 https://scifaro.com/en/abs/accurate-and-scalable-version-identification-using-musically-motivated-embeddings-1910.125512020-04-14 https://scifaro.com/en/abs/interrupted-and-cascaded-permutation-invariant-training-for-speech-separation-1910.127062019-10-29 https://scifaro.com/en/abs/disentangling-timbre-and-singing-style-with-multi-singer-singing-synthesis-system-1910.130692019-10-30 https://scifaro.com/en/abs/on-investigation-of-unsupervised-speech-factorization-based-on-normalization-flow-1910.132882019-10-30 https://scifaro.com/en/abs/jointly-optimal-dereverberation-and-beamforming-1910.137072019-10-31 https://scifaro.com/en/abs/sms-wsj-database-performance-measures-and-baseline-recipe-for-multi-channel-source-separation-and-recognition-1910.139342019-10-31 https://scifaro.com/en/abs/w-net-bf-dnn-based-beamformer-using-joint-training-approach-1910.142622020-03-03 https://scifaro.com/en/abs/end-to-end-non-negative-autoencoders-for-sound-source-separation-1911.001022019-11-04 https://scifaro.com/en/abs/long-distance-detection-of-bioacoustic-events-with-per-channel-energy-normalization-1911.004172019-11-04 https://scifaro.com/en/abs/otomechanic-auditory-automobile-diagnostics-via-query-by-example-1911.020732019-11-07 https://scifaro.com/en/abs/finding-strength-in-weakness-learning-to-separate-sounds-with-weak-supervision-1911.021822020-09-01 https://scifaro.com/en/abs/the-sound-of-my-voice-speaker-representation-loss-for-target-voice-separation-1911.024112020-02-28 https://scifaro.com/en/abs/online-spectrogram-inversion-for-low-latency-audio-source-separation-1911.031282020-04-22 https://scifaro.com/en/abs/transformation-of-low-quality-device-recorded-speech-to-high-quality-speech-using-improved-segan-model-1911.039522019-11-21 https://scifaro.com/en/abs/voice-activity-detection-in-presence-of-background-noise-using-eeg-1911.042612020-03-18 https://scifaro.com/en/abs/visualizing-and-understanding-self-attention-based-music-tagging-1911.043852019-11-12 https://scifaro.com/en/abs/supervised-initialization-of-lstm-networks-for-fundamental-frequency-detection-in-noisy-speech-signals-1911.045802019-11-13 https://scifaro.com/en/abs/random-projections-of-mel-spectrograms-as-low-level-features-for-automatic-music-genre-classification-1911.046602019-11-13 https://scifaro.com/en/abs/phasen-a-phase-and-harmonics-aware-speech-enhancement-network-1911.046972019-11-13 https://scifaro.com/en/abs/using-musical-relationships-between-chord-labels-in-automatic-chord-extraction-tasks-1911.049732019-11-15 https://scifaro.com/en/abs/emotion-and-theme-recognition-in-music-with-frequency-aware-rf-regularized-cnns-1911.058332019-11-15 https://scifaro.com/en/abs/coincidence-categorization-and-consolidation-learning-to-recognize-sounds-with-minimal-supervision-1911.058942019-11-15 https://scifaro.com/en/abs/scene-aware-audio-rendering-via-deep-acoustic-analysis-1911.062452021-09-28 https://scifaro.com/en/abs/speaker-independence-of-neural-vocoders-and-their-effect-on-parametric-resynthesis-speech-enhancement-1911.062662019-11-15 https://scifaro.com/en/abs/deep-long-audio-inpainting-1911.064762019-11-18 https://scifaro.com/en/abs/sample-drop-detection-for-distant-speech-recognition-with-asynchronous-devices-distributed-in-space-1911.067132021-04-08 https://scifaro.com/en/abs/music-theme-recognition-using-cnn-and-self-attention-1911.070412019-11-19 https://scifaro.com/en/abs/n-hans-introducing-the-augsburg-neuro-holistic-audio-enhancement-system-1911.070622019-12-02 https://scifaro.com/en/abs/voice-a-sound-event-detection-dataset-for-generalizable-domain-adaptation-1911.070982019-11-26 https://scifaro.com/en/abs/a-spatial-sampling-approach-to-wave-field-synthesis-pbap-and-huygens-arrays-1911.075752019-11-19 https://scifaro.com/en/abs/improving-universal-sound-separation-using-sound-classification-1911.079512021-05-14 https://scifaro.com/en/abs/sequential-multi-frame-neural-beamforming-for-speech-separation-and-enhancement-1911.079532020-11-05 https://scifaro.com/en/abs/demystifying-tasnet-a-dissecting-approach-1911.088952020-02-06 https://scifaro.com/en/abs/joint-nn-supported-multichannel-reduction-of-acoustic-echo-reverberation-and-noise-1911.089342020-07-28 https://scifaro.com/en/abs/moving-to-communicate-moving-to-interact-patterns-of-body-motion-in-musical-duo-performance-1911.090182019-11-21 https://scifaro.com/en/abs/designing-virtual-soundscapes-for-alzheimer-s-disease-care-1911.094592019-11-22 https://scifaro.com/en/abs/prosody-transfer-in-neural-text-to-speech-using-global-pitch-and-loudness-features-1911.096452020-05-19 https://scifaro.com/en/abs/gankyoku-a-generative-adversarial-network-for-shakuhachi-music-1911.101192019-11-25 https://scifaro.com/en/abs/narrow-band-deep-filtering-for-multichannel-speech-enhancement-1911.107912020-09-24 https://scifaro.com/en/abs/improving-polyphonic-music-models-with-feature-rich-encoding-1911.117752021-08-11 https://scifaro.com/en/abs/schr-odingernn-generative-modeling-of-raw-audio-as-a-continuously-observed-quantum-state-1911.118792019-11-28 https://scifaro.com/en/abs/machine-learning-for-music-genre-multifaceted-review-and-experimentation-with-audioset-1911.126182019-12-02 https://scifaro.com/en/abs/j-net-randomly-weighted-u-net-for-audio-source-separation-1911.129262019-12-02 https://scifaro.com/en/abs/improving-voice-separation-by-incorporating-end-to-end-speech-recognition-1911.129282020-05-05 https://scifaro.com/en/abs/music-source-separation-in-the-waveform-domain-1911.132542021-04-29 https://scifaro.com/en/abs/three-orthogonal-dimensions-for-psychoacoustic-sonification-1912.007662020-01-22 https://scifaro.com/en/abs/waveflow-a-compact-flow-based-model-for-raw-audio-1912.012192020-06-26 https://scifaro.com/en/abs/hi-mia-a-far-field-text-dependent-speaker-verification-database-and-the-baselines-1912.012312020-02-04 https://scifaro.com/en/abs/pitchnet-unsupervised-singing-voice-conversion-with-pitch-adversarial-network-1912.018522020-02-19 https://scifaro.com/en/abs/towards-robust-neural-vocoding-for-speech-generation-a-survey-1912.024612020-08-21 https://scifaro.com/en/abs/voxsrc-2019-the-first-voxceleb-speaker-recognition-challenge-1912.025222019-12-06 https://scifaro.com/en/abs/a-supervised-speech-enhancement-approach-with-residual-noise-control-for-voice-communication-1912.036792019-12-10 https://scifaro.com/en/abs/mitas-a-compressed-time-domain-audio-separation-network-with-parameter-sharing-1912.038842019-12-10 https://scifaro.com/en/abs/sound-event-detection-of-weakly-labelled-data-with-cnn-transformer-and-automatic-threshold-optimization-1912.047612020-08-25 https://scifaro.com/en/abs/small-footprint-keyword-spotting-with-graph-convolutional-network-1912.051242019-12-12 https://scifaro.com/en/abs/voice-conversion-for-whispered-speech-synthesis-1912.052892020-01-22 https://scifaro.com/en/abs/encoding-musical-style-with-transformer-autoencoders-1912.055372020-07-01 https://scifaro.com/en/abs/learning-to-model-aspects-of-hearing-perception-using-neural-loss-functions-1912.056832019-12-13 https://scifaro.com/en/abs/environmental-sound-classification-with-parallel-temporal-spectral-attention-1912.068082020-05-22 https://scifaro.com/en/abs/scattering-in-feedback-delay-networks-1912.088882020-06-09 https://scifaro.com/en/abs/learning-singing-from-speech-1912.101282019-12-24 https://scifaro.com/en/abs/panns-large-scale-pretrained-audio-neural-networks-for-audio-pattern-recognition-1912.102112020-08-25 https://scifaro.com/en/abs/deep-audio-prior-1912.102922019-12-24 https://scifaro.com/en/abs/emotion-recognition-from-speech-1912.104582019-12-24 https://scifaro.com/en/abs/wykorzystanie-sztucznej-inteligencji-do-generowania-tre-sci-muzycznych-1912.108152019-12-24 https://scifaro.com/en/abs/audio-based-automatic-mating-success-prediction-of-giant-pandas-1912.113332026-05-20 https://scifaro.com/en/abs/thuee-system-description-for-nist-2019-sre-cts-challenge-1912.115852019-12-30 https://scifaro.com/en/abs/utterance-level-permutation-invariant-training-with-latency-controlled-blstm-for-single-channel-multi-talker-speech-separation-1912.116132019-12-30 https://scifaro.com/en/abs/score-and-lyrics-free-singing-voice-generation-1912.117472020-07-22 https://scifaro.com/en/abs/moevc-a-mixture-of-experts-voice-conversion-system-with-sparse-gating-mechanism-for-accelerating-online-computation-1912.119842019-12-30 https://scifaro.com/en/abs/cross-scale-attention-model-for-acoustic-event-classification-1912.120112020-06-17 https://scifaro.com/en/abs/nnaudio-an-on-the-fly-gpu-audio-to-spectrogram-conversion-toolbox-using-1d-convolution-neural-networks-1912.120552020-08-25 https://scifaro.com/en/abs/complex-cepstrum-based-decomposition-of-speech-for-glottal-source-estimation-1912.126022020-01-01 https://scifaro.com/en/abs/glottal-source-processing-from-analysis-to-applications-1912.126042020-01-01 https://scifaro.com/en/abs/a-comparative-study-of-pitch-extraction-algorithms-on-a-large-variety-of-singing-sounds-1912.126092020-01-01 https://scifaro.com/en/abs/neural-architecture-search-on-acoustic-scene-classification-1912.128252020-08-06 https://scifaro.com/en/abs/causal-anticausal-decomposition-of-speech-using-complex-cepstrum-for-glottal-source-estimation-1912.128432020-01-01 https://scifaro.com/en/abs/using-a-pitch-synchronous-residual-codebook-for-hybrid-hmm-frame-selection-speech-synthesis-1912.128872020-01-01 https://scifaro.com/en/abs/phase-based-information-for-voice-pathology-detection-2001.003722020-01-03 https://scifaro.com/en/abs/deep-representation-learning-in-speech-processing-challenges-recent-advances-and-future-trends-2001.003782021-09-27 https://scifaro.com/en/abs/temporal-spatial-neural-filter-direction-informed-end-to-end-multi-channel-target-speech-separation-2001.003912020-01-03 https://scifaro.com/en/abs/joint-robust-voicing-detection-and-pitch-estimation-based-on-residual-harmonics-2001.004592020-01-03 https://scifaro.com/en/abs/detection-of-glottal-closure-instants-from-speech-signals-a-quantitative-review-2001.004732020-01-03 https://scifaro.com/en/abs/a-comparative-evaluation-of-pitch-modification-techniques-2001.005792020-01-06 https://scifaro.com/en/abs/assessment-of-audio-features-for-automatic-cough-detection-2001.005802020-01-06 https://scifaro.com/en/abs/eigenresiduals-for-improved-parametric-speech-synthesis-2001.005812020-01-06 https://scifaro.com/en/abs/excitation-based-voice-quality-analysis-and-modification-2001.005822020-01-06 https://scifaro.com/en/abs/on-the-mutual-information-between-source-and-filter-contributions-for-voice-pathology-detection-2001.005832020-01-06 https://scifaro.com/en/abs/a-comparative-study-of-glottal-source-estimation-techniques-2001.008402020-01-06 https://scifaro.com/en/abs/glottal-closure-and-opening-instant-detection-from-speech-signals-2001.008412020-01-06 https://scifaro.com/en/abs/a-deterministic-plus-stochastic-model-of-the-residual-signal-for-improved-parametric-speech-synthesis-2001.008422020-01-06 https://scifaro.com/en/abs/the-deterministic-plus-stochastic-model-of-the-residual-signal-and-its-applications-2001.010002020-01-07 https://scifaro.com/en/abs/modeling-musical-structure-with-artificial-neural-networks-2001.017202020-01-08 https://scifaro.com/en/abs/automatic-melody-harmonization-with-triad-chords-a-comparative-study-2001.023602021-04-28 https://scifaro.com/en/abs/streaming-automatic-speech-recognition-with-the-transformer-model-2001.026742020-07-02 https://scifaro.com/en/abs/cure-dataset-ladder-networks-for-audio-event-classification-2001.038962020-01-14 https://scifaro.com/en/abs/learning-style-aware-symbolic-music-representations-by-adversarial-autoencoders-2001.054942020-02-21 https://scifaro.com/en/abs/squeezewave-extremely-lightweight-vocoders-for-on-device-speech-synthesis-2001.056852020-01-17 https://scifaro.com/en/abs/supervised-speaker-embedding-de-mixing-in-two-speaker-environment-2001.063972021-02-08 https://scifaro.com/en/abs/jvs-music-japanese-multispeaker-singing-voice-corpus-2001.070442020-01-22 https://scifaro.com/en/abs/non-negative-matrix-factorization-convolutional-neural-network-nmf-cnn-for-sound-event-detection-2001.078742020-01-23 https://scifaro.com/en/abs/the-interspeech-2020-deep-noise-suppression-challenge-datasets-subjective-speech-quality-and-testing-framework-2001.086622020-04-21 https://scifaro.com/en/abs/scattering-features-for-multimodal-gait-recognition-2001.088302020-01-27 https://scifaro.com/en/abs/learning-multi-instrument-classification-with-partial-labels-2001.088642020-01-27 https://scifaro.com/en/abs/lafurca-iterative-refined-speech-separation-based-on-context-aware-dual-path-parallel-bi-lstm-2001.089982020-10-28 https://scifaro.com/en/abs/regression-based-music-emotion-prediction-using-triplet-neural-networks-2001.099882020-07-22 https://scifaro.com/en/abs/the-impact-of-audio-input-representations-on-neural-network-based-music-transcription-2001.099892020-07-22 https://scifaro.com/en/abs/time-domain-audio-source-separation-based-on-wave-u-net-combined-with-discrete-wavelet-transform-2001.101902022-12-05 https://scifaro.com/en/abs/sound-field-reconstruction-in-rooms-inpainting-meets-super-resolution-2001.112632020-08-07 https://scifaro.com/en/abs/continuous-speech-separation-dataset-and-analysis-2001.114822020-05-08 https://scifaro.com/en/abs/channel-attention-dense-u-net-for-multichannel-speech-enhancement-2001.115422020-02-03 https://scifaro.com/en/abs/multi-channel-acoustic-modeling-using-mixed-bitrate-opus-compression-2002.001222020-02-04 https://scifaro.com/en/abs/fully-learnable-front-end-for-multi-channel-acoustic-modeling-using-semi-supervised-learning-2002.001252020-05-05 https://scifaro.com/en/abs/pop-music-transformer-beat-based-modeling-and-generation-of-expressive-pop-piano-compositions-2002.002122020-08-11 https://scifaro.com/en/abs/single-channel-speech-enhancement-using-temporal-convolutional-recurrent-neural-networks-2002.003192020-02-06 https://scifaro.com/en/abs/the-ffsvc-2020-evaluation-plan-2002.003872020-02-06 https://scifaro.com/en/abs/dropclass-and-dropadapt-dropping-classes-for-deep-speaker-representation-learning-2002.004532020-02-04 https://scifaro.com/en/abs/sound-event-detection-with-depthwise-separable-and-dilated-convolutions-2002.004762020-02-04 https://scifaro.com/en/abs/regularized-fast-multichannel-nonnegative-matrix-factorization-with-ilrma-based-prior-distribution-of-joint-diagonalization-process-2002.005792020-02-04 https://scifaro.com/en/abs/oral-billiards-2002.007912021-01-06 https://scifaro.com/en/abs/limitations-of-weak-labels-for-embedding-and-tagging-2002.016872020-12-08 https://scifaro.com/en/abs/source-separation-with-weakly-labelled-data-an-approach-to-computational-auditory-scene-analysis-2002.020652020-02-07 https://scifaro.com/en/abs/continuous-melody-generation-via-disentangled-short-term-representations-and-structural-conditions-2002.023932020-03-03 https://scifaro.com/en/abs/robust-multi-channel-speech-recognition-using-frequency-aligned-network-2002.025202020-02-10 https://scifaro.com/en/abs/modeling-musical-onset-probabilities-via-neural-distribution-learning-2002.035592020-02-11 https://scifaro.com/en/abs/robust-deep-learning-framework-for-predicting-respiratory-anomalies-and-diseases-2002.038942020-02-11 https://scifaro.com/en/abs/on-cross-corpus-generalization-of-deep-learning-based-speech-enhancement-2002.040272020-08-11 https://scifaro.com/en/abs/unsupervised-learning-of-audio-perception-for-robotics-applications-learning-to-project-data-to-t-sne-umap-space-2002.040762020-02-12 https://scifaro.com/en/abs/robust-acoustic-scene-classification-using-a-multi-spectrogram-encoder-decoder-framework-2002.045022020-02-12 https://scifaro.com/en/abs/cgcnn-complex-gabor-convolutional-neural-network-on-raw-speech-2002.045692020-02-12 https://scifaro.com/en/abs/learning-with-out-of-distribution-data-for-audio-classification-2002.046832020-02-13 https://scifaro.com/en/abs/periodicity-pitch-detection-in-complex-harmonies-on-eeg-timeline-data-2002.049902024-11-19 https://scifaro.com/en/abs/deep-autotuner-a-pitch-correcting-network-for-singing-performances-2002.055112020-02-25 https://scifaro.com/en/abs/sound-event-detection-by-multitask-learning-of-sound-events-and-scenes-with-soft-scene-labels-2002.058482020-02-17 https://scifaro.com/en/abs/dnn-based-distributed-multichannel-mask-estimation-for-speech-enhancement-in-microphone-arrays-2002.060162020-03-17 https://scifaro.com/en/abs/hodge-and-podge-hybrid-supervised-sound-event-detection-with-multi-hot-mixmatch-and-composition-consistence-training-2002.060212020-02-17 https://scifaro.com/en/abs/deep-speaker-embeddings-for-far-field-speaker-recognition-on-short-utterances-2002.060332020-02-17 https://scifaro.com/en/abs/many-to-many-voice-conversion-using-conditional-cycle-consistent-adversarial-networks-2002.063282020-02-18 https://scifaro.com/en/abs/interactive-text-to-speech-system-via-joint-style-analysis-2002.067582020-09-23 https://scifaro.com/en/abs/lifter-training-and-sub-band-modeling-for-computationally-efficient-and-high-quality-voice-conversion-using-spectral-differentials-2002.067782020-02-18 https://scifaro.com/en/abs/addressing-the-confounds-of-accompaniments-in-singer-identification-2002.068172020-02-18 https://scifaro.com/en/abs/meta-learning-extractors-for-music-source-separation-2002.070162020-02-18 https://scifaro.com/en/abs/performance-analysis-of-adaptive-noise-cancellation-for-speech-signal-2002.076772020-02-19 https://scifaro.com/en/abs/convergence-guaranteed-independent-positive-semidefinite-tensor-analysis-based-on-student-s-t-distribution-2002.085822020-02-21 https://scifaro.com/en/abs/a-comparative-study-of-western-and-chinese-classical-music-based-on-soundscape-models-2002.090212020-02-24 https://scifaro.com/en/abs/decibel-improving-audio-chord-estimation-for-popular-music-by-alignment-and-integration-of-crowd-sourced-symbolic-representations-2002.097482020-02-25 https://scifaro.com/en/abs/rhythm-chord-and-melody-generation-for-lead-sheets-using-recurrent-neural-networks-2002.102662020-02-25 https://scifaro.com/en/abs/autofoley-artificial-synthesis-of-synchronized-sound-tracks-for-silent-videos-with-deep-learning-2002.109812020-06-29 https://scifaro.com/en/abs/rtmobile-beyond-real-time-mobile-acceleration-of-rnns-for-speech-recognition-2002.114742020-02-28 https://scifaro.com/en/abs/an-open-set-recognition-and-few-shot-learning-dataset-for-audio-event-classification-in-domestic-environments-2002.115612022-04-12 https://scifaro.com/en/abs/harmonics-based-representation-in-clarinet-tone-quality-evaluation-2003.004142020-03-03 https://scifaro.com/en/abs/one-or-two-components-the-scattering-transform-answers-2003.010372020-06-26 https://scifaro.com/en/abs/a-neural-network-based-framework-for-archetypical-sound-synthesis-2003.031602020-03-11 https://scifaro.com/en/abs/wavelet-based-spatial-audio-framework-2003.032872020-03-09 https://scifaro.com/en/abs/high-resolution-speaker-counting-in-reverberant-rooms-using-crnn-with-ambisonics-features-2003.078392020-03-18 https://scifaro.com/en/abs/cross-lingual-cross-corpus-speech-emotion-recognition-2003.079962020-03-20 https://scifaro.com/en/abs/multi-source-doa-estimation-through-pattern-recognition-of-the-modal-coherence-of-a-reverberant-soundfield-2003.080502020-03-19 https://scifaro.com/en/abs/detecting-replay-attacks-using-multi-channel-audio-a-neural-network-based-method-2003.082252020-07-07 https://scifaro.com/en/abs/acoustic-scene-classification-with-squeeze-excitation-residual-networks-2003.092842020-06-29 https://scifaro.com/en/abs/exploring-inherent-properties-of-the-monophonic-melody-of-songs-2003.092872020-03-23 https://scifaro.com/en/abs/a-quantum-vocal-theory-of-sound-2003.096322020-03-24 https://scifaro.com/en/abs/a-time-domain-monaural-speech-enhancement-with-feedback-learning-2003.098152020-11-06 https://scifaro.com/en/abs/multi-channel-u-net-for-music-source-separation-2003.104142020-09-07 https://scifaro.com/en/abs/bulbar-als-detection-based-on-analysis-of-voice-perturbation-and-vibrato-2003.108062020-03-25 https://scifaro.com/en/abs/covid-19-and-computer-audition-an-overview-on-what-speech-sound-analysis-could-contribute-in-the-sars-cov-2-corona-crisis-2003.111172020-03-26 https://scifaro.com/en/abs/voice-activity-detection-in-the-wild-via-weakly-supervised-sound-event-detection-2003.122222020-08-18 https://scifaro.com/en/abs/a-recursive-network-with-dynamic-attention-for-monaural-speech-enhancement-2003.129732020-04-02 https://scifaro.com/en/abs/am-mobilenet1d-a-portable-model-for-speaker-recognition-2004.001322020-10-20 https://scifaro.com/en/abs/improving-perceptual-quality-of-drum-transcription-with-the-expanded-groove-midi-dataset-2004.001882020-12-02 https://scifaro.com/en/abs/emotional-video-to-audio-transformation-using-deep-recurrent-neural-networks-and-a-neuro-fuzzy-system-2004.021132020-04-07 https://scifaro.com/en/abs/conditioned-source-separation-for-music-instrument-performances-2004.038732021-07-09 https://scifaro.com/en/abs/gga-mg-generative-genetic-algorithm-for-music-generation-2004.046872020-04-10 https://scifaro.com/en/abs/musical-features-for-automatic-music-transcription-evaluation-2004.071712020-04-16 https://scifaro.com/en/abs/speaker-recognition-in-bengali-language-from-nonlinear-features-2004.078202020-04-20 https://scifaro.com/en/abs/beat-detection-and-automatic-annotation-of-the-music-of-bharatanatyam-dance-using-speech-recognition-techniques-2004.082692020-04-20 https://scifaro.com/en/abs/chime-6-challenge-tackling-multispeaker-speech-recognition-for-unsegmented-recordings-2004.092492020-05-05 https://scifaro.com/en/abs/end-to-end-speech-to-dialog-act-recognition-2004.114192020-07-30 https://scifaro.com/en/abs/jointly-trained-transformers-models-for-spoken-language-translation-2004.121112020-04-28 https://scifaro.com/en/abs/depthwise-separable-convolutional-resnet-with-squeeze-and-excitation-blocks-for-small-footprint-keyword-spotting-2004.122002021-07-23 https://scifaro.com/en/abs/adversarial-feature-learning-and-unsupervised-clustering-based-speech-synthesis-for-found-data-with-acoustic-and-textual-noise-2004.135952020-10-28 https://scifaro.com/en/abs/seeing-voices-and-hearing-voices-learning-discriminative-embeddings-using-cross-modal-self-supervision-2004.143262020-11-05 https://scifaro.com/en/abs/addressing-missing-labels-in-large-scale-sound-event-recognition-using-a-teacher-student-framework-with-loss-masking-2005.008782020-07-28 https://scifaro.com/en/abs/dual-track-music-generation-using-deep-learning-2005.043532020-05-12 https://scifaro.com/en/abs/cognitive-driven-convolutional-beamforming-using-eeg-based-auditory-attention-decoding-2005.046692020-05-12 https://scifaro.com/en/abs/chirp-complex-cepstrum-based-decomposition-for-asynchronous-glottal-analysis-2005.047242020-05-12 https://scifaro.com/en/abs/gacela-a-generative-adversarial-context-encoder-for-long-audio-inpainting-2005.050322021-06-10 https://scifaro.com/en/abs/online-monaural-speech-enhancement-using-delayed-subband-lstm-2005.050372023-12-13 https://scifaro.com/en/abs/multi-band-melgan-faster-waveform-generation-for-high-quality-text-to-speech-2005.051062020-11-18 https://scifaro.com/en/abs/featherwave-an-efficient-high-fidelity-neural-vocoder-with-multi-band-linear-prediction-2005.055512020-09-04 https://scifaro.com/en/abs/adadurian-few-shot-adaptation-for-neural-text-to-speech-with-durian-2005.056422020-05-13 https://scifaro.com/en/abs/creative-quantum-computing-inverse-fft-sound-synthesis-adaptive-sequencing-and-musical-composition-2005.058322021-12-07 https://scifaro.com/en/abs/the-ioa-system-for-deep-noise-suppression-challenge-using-a-framework-combining-dynamic-attention-and-recursive-learning-2005.058552020-05-13 https://scifaro.com/en/abs/flowtron-an-autoregressive-flow-based-generative-network-for-text-to-speech-synthesis-2005.059572020-07-17 https://scifaro.com/en/abs/converting-anyone-s-emotion-towards-speaker-independent-emotional-voice-conversion-2005.070252020-10-14 https://scifaro.com/en/abs/facefilter-audio-visual-speech-separation-using-still-images-2005.070742020-11-05 https://scifaro.com/en/abs/semi-supervised-neural-chord-estimation-based-on-a-variational-autoencoder-with-latent-chord-labels-and-features-2005.070912020-09-09 https://scifaro.com/en/abs/reverberation-modeling-for-source-filter-based-neural-vocoder-2005.073792020-05-18 https://scifaro.com/en/abs/glottal-source-estimation-using-an-automatic-chirp-decomposition-2005.078972020-05-19 https://scifaro.com/en/abs/oscillating-statistical-moments-for-speech-polarity-detection-2005.079012020-05-19 https://scifaro.com/en/abs/voice-activity-detection-scheme-by-combining-dnn-model-with-gmm-model-2005.081842020-05-19 https://scifaro.com/en/abs/augmenting-generative-adversarial-networks-for-speech-emotion-recognition-2005.084472020-07-28 https://scifaro.com/en/abs/deep-architecture-enhancing-robustness-to-noise-adversarial-attacks-and-cross-corpus-setting-for-speech-emotion-recognition-2005.084532020-07-28 https://scifaro.com/en/abs/surfboard-audio-feature-extraction-for-modern-machine-learning-2005.088482020-05-19 https://scifaro.com/en/abs/saving-the-sonorine-photovisual-audio-recovery-using-image-processing-and-computer-vision-techniques-2005.089442020-06-05 https://scifaro.com/en/abs/acoustic-echo-cancellation-by-combining-adaptive-digital-filter-and-recurrent-neural-network-2005.092372020-05-20 https://scifaro.com/en/abs/a-lite-microphone-array-beamforming-scheme-with-maximum-signal-to-noise-ratio-filter-2005.092382020-05-20 https://scifaro.com/en/abs/competitive-wakeup-scheme-for-distributed-devices-2005.092422020-05-20 https://scifaro.com/en/abs/saddel-joint-speech-separation-and-denoising-model-based-on-multitask-learning-2005.099662020-05-21 https://scifaro.com/en/abs/sparsity-based-audio-declipping-methods-selected-overview-new-algorithms-and-large-scale-evaluation-2005.102282020-12-01 https://scifaro.com/en/abs/conversational-end-to-end-tts-for-voice-agent-2005.104382020-11-17 https://scifaro.com/en/abs/simplified-self-attention-for-transformer-based-end-to-end-speech-recognition-2005.104632020-11-18 https://scifaro.com/en/abs/a-robust-interpretable-deep-learning-classifier-for-heart-anomaly-detection-without-segmentation-2005.104802020-09-30 https://scifaro.com/en/abs/an-approach-to-beethoven-s-10th-symphony-2005.105392020-05-22 https://scifaro.com/en/abs/inaudible-adversarial-perturbations-for-targeted-attack-in-speaker-recognition-2005.106372020-05-25 https://scifaro.com/en/abs/large-scale-evaluation-of-importance-maps-in-automatic-speech-recognition-2005.109292020-12-22 https://scifaro.com/en/abs/power-pooling-operators-and-confidence-learning-for-semi-supervised-sound-event-detection-2005.114592020-05-26 https://scifaro.com/en/abs/end-to-end-auditory-object-recognition-via-inception-nucleus-2005.121952020-05-26 https://scifaro.com/en/abs/speaker-and-posture-classification-using-instantaneous-intraspeech-breathing-features-2005.122302020-05-26 https://scifaro.com/en/abs/infantnet-a-deep-neural-network-for-analyzing-infant-vocalizations-2005.124122020-05-27 https://scifaro.com/en/abs/sound-context-classification-basing-on-join-learning-model-and-multi-spectrogram-features-2005.127792020-05-27 https://scifaro.com/en/abs/tonal-harmony-and-the-topology-of-dynamical-score-networks-2006.010332021-01-28 https://scifaro.com/en/abs/an-asr-guided-speech-intelligibility-measure-for-tts-model-selection-2006.014632020-06-03 https://scifaro.com/en/abs/streaming-chunk-aware-multihead-attention-for-online-end-to-end-speech-recognition-2006.017122020-06-03 https://scifaro.com/en/abs/san-m-memory-equipped-self-attention-for-end-to-end-speech-recognition-2006.017132020-06-03 https://scifaro.com/en/abs/cross-entropy-as-objective-function-for-music-generative-models-2006.022172020-06-04 https://scifaro.com/en/abs/a-study-on-more-realistic-room-simulation-for-far-field-keyword-spotting-2006.027742020-11-19 https://scifaro.com/en/abs/pjs-phoneme-balanced-japanese-singing-voice-corpus-2006.029592020-06-05 https://scifaro.com/en/abs/a-new-method-towards-speech-files-local-features-investigation-2006.033882020-06-08 https://scifaro.com/en/abs/audio-captioning-using-gated-recurrent-units-2006.033912021-01-05 https://scifaro.com/en/abs/application-of-optimization-and-simulation-to-musical-composition-that-emerges-dynamically-during-ensemble-singing-performance-2006.034712020-06-08 https://scifaro.com/en/abs/end-to-end-adversarial-text-to-speech-2006.035752021-03-18 https://scifaro.com/en/abs/wavenode-a-continuous-normalizing-flow-for-speech-synthesis-2006.045982020-07-06 https://scifaro.com/en/abs/the-hitchhiker-s-guide-to-the-all-interval-12-tone-rows-2006.050072020-06-11 https://scifaro.com/en/abs/c-sl-contrastive-sound-localization-with-inertial-acoustic-sensors-2006.050712020-06-11 https://scifaro.com/en/abs/audino-a-modern-annotation-tool-for-audio-and-speech-2006.052362021-11-30 https://scifaro.com/en/abs/exploring-automatic-diagnosis-of-covid-19-from-crowdsourced-respiratory-sound-data-2006.059192021-01-19 https://scifaro.com/en/abs/perceiving-music-quality-with-gans-2006.062872021-04-06 https://scifaro.com/en/abs/dynamic-attention-based-generative-adversarial-network-with-phase-post-processing-for-speech-enhancement-2006.075302020-06-16 https://scifaro.com/en/abs/assisted-music-creation-with-flow-machines-towards-new-categories-of-new-2006.092322021-01-05 https://scifaro.com/en/abs/real-time-visualisation-of-fugue-played-by-a-string-quartet-2006.101682020-06-19 https://scifaro.com/en/abs/artificial-musical-intelligence-a-survey-2006.105532020-06-19 https://scifaro.com/en/abs/musical-smart-city-perspectives-on-ubiquitous-sonification-2006.123052020-06-23 https://scifaro.com/en/abs/bach-or-mock-a-grading-function-for-chorales-in-the-style-of-j-s-bach-2006.133292020-07-20 https://scifaro.com/en/abs/incorporating-music-knowledge-in-continual-dataset-augmentation-for-music-generation-2006.133312020-07-22 https://scifaro.com/en/abs/modeling-baroque-two-part-counterpoint-with-neural-machine-translation-2006.142212022-01-21 https://scifaro.com/en/abs/sound-event-localization-and-detection-using-squeeze-excitation-residual-cnns-2006.144362021-08-02 https://scifaro.com/en/abs/sound-event-detection-using-duration-robust-loss-function-2006.152532020-06-30 https://scifaro.com/en/abs/beneath-or-beyond-the-surface-discovering-voice-leading-patterns-with-skip-grams-2006.153992020-06-30 https://scifaro.com/en/abs/data-augmentation-versus-noise-compensation-for-x-vector-speaker-recognition-systems-in-noisy-environments-2006.159032020-06-30 https://scifaro.com/en/abs/a-sequential-self-teaching-approach-for-improving-generalization-in-sound-event-recognition-2007.001442020-07-02 https://scifaro.com/en/abs/consistent-independent-low-rank-matrix-analysis-for-determined-blind-source-separation-2007.002742020-12-30 https://scifaro.com/en/abs/joint-diagonalizability-constrained-multichannel-nonnegative-matrix-factorization-based-on-multivariate-complex-sub-gaussian-distribution-2007.004162020-07-02 https://scifaro.com/en/abs/orchideasol-a-dataset-of-extended-instrumental-techniques-for-computer-aided-orchestration-2007.007632020-07-03 https://scifaro.com/en/abs/spot-the-conversation-speaker-diarisation-in-the-wild-2007.012162021-08-17 https://scifaro.com/en/abs/revisiting-representation-learning-for-singing-voice-separation-with-sinkhorn-distances-2007.027802021-01-11 https://scifaro.com/en/abs/acoustic-scene-classification-with-spectrogram-processing-strategies-2007.037812020-07-09 https://scifaro.com/en/abs/training-sound-event-detection-on-a-heterogeneous-dataset-2007.039312020-07-09 https://scifaro.com/en/abs/improving-sound-event-detection-in-domestic-environments-using-sound-separation-2007.039322020-07-09 https://scifaro.com/en/abs/information-communication-and-music-recognition-of-musical-dissonance-and-consonance-in-a-simple-reservoir-computing-system-2007.043602020-07-10 https://scifaro.com/en/abs/multi-task-regularization-based-on-infrequent-classes-for-audio-captioning-2007.046602020-07-10 https://scifaro.com/en/abs/rwcp-ssd-onomatopoeia-onomatopoeic-word-dataset-for-environmental-sound-synthesis-2007.047192020-07-10 https://scifaro.com/en/abs/conditioned-time-dilated-convolutions-for-sound-event-detection-2007.051832020-07-13 https://scifaro.com/en/abs/overcoming-label-noise-in-audio-event-detection-using-sequential-labeling-2007.051912020-07-13 https://scifaro.com/en/abs/otoworld-towards-learning-to-separate-by-learning-to-move-2007.061232020-07-14 https://scifaro.com/en/abs/a-deep-learning-approach-for-low-latency-packet-loss-concealment-of-audio-signals-in-networked-music-performance-applications-2007.071322020-07-15 https://scifaro.com/en/abs/learning-frame-level-attention-for-environmental-sound-classification-2007.072412020-07-15 https://scifaro.com/en/abs/transformer-xl-based-music-generation-with-multiple-sequences-of-time-valued-notes-2007.072442020-07-15 https://scifaro.com/en/abs/automatic-detection-of-cue-points-for-dj-mixing-2007.084112020-07-17 https://scifaro.com/en/abs/self-supervised-learning-of-context-aware-pitch-prosody-representations-2007.090602022-09-12 https://scifaro.com/en/abs/dnn-speaker-tracking-with-embeddings-2007.102482020-07-21 https://scifaro.com/en/abs/wav2shape-hearing-the-shape-of-a-drum-machine-2007.102992020-07-21 https://scifaro.com/en/abs/guided-multi-branch-learning-systems-for-sound-event-detection-with-sound-separation-2007.106382020-11-03 https://scifaro.com/en/abs/time-frequency-scattering-accurately-models-auditory-similarities-between-instrumental-playing-techniques-2007.109262020-11-11 https://scifaro.com/en/abs/augmentation-adversarial-training-for-self-supervised-speaker-recognition-2007.120852020-11-02 https://scifaro.com/en/abs/dd-cnn-depthwise-disout-convolutional-neural-network-for-low-complexity-acoustic-scene-classification-2007.128642020-07-28 https://scifaro.com/en/abs/robust-front-end-for-multi-channel-asr-using-flow-based-density-estimation-2007.129032020-07-28 https://scifaro.com/en/abs/self-supervised-neural-audio-visual-sound-source-localization-via-probabilistic-spatial-modeling-2007.139762020-07-29 https://scifaro.com/en/abs/efficient-independent-vector-extraction-of-dominant-target-speech-2008.001432020-08-04 https://scifaro.com/en/abs/audiolime-listenable-explanations-using-source-separation-2008.005822020-09-08 https://scifaro.com/en/abs/the-jazz-transformer-on-the-front-line-exploring-the-shortcomings-of-ai-composed-music-through-quantitative-measures-2008.013072020-08-05 https://scifaro.com/en/abs/timbre-latent-space-exploration-and-creative-aspects-2008.013702020-08-18 https://scifaro.com/en/abs/neural-granular-sound-synthesis-2008.013932021-07-06 https://scifaro.com/en/abs/automatic-composition-of-guitar-tabs-by-transformers-and-groove-modeling-2008.014312020-08-05 https://scifaro.com/en/abs/expressive-tts-training-with-frame-and-style-reconstruction-loss-2008.014902021-04-13 https://scifaro.com/en/abs/muspy-a-toolkit-for-symbolic-music-generation-2008.019512020-08-06 https://scifaro.com/en/abs/neural-loop-combiner-neural-network-models-for-assessing-the-compatibility-of-loops-2008.020112022-02-18 https://scifaro.com/en/abs/on-the-characterization-of-expressive-performance-in-classical-music-first-results-of-the-con-espressione-game-2008.021942020-08-06 https://scifaro.com/en/abs/exact-parallelizable-dynamic-time-warping-alignment-with-linear-memory-2008.027342020-08-07 https://scifaro.com/en/abs/few-shot-drum-transcription-in-polyphonic-music-2008.027912020-08-07 https://scifaro.com/en/abs/symbolic-music-playing-techniques-generation-as-a-tagging-problem-2008.034362020-10-14 https://scifaro.com/en/abs/a-novel-method-for-obtaining-diffuse-field-measurements-for-microphone-calibration-2008.035132020-08-11 https://scifaro.com/en/abs/metric-learning-vs-classification-for-disentangled-music-representation-learning-2008.037292020-08-14 https://scifaro.com/en/abs/adaptive-music-automated-music-composition-and-distribution-2008.044152022-01-26 https://scifaro.com/en/abs/plugsonic-a-web-and-mobile-based-platform-for-binaural-audio-and-sonic-narratives-2008.046382020-08-12 https://scifaro.com/en/abs/enhancing-speech-intelligibility-in-text-to-speech-synthesis-using-speaking-style-conversion-2008.058092020-08-14 https://scifaro.com/en/abs/mmm-exploring-conditional-multi-track-music-generation-with-the-transformer-2008.060482020-08-24 https://scifaro.com/en/abs/computer-generated-music-for-tabletop-role-playing-games-2008.070092020-08-18 https://scifaro.com/en/abs/learning-interpretable-representation-for-controllable-polyphonic-music-generation-2008.071222020-08-18 https://scifaro.com/en/abs/pop909-a-pop-song-dataset-for-music-arrangement-generation-2008.071422020-08-18 https://scifaro.com/en/abs/popmag-pop-music-accompaniment-generation-2008.077032020-08-19 https://scifaro.com/en/abs/detecting-aedes-aegypti-mosquitoes-through-audio-classification-with-convolutional-neural-networks-2008.090242021-08-02 https://scifaro.com/en/abs/a-efficient-multimodal-framework-for-large-scale-emotion-recognition-by-fusing-music-and-electrodermal-activity-signals-2008.097432022-05-16 https://scifaro.com/en/abs/translating-paintings-into-music-using-neural-networks-2008.099602020-08-25 https://scifaro.com/en/abs/crnns-for-urban-sound-tagging-with-spatiotemporal-context-2008.104132020-10-01 https://scifaro.com/en/abs/medley2k-a-dataset-of-medley-transitions-2008.111592020-08-26 https://scifaro.com/en/abs/angus-real-time-manipulation-of-vocal-roughness-for-emotional-speech-transformations-2008.112412020-08-27 https://scifaro.com/en/abs/exploring-british-accents-modelling-the-trap-bath-split-with-functional-data-analysis-2008.122332022-02-01 https://scifaro.com/en/abs/non-local-musical-statistics-as-guides-for-audio-to-score-piano-transcription-2008.127102021-04-06 https://scifaro.com/en/abs/towards-musically-meaningful-explanations-using-source-separation-2009.020512020-09-07 https://scifaro.com/en/abs/digital-envelope-estimation-via-geometric-properties-of-an-arbitrary-real-signal-2009.028602021-10-25 https://scifaro.com/en/abs/exploiting-multi-modal-features-from-pre-trained-networks-for-alzheimer-s-dementia-recognition-2009.040702021-03-04 https://scifaro.com/en/abs/a-dataset-and-classification-model-for-malay-hindi-tamil-and-chinese-music-2009.044592020-09-16 https://scifaro.com/en/abs/sonyc-ust-v2-an-urban-sound-tagging-dataset-with-spatiotemporal-context-2009.051882020-09-14 https://scifaro.com/en/abs/a-study-of-vowel-nasalization-using-instantaneous-spectra-2009.064162020-09-15 https://scifaro.com/en/abs/cough-against-covid-evidence-of-covid-19-signature-in-cough-sounds-2009.087902020-09-24 https://scifaro.com/en/abs/optimizing-speech-emotion-recognition-using-manta-ray-based-feature-selection-2009.089092020-09-21 https://scifaro.com/en/abs/correlating-subword-articulation-with-lip-shapes-for-embedding-aware-audio-visual-speech-enhancement-2009.095612020-09-22 https://scifaro.com/en/abs/the-coughvid-crowdsourcing-dataset-a-corpus-for-the-study-of-large-scale-cough-analysis-algorithms-2009.116442021-06-24 https://scifaro.com/en/abs/timbre-space-representation-of-a-subtractive-synthesizer-2009.117062020-09-25 https://scifaro.com/en/abs/bespoke-neural-networks-for-score-informed-source-separation-2009.137292020-09-30 https://scifaro.com/en/abs/residual-acoustic-echo-suppression-based-on-efficient-multi-task-convolutional-neural-network-2009.139312020-11-09 https://scifaro.com/en/abs/rethinking-evaluation-methodology-for-audio-to-score-alignment-2009.143742020-10-01 https://scifaro.com/en/abs/the-midi-degradation-toolkit-symbolic-music-augmentation-and-correction-2010.000592020-10-02 https://scifaro.com/en/abs/phase-retrieval-with-bregman-divergences-and-application-to-audio-signal-recovery-2010.003922021-02-24 https://scifaro.com/en/abs/fsd50k-an-open-dataset-of-human-labeled-sound-events-2010.004752022-04-26 https://scifaro.com/en/abs/deep-composer-classification-using-symbolic-representation-2010.008232020-10-27 https://scifaro.com/en/abs/resonant-processing-of-instrumental-sound-controlled-by-spatial-position-2010.015722020-10-06 https://scifaro.com/en/abs/multi-microphone-complex-spectral-mapping-for-utterance-wise-and-continuous-speech-separation-2010.017032021-05-25 https://scifaro.com/en/abs/high-resolution-piano-transcription-with-pedals-by-regressing-onset-and-offset-times-2010.018152021-08-03 https://scifaro.com/en/abs/voicegrad-non-parallel-any-to-many-voice-conversion-with-annealed-langevin-dynamics-2010.029772024-03-12 https://scifaro.com/en/abs/improving-the-efficiency-of-spectral-features-extraction-by-structuring-the-audio-files-2010.031362020-11-05 https://scifaro.com/en/abs/adversarial-attacks-on-audio-source-separation-2010.031642021-02-16 https://scifaro.com/en/abs/generative-melody-composition-with-human-in-the-loop-bayesian-optimization-2010.031902020-10-08 https://scifaro.com/en/abs/transformer-transducer-one-model-unifying-streaming-and-non-streaming-speech-recognition-2010.031922020-10-08 https://scifaro.com/en/abs/less-is-more-faster-and-better-music-version-identification-with-embedding-distillation-2010.032842020-10-08 https://scifaro.com/en/abs/domain-adversarial-neural-networks-for-dysarthric-speech-recognition-2010.036232020-10-09 https://scifaro.com/en/abs/tatum-level-drum-transcription-based-on-a-convolutional-recurrent-neural-network-with-language-model-based-regularized-training-2010.037492020-10-09 https://scifaro.com/en/abs/vrengt-a-shared-body-machine-instrument-for-music-dance-performance-2010.037792020-10-09 https://scifaro.com/en/abs/texture-based-presentation-attack-detection-for-automatic-speaker-verification-2010.040382020-10-09 https://scifaro.com/en/abs/non-attentive-tacotron-robust-and-controllable-neural-tts-synthesis-including-unsupervised-duration-modeling-2010.043012021-05-12 https://scifaro.com/en/abs/baseline-system-of-voice-conversion-challenge-2020-with-cyclic-variational-autoencoder-and-parallel-wavegan-2010.044292020-10-12 https://scifaro.com/en/abs/dataset-augmentation-and-dimensionality-reduction-of-pinna-related-transfer-functions-2010.045462020-10-12 https://scifaro.com/en/abs/learning-acoustic-scattering-fields-for-dynamic-interactive-sound-propagation-2010.048652021-09-28 https://scifaro.com/en/abs/a-model-compression-method-with-matrix-product-operators-for-speech-enhancement-2010.049502020-10-13 https://scifaro.com/en/abs/ai-song-contest-human-ai-co-creation-in-songwriting-2010.053882020-10-13 https://scifaro.com/en/abs/a-lightweight-speaker-recognition-system-using-timbre-properties-2010.055022020-10-14 https://scifaro.com/en/abs/hifi-gan-generative-adversarial-networks-for-efficient-and-high-fidelity-speech-synthesis-2010.056462020-10-26 https://scifaro.com/en/abs/conditioning-trick-for-training-stable-gans-2010.058442020-10-13 https://scifaro.com/en/abs/the-cone-of-silence-speech-separation-by-localization-2010.060072020-10-14 https://scifaro.com/en/abs/end-to-end-triplet-loss-based-emotion-embedding-system-for-speech-emotion-recognition-2010.062002020-10-14 https://scifaro.com/en/abs/a-variational-autoencoder-for-music-generation-controlled-by-tonal-tension-2010.062302020-10-15 https://scifaro.com/en/abs/principles-for-designing-computer-music-controllers-2010.065242020-10-14 https://scifaro.com/en/abs/towards-resistant-audio-adversarial-examples-2010.071902020-10-15 https://scifaro.com/en/abs/emergent-jaw-predominance-in-vocal-development-through-stochastic-optimization-2010.072082020-10-15 https://scifaro.com/en/abs/automatic-analysis-and-influence-of-hierarchical-structure-on-melody-rhythm-and-harmony-in-popular-music-2010.075182020-10-16 https://scifaro.com/en/abs/melody-classification-based-on-performance-event-vector-and-brnn-2010.075622020-10-19 https://scifaro.com/en/abs/the-neteasegames-system-for-voice-conversion-challenge-2020-with-vector-quantization-variational-autoencoder-and-wavenet-2010.076302020-10-16 https://scifaro.com/en/abs/music-classification-in-midi-format-based-on-lstm-mdel-2010.077392020-10-16 https://scifaro.com/en/abs/a-transformer-based-pitch-sequence-autoencoder-with-midi-augmentation-2010.077582021-02-02 https://scifaro.com/en/abs/deep-convolutional-neural-network-based-inverse-filtering-approach-for-speech-de-reverberation-2010.078952020-10-16 https://scifaro.com/en/abs/pirhdy-learning-pitch-rhythm-and-dynamics-aware-embeddings-for-symbolic-music-2010.080912020-10-19 https://scifaro.com/en/abs/melody-classifier-with-stacked-lstm-2010.081232020-11-26 https://scifaro.com/en/abs/towards-natural-bilingual-and-code-switched-speech-synthesis-based-on-mix-of-monolingual-recordings-and-cross-lingual-voice-conversion-2010.081362020-10-19 https://scifaro.com/en/abs/are-multiple-cross-correlation-identities-better-than-just-two-improving-the-estimate-of-time-differences-of-arrivals-from-blind-audio-signals-2010.084282020-10-19 https://scifaro.com/en/abs/latent-vector-recovery-of-audio-gans-2010.085342020-10-19 https://scifaro.com/en/abs/studying-the-similarity-of-covid-19-sounds-based-on-correlation-analysis-of-mfcc-2010.087702020-10-20 https://scifaro.com/en/abs/self-attention-generative-adversarial-network-for-speech-enhancement-2010.091322021-02-09 https://scifaro.com/en/abs/joint-analysis-of-sound-events-and-acoustic-scenes-using-multitask-learning-2010.092132021-02-24 https://scifaro.com/en/abs/fast-accuracy-estimation-of-deep-learning-based-multi-class-musical-source-separation-2010.094532021-12-02 https://scifaro.com/en/abs/hit-song-prediction-based-on-early-adopter-data-and-audio-features-2010.094892020-10-20 https://scifaro.com/en/abs/clar-contrastive-learning-of-auditory-representations-2010.095422020-10-20 https://scifaro.com/en/abs/micaugment-one-shot-microphone-style-transfer-2010.096582020-10-20 https://scifaro.com/en/abs/multi-window-data-augmentation-approach-for-speech-emotion-recognition-2010.098952022-02-17 https://scifaro.com/en/abs/bird-big-impulse-response-dataset-2010.099302020-10-21 https://scifaro.com/en/abs/the-effect-of-spectrogram-reconstruction-on-automatic-music-transcription-an-alternative-approach-to-improve-transcription-accuracy-2010.099692020-10-21 https://scifaro.com/en/abs/power-pooling-an-adaptive-pooling-function-for-weakly-labelled-sound-event-detection-2010.099852021-01-21 https://scifaro.com/en/abs/tongji-university-undergraduate-team-for-the-voxceleb-speaker-recognition-challenge2020-2010.101452020-10-21 https://scifaro.com/en/abs/phase-recovery-with-bregman-divergences-for-audio-source-separation-2010.102552021-02-10 https://scifaro.com/en/abs/investigating-cross-domain-losses-for-speech-enhancement-2010.104682021-06-01 https://scifaro.com/en/abs/speaker-separation-using-speaker-inventories-and-estimated-speech-2010.105562020-10-22 https://scifaro.com/en/abs/venomave-targeted-poisoning-against-speech-recognition-2010.106822023-04-24 https://scifaro.com/en/abs/prediction-of-object-geometry-from-acoustic-scattering-using-convolutional-neural-networks-2010.106912021-02-12 https://scifaro.com/en/abs/emformer-efficient-memory-transformer-based-acoustic-model-for-low-latency-streaming-speech-recognition-2010.107592021-01-01 https://scifaro.com/en/abs/contrastive-learning-of-general-purpose-audio-representations-2010.109152020-10-22 https://scifaro.com/en/abs/wavetransformer-a-novel-architecture-for-audio-captioning-based-on-learning-temporal-and-time-frequency-information-2010.110982020-10-22 https://scifaro.com/en/abs/joint-blind-room-acoustic-characterization-from-speech-and-music-signals-using-convolutional-recurrent-neural-networks-2010.111672020-10-22 https://scifaro.com/en/abs/attendaffectnet-self-attention-based-networks-for-predicting-affective-responses-from-movies-2010.111882021-10-19 https://scifaro.com/en/abs/dynamic-layer-customization-for-noise-robust-speech-emotion-recognition-in-heterogeneous-condition-training-2010.112262020-10-23 https://scifaro.com/en/abs/the-idlab-voxsrc-20-submission-large-margin-fine-tuning-and-quality-aware-score-calibration-in-dnn-based-speaker-verification-2010.112552021-06-29 https://scifaro.com/en/abs/class-conditional-defense-gan-against-end-to-end-speech-attacks-2010.113522021-02-23 https://scifaro.com/en/abs/nu-gan-high-resolution-neural-upsampling-with-gan-2010.113622020-10-23 https://scifaro.com/en/abs/parallel-tacotron-non-autoregressive-and-controllable-tts-2010.114392020-10-23 https://scifaro.com/en/abs/a-framework-for-generative-and-contrastive-learning-of-audio-representations-2010.114592021-03-18 https://scifaro.com/en/abs/mood-classification-using-listening-data-2010.115122020-10-24 https://scifaro.com/en/abs/aishell-3-a-multi-speaker-mandarin-tts-corpus-and-the-baselines-2010.115672021-04-23 https://scifaro.com/en/abs/lasaft-latent-source-attentive-frequency-transformation-for-conditioned-source-separation-2010.116312021-04-15 https://scifaro.com/en/abs/towards-low-resource-stargan-voice-conversion-using-weight-adaptive-instance-normalization-2010.116462021-04-13 https://scifaro.com/en/abs/the-huawei-speaker-diarisation-system-for-the-voxceleb-speaker-diarisation-challenge-2010.116572020-10-26 https://scifaro.com/en/abs/neural-network-based-acoustic-vehicle-counting-2010.116592021-03-30 https://scifaro.com/en/abs/cyclegan-vc3-examining-and-improving-cyclegan-vcs-for-mel-spectrogram-conversion-2010.116722020-10-23 https://scifaro.com/en/abs/robust-audio-based-vehicle-counting-in-low-to-moderate-traffic-flow-2010.117162020-10-23 https://scifaro.com/en/abs/compositional-embedding-models-for-speaker-identification-and-diarization-with-simultaneous-speech-from-2-speakers-2010.118032021-02-11 https://scifaro.com/en/abs/urban-sound-classification-striving-towards-a-fair-comparison-2010.118052020-10-23 https://scifaro.com/en/abs/towards-listening-to-10-people-simultaneously-an-efficient-permutation-invariant-training-of-audio-source-separation-using-sinkhorn-s-algorithm-2010.118712021-05-18 https://scifaro.com/en/abs/transcription-is-all-you-need-learning-to-separate-musical-mixtures-with-score-as-supervision-2010.119042020-10-23 https://scifaro.com/en/abs/neural-audio-fingerprint-for-high-specific-audio-retrieval-based-on-contrastive-learning-2010.119102021-02-11 https://scifaro.com/en/abs/listening-to-sounds-of-silence-for-speech-denoising-2010.120132020-10-26 https://scifaro.com/en/abs/combination-of-deep-speaker-embeddings-for-diarisation-2010.120252021-05-10 https://scifaro.com/en/abs/improving-streaming-automatic-speech-recognition-with-non-streaming-model-distillation-on-unsupervised-data-2010.120962021-02-23 https://scifaro.com/en/abs/gsep-a-robust-vocal-and-accompaniment-separation-system-using-gated-cbhg-module-and-loudness-normalization-2010.121392021-02-23 https://scifaro.com/en/abs/enriching-under-represented-named-entities-to-improve-speech-recognition-performance-2010.121432020-10-26 https://scifaro.com/en/abs/transformer-based-end-to-end-speech-recognition-with-local-dense-synthesizer-attention-2010.121552021-07-27 https://scifaro.com/en/abs/don-t-shoot-butterfly-with-rifles-multi-channel-continuous-speech-separation-with-early-exit-transformer-2010.121802020-10-26 https://scifaro.com/en/abs/speech-activity-detection-based-on-multilingual-speech-recognition-system-2010.122772021-04-13 https://scifaro.com/en/abs/a-computational-evaluation-of-musical-pattern-discovery-algorithms-2010.123252020-10-26 https://scifaro.com/en/abs/eml-system-description-for-voxceleb-speaker-diarization-challenge-2020-2010.124972020-10-26 https://scifaro.com/en/abs/a-study-of-transfer-learning-in-music-source-separation-2010.126502020-10-27 https://scifaro.com/en/abs/dual-path-self-attention-rnn-for-real-time-speech-enhancement-2010.127132021-04-30 https://scifaro.com/en/abs/learning-fine-grained-cross-modality-excitement-for-speech-emotion-recognition-2010.127332021-07-16 https://scifaro.com/en/abs/gazev-gan-based-zero-shot-voice-conversion-over-non-parallel-speech-corpus-2010.127882020-10-27 https://scifaro.com/en/abs/stop-bugging-me-evading-modern-day-wiretapping-using-adversarial-perturbations-2010.128092021-09-03 https://scifaro.com/en/abs/speakerfilter-pro-an-improved-target-speaker-extractor-combines-the-time-domain-and-frequency-domain-2010.130532020-10-27 https://scifaro.com/en/abs/an-improved-event-independent-network-for-polyphonic-sound-event-localization-and-detection-2010.130922021-02-12 https://scifaro.com/en/abs/cascaded-all-pass-filters-with-randomized-center-frequencies-and-phase-polarity-for-acoustic-and-speech-measurement-and-data-augmentation-2010.131852021-02-16 https://scifaro.com/en/abs/ir-gan-room-impulse-response-generator-for-far-field-speech-recognition-2010.132192021-04-08 https://scifaro.com/en/abs/unified-gradient-reweighting-for-model-biasing-with-applications-to-source-separation-2010.132282022-02-01 https://scifaro.com/en/abs/decentralizing-feature-extraction-with-quantum-convolutional-neural-network-for-automatic-speech-recognition-2010.133092021-10-11 https://scifaro.com/en/abs/speaker-anonymization-with-distribution-preserving-x-vector-generation-for-the-voiceprivacy-challenge-2020-2010.134572021-01-06 https://scifaro.com/en/abs/melody-harmonization-using-orderless-nade-chord-balancing-and-blocked-gibbs-sampling-2010.134682021-02-02 https://scifaro.com/en/abs/contrastive-unsupervised-learning-for-audio-fingerprinting-2010.135402020-10-27 https://scifaro.com/en/abs/the-frequency-spectrum-and-geometry-of-the-hal-saflieni-hypogeum-appear-tuned-2010.136972020-11-03 https://scifaro.com/en/abs/bytecover-cover-song-identification-via-multi-loss-training-2010.140222021-04-26 https://scifaro.com/en/abs/universal-asr-unifying-streaming-and-non-streaming-asr-using-a-single-encoder-decoder-model-2010.140992020-10-28 https://scifaro.com/en/abs/rule-embedded-network-for-audio-visual-voice-activity-detection-in-live-musical-video-streams-2010.141682020-11-03 https://scifaro.com/en/abs/learning-contextual-tag-embeddings-for-cross-modal-alignment-of-audio-and-tags-2010.141712020-10-28 https://scifaro.com/en/abs/deep-generative-factorization-for-speech-signal-2010.142422020-10-28 https://scifaro.com/en/abs/squeezing-value-of-cross-domain-labels-a-decoupled-scoring-approach-for-speaker-verification-2010.142432020-10-28 https://scifaro.com/en/abs/leveraging-speaker-attribute-information-using-multi-task-learning-for-speaker-verification-and-diarization-2010.142692021-04-26 https://scifaro.com/en/abs/upsampling-artifacts-in-neural-audio-synthesis-2010.143562021-02-10 https://scifaro.com/en/abs/remixing-music-with-visual-conditioning-2010.145652020-10-29 https://scifaro.com/en/abs/copypaste-an-augmentation-method-for-speech-emotion-recognition-2010.146022021-02-12 https://scifaro.com/en/abs/melody-conditioned-lyrics-generation-with-seqgans-2010.147092020-10-29 https://scifaro.com/en/abs/seen-and-unseen-emotional-style-transfer-for-voice-conversion-with-a-new-emotional-speech-dataset-2010.147942021-02-12 https://scifaro.com/en/abs/decoupling-pronunciation-and-language-for-end-to-end-code-switching-automatic-speech-recognition-2010.147982020-10-29 https://scifaro.com/en/abs/ppg-based-singing-voice-conversion-with-adversarial-representation-learning-2010.148042020-10-29 https://scifaro.com/en/abs/large-scale-midi-based-composer-classification-2010.148052020-10-29 https://scifaro.com/en/abs/int8-winograd-acceleration-for-conv1d-equipped-asr-models-deployed-on-mobile-devices-2010.148412020-10-29 https://scifaro.com/en/abs/non-autoregressive-transformer-asr-with-ctc-enhanced-decoder-input-2010.150252021-04-19 https://scifaro.com/en/abs/gender-bias-in-depression-detection-using-audio-features-2010.151202021-08-19 https://scifaro.com/en/abs/improving-perceptual-quality-by-phone-fortified-perceptual-loss-using-wasserstein-distance-for-speech-enhancement-2010.151742021-04-28 https://scifaro.com/en/abs/dnsmos-a-non-intrusive-perceptual-objective-speech-quality-metric-to-evaluate-noise-suppressors-2010.152582021-02-12 https://scifaro.com/en/abs/the-iqiyi-system-for-voice-conversion-challenge-2020-2010.153172020-10-30 https://scifaro.com/en/abs/stabilizing-label-assignment-for-speech-separation-by-self-supervised-pre-training-2010.153662021-08-24 https://scifaro.com/en/abs/learning-audio-embeddings-with-user-listening-data-for-content-based-music-recommendation-2010.153892021-03-31 https://scifaro.com/en/abs/playing-a-part-speaker-verification-at-the-movies-2010.157162021-02-12 https://scifaro.com/en/abs/gans-reels-creating-irish-music-using-a-generative-adversarial-network-2010.157722020-10-30 https://scifaro.com/en/abs/the-ins-and-outs-of-speaker-recognition-lessons-from-voxsrc-2020-2010.158092020-10-30 https://scifaro.com/en/abs/acoustic-correlates-of-the-voice-qualifiers-a-survey-2010.158692020-11-02 https://scifaro.com/en/abs/latent-space-oddity-exploring-latent-spaces-to-design-guitar-timbres-2010.159892020-11-23 https://scifaro.com/en/abs/t-vectors-weakly-supervised-speaker-identification-using-hierarchical-transformer-model-2010.160712020-11-02 https://scifaro.com/en/abs/deep-speaker-vector-normalization-with-maximum-gaussianality-training-2010.161482020-11-02 https://scifaro.com/en/abs/audvowelconsnet-a-phoneme-level-based-deep-cnn-architecture-for-clinical-depression-diagnosis-2010.162012020-11-05 https://scifaro.com/en/abs/respirenet-a-deep-neural-network-for-accurately-detecting-abnormal-lung-sounds-in-limited-data-setting-2011.001962021-05-10 https://scifaro.com/en/abs/the-xx205-system-for-the-voxceleb-speaker-recognition-challenge-2020-2011.002002020-11-03 https://scifaro.com/en/abs/learning-generic-feature-representation-with-synthetic-data-for-weakly-supervised-sound-event-detection-by-inter-frame-distance-loss-2011.006952020-11-03 https://scifaro.com/en/abs/using-a-bi-directional-lstm-model-with-attention-mechanism-trained-on-midi-data-for-generating-unique-music-2011.007732020-11-03 https://scifaro.com/en/abs/cvc-contrastive-learning-for-non-parallel-voice-conversion-2011.007822021-04-05 https://scifaro.com/en/abs/sound-event-detection-and-separation-a-benchmark-on-desed-synthetic-soundscapes-2011.008012020-11-03 https://scifaro.com/en/abs/what-s-all-the-fuss-about-free-universal-sound-separation-data-2011.008032020-11-03 https://scifaro.com/en/abs/into-the-wild-with-audioscope-unsupervised-audio-visual-separation-of-on-screen-sounds-2011.011432021-06-01 https://scifaro.com/en/abs/optimize-what-matters-training-dnn-hmm-keyword-spotting-model-using-end-metric-2011.011512021-03-01 https://scifaro.com/en/abs/a-two-stage-approach-to-device-robust-acoustic-scene-classification-2011.014472021-10-11 https://scifaro.com/en/abs/shanerun-system-description-to-voxceleb-speaker-recognition-challenge-2020-2011.015182020-11-04 https://scifaro.com/en/abs/two-heads-are-better-than-one-a-two-stage-approach-for-monaural-noise-reduction-in-the-complex-domain-2011.015612020-11-04 https://scifaro.com/en/abs/shift-if-you-can-counting-and-visualising-correction-operations-for-beat-tracking-evaluation-2011.016372020-11-04 https://scifaro.com/en/abs/small-footprint-text-independent-speaker-verification-for-embedded-systems-2011.017092021-04-22 https://scifaro.com/en/abs/can-we-trust-deep-speech-prior-2011.021102020-11-05 https://scifaro.com/en/abs/desnet-a-multi-channel-network-for-simultaneous-speech-dereverberation-enhancement-and-separation-2011.021312020-11-17 https://scifaro.com/en/abs/ieee-slt-2021-alpha-mini-speech-challenge-open-datasets-tracks-rules-and-baselines-2011.021982020-11-17 https://scifaro.com/en/abs/vaw-gan-for-disentanglement-and-recomposition-of-emotional-elements-in-speech-2011.023142020-11-05 https://scifaro.com/en/abs/single-channel-voice-separation-for-unknown-number-of-speakers-under-reverberant-and-noisy-settings-2011.023292020-11-05 https://scifaro.com/en/abs/bw-eda-eend-streaming-end-to-end-neural-speaker-diarization-for-a-variable-number-of-speakers-2011.026782022-02-22 https://scifaro.com/en/abs/semi-supervised-learning-for-singing-synthesis-timbre-2011.028092020-11-06 https://scifaro.com/en/abs/influence-of-event-duration-on-automatic-wheeze-classification-2011.028742020-11-06 https://scifaro.com/en/abs/query-expansion-system-for-the-voxceleb-speaker-recognition-challenge-2020-2011.028822020-11-06 https://scifaro.com/en/abs/from-note-level-to-chord-level-neural-network-models-for-voice-separation-in-symbolic-music-2011.030282020-11-06 https://scifaro.com/en/abs/robust-enf-estimation-based-on-harmonic-enhancement-and-maximum-weight-clique-2011.034142021-08-03 https://scifaro.com/en/abs/non-local-convolutional-neural-networks-nlcnn-for-speaker-recognition-2011.036822021-05-21 https://scifaro.com/en/abs/detection-and-evaluation-of-human-and-machine-generated-speech-in-spoofing-attacks-on-automatic-speaker-verification-systems-2011.036892020-11-26 https://scifaro.com/en/abs/dual-application-of-speech-enhancement-for-automatic-speech-recognition-2011.038402020-11-10 https://scifaro.com/en/abs/denoising-and-dereverberation-hierarchical-neural-vocoder-for-robust-waveform-generation-2011.039552020-11-10 https://scifaro.com/en/abs/frequency-gating-improved-convolutional-neural-networks-for-speech-enhancement-in-the-time-frequency-domain-2011.040922020-11-10 https://scifaro.com/en/abs/gated-recurrent-fusion-with-joint-training-framework-for-robust-end-to-end-speech-recognition-2011.042492020-11-10 https://scifaro.com/en/abs/stoi-net-a-deep-learning-based-non-intrusive-speech-intelligibility-assessment-model-2011.042922020-11-10 https://scifaro.com/en/abs/knowledge-distillation-for-singing-voice-detection-2011.042972021-08-23 https://scifaro.com/en/abs/covid-19-patient-detection-from-telephone-quality-speech-data-2011.042992020-11-10 https://scifaro.com/en/abs/masked-proxy-loss-for-text-independent-speaker-verification-2011.044912021-09-07 https://scifaro.com/en/abs/data-augmentation-for-children-s-speech-recognition-the-ethiopian-system-for-the-slt-2021-children-speech-recognition-challenge-2011.045472020-11-10 https://scifaro.com/en/abs/musical-analysis-of-stravinski-s-the-rite-of-spring-based-on-computational-methods-2011.045682020-11-10 https://scifaro.com/en/abs/frill-a-non-semantic-speech-embedding-for-mobile-devices-2011.046092022-12-20 https://scifaro.com/en/abs/speaker-de-identification-system-using-autoencoders-and-adversarial-training-2011.046962021-02-01 https://scifaro.com/en/abs/pretraining-strategies-waveform-model-choice-and-acoustic-configurations-for-multi-speaker-end-to-end-speech-synthesis-2011.048392020-11-11 https://scifaro.com/en/abs/deconstruct-and-reconstruct-dizi-music-of-the-northern-school-and-the-southern-school-2011.049742020-12-03 https://scifaro.com/en/abs/ganterpretations-2011.051582020-11-11 https://scifaro.com/en/abs/supervised-attention-for-speaker-recognition-2011.051892020-12-04 https://scifaro.com/en/abs/sound-synthesis-propagation-and-rendering-a-survey-2011.055382021-05-05 https://scifaro.com/en/abs/deep-time-delay-neural-network-for-speech-enhancement-with-full-data-learning-2011.055912020-11-12 https://scifaro.com/en/abs/wadenet-wavelet-decomposition-based-cnn-for-speech-processing-2011.055942020-11-12 https://scifaro.com/en/abs/automatic-neural-lyrics-and-melody-composition-2011.063802020-11-13 https://scifaro.com/en/abs/using-ipa-based-tacotron-for-data-efficient-cross-lingual-speaker-adaptation-and-pronunciation-enhancement-2011.063922022-04-01 https://scifaro.com/en/abs/the-slt-2021-children-speech-recognition-challenge-open-datasets-rules-and-baselines-2011.067242020-11-17 https://scifaro.com/en/abs/a-comprehensive-survey-on-deep-music-generation-multi-level-representations-algorithms-evaluations-and-future-directions-2011.068012020-11-16 https://scifaro.com/en/abs/communication-cost-aware-microphone-selection-for-neural-speech-enhancement-with-ad-hoc-microphone-arrays-2011.073482021-04-22 https://scifaro.com/en/abs/improving-speech-enhancement-performance-by-leveraging-contextual-broad-phonetic-class-information-2011.074422023-06-21 https://scifaro.com/en/abs/automatic-and-perceptual-discrimination-between-dysarthria-apraxia-of-speech-and-neurotypical-speech-2011.075422021-06-03 https://scifaro.com/en/abs/learning-frame-similarity-using-siamese-networks-for-audio-to-score-alignment-2011.075462020-11-17 https://scifaro.com/en/abs/unsupervised-contrastive-learning-of-sound-event-representations-2011.076162020-11-17 https://scifaro.com/en/abs/learn2sing-target-speaker-singing-voice-synthesis-by-learning-from-a-singing-teacher-2011.084672020-11-18 https://scifaro.com/en/abs/cascade-rnn-transducer-syllable-based-streaming-on-device-mandarin-speech-recognition-with-a-syllable-to-character-converter-2011.084692020-11-18 https://scifaro.com/en/abs/fine-grained-emotion-strength-transfer-control-and-prediction-for-emotional-speech-synthesis-2011.084772020-11-18 https://scifaro.com/en/abs/foolhd-fooling-speaker-identification-by-highly-imperceptible-adversarial-disturbances-2011.084832021-02-23 https://scifaro.com/en/abs/optimizing-voice-conversion-network-with-cycle-consistency-loss-of-speaker-identity-2011.085482020-11-18 https://scifaro.com/en/abs/accent-and-speaker-disentanglement-in-many-to-many-voice-conversion-2011.086092020-11-18 https://scifaro.com/en/abs/adversarial-training-for-multi-domain-speaker-recognition-2011.086232020-11-18 https://scifaro.com/en/abs/controllable-emotion-transfer-for-end-to-end-speech-synthesis-2011.086792020-11-18 https://scifaro.com/en/abs/vertical-horizontal-structured-attention-for-generating-music-with-chords-2011.090782020-11-19 https://scifaro.com/en/abs/multi-channel-automatic-speech-recognition-using-deep-complex-unet-2011.090812020-11-19 https://scifaro.com/en/abs/expanding-access-to-music-technology-rapid-prototyping-accessible-instrument-solutions-for-musicians-with-intellectual-disabilities-2011.091432020-11-19 https://scifaro.com/en/abs/caa-net-conditional-atrous-cnns-with-attention-for-explainable-device-robust-acoustic-scene-classification-2011.092992020-11-19 https://scifaro.com/en/abs/context-aware-rnnlm-rescoring-for-conversational-speech-recognition-2011.093012020-11-19 https://scifaro.com/en/abs/deep-residual-local-feature-learning-for-speech-emotion-recognition-2011.097672020-11-20 https://scifaro.com/en/abs/one-shot-learning-for-speech-separation-2011.102332021-05-04 https://scifaro.com/en/abs/exploring-voice-conversion-based-data-augmentation-in-text-dependent-speaker-verification-2011.107102020-11-24 https://scifaro.com/en/abs/speech-command-recognition-in-computationally-constrained-environments-with-a-quadratic-self-organized-operational-layer-2011.114362021-02-11 https://scifaro.com/en/abs/a-novel-multimodal-music-genre-classifier-using-hierarchical-attention-and-convolutional-neural-network-2011.119702020-11-25 https://scifaro.com/en/abs/multi-decoder-dprnn-high-accuracy-source-counting-and-separation-2011.120222020-12-01 https://scifaro.com/en/abs/deep-discriminative-feature-learning-for-accent-recognition-2011.124612021-08-26 https://scifaro.com/en/abs/vocal-tract-length-perturbation-for-text-dependent-speaker-verification-with-autoregressive-prediction-coding-2011.125362021-03-29 https://scifaro.com/en/abs/mtcrnn-a-multi-scale-rnn-for-directed-audio-texture-synthesis-2011.125962020-11-26 https://scifaro.com/en/abs/feature-selection-based-on-principal-component-analysis-for-underwater-source-localization-by-deep-learning-2011.127542020-11-26 https://scifaro.com/en/abs/phase-retrieval-with-bregman-divergences-application-to-audio-signal-recovery-2011.128182020-12-01 https://scifaro.com/en/abs/mask-net-learning-context-aware-invariant-features-using-adversarial-forgetting-student-abstract-2011.129792021-10-19 https://scifaro.com/en/abs/fbwave-efficient-and-scalable-neural-vocoders-for-streaming-text-to-speech-on-the-edge-2011.129852020-11-30 https://scifaro.com/en/abs/can-gan-originate-new-electronic-dance-music-genres-generating-novel-rhythm-patterns-using-gan-with-genre-ambiguity-loss-2011.130622020-11-30 https://scifaro.com/en/abs/real-time-error-correction-and-performance-aid-for-midi-instruments-2011.131222020-12-01 https://scifaro.com/en/abs/streaming-end-to-end-multi-talker-speech-recognition-2011.131482021-05-12 https://scifaro.com/en/abs/virufy-global-applicability-of-crowdsourced-and-clinical-datasets-for-ai-detection-of-covid-19-from-cough-2011.133202021-01-12 https://scifaro.com/en/abs/improving-rnn-transducer-with-target-speaker-extraction-and-neural-uncertainty-estimation-2011.133932021-03-01 https://scifaro.com/en/abs/towards-movement-generation-with-audio-features-2011.134532020-11-30 https://scifaro.com/en/abs/a-comparison-of-handcrafted-parameterized-and-learnable-features-for-speech-separation-2011.142952021-01-15 https://scifaro.com/en/abs/audio-visual-speech-separation-with-adversarially-disentangled-visual-representation-2011.143342020-12-01 https://scifaro.com/en/abs/an-features-extraction-and-recognition-method-for-underwater-acoustic-target-based-on-atcnn-2011.143362020-12-01 https://scifaro.com/en/abs/audio-speech-language-signal-processing-for-covid-19-a-comprehensive-overview-2011.144452020-12-01 https://scifaro.com/en/abs/look-who-s-not-talking-2011.148852020-12-01 https://scifaro.com/en/abs/convolutive-transfer-function-invariant-sdr-training-criteria-for-multi-channel-reverberant-speech-separation-2011.150032021-06-09 https://scifaro.com/en/abs/strike-on-stage-a-percussion-and-media-performance-2012.002502020-12-02 https://scifaro.com/en/abs/performing-with-a-mobile-computer-system-for-vibraphone-2012.002652020-12-02 https://scifaro.com/en/abs/musictm-dataset-for-joint-representation-learning-among-sheet-music-lyrics-and-musical-audio-2012.002902021-05-10 https://scifaro.com/en/abs/nhss-a-speech-and-singing-parallel-database-2012.003372021-08-06 https://scifaro.com/en/abs/deep-ad-hoc-beamforming-based-on-speaker-extraction-for-target-dependent-speech-separation-2012.004032020-12-02 https://scifaro.com/en/abs/sequence-generation-using-deep-recurrent-networks-and-embeddings-a-study-case-in-music-2012.012312020-12-03 https://scifaro.com/en/abs/enhancement-of-spatial-clustering-based-time-frequency-masks-using-lstm-neural-networks-2012.015762020-12-04 https://scifaro.com/en/abs/melglow-efficient-waveform-generative-network-based-on-location-variable-convolution-2012.016842020-12-04 https://scifaro.com/en/abs/phonetic-posteriorgrams-based-many-to-many-singing-voice-conversion-via-adversarial-training-2012.018372020-12-04 https://scifaro.com/en/abs/covid-19-cough-classification-using-machine-learning-and-global-smartphone-recordings-2012.019262022-05-12 https://scifaro.com/en/abs/improved-mvdr-beamforming-using-lstm-speech-models-to-clean-spatial-clustering-masks-2012.021912020-12-07 https://scifaro.com/en/abs/acoustic-hologram-optimisation-using-automatic-differentiation-2012.024312021-06-17 https://scifaro.com/en/abs/predicting-emotions-perceived-from-sounds-2012.026432020-12-07 https://scifaro.com/en/abs/guitar-effects-recognition-and-parameter-estimation-with-convolutional-neural-networks-2012.032162022-04-19 https://scifaro.com/en/abs/source-separation-and-depthwise-separable-convolutions-for-computer-audition-2012.033592020-12-08 https://scifaro.com/en/abs/combining-spatial-clustering-with-lstm-speech-models-for-multichannel-speech-enhancement-2012.033882020-12-08 https://scifaro.com/en/abs/multi-instrumentalist-net-unsupervised-generation-of-music-from-body-movements-2012.034782020-12-08 https://scifaro.com/en/abs/reverberant-sound-localization-with-a-robot-head-based-on-direct-path-relative-transfer-function-2012.035742020-12-08 https://scifaro.com/en/abs/a-novel-dataset-for-the-identification-of-computer-generated-melodies-in-the-csmt-challenge-2012.036462021-12-02 https://scifaro.com/en/abs/triplet-entropy-loss-improving-the-generalisation-of-short-speech-language-identification-systems-2012.037752020-12-08 https://scifaro.com/en/abs/diverse-melody-generation-from-chinese-lyrics-via-mutual-information-maximization-2012.038052020-12-08 https://scifaro.com/en/abs/a-geometric-framework-for-pitch-estimation-on-acoustic-musical-signals-2012.045172020-12-09 https://scifaro.com/en/abs/i-m-sorry-for-your-loss-spectrally-based-audio-distances-are-bad-at-pitch-2012.045722020-12-11 https://scifaro.com/en/abs/recent-advances-in-computer-audition-for-diagnosing-covid-19-an-overview-2012.046502020-12-10 https://scifaro.com/en/abs/deeptalk-vocal-style-encoding-for-speaker-recognition-and-speech-synthesis-2012.050842021-02-16 https://scifaro.com/en/abs/songmass-automatic-song-writing-with-pre-training-and-alignment-constraint-2012.051682020-12-10 https://scifaro.com/en/abs/unified-streaming-and-non-streaming-two-pass-end-to-end-model-for-speech-recognition-2012.054812021-12-30 https://scifaro.com/en/abs/exploring-wav2vec-2-0-on-speaker-verification-and-language-identification-2012.061852021-01-15 https://scifaro.com/en/abs/analysis-of-feature-representations-for-anomalous-sound-detection-2012.062822021-02-19 https://scifaro.com/en/abs/voxsrc-2020-the-second-voxceleb-speaker-recognition-challenge-2012.068672020-12-15 https://scifaro.com/en/abs/improving-the-classification-of-rare-chords-with-unlabeled-data-2012.070552021-02-11 https://scifaro.com/en/abs/classification-of-als-patients-based-on-acoustic-analysis-of-sustained-vowel-phonations-2012.073472021-01-12 https://scifaro.com/en/abs/bayesian-learning-for-deep-neural-network-adaptation-2012.074602024-06-17 https://scifaro.com/en/abs/the-voice-of-covid-19-acoustic-correlates-of-infection-2012.094782021-07-07 https://scifaro.com/en/abs/automatic-source-localization-and-spectra-generation-from-sparse-beamforming-maps-2012.096432021-09-29 https://scifaro.com/en/abs/non-uniform-fir-digital-filter-bank-for-hearing-aid-application-using-frequency-response-masking-technique-a-review-2012.106632020-12-22 https://scifaro.com/en/abs/adjust-free-adversarial-example-generation-in-speech-recognition-using-evolutionary-multi-objective-optimization-under-black-box-condition-2012.111382024-07-09 https://scifaro.com/en/abs/multi-stream-convolutional-neural-network-with-frequency-selection-for-robust-speaker-verification-2012.111592025-09-03 https://scifaro.com/en/abs/on-the-effectiveness-of-signal-decomposition-feature-extraction-and-selection-on-lung-sound-classification-2012.117592020-12-23 https://scifaro.com/en/abs/cn-celeb-multi-genre-speaker-recognition-2012.124682021-11-25 https://scifaro.com/en/abs/a-principle-solution-for-enroll-test-mismatch-in-speaker-recognition-2012.124712021-11-25 https://scifaro.com/en/abs/incremental-text-to-speech-synthesis-using-pseudo-lookahead-with-large-pretrained-language-model-2012.126122021-05-26 https://scifaro.com/en/abs/inception-based-network-and-multi-spectrogram-ensemble-applied-for-predicting-respiratory-anomalies-and-lung-diseases-2012.136992020-12-29 https://scifaro.com/en/abs/detecting-covid-19-from-breathing-and-coughing-sounds-using-deep-neural-networks-2012.145532021-01-01 https://scifaro.com/en/abs/data-driven-audio-recognition-a-supervised-dictionary-approach-2012.147612021-01-01 https://scifaro.com/en/abs/multi-view-temporal-alignment-for-non-parallel-articulatory-to-acoustic-speech-synthesis-2012.151842021-01-01 https://scifaro.com/en/abs/unified-mandarin-tts-front-end-based-on-distilled-bert-model-2012.154042021-01-01 https://scifaro.com/en/abs/efficientnet-absolute-zero-for-continuous-speech-keyword-spotting-2012.156952021-01-01 https://scifaro.com/en/abs/psychoacoustic-calibration-of-loss-functions-for-efficient-end-to-end-neural-audio-coding-2101.000542021-01-05 https://scifaro.com/en/abs/generative-deep-learning-for-virtuosic-classical-music-generative-adversarial-networks-as-renowned-composers-2101.001692021-11-16 https://scifaro.com/en/abs/a-survey-on-deep-reinforcement-learning-for-audio-based-applications-2101.002402021-01-05 https://scifaro.com/en/abs/adversarial-unsupervised-domain-adaptation-for-harmonic-percussive-source-separation-2101.007012021-01-05 https://scifaro.com/en/abs/a-novel-policy-for-pre-trained-deep-reinforcement-learning-for-speech-emotion-recognition-2101.007382022-03-30 https://scifaro.com/en/abs/generalized-spatio-temporal-rnn-beamformer-for-target-speech-separation-2101.012802021-04-06 https://scifaro.com/en/abs/development-of-a-respiratory-sound-labeling-software-for-training-a-deep-learning-based-respiratory-sound-analysis-model-2101.013522021-01-06 https://scifaro.com/en/abs/fixed-maml-for-few-shot-classification-in-multilingual-speech-emotion-recognition-2101.013562022-06-01 https://scifaro.com/en/abs/hypothesis-stitcher-for-end-to-end-speaker-attributed-asr-on-long-form-multi-talker-recordings-2101.018532021-01-07 https://scifaro.com/en/abs/environment-transfer-for-distributed-systems-2101.018632021-01-07 https://scifaro.com/en/abs/interspeech-2021-deep-noise-suppression-challenge-2101.019022021-04-06 https://scifaro.com/en/abs/multichannel-crnn-for-speaker-counting-an-analysis-of-performance-2101.019772021-01-07 https://scifaro.com/en/abs/investigating-the-efficacy-of-music-version-retrieval-systems-for-setlist-identification-2101.020982021-01-07 https://scifaro.com/en/abs/compound-word-transformer-learning-to-compose-full-song-music-over-dynamic-directed-hypergraphs-2101.024022021-01-08 https://scifaro.com/en/abs/a-four-stage-data-augmentation-approach-to-resnet-conformer-based-acoustic-modeling-for-sound-event-localization-and-detection-2101.029192023-03-08 https://scifaro.com/en/abs/practical-speech-re-use-prevention-in-voice-driven-services-2101.047732021-01-14 https://scifaro.com/en/abs/mp3net-coherent-minute-long-music-generation-from-raw-audio-with-a-simple-convolutional-gan-2101.047852021-01-14 https://scifaro.com/en/abs/deep-attention-based-representation-learning-for-heart-sound-classification-2101.049792021-01-14 https://scifaro.com/en/abs/end-to-end-speaker-height-and-age-estimation-using-attention-mechanism-with-lstm-rnn-2101.050562021-01-14 https://scifaro.com/en/abs/unsupervised-heart-abnormality-detection-based-on-phonocardiogram-analysis-with-beta-variational-auto-encoders-2101.054432021-01-15 https://scifaro.com/en/abs/minimum-volume-multichannel-nonnegative-matrix-factorization-for-blind-source-separation-2101.063982021-03-31 https://scifaro.com/en/abs/hierarchical-disentangled-representation-learning-for-singing-voice-conversion-2101.068422021-04-27 https://scifaro.com/en/abs/a-framework-to-compare-music-generative-models-using-automatic-evaluation-metrics-extended-to-rhythm-2101.076692021-01-20 https://scifaro.com/en/abs/towards-duration-robust-weakly-supervised-sound-event-detection-2101.076872021-02-08 https://scifaro.com/en/abs/the-diagnosis-of-asthma-using-hilbert-huang-transform-and-deep-learning-on-lung-sounds-2101.082882021-01-22 https://scifaro.com/en/abs/effect-of-deep-learning-feature-inference-techniques-on-respiratory-sounds-2101.084382021-01-22 https://scifaro.com/en/abs/turkish-voice-commands-based-chess-game-using-gammatone-cepstral-coefficients-2101.084412021-01-22 https://scifaro.com/en/abs/online-streaming-end-to-end-neural-diarization-handling-overlapping-speech-and-flexible-numbers-of-speakers-2101.084732021-04-08 https://scifaro.com/en/abs/effect-of-window-size-for-detection-of-abnormalities-in-respiratory-sounds-2101.084952021-01-22 https://scifaro.com/en/abs/a-joint-diagonalization-based-efficient-approach-to-underdetermined-blind-audio-source-separation-using-the-multichannel-wiener-filter-2101.085632021-01-22 https://scifaro.com/en/abs/leaf-a-learnable-frontend-for-audio-classification-2101.085962021-01-22 https://scifaro.com/en/abs/exploiting-beam-search-confidence-for-energy-efficient-speech-recognition-2101.090832021-01-25 https://scifaro.com/en/abs/domain-dependent-speaker-diarization-for-the-third-dihard-challenge-2101.098842021-01-26 https://scifaro.com/en/abs/using-angle-of-arrival-for-improving-indoor-localization-2101.099042021-01-26 https://scifaro.com/en/abs/novel-recording-studio-features-for-music-information-retrieval-2101.102012021-03-01 https://scifaro.com/en/abs/high-quality-vocoding-design-with-signal-processing-for-speech-synthesis-and-voice-conversion-2101.102782021-01-26 https://scifaro.com/en/abs/expressive-neural-voice-cloning-2102.001512021-02-02 https://scifaro.com/en/abs/melon-playlist-dataset-a-public-dataset-for-audio-based-playlist-generation-and-music-tagging-2102.002012021-02-02 https://scifaro.com/en/abs/speech-recognition-by-simply-fine-tuning-bert-2102.002912021-02-02 https://scifaro.com/en/abs/cortical-features-for-defense-against-adversarial-audio-attacks-2102.003132021-11-18 https://scifaro.com/en/abs/structure-aware-audio-to-score-alignment-using-progressively-dilated-convolutional-neural-networks-2102.003822021-02-16 https://scifaro.com/en/abs/high-fidelity-speech-regeneration-with-application-to-speech-enhancement-2102.004292021-02-02 https://scifaro.com/en/abs/boosting-the-predictive-accurary-of-singer-identification-using-discrete-wavelet-transform-for-feature-extraction-2102.005502021-02-02 https://scifaro.com/en/abs/neural-network-architectures-to-classify-emotions-in-indian-classical-music-2102.006162021-02-02 https://scifaro.com/en/abs/rich-prosody-diversity-modelling-with-phone-level-mixture-density-network-2102.008512023-10-03 https://scifaro.com/en/abs/deep-music-information-dynamics-2102.011332021-02-03 https://scifaro.com/en/abs/psla-improving-audio-tagging-with-pretraining-sampling-labeling-and-aggregation-2102.012432021-11-18 https://scifaro.com/en/abs/wenet-production-oriented-streaming-and-non-streaming-end-to-end-speech-recognition-toolkit-2102.015472021-12-30 https://scifaro.com/en/abs/speak-with-your-hands-using-continuous-hand-gestures-to-control-articulatory-speech-synthesizer-2102.016402021-02-03 https://scifaro.com/en/abs/generacion-de-voces-artificiales-infantiles-en-castellano-con-acento-costarricense-2102.016922021-02-04 https://scifaro.com/en/abs/lssed-a-large-scale-dataset-and-benchmark-for-speech-emotion-recognition-2102.017542021-02-04 https://scifaro.com/en/abs/a-speaker-verification-backend-with-robust-performance-across-conditions-2102.017602021-08-18 https://scifaro.com/en/abs/speech-emotion-recognition-with-multiscale-area-attention-and-data-augmentation-2102.018132021-02-04 https://scifaro.com/en/abs/impact-of-sound-duration-and-inactive-frames-on-sound-event-detection-performance-2102.019272021-02-04 https://scifaro.com/en/abs/general-purpose-speech-representation-learning-through-a-self-supervised-multi-granularity-framework-2102.019302021-02-04 https://scifaro.com/en/abs/towards-natural-and-controllable-cross-lingual-voice-conversion-based-on-neural-tts-model-and-phonetic-posteriorgram-2102.019912021-02-04 https://scifaro.com/en/abs/monaural-speech-enhancement-with-complex-convolutional-block-attention-module-and-joint-time-frequency-losses-2102.019932024-12-02 https://scifaro.com/en/abs/music-source-separation-conditioned-on-3d-point-clouds-2102.020282021-02-04 https://scifaro.com/en/abs/acoustic-structure-inverse-design-and-optimization-using-deep-learning-2102.020632024-11-12 https://scifaro.com/en/abs/data-generation-using-pass-phrase-dependent-deep-auto-encoders-for-text-dependent-speaker-verification-2102.020742021-02-04 https://scifaro.com/en/abs/downbeat-tracking-with-tempo-invariant-convolutional-neural-networks-2102.022822021-02-05 https://scifaro.com/en/abs/audio-adversarial-examples-attacks-using-vocal-masks-2102.024172021-02-09 https://scifaro.com/en/abs/low-bit-rate-wideband-speech-coding-a-deep-generative-model-based-approach-2102.026402021-02-05 https://scifaro.com/en/abs/chord-embeddings-analyzing-what-they-capture-and-their-role-for-next-chord-prediction-and-artist-attribute-prediction-2102.029172025-07-29 https://scifaro.com/en/abs/diversity-robust-acoustic-feature-signatures-based-on-multiscale-fractal-dimension-for-similarity-search-of-environmental-sounds-2102.029642021-10-13 https://scifaro.com/en/abs/benchmarking-of-eight-recurrent-neural-network-variants-for-breath-phase-and-adventitious-sound-detection-on-a-self-developed-open-access-lung-sound-database-hf-lung-v1-2102.030492022-07-13 https://scifaro.com/en/abs/two-stage-augmentation-and-adaptive-ctc-fusion-for-improved-robustness-of-multi-stream-end-to-end-asr-2102.030552021-02-08 https://scifaro.com/en/abs/white-box-audio-vst-effect-programming-2102.031702021-02-08 https://scifaro.com/en/abs/real-time-denoising-and-dereverberation-with-tiny-recurrent-u-net-2102.032072021-06-24 https://scifaro.com/en/abs/multi-task-self-supervised-pre-training-for-music-classification-2102.032292021-02-08 https://scifaro.com/en/abs/u-vectors-generating-clusterable-speaker-embedding-from-unlabeled-data-2102.038682021-10-25 https://scifaro.com/en/abs/extracting-the-auditory-attention-in-a-dual-speaker-scenario-from-eeg-using-a-joint-cnn-lstm-model-2102.039572021-07-12 https://scifaro.com/en/abs/lightspeech-lightweight-and-fast-text-to-speech-with-neural-architecture-search-2102.040402021-02-09 https://scifaro.com/en/abs/speaker-and-direction-inferred-dual-channel-speech-separation-2102.040562021-02-09 https://scifaro.com/en/abs/an-update-on-a-progressively-expanded-database-for-automated-lung-sound-analysis-2102.040622021-09-30 https://scifaro.com/en/abs/icassp-2021-deep-noise-suppression-challenge-decoupling-magnitude-and-phase-optimization-with-a-two-stage-deep-network-2102.041982021-03-02 https://scifaro.com/en/abs/federated-acoustic-modeling-for-automatic-speech-recognition-2102.044292021-02-09 https://scifaro.com/en/abs/a-comparative-study-of-two-dimensional-vocal-tract-acoustic-modeling-based-on-finite-difference-time-domain-methods-2102.045882021-02-10 https://scifaro.com/en/abs/tr-aumerai-dreaming-music-with-stylegan-2102.046802021-02-10 https://scifaro.com/en/abs/diagnosis-of-covid-19-and-non-covid-19-patients-by-classifying-only-a-single-cough-sound-2102.048802021-02-10 https://scifaro.com/en/abs/on-permutation-invariant-training-for-speech-source-separation-2102.049452021-04-06 https://scifaro.com/en/abs/enhancing-audio-augmentation-methods-with-consistency-learning-2102.051512021-04-20 https://scifaro.com/en/abs/exploring-automatic-covid-19-diagnosis-via-voice-and-symptoms-from-crowdsourced-data-2102.052252021-05-17 https://scifaro.com/en/abs/sound-event-detection-based-on-curriculum-learning-considering-learning-difficulty-of-events-2102.052882021-02-11 https://scifaro.com/en/abs/voice-cloning-a-multi-speaker-text-to-speech-synthesis-approach-based-on-transfer-learning-2102.056302021-02-11 https://scifaro.com/en/abs/self-supervised-vq-vae-for-one-shot-music-style-transfer-2102.057492021-06-11 https://scifaro.com/en/abs/onoma-to-wave-environmental-sound-synthesis-from-onomatopoeic-words-2102.058722022-02-08 https://scifaro.com/en/abs/casa-based-speaker-identification-using-cascaded-gmm-cnn-classifier-in-noisy-and-emotional-talking-conditions-2102.058942021-02-12 https://scifaro.com/en/abs/language-independent-emotion-quantification-using-non-linear-modelling-of-speech-2102.060032021-02-12 https://scifaro.com/en/abs/speech-enhancement-with-mixture-of-deep-experts-with-clean-clustering-pre-training-2102.060342021-02-12 https://scifaro.com/en/abs/a-fractal-approach-to-characterize-emotions-in-audio-and-visual-domain-a-study-on-cross-modal-interaction-2102.060382021-02-12 https://scifaro.com/en/abs/multichannel-based-learning-for-audio-object-extraction-2102.061422021-12-22 https://scifaro.com/en/abs/a-multi-view-approach-to-audio-visual-speaker-verification-2102.062912021-02-15 https://scifaro.com/en/abs/contrastive-unsupervised-learning-for-speech-emotion-recognition-2102.063572021-02-15 https://scifaro.com/en/abs/vara-tts-non-autoregressive-text-to-speech-synthesis-based-on-very-deep-vae-with-residual-attention-2102.064312021-02-15 https://scifaro.com/en/abs/deep-sound-field-reconstruction-in-real-rooms-introducing-the-isobel-sound-field-dataset-2102.064552021-02-15 https://scifaro.com/en/abs/content-aware-speaker-embeddings-for-speaker-diarisation-2102.064672021-02-15 https://scifaro.com/en/abs/deep-convolutional-and-recurrent-networks-for-polyphonic-instrument-classification-from-monophonic-raw-audio-waveforms-2102.069302021-02-16 https://scifaro.com/en/abs/multi-channel-speech-enhancement-using-graph-neural-networks-2102.069342021-02-16 https://scifaro.com/en/abs/parametric-optimization-of-violin-top-plates-using-machine-learning-2102.071332021-02-19 https://scifaro.com/en/abs/thank-you-for-attention-a-survey-on-attention-based-artificial-neural-networks-for-automatic-speech-recognition-2102.072592021-02-16 https://scifaro.com/en/abs/i-vector-based-within-speaker-voice-quality-identification-on-connected-speech-2102.073072021-02-16 https://scifaro.com/en/abs/anomalous-sound-detection-with-machine-learning-a-systematic-review-2102.078202021-02-17 https://scifaro.com/en/abs/voice-gender-scoring-and-independent-acoustic-characterization-of-perceived-masculinity-and-femininity-2102.079822022-08-05 https://scifaro.com/en/abs/improving-speech-recognition-models-with-small-samples-for-air-traffic-control-systems-2102.080152021-02-17 https://scifaro.com/en/abs/semi-supervised-learning-for-few-shot-audio-classification-by-episodic-triplet-mining-2102.080742021-02-17 https://scifaro.com/en/abs/comparison-of-semi-supervised-deep-learning-algorithms-for-audio-classification-2102.081832023-03-09 https://scifaro.com/en/abs/end-2-end-covid-19-detection-from-breath-cough-audio-2102.083592021-02-17 https://scifaro.com/en/abs/weighted-recursive-least-square-filter-and-neural-network-based-residual-echo-suppression-for-the-aec-challenge-2102.085512021-02-19 https://scifaro.com/en/abs/end-to-end-lyrics-recognition-with-voice-to-singing-style-transfer-2102.085752021-02-18 https://scifaro.com/en/abs/desed-fl-and-urban-fl-federated-learning-datasets-for-sound-event-detection-2102.088332021-06-01 https://scifaro.com/en/abs/low-resource-audio-to-lyrics-alignment-from-polyphonic-music-recordings-2102.092022021-02-19 https://scifaro.com/en/abs/frequency-temporal-attention-network-for-singing-melody-extraction-2102.097632021-06-16 https://scifaro.com/en/abs/hierarchical-recurrent-neural-networks-for-conditional-melody-generation-with-long-term-structure-2102.097942021-04-27 https://scifaro.com/en/abs/unit-selection-synthesis-based-data-augmentation-for-fixed-phrase-speaker-verification-2102.098172021-02-22 https://scifaro.com/en/abs/aispeech-sjtu-accent-identification-system-for-the-accented-english-speech-recognition-challenge-2102.098282021-02-22 https://scifaro.com/en/abs/catnet-music-source-separation-system-with-mix-audio-augmentation-2102.099662021-02-22 https://scifaro.com/en/abs/speech-enhancement-with-weakly-labelled-data-from-audioset-2102.099712021-02-22 https://scifaro.com/en/abs/transmask-a-compact-and-fast-speech-separation-model-based-on-transformer-2102.099782021-02-22 https://scifaro.com/en/abs/the-accented-english-speech-recognition-challenge-2020-open-datasets-tracks-baselines-results-and-methods-2102.102332021-02-23 https://scifaro.com/en/abs/singer-identification-using-deep-timbre-feature-learning-with-knn-net-2102.102362021-02-23 https://scifaro.com/en/abs/learnable-mfccs-for-speaker-verification-2102.103222021-02-23 https://scifaro.com/en/abs/anomaly-detection-in-audio-with-concept-drift-using-adaptive-huffman-coding-2102.105152021-08-10 https://scifaro.com/en/abs/anyone-gan-sing-2102.110582021-02-23 https://scifaro.com/en/abs/investigating-deep-neural-structures-and-their-interpretability-in-the-domain-of-voice-conversion-2102.114202021-02-24 https://scifaro.com/en/abs/investigating-local-and-global-information-for-automated-audio-captioning-with-transfer-learning-2102.114572021-02-24 https://scifaro.com/en/abs/text-to-audio-grounding-building-correspondence-between-captions-and-sound-events-2102.114742021-02-24 https://scifaro.com/en/abs/senone-aware-adversarial-multi-task-training-for-unsupervised-child-to-adult-speech-adaptation-2102.114882021-02-25 https://scifaro.com/en/abs/memory-efficient-speech-recognition-on-smart-devices-2102.115312021-02-24 https://scifaro.com/en/abs/data-fusion-for-audiovisual-speaker-localization-extending-dynamic-stream-weights-to-the-spatial-domain-2102.115882021-02-25 https://scifaro.com/en/abs/improving-deep-learning-sound-events-classifiers-using-gram-matrix-feature-wise-correlations-2102.117712021-02-24 https://scifaro.com/en/abs/deep-learning-approach-for-singer-voice-classification-of-vietnamese-popular-music-2102.121112021-02-25 https://scifaro.com/en/abs/automatic-feature-extraction-for-heartbeat-anomaly-detection-2102.122892021-02-25 https://scifaro.com/en/abs/triplet-loss-based-embeddings-for-forensic-speaker-identification-in-spanish-2102.125642021-09-15 https://scifaro.com/en/abs/maskcyclegan-vc-learning-non-parallel-voice-conversion-with-filling-in-frames-2102.128412021-02-26 https://scifaro.com/en/abs/towards-explaining-expressive-qualities-in-piano-recordings-transfer-of-explanatory-features-via-acoustic-domain-adaptation-2102.134792021-03-01 https://scifaro.com/en/abs/the-npu-system-for-the-2020-personalized-voice-trigger-challenge-2102.135522021-03-01 https://scifaro.com/en/abs/mbnet-mos-prediction-for-synthesized-speech-with-mean-bias-network-2103.001102021-03-02 https://scifaro.com/en/abs/expert-decision-support-system-for-aeroacoustic-source-type-identification-using-clustering-2103.002552022-03-09 https://scifaro.com/en/abs/brain-signals-to-rescue-aphasia-apraxia-and-dysarthria-speech-recognition-2103.003832021-07-20 https://scifaro.com/en/abs/exploiting-attention-based-sequence-to-sequence-architectures-for-sound-event-localization-2103.004172021-03-02 https://scifaro.com/en/abs/unsupervised-classification-of-voiced-speech-and-pitch-tracking-using-forward-backward-kalman-filtering-2103.011732021-03-02 https://scifaro.com/en/abs/audio-visual-speech-separation-using-cross-modal-correspondence-loss-2103.014632021-03-03 https://scifaro.com/en/abs/open-range-pitch-tracking-for-carrier-frequency-difference-estimation-from-hf-transmitted-speech-2103.015992021-03-04 https://scifaro.com/en/abs/virufy-a-multi-branch-deep-learning-network-for-automated-detection-of-covid-19-2103.018062021-03-18 https://scifaro.com/en/abs/audio-scene-monitoring-using-redundant-ad-hoc-microphone-array-networks-2103.018302021-08-25 https://scifaro.com/en/abs/listen-read-and-identify-multimodal-singing-language-identification-of-music-2103.018932021-07-29 https://scifaro.com/en/abs/investigations-on-audiovisual-emotion-recognition-in-noisy-conditions-2103.018942021-03-03 https://scifaro.com/en/abs/soundclr-contrastive-learning-of-representations-for-improved-environmental-sound-classification-2103.019292021-03-03 https://scifaro.com/en/abs/continuous-speech-separation-with-ad-hoc-microphone-arrays-2103.023782021-03-04 https://scifaro.com/en/abs/multi-view-audio-and-music-classification-2103.024202021-03-04 https://scifaro.com/en/abs/compute-and-memory-efficient-universal-sound-source-separation-2103.026442022-02-01 https://scifaro.com/en/abs/speech-emotion-recognition-using-semantic-information-2103.029932021-03-05 https://scifaro.com/en/abs/error-driven-fixed-budget-asr-personalization-for-accented-speakers-2103.031422021-06-03 https://scifaro.com/en/abs/environmental-sound-classification-on-the-edge-a-pipeline-for-deep-acoustic-networks-on-extremely-resource-constrained-devices-2103.034832022-09-21 https://scifaro.com/en/abs/slow-fast-auditory-streams-for-audio-recognition-2103.035162021-03-08 https://scifaro.com/en/abs/audiovisual-speech-synthesis-a-brief-literature-review-2103.039272021-03-09 https://scifaro.com/en/abs/analysis-and-assessment-of-controllability-of-an-expressive-deep-learning-based-tts-system-2103.040972021-03-09 https://scifaro.com/en/abs/gan-vocoder-multi-resolution-discriminator-is-all-you-need-2103.052362021-08-24 https://scifaro.com/en/abs/spheroidal-ambisonics-a-spatial-audio-framework-using-spheroidal-bases-2103.057192023-01-06 https://scifaro.com/en/abs/search-disaster-victims-using-sound-source-localization-2103.060492021-03-11 https://scifaro.com/en/abs/automatic-speaker-independent-dysarthric-speech-intelligibility-assessment-system-2103.061572021-03-11 https://scifaro.com/en/abs/multi-format-contrastive-learning-of-audio-representations-2103.065082021-03-25 https://scifaro.com/en/abs/topological-data-analysis-of-korean-music-in-jeongganbo-a-cycle-structure-2103.066202021-07-02 https://scifaro.com/en/abs/learning-spectro-temporal-representations-of-complex-sounds-with-parameterized-neural-networks-2103.071252021-08-04 https://scifaro.com/en/abs/latent-space-explorations-of-singing-voice-synthesis-using-ddsp-2103.071972021-03-15 https://scifaro.com/en/abs/real-time-timbre-transfer-and-sound-synthesis-using-ddsp-2103.072202021-03-15 https://scifaro.com/en/abs/modelling-animal-biodiversity-using-acoustic-monitoring-and-deep-learning-2103.072762021-03-15 https://scifaro.com/en/abs/optimal-embedding-calibration-for-symbolic-music-similarity-2103.076562021-09-10 https://scifaro.com/en/abs/blind-estimation-of-room-acoustic-parameters-and-speech-transmission-index-using-mtf-based-cnns-2103.079042021-03-16 https://scifaro.com/en/abs/multi-discriminator-sobolev-defense-gan-against-adversarial-attacks-for-end-to-end-speech-systems-2103.080862021-03-16 https://scifaro.com/en/abs/towards-robust-speech-to-text-adversarial-attack-2103.080952021-03-16 https://scifaro.com/en/abs/computational-timbre-and-tonal-system-similarity-analysis-of-the-music-of-northern-myanmar-based-kachin-compared-to-xinjiang-based-uyghur-ethnic-groups-2103.082032021-03-16 https://scifaro.com/en/abs/emonet-a-transfer-learning-framework-for-multi-corpus-speech-emotion-recognition-2103.083102021-03-16 https://scifaro.com/en/abs/dhasp-differentiable-hearing-aid-speech-processing-2103.085692021-03-16 https://scifaro.com/en/abs/fast-development-of-asr-in-african-languages-using-self-supervised-speech-representation-learning-2103.089932021-03-17 https://scifaro.com/en/abs/an-asynchronous-wfst-based-decoder-for-automatic-speech-recognition-2103.090632021-03-17 https://scifaro.com/en/abs/contrastive-learning-of-musical-representations-2103.094102021-09-28 https://scifaro.com/en/abs/self-supervised-learning-of-audio-representations-from-permutations-with-differentiable-ranking-2103.098792021-05-05 https://scifaro.com/en/abs/audio-description-from-image-by-modal-translation-network-2103.100182021-03-19 https://scifaro.com/en/abs/ustc-nelslip-system-description-for-dihard-iii-challenge-2103.106612021-03-22 https://scifaro.com/en/abs/reduced-basis-methods-for-numerical-room-acoustic-simulations-with-parametrized-boundaries-2103.117302024-06-19 https://scifaro.com/en/abs/self-paced-ensemble-learning-for-speech-and-audio-classification-2103.119882021-06-09 https://scifaro.com/en/abs/musical-mix-clarity-predication-using-decomposition-and-perceptual-masking-thresholds-2103.121522021-10-15 https://scifaro.com/en/abs/tiny-transformers-for-environmental-sound-classification-at-the-edge-2103.121572021-03-24 https://scifaro.com/en/abs/gise-51-a-scalable-isolated-sound-events-dataset-2103.123062021-10-08 https://scifaro.com/en/abs/learned-complex-masks-for-multi-instrument-source-separation-2103.128642021-03-25 https://scifaro.com/en/abs/transfer-learning-for-piano-sustain-pedal-detection-2103.132192021-03-25 https://scifaro.com/en/abs/automatic-cough-classification-for-tuberculosis-screening-in-a-real-world-environment-2103.133002022-05-12 https://scifaro.com/en/abs/blind-speech-separation-and-dereverberation-using-neural-beamforming-2103.134432021-11-08 https://scifaro.com/en/abs/subspectral-normalization-for-neural-audio-data-processing-2103.136202021-03-26 https://scifaro.com/en/abs/image2reverb-cross-modal-reverb-impulse-response-synthesis-2103.142012021-08-17 https://scifaro.com/en/abs/three-dimensional-higher-order-raypath-separation-in-a-shallow-water-waveguide-2103.142062021-03-29 https://scifaro.com/en/abs/modeling-the-compatibility-of-stem-tracks-to-generate-music-mashups-2103.142082021-03-29 https://scifaro.com/en/abs/subspace-based-compressive-sensing-algorithm-for-raypath-separation-in-a-shallow-water-waveguide-2103.142362021-03-29 https://scifaro.com/en/abs/improve-gan-based-neural-vocoder-using-pointwise-relativistic-leastsquare-gan-2103.142452021-03-30 https://scifaro.com/en/abs/guided-training-a-simple-method-for-single-channel-speaker-separation-2103.143302021-03-29 https://scifaro.com/en/abs/parallel-tacotron-2-a-non-autoregressive-neural-tts-model-with-differentiable-duration-modeling-2103.145742021-08-31 https://scifaro.com/en/abs/cyclic-defense-gan-against-speech-adversarial-attacks-2103.147172021-08-24 https://scifaro.com/en/abs/construction-of-a-large-scale-japanese-asr-corpus-on-tv-recordings-2103.147362021-03-30 https://scifaro.com/en/abs/on-tasnet-for-low-latency-single-speaker-speech-enhancement-2103.148822021-03-30 https://scifaro.com/en/abs/feature-based-representation-for-violin-bridge-admittances-2103.148952021-03-30 https://scifaro.com/en/abs/transformer-based-end-to-end-speech-recognition-with-residual-gaussian-based-self-attention-2103.157222021-10-11 https://scifaro.com/en/abs/audio-classification-of-the-content-of-food-containers-and-drinking-glasses-2103.159992021-06-10 https://scifaro.com/en/abs/environmental-sound-analysis-with-mixup-based-multitask-learning-and-cross-task-fusion-2103.160792021-03-31 https://scifaro.com/en/abs/symbolic-music-generation-with-diffusion-models-2103.160912021-11-29 https://scifaro.com/en/abs/time-domain-speech-enhancement-with-generative-adversarial-learning-2103.161492021-09-21 https://scifaro.com/en/abs/ts-rir-translated-synthetic-room-impulse-responses-for-speech-augmentation-2103.168042021-11-15 https://scifaro.com/en/abs/near-field-acoustic-holography-on-arbitrary-shapes-using-convolutional-neural-network-2103.169352021-06-30 https://scifaro.com/en/abs/towards-citizen-science-for-smart-cities-a-framework-for-a-collaborative-game-of-bird-call-recognition-based-on-internet-of-sound-practices-2103.169882021-04-01 https://scifaro.com/en/abs/privacy-enhanced-speech-emotion-communication-using-deep-learning-aided-edge-computing-2103.171392021-04-01 https://scifaro.com/en/abs/speech-resynthesis-from-discrete-disentangled-self-supervised-representations-2104.003552021-07-28 https://scifaro.com/en/abs/enriched-music-representations-with-multiple-cross-modal-contrastive-learning-2104.004372021-04-05 https://scifaro.com/en/abs/auto-kws-2021-challenge-task-datasets-and-baselines-2104.005132021-04-02 https://scifaro.com/en/abs/outliernets-highly-compact-deep-autoencoder-network-architectures-for-on-device-acoustic-anomaly-detection-2104.005282021-04-20 https://scifaro.com/en/abs/multi-rate-attention-architecture-for-fast-streamable-text-to-speech-spectrum-modeling-2104.007052021-04-05 https://scifaro.com/en/abs/out-of-a-hundred-trials-how-many-errors-does-your-speaker-verifier-make-2104.007322021-04-05 https://scifaro.com/en/abs/robust-wav2vec-2-0-analyzing-domain-shift-in-self-supervised-pre-training-2104.010272021-09-09 https://scifaro.com/en/abs/phyaug-physics-directed-data-augmentation-for-deep-sensing-model-transfer-in-cyber-physical-systems-2104.011602021-04-20 https://scifaro.com/en/abs/an-audio-based-deep-learning-framework-for-bbc-television-programme-classification-2104.011612022-02-14 https://scifaro.com/en/abs/pate-aae-incorporating-adversarial-autoencoder-into-private-aggregation-of-teacher-ensembles-for-spoken-command-classification-2104.012712021-10-11 https://scifaro.com/en/abs/diarization-of-legal-proceedings-identifying-and-transcribing-judicial-speech-from-recorded-court-audio-2104.013042021-04-06 https://scifaro.com/en/abs/mixture-of-orthogonal-sequences-made-from-extended-time-stretched-pulses-enables-measurement-of-involuntary-voice-fundamental-frequency-response-to-pitch-perturbation-2104.014442021-09-27 https://scifaro.com/en/abs/ast-audio-spectrogram-transformer-2104.017782021-07-12 https://scifaro.com/en/abs/stargan-based-emotional-voice-conversion-for-japanese-phrases-2104.018072021-04-06 https://scifaro.com/en/abs/acted-vs-improvised-domain-adaptation-for-elicitation-approaches-in-audio-visual-emotion-recognition-2104.019782021-06-08 https://scifaro.com/en/abs/uncertainty-aware-covid-19-detection-from-imbalanced-sound-data-2104.020052021-06-22 https://scifaro.com/en/abs/streaming-multi-talker-speech-recognition-with-joint-speaker-identification-2104.021092021-04-07 https://scifaro.com/en/abs/dissecting-user-perceived-latency-of-on-device-e2e-speech-recognition-2104.022072021-08-13 https://scifaro.com/en/abs/flexi-transducer-optimizing-latency-accuracy-and-compute-formulti-domain-on-device-scenarios-2104.022322021-04-07 https://scifaro.com/en/abs/binary-neural-network-for-speaker-verification-2104.023062021-04-07 https://scifaro.com/en/abs/muslcat-multi-scale-multi-level-convolutional-attention-transformer-for-discriminative-music-modeling-on-raw-waveforms-2104.023092021-04-07 https://scifaro.com/en/abs/towards-consistent-hybrid-hmm-acoustic-modeling-2104.023872021-10-13 https://scifaro.com/en/abs/covid-19-detection-in-cough-breath-and-speech-using-deep-transfer-learning-and-bottleneck-features-2104.024772022-05-12 https://scifaro.com/en/abs/optimal-transport-based-adaptation-in-dysarthric-speech-tasks-2104.025352022-03-15 https://scifaro.com/en/abs/comparing-ctc-and-lfmmi-for-out-of-domain-adaptation-of-wav2vec-2-0-acoustic-model-2104.025582021-04-07 https://scifaro.com/en/abs/darts-conformer-towards-efficient-gradient-based-neural-architecture-search-for-end-to-end-asr-2104.028682021-08-11 https://scifaro.com/en/abs/learning-robust-speech-representation-with-an-articulatory-regularized-variational-autoencoder-2104.032042021-04-08 https://scifaro.com/en/abs/emotion-recognition-from-speech-using-wav2vec-2-0-embeddings-2104.035022021-04-09 https://scifaro.com/en/abs/towards-multi-scale-style-control-for-expressive-speech-synthesis-2104.035212021-04-09 https://scifaro.com/en/abs/metricgan-an-improved-version-of-metricgan-for-speech-enhancement-2104.035382021-06-07 https://scifaro.com/en/abs/wnars-wfst-based-non-autoregressive-streaming-end-to-end-speech-recognition-2104.035872021-04-22 https://scifaro.com/en/abs/aishell-4-an-open-source-dataset-for-speech-enhancement-separation-recognition-and-speaker-diarization-in-conference-scenario-2104.036032021-08-11 https://scifaro.com/en/abs/half-truth-a-partially-fake-audio-detection-dataset-2104.036172023-12-19 https://scifaro.com/en/abs/speech-denoising-without-clean-training-data-a-noise2noise-approach-2104.038382021-09-21 https://scifaro.com/en/abs/serumrnn-step-by-step-audio-vst-effect-programming-2104.038762021-04-12 https://scifaro.com/en/abs/flavored-tacotron-conditional-learning-for-prosodic-linguistic-features-2104.040502021-04-12 https://scifaro.com/en/abs/generalized-spoofing-detection-inspired-from-audio-generation-artifacts-2104.041112021-06-29 https://scifaro.com/en/abs/heaps-law-and-vocabulary-richness-in-the-history-of-classical-music-harmony-2104.041432021-10-19 https://scifaro.com/en/abs/joint-online-multichannel-acoustic-echo-cancellation-speech-dereverberation-and-source-separation-2104.043252021-04-12 https://scifaro.com/en/abs/cross-modal-learning-for-audio-visual-video-parsing-2104.045982021-06-22 https://scifaro.com/en/abs/unified-source-filter-gan-unified-source-filter-network-based-on-factorization-of-quasi-periodic-parallel-wavegan-2104.046682021-06-29 https://scifaro.com/en/abs/boundary-and-context-aware-training-for-cif-based-non-autoregressive-end-to-end-asr-2104.047022021-09-28 https://scifaro.com/en/abs/end-to-end-mandarin-tone-classification-with-short-term-context-information-2104.056572021-12-20 https://scifaro.com/en/abs/extremely-low-footprint-end-to-end-asr-system-for-smart-device-2104.057842021-07-08 https://scifaro.com/en/abs/detecting-escalation-level-from-speech-with-transfer-learning-and-acoustic-lexical-information-fusion-2104.060042021-11-05 https://scifaro.com/en/abs/noisevc-towards-high-quality-zero-shot-voice-conversion-2104.060742021-04-14 https://scifaro.com/en/abs/visually-informed-binaural-audio-generation-without-binaural-audios-2104.061622021-04-14 https://scifaro.com/en/abs/comparison-and-analysis-of-deep-audio-embeddings-for-music-emotion-recognition-2104.065172021-04-15 https://scifaro.com/en/abs/revisiting-the-onsets-and-frames-model-with-additive-attention-2104.066072021-04-15 https://scifaro.com/en/abs/end-to-end-keyword-spotting-using-neural-architecture-search-and-quantization-2104.066662021-04-15 https://scifaro.com/en/abs/non-autoregressive-sequence-to-sequence-voice-conversion-2104.067932021-04-15 https://scifaro.com/en/abs/efficient-conformer-based-speech-recognition-with-linear-attention-2104.068652021-07-26 https://scifaro.com/en/abs/fasts2s-vc-streaming-non-autoregressive-sequence-to-sequence-voice-conversion-2104.069002021-04-15 https://scifaro.com/en/abs/audio-feature-ranking-for-sound-based-covid-19-patient-detection-2104.071282022-11-24 https://scifaro.com/en/abs/on-the-design-of-deep-priors-for-unsupervised-audio-restoration-2104.071612021-04-16 https://scifaro.com/en/abs/continual-learning-for-fake-audio-detection-2104.072862022-07-12 https://scifaro.com/en/abs/cross-domain-speech-recognition-with-unsupervised-character-level-distribution-matching-2104.074912021-06-10 https://scifaro.com/en/abs/spectrogram-inpainting-for-interactive-generation-of-instrument-sounds-2104.075192021-04-16 https://scifaro.com/en/abs/mimo-self-attentive-rnn-beamformer-for-multi-speaker-speech-separation-2104.084502021-04-27 https://scifaro.com/en/abs/uncovering-audio-patterns-in-music-with-nonnegative-tucker-decomposition-for-structural-segmentation-2104.085802022-01-31 https://scifaro.com/en/abs/cetacean-translation-initiative-a-roadmap-to-deciphering-the-communication-of-sperm-whales-2104.086142021-04-20 https://scifaro.com/en/abs/best-practices-for-noise-based-augmentation-to-improve-the-performance-of-deployable-speech-based-emotion-recognition-systems-2104.088062023-09-04 https://scifaro.com/en/abs/low-frequency-characterization-of-music-sounds-ultra-bass-richness-from-the-sound-wave-beats-2104.088722021-04-20 https://scifaro.com/en/abs/many-speakers-single-channel-speech-separation-with-optimal-permutation-training-2104.089552021-11-09 https://scifaro.com/en/abs/an-interdisciplinary-review-of-music-performance-analysis-2104.090182021-04-20 https://scifaro.com/en/abs/interpreting-intermediate-convolutional-layers-of-generative-cnns-trained-on-waveforms-2104.094892022-10-21 https://scifaro.com/en/abs/adaspeech-2-adaptive-text-to-speech-with-untranscribed-data-2104.097152021-04-21 https://scifaro.com/en/abs/waveform-phasicity-prediction-from-arterial-sounds-through-spectrogram-analysis-using-convolutional-neural-networks-for-limb-perfusion-assessment-2104.097482021-06-17 https://scifaro.com/en/abs/identification-of-fake-stereo-audio-2104.098322021-04-21 https://scifaro.com/en/abs/a-cappella-audio-visual-singing-voice-separation-2104.099462021-10-20 https://scifaro.com/en/abs/review-of-end-to-end-speech-synthesis-technology-based-on-deep-learning-2104.099952021-04-21 https://scifaro.com/en/abs/on-the-impact-of-word-error-rate-on-acoustic-linguistic-speech-emotion-recognition-an-update-for-the-deep-learning-era-2104.101212021-04-21 https://scifaro.com/en/abs/room-adaptive-conditioning-method-for-sound-event-classification-in-reverberant-environments-2104.104312021-04-22 https://scifaro.com/en/abs/protecting-gender-and-identity-with-disentangled-speech-representations-2104.110512021-06-18 https://scifaro.com/en/abs/restoring-degraded-speech-via-a-modified-diffusion-model-2104.113472021-09-03 https://scifaro.com/en/abs/infant-vocal-tract-development-analysis-and-diagnosis-by-cry-signals-with-cnn-age-classification-2104.113952021-04-26 https://scifaro.com/en/abs/3d-convolutional-neural-networks-for-ultrasound-based-silent-speech-interfaces-2104.115322021-04-26 https://scifaro.com/en/abs/esresne-x-t-fbsp-learning-robust-time-frequency-transformation-of-audio-2104.115872021-04-26 https://scifaro.com/en/abs/reconstructing-speech-from-real-time-articulatory-mri-using-neural-vocoders-2104.115982021-04-26 https://scifaro.com/en/abs/improving-neural-silent-speech-interface-models-by-adversarial-training-2104.116012021-06-02 https://scifaro.com/en/abs/deepspectrumlite-a-power-efficient-transfer-learning-framework-for-embedded-speech-and-audio-processing-from-decentralised-data-2104.116292021-04-26 https://scifaro.com/en/abs/deep-learning-based-assessment-of-synthetic-speech-naturalness-2104.116732021-04-26 https://scifaro.com/en/abs/beyond-voice-activity-detection-hybrid-audio-segmentation-for-direct-speech-translation-2104.117102021-10-15 https://scifaro.com/en/abs/music-embedding-a-tool-for-incorporating-music-theory-into-computational-music-applications-2104.118802021-04-27 https://scifaro.com/en/abs/muscaps-generating-captions-for-music-audio-2104.119842021-12-09 https://scifaro.com/en/abs/an-adaptive-learning-based-generative-adversarial-network-for-one-to-one-voice-conversion-2104.121592021-04-27 https://scifaro.com/en/abs/text-to-speech-synthesis-techniques-for-midi-to-audio-synthesis-2104.122922022-02-25 https://scifaro.com/en/abs/complex-neural-spatial-filter-enhancing-multi-channel-target-speech-separation-in-complex-domain-2104.123592021-09-08 https://scifaro.com/en/abs/generation-of-musical-patterns-through-operads-2104.124322021-04-27 https://scifaro.com/en/abs/points2sound-from-mono-to-binaural-audio-using-3d-point-cloud-scenes-2104.124622023-05-22 https://scifaro.com/en/abs/identifying-actions-for-sound-event-classification-2104.126932021-08-09 https://scifaro.com/en/abs/multimodal-self-supervised-learning-of-general-audio-representations-2104.128072021-04-29 https://scifaro.com/en/abs/one-billion-audio-sounds-from-gpu-enabled-modular-synthesis-2104.129222021-07-21 https://scifaro.com/en/abs/dpt-fsnet-dual-path-transformer-based-full-band-and-sub-band-fusion-network-for-speech-enhancement-2104.130022022-01-26 https://scifaro.com/en/abs/the-music-box-operad-random-generation-of-musical-phrases-from-patterns-2104.130402024-04-30 https://scifaro.com/en/abs/generating-lead-sheets-with-affect-a-novel-conditional-seq2seq-framework-2104.130562021-04-28 https://scifaro.com/en/abs/batebit-controller-popularizing-digital-musical-instruments-development-process-2104.132662023-03-08 https://scifaro.com/en/abs/multimodal-analysis-informed-content-estimation-and-audio-source-separation-2104.132762021-11-01 https://scifaro.com/en/abs/improving-fairness-in-speaker-recognition-2104.140672022-08-24 https://scifaro.com/en/abs/end-to-end-speech-recognition-from-federated-acoustic-models-2104.142972021-07-12 https://scifaro.com/en/abs/star-dgt-a-robust-gabor-transform-for-speech-denoising-2104.144682023-04-27 https://scifaro.com/en/abs/emotion-recognition-of-the-singing-voice-toward-a-real-time-analysis-tool-for-singers-2105.001732021-07-06 https://scifaro.com/en/abs/audio-transformers-2105.003352025-05-13 https://scifaro.com/en/abs/avatr-one-shot-speaker-extraction-with-transformers-2105.006092021-05-04 https://scifaro.com/en/abs/exploiting-audio-visual-consistency-with-partial-supervision-for-spatial-audio-generation-2105.007082021-05-04 https://scifaro.com/en/abs/deep-neural-network-for-musical-instrument-recognition-using-mfccs-2105.009332026-05-20 https://scifaro.com/en/abs/streaming-end-to-end-speech-recognition-with-jointly-trained-neural-feature-enhancement-2105.012542021-05-05 https://scifaro.com/en/abs/vqcpc-gan-variable-length-adversarial-audio-synthesis-using-vector-quantized-contrastive-predictive-coding-2105.015312021-08-02 https://scifaro.com/en/abs/acoustic-scene-classification-using-multichannel-observation-with-partially-missing-channels-2105.018362021-05-06 https://scifaro.com/en/abs/improved-feature-extraction-for-crnn-based-multiple-sound-source-localization-2105.018972021-05-06 https://scifaro.com/en/abs/end-to-end-diarization-for-variable-number-of-speakers-with-local-global-networks-and-discriminative-speaker-embeddings-2105.020962021-05-06 https://scifaro.com/en/abs/self-supervised-learning-from-automatically-separated-sound-scenes-2105.021322021-09-16 https://scifaro.com/en/abs/how-do-voices-from-past-speech-synthesis-challenges-compare-today-2105.023732021-07-01 https://scifaro.com/en/abs/dbnet-a-dual-branch-network-architecture-processing-on-spectrum-and-waveform-for-single-channel-speech-enhancement-2105.024362021-05-07 https://scifaro.com/en/abs/deficient-basis-estimation-of-noise-spatial-covariance-matrix-for-rank-constrained-spatial-covariance-matrix-estimation-method-in-blind-speech-extraction-2105.024912021-05-07 https://scifaro.com/en/abs/speech-enhancement-using-separable-polling-attention-and-global-layer-normalization-followed-with-prelu-2105.025092021-05-07 https://scifaro.com/en/abs/mimii-due-sound-dataset-for-malfunctioning-industrial-machine-investigation-and-inspection-with-domain-shifts-due-to-changes-in-operational-and-environmental-conditions-2105.027022021-09-28 https://scifaro.com/en/abs/speechmoe-scaling-to-large-acoustic-models-with-dynamic-routing-mixture-of-experts-2105.030362021-05-10 https://scifaro.com/en/abs/voice-activity-detection-in-the-wild-a-data-driven-approach-using-teacher-student-training-2105.040652021-05-11 https://scifaro.com/en/abs/sampling-frequency-independent-audio-source-separation-using-convolution-layer-based-on-impulse-invariant-method-2105.040792021-05-11 https://scifaro.com/en/abs/musemorphose-full-song-and-fine-grained-piano-music-style-transfer-with-one-transformer-vae-2105.040902022-12-21 https://scifaro.com/en/abs/mass-multi-task-anthropomorphic-speech-synthesis-framework-2105.041242021-05-11 https://scifaro.com/en/abs/multi-modal-conditional-bounding-box-regression-for-music-score-following-2105.043092021-05-11 https://scifaro.com/en/abs/learning-robust-latent-representations-for-controllable-speech-synthesis-2105.044582021-05-11 https://scifaro.com/en/abs/a-deep-reinforcement-learning-approach-to-audio-based-navigation-in-a-multi-speaker-environment-2105.044882021-05-17 https://scifaro.com/en/abs/personalized-popular-music-generation-using-imitation-and-structure-2105.047092021-05-12 https://scifaro.com/en/abs/separate-but-together-unsupervised-federated-learning-for-speech-enhancement-from-non-iid-data-2105.047272022-02-01 https://scifaro.com/en/abs/a-statistical-model-for-melody-reduction-2105.053852021-05-13 https://scifaro.com/en/abs/global-structure-aware-drum-transcription-based-on-self-attention-mechanisms-2105.057912021-05-13 https://scifaro.com/en/abs/the-impact-of-the-additional-features-on-the-performance-of-regression-analysis-a-case-study-on-regression-analysis-of-music-signal-2105.059382021-05-14 https://scifaro.com/en/abs/multi-target-doa-estimation-with-an-audio-visual-fusion-mechanism-2105.061072021-05-14 https://scifaro.com/en/abs/audio-captioning-with-composition-of-acoustic-and-semantic-information-2105.063552021-05-14 https://scifaro.com/en/abs/chord-recognition-music-and-audio-information-retrieval-2105.070192021-09-09 https://scifaro.com/en/abs/the-benefit-of-temporally-strong-labels-in-audio-event-classification-2105.070312021-05-18 https://scifaro.com/en/abs/1d-cnn-architectures-for-music-genre-classification-2105.073022021-05-18 https://scifaro.com/en/abs/exploring-self-supervised-representation-ensembles-for-covid-19-cough-classification-2105.075662021-08-26 https://scifaro.com/en/abs/it-otts-and-it-owave-linear-stochastic-differential-equation-is-all-you-need-for-audio-generation-2105.075832022-02-01 https://scifaro.com/en/abs/sound-event-detection-with-adaptive-frequency-selection-2105.075962021-07-30 https://scifaro.com/en/abs/point-based-acoustic-scattering-for-interactive-sound-propagation-via-surface-encoding-2105.081772021-05-19 https://scifaro.com/en/abs/federated-learning-with-highly-imbalanced-audio-data-2105.085502021-05-19 https://scifaro.com/en/abs/semour-a-scripted-emotional-speech-repository-for-urdu-2105.089572021-05-20 https://scifaro.com/en/abs/attack-on-practical-speaker-verification-system-using-universal-adversarial-perturbations-2105.090222021-05-20 https://scifaro.com/en/abs/music-generation-using-three-layered-lstm-2105.090462021-06-10 https://scifaro.com/en/abs/unsupervised-discriminative-learning-of-sounds-for-audio-event-classification-2105.092792021-05-21 https://scifaro.com/en/abs/speech-song-emotion-recognition-using-multilayer-perceptron-and-standard-vector-machine-2105.094062021-05-21 https://scifaro.com/en/abs/high-fidelity-and-low-latency-universal-neural-vocoder-based-on-multiband-wavernn-with-data-driven-linear-prediction-for-discrete-waveform-modeling-2105.098562021-07-06 https://scifaro.com/en/abs/low-latency-real-time-non-parallel-voice-conversion-based-on-cyclic-variational-autoencoder-and-multiband-wavernn-with-data-driven-linear-prediction-2105.098582021-07-06 https://scifaro.com/en/abs/mondegreen-a-post-processing-solution-to-speech-recognition-error-correction-for-voice-search-queries-2105.099302021-05-21 https://scifaro.com/en/abs/unsupervised-multi-target-domain-adaptation-for-acoustic-scene-classification-2105.103402021-05-24 https://scifaro.com/en/abs/loopnet-musical-loop-synthesis-conditioned-on-intuitive-musical-parameters-2105.103712021-05-24 https://scifaro.com/en/abs/semi-supervised-audio-representation-learning-for-modeling-beehive-strengths-2105.105362021-05-25 https://scifaro.com/en/abs/covid-19-detection-using-recorded-coughs-in-the-2021-dicova-challenge-2105.106192021-05-25 https://scifaro.com/en/abs/quanta-in-sound-the-sound-of-quanta-a-voice-informed-quantum-theoretical-perspective-on-sound-2105.107812022-05-10 https://scifaro.com/en/abs/rnnoise-ex-hybrid-speech-enhancement-system-based-on-rnn-and-spectral-features-2105.118132021-05-26 https://scifaro.com/en/abs/a-modulation-front-end-for-music-audio-tagging-2105.118362021-05-26 https://scifaro.com/en/abs/spectrum-correction-acoustic-scene-classification-with-mismatched-recording-devices-2105.118562021-05-26 https://scifaro.com/en/abs/receptive-field-regularization-techniques-for-audio-classification-and-tagging-with-deep-convolutional-neural-networks-2105.123952021-05-27 https://scifaro.com/en/abs/compensating-class-imbalance-for-acoustic-chimpanzee-detection-with-convolutional-recurrent-neural-networks-2105.125022021-05-27 https://scifaro.com/en/abs/self-attending-rnn-for-speech-enhancement-to-improve-cross-corpus-generalization-2105.128312022-04-14 https://scifaro.com/en/abs/phone-level-prosody-modelling-with-gmm-based-mdn-for-diverse-and-controllable-speech-synthesis-2105.130862024-10-30 https://scifaro.com/en/abs/evaluation-of-concept-drift-adaptation-for-acoustic-scene-classifier-based-on-kernel-density-drift-detection-and-combine-merge-gaussian-mixture-model-2105.132202021-05-31 https://scifaro.com/en/abs/cross-referencing-self-training-network-for-sound-event-detection-in-audio-mixtures-2105.133922024-12-31 https://scifaro.com/en/abs/voice-activity-detection-for-ultrasound-based-silent-speech-interfaces-using-convolutional-neural-networks-2105.137182021-09-21 https://scifaro.com/en/abs/dive-end-to-end-speech-diarization-via-iterative-speaker-embedding-2105.138022021-05-31 https://scifaro.com/en/abs/differentiable-artificial-reverberation-2105.139402022-07-21 https://scifaro.com/en/abs/echofilter-end-to-end-neural-network-for-acoustic-echo-cancellation-2105.146662021-06-01 https://scifaro.com/en/abs/multi-scale-temporal-convolution-network-for-classroom-voice-detection-2105.147172021-06-01 https://scifaro.com/en/abs/noise-classification-aided-attention-based-neural-network-for-monaural-speech-enhancement-2105.147192021-06-01 https://scifaro.com/en/abs/singing-language-identification-using-a-deep-phonotactic-approach-2105.150142021-06-01 https://scifaro.com/en/abs/multi-scale-attention-neural-network-for-acoustic-echo-cancellation-2106.000102021-06-02 https://scifaro.com/en/abs/a-methodology-for-exploring-deep-convolutional-features-in-relation-to-hand-crafted-features-with-an-application-to-music-audio-modeling-2106.001102021-10-12 https://scifaro.com/en/abs/improving-the-adversarial-robustness-for-speaker-verification-by-self-supervised-learning-2106.002732024-06-06 https://scifaro.com/en/abs/omnizart-a-general-toolbox-for-automatic-music-transcription-2106.004972021-06-02 https://scifaro.com/en/abs/exploring-exotic-counterpoint-compositions-2106.008062021-06-03 https://scifaro.com/en/abs/nvc-net-end-to-end-adversarial-voice-conversion-2106.009922021-06-03 https://scifaro.com/en/abs/exploring-modality-agnostic-representations-for-music-classification-2106.011492021-06-03 https://scifaro.com/en/abs/sound-to-imagination-an-exploratory-study-on-unsupervised-crossmodal-translation-using-diverse-audiovisual-data-2106.012662022-03-10 https://scifaro.com/en/abs/a-preliminary-study-of-a-two-stage-paradigm-for-preserving-speaker-identity-in-dysarthric-voice-conversion-2106.014152021-06-04 https://scifaro.com/en/abs/eranns-efficient-residual-audio-neural-networks-for-audio-pattern-recognition-2106.016212022-07-21 https://scifaro.com/en/abs/language-independent-speech-emotion-and-non-invasive-early-detection-of-neurocognitive-disorder-2106.016842021-06-04 https://scifaro.com/en/abs/heart-sound-classification-considering-additive-noise-and-convolutional-distortion-2106.018652021-06-04 https://scifaro.com/en/abs/lyricjam-a-system-for-generating-lyrics-for-live-instrumental-music-2106.019602021-06-04 https://scifaro.com/en/abs/a-database-for-research-on-detection-and-enhancement-of-speech-transmitted-over-hf-links-2106.024722021-07-22 https://scifaro.com/en/abs/musical-prosody-driven-emotion-classification-interpreting-vocalists-portrayal-of-emotions-through-machine-learning-2106.025562021-06-15 https://scifaro.com/en/abs/lightweight-dual-channel-target-speaker-separation-for-mobile-voice-communication-2106.029342021-06-08 https://scifaro.com/en/abs/empirical-bayesian-independent-deeply-learned-matrix-analysis-for-multichannel-audio-source-separation-2106.034922021-06-08 https://scifaro.com/en/abs/active-speaker-detection-as-a-multi-objective-optimization-with-uncertainty-based-multimodal-fusion-2106.038212021-09-16 https://scifaro.com/en/abs/impact-of-data-splits-on-generalization-identifying-covid-19-from-cough-and-context-2106.038512021-06-09 https://scifaro.com/en/abs/pilot-introducing-transformers-for-probabilistic-sound-event-localization-2106.039032021-06-09 https://scifaro.com/en/abs/byakto-speech-real-time-long-speech-synthesis-with-convolutional-neural-network-transfer-learning-from-english-to-bangla-2106.039372021-06-09 https://scifaro.com/en/abs/efficient-speech-emotion-recognition-using-multi-scale-cnn-and-attention-2106.041332021-06-09 https://scifaro.com/en/abs/broadcasted-residual-learning-for-efficient-keyword-spotting-2106.041402023-07-06 https://scifaro.com/en/abs/raw-waveform-encoder-with-multi-scale-globally-attentive-locally-recurrent-networks-for-end-to-end-speech-recognition-2106.042752021-06-09 https://scifaro.com/en/abs/nwt-towards-natural-audio-to-video-generation-with-representation-learning-2106.042832021-06-09 https://scifaro.com/en/abs/panacea-cough-sound-based-diagnosis-of-covid-19-for-the-dicova-2021-challenge-2106.044232021-06-09 https://scifaro.com/en/abs/neural-speaker-embeddings-for-ultrasound-based-silent-speech-interfaces-2106.045522021-06-14 https://scifaro.com/en/abs/optimising-hearing-aid-fittings-for-speech-in-noise-with-a-differentiable-hearing-loss-model-2106.046392021-06-10 https://scifaro.com/en/abs/speech-recovery-for-real-world-self-powered-intermittent-devices-2106.052292022-01-25 https://scifaro.com/en/abs/independent-deeply-learned-tensor-analysis-for-determined-audio-source-separation-2106.055292021-06-11 https://scifaro.com/en/abs/a-comparison-and-combination-of-unsupervised-blind-source-separation-techniques-2106.056272021-06-11 https://scifaro.com/en/abs/musicbert-symbolic-music-understanding-with-large-scale-pre-training-2106.056302021-06-11 https://scifaro.com/en/abs/u2-unified-two-pass-bidirectional-end-to-end-model-for-speech-recognition-2106.056422022-01-03 https://scifaro.com/en/abs/improving-multi-speaker-tts-prosody-variance-with-a-residual-encoder-and-normalizing-flows-2106.057622021-06-11 https://scifaro.com/en/abs/conditional-variational-autoencoder-with-adversarial-learning-for-end-to-end-text-to-speech-2106.061032021-06-14 https://scifaro.com/en/abs/exploiting-large-scale-teacher-student-training-for-on-device-acoustic-models-2106.061262021-06-14 https://scifaro.com/en/abs/anomalous-sound-detection-using-a-binary-classification-model-and-class-centroids-2106.061512021-06-14 https://scifaro.com/en/abs/enhancing-speaking-styles-in-conversational-text-to-speech-synthesis-with-graph-based-multi-modal-context-modeling-2106.062332022-04-01 https://scifaro.com/en/abs/hui-audio-corpus-german-a-high-quality-tts-dataset-2106.063092021-06-14 https://scifaro.com/en/abs/visualizing-classifier-adjacency-relations-a-case-study-in-speaker-verification-and-voice-anti-spoofing-2106.063622021-06-14 https://scifaro.com/en/abs/catch-a-waveform-learning-to-generate-audio-from-a-single-short-example-2106.064262021-10-27 https://scifaro.com/en/abs/a-benchmark-of-dynamical-variational-autoencoders-applied-to-speech-spectrogram-modeling-2106.065002021-06-15 https://scifaro.com/en/abs/a-low-compexity-deep-learning-framework-for-acoustic-scene-classification-2106.068382021-06-17 https://scifaro.com/en/abs/deep-learning-frameworks-applied-for-audio-visual-scene-classification-2106.068402021-06-17 https://scifaro.com/en/abs/continuous-wavelet-vocoder-based-decomposition-of-parametric-speech-waveform-synthesis-2106.068632021-06-15 https://scifaro.com/en/abs/gigaspeech-an-evolving-multi-domain-asr-corpus-with-10-000-hours-of-transcribed-audio-2106.069092025-05-06 https://scifaro.com/en/abs/sounddet-polyphonic-moving-sound-event-detection-and-localization-from-raw-waveform-2106.069692021-08-24 https://scifaro.com/en/abs/multiple-scattering-ambisonics-three-dimensional-sound-field-estimation-using-interacting-spheres-2106.071572021-08-17 https://scifaro.com/en/abs/fasticarl-fast-incremental-classifier-and-representation-learning-with-efficient-budget-allocation-in-audio-sensing-applications-2106.072682021-06-28 https://scifaro.com/en/abs/audio-attacks-and-defenses-against-aed-systems-a-practical-study-2106.074282021-11-11 https://scifaro.com/en/abs/crash-raw-audio-score-based-generative-modeling-for-controllable-high-resolution-drum-sound-synthesis-2106.074312021-06-15 https://scifaro.com/en/abs/a-novel-mapping-for-visual-to-auditory-sensory-substitution-2106.074482021-06-17 https://scifaro.com/en/abs/f-t-lstm-based-complex-network-for-joint-acoustic-echo-cancellation-and-speech-enhancement-2106.075772022-02-16 https://scifaro.com/en/abs/learning-audio-visual-dereverberation-2106.077322023-03-15 https://scifaro.com/en/abs/tracing-back-music-emotion-predictions-to-sound-sources-and-intuitive-perceptual-qualities-2106.077872021-06-17 https://scifaro.com/en/abs/teacher-student-mixit-for-unsupervised-and-semi-supervised-speech-separation-2106.078432021-09-10 https://scifaro.com/en/abs/towards-the-objective-speech-assessment-of-smoking-status-based-on-voice-features-a-review-of-the-literature-2106.078742021-06-16 https://scifaro.com/en/abs/mlp-singer-towards-rapid-parallel-korean-singing-voice-synthesis-2106.078862021-11-23 https://scifaro.com/en/abs/adaptive-margin-circle-loss-for-speaker-verification-2106.080042021-06-16 https://scifaro.com/en/abs/graph-based-label-propagation-for-semi-supervised-speaker-identification-2106.082072022-02-22 https://scifaro.com/en/abs/pathological-voice-adaptation-with-autoencoder-based-voice-conversion-2106.084272021-06-17 https://scifaro.com/en/abs/tonal-frequencies-consonance-dissonance-a-math-bio-intersection-2106.084792021-06-17 https://scifaro.com/en/abs/wsrglow-a-glow-based-waveform-generative-model-for-audio-super-resolution-2106.085072021-06-17 https://scifaro.com/en/abs/drum-aware-ensemble-architecture-for-improved-joint-musical-beat-and-downbeat-tracking-2106.086852021-07-07 https://scifaro.com/en/abs/source-separation-based-data-augmentation-for-improved-joint-beat-and-downbeat-tracking-2106.087032021-06-17 https://scifaro.com/en/abs/voicy-zero-shot-non-parallel-voice-conversion-in-noisy-reverberant-environments-2106.088732021-06-17 https://scifaro.com/en/abs/efficient-conformer-with-prob-sparse-attention-mechanism-for-end-to-endspeech-recognition-2106.092362021-06-18 https://scifaro.com/en/abs/multi-level-transfer-learning-from-near-field-to-far-field-speaker-verification-2106.093202021-06-18 https://scifaro.com/en/abs/improving-on-screen-sound-separation-for-open-domain-videos-with-audio-visual-self-attention-2106.096692021-10-15 https://scifaro.com/en/abs/improving-performance-of-seen-and-unseen-speech-style-transfer-in-end-to-end-neural-tts-2106.100032021-06-21 https://scifaro.com/en/abs/synchronising-speech-segments-with-musical-beats-in-mandarin-and-english-singing-2106.100452021-09-07 https://scifaro.com/en/abs/improving-robustness-of-one-shot-voice-conversion-with-deep-discriminative-speaker-encoder-2106.104062021-06-22 https://scifaro.com/en/abs/advances-in-speech-vocoding-for-text-to-speech-with-continuous-parameters-2106.104812021-06-22 https://scifaro.com/en/abs/eml-online-speech-activity-detection-for-the-fearless-steps-challenge-phase-iii-2106.110752021-06-22 https://scifaro.com/en/abs/affinity-mixup-for-weakly-supervised-sound-event-detection-2106.112332021-06-22 https://scifaro.com/en/abs/do-sound-event-representations-generalize-to-other-audio-tasks-a-case-study-in-audio-transfer-learning-2106.113352021-06-23 https://scifaro.com/en/abs/attention-based-cross-modal-fusion-for-audio-visual-voice-activity-detection-in-musical-video-streams-2106.114112021-06-23 https://scifaro.com/en/abs/key-sparse-transformer-for-multimodal-speech-emotion-recognition-2106.115322023-02-28 https://scifaro.com/en/abs/multi-accent-speech-separation-with-one-shot-learning-2106.117132021-08-06 https://scifaro.com/en/abs/learning-to-inference-with-early-exit-in-the-progressive-speech-enhancement-2106.117302021-06-23 https://scifaro.com/en/abs/glance-and-gaze-a-collaborative-learning-framework-for-single-channel-speech-enhancement-2106.117892021-06-23 https://scifaro.com/en/abs/enrollment-less-training-for-personalized-voice-activity-detection-2106.121322021-06-24 https://scifaro.com/en/abs/unsupervised-speech-enhancement-using-dynamical-variational-auto-encoders-2106.122712022-10-04 https://scifaro.com/en/abs/a-simultaneous-denoising-and-dereverberation-framework-with-target-decoupling-2106.127432021-06-25 https://scifaro.com/en/abs/additive-phoneme-aware-margin-softmax-loss-for-language-recognition-2106.128512021-06-25 https://scifaro.com/en/abs/non-autoregressive-tts-with-explicit-duration-modelling-for-low-resource-highly-expressive-speech-2106.128962021-06-29 https://scifaro.com/en/abs/speech-is-silver-silence-is-golden-what-do-asvspoof-trained-models-really-learn-2106.129142021-09-29 https://scifaro.com/en/abs/sofamyroom-a-fast-and-multiplatform-shoebox-room-simulator-for-binaural-room-impulse-response-dataset-generation-2106.129922021-06-25 https://scifaro.com/en/abs/audioclip-extending-clip-to-image-text-and-audio-2106.130432022-09-12 https://scifaro.com/en/abs/basis-melgan-efficient-neural-vocoder-based-on-audio-decomposition-2106.134192021-06-28 https://scifaro.com/en/abs/preliminary-study-on-using-vector-quantization-latent-spaces-for-tts-vc-systems-with-consistent-performance-2106.134792021-06-28 https://scifaro.com/en/abs/evaluation-of-deep-learning-based-voice-activity-detectors-and-room-impulse-response-models-in-reverberant-environments-2106.135112021-06-28 https://scifaro.com/en/abs/phoneme-aware-and-channel-wise-attentive-learning-for-text-dependentspeaker-verification-2106.135142021-06-28 https://scifaro.com/en/abs/deep-residual-echo-suppression-with-a-tunable-tradeoff-between-signal-distortion-and-echo-suppression-2106.135312021-06-28 https://scifaro.com/en/abs/nonlinear-acoustic-echo-cancellation-with-deep-learning-2106.137542021-06-28 https://scifaro.com/en/abs/voice-activity-detection-for-transient-noisy-environment-based-on-diffusion-nets-2106.137632021-06-28 https://scifaro.com/en/abs/transflower-probabilistic-autoregressive-dance-generation-with-multimodal-attention-2106.138712022-06-14 https://scifaro.com/en/abs/listen-as-you-wish-audio-based-event-detection-via-text-to-audio-grounding-in-smart-cities-2106.141362023-12-27 https://scifaro.com/en/abs/sparsely-overlapped-speech-training-in-the-time-domain-joint-learning-of-target-speech-separation-and-personal-vad-benefits-2106.143712021-09-28 https://scifaro.com/en/abs/sounds-of-covid-19-exploring-realistic-performance-of-audio-based-digital-testing-2106.155232021-06-30 https://scifaro.com/en/abs/robust-and-interpretable-temporal-convolution-network-for-event-detection-in-lung-sound-recordings-2106.158352021-07-01 https://scifaro.com/en/abs/communication-conditions-in-virtual-acoustic-scenes-in-an-underground-station-2106.159162025-09-15 https://scifaro.com/en/abs/a-generative-model-for-raw-audio-using-transformer-architectures-2106.160362021-07-09 https://scifaro.com/en/abs/attention-based-multi-channel-speaker-verification-with-ad-hoc-microphone-arrays-2107.001782021-07-02 https://scifaro.com/en/abs/audiovisual-singing-voice-separation-2107.002312021-07-02 https://scifaro.com/en/abs/sonority-measurement-using-system-source-and-suprasegmental-information-2107.002972021-07-02 https://scifaro.com/en/abs/an-objective-evaluation-framework-for-pathological-speech-synthesis-2107.003082021-07-02 https://scifaro.com/en/abs/adversarial-sample-detection-for-speaker-verification-by-neural-vocoders-2107.003092022-05-23 https://scifaro.com/en/abs/improving-sound-event-classification-by-increasing-shift-invariance-in-convolutional-neural-networks-2107.006232021-07-23 https://scifaro.com/en/abs/supervised-contrastive-learning-for-accented-speech-recognition-2107.009212021-07-05 https://scifaro.com/en/abs/crowdspeech-and-voxdiy-benchmark-datasets-for-crowdsourced-audio-transcription-2107.010912021-10-22 https://scifaro.com/en/abs/the-hccl-speaker-verification-system-for-far-field-speaker-verification-challenge-2107.013292021-07-06 https://scifaro.com/en/abs/a-lottery-ticket-hypothesis-framework-for-low-complexity-device-robust-neural-acoustic-scene-classification-2107.014612022-05-03 https://scifaro.com/en/abs/development-of-a-conversation-state-prediction-system-2107.014622021-12-14 https://scifaro.com/en/abs/deeprapper-neural-rap-generation-with-rhyme-and-rhythm-modeling-2107.018752021-07-06 https://scifaro.com/en/abs/adaspeech-3-adaptive-text-to-speech-for-spontaneous-style-2107.025302021-07-07 https://scifaro.com/en/abs/self-training-with-noisy-student-model-and-semi-supervised-loss-function-for-dcase-2021-challenge-task-4-2107.025692021-07-07 https://scifaro.com/en/abs/msdtron-a-high-capability-multi-speaker-speech-synthesis-system-for-diverse-data-using-characteristic-information-2107.030652022-02-14 https://scifaro.com/en/abs/adversarial-auto-encoding-for-packet-loss-concealment-2107.031002021-07-09 https://scifaro.com/en/abs/maccif-tdnn-multi-aspect-aggregation-of-channel-and-context-interdependence-features-in-tdnn-based-speaker-verification-2107.031042021-07-08 https://scifaro.com/en/abs/vaenar-tts-variational-auto-encoder-based-non-autoregressive-text-to-speech-synthesis-2107.032982021-07-08 https://scifaro.com/en/abs/soundstream-an-end-to-end-neural-audio-codec-2107.033122021-07-08 https://scifaro.com/en/abs/bumblebee-a-transformer-for-music-2107.034432021-07-09 https://scifaro.com/en/abs/machine-learning-for-stuttering-identification-review-challenges-and-future-directions-2107.040572022-11-17 https://scifaro.com/en/abs/easycom-an-augmented-reality-dataset-to-support-algorithms-for-easy-communication-in-noisy-environments-2107.041742021-10-20 https://scifaro.com/en/abs/multi-path-convolutional-neural-networks-efficiently-improve-feature-extraction-in-continuous-adventitious-lung-sound-detection-2107.042262021-07-12 https://scifaro.com/en/abs/a-dual-purpose-deep-learning-model-for-auscultated-lung-and-tracheal-sound-analysis-based-on-mixed-set-training-2107.042292023-07-06 https://scifaro.com/en/abs/variational-information-bottleneck-for-effective-low-resource-audio-classification-2107.048032021-07-13 https://scifaro.com/en/abs/speech2video-cross-modal-distillation-for-speech-to-video-generation-2107.048062021-07-15 https://scifaro.com/en/abs/weakly-supervised-classification-and-detection-of-bird-sounds-in-the-wild-a-birdclef-2021-solution-2107.048782021-07-13 https://scifaro.com/en/abs/reconvat-a-semi-supervised-automatic-music-transcription-framework-for-low-resource-real-world-data-2107.049542021-07-30 https://scifaro.com/en/abs/pocketvae-a-two-step-model-for-groove-generation-and-control-2107.050092021-07-13 https://scifaro.com/en/abs/neural-waveshaping-synthesis-2107.050502021-07-28 https://scifaro.com/en/abs/bert-like-pre-training-for-symbolic-piano-music-classification-tasks-2107.052232024-04-16 https://scifaro.com/en/abs/oriental-language-recognition-olr-2020-summary-and-analysis-2107.053652021-07-15 https://scifaro.com/en/abs/dpcrn-dual-path-convolution-recurrent-network-for-single-channel-speech-enhancement-2107.054292021-07-13 https://scifaro.com/en/abs/calliope-a-polyphonic-music-transformer-2107.055462021-07-13 https://scifaro.com/en/abs/codified-audio-language-modeling-learns-useful-representations-for-music-information-retrieval-2107.056772021-07-14 https://scifaro.com/en/abs/speech-representation-learning-combining-conformer-cpc-with-deep-cluster-for-the-zerospeech-challenge-2021-2107.058992022-02-17 https://scifaro.com/en/abs/conformer-based-end-to-end-speech-recognition-with-rotary-position-embedding-2107.059072021-07-14 https://scifaro.com/en/abs/towards-automatic-instrumentation-by-learning-to-separate-parts-in-symbolic-multitrack-music-2107.059162021-10-22 https://scifaro.com/en/abs/the-piano-inpainting-application-2107.059442021-07-14 https://scifaro.com/en/abs/dicova-net-diagnosing-covid-19-using-acoustics-based-on-deep-residual-network-for-the-dicova-challenge-2021-2107.061262022-05-05 https://scifaro.com/en/abs/timbre-classification-of-musical-instruments-with-a-deep-learning-multi-head-attention-based-model-2107.062312021-07-14 https://scifaro.com/en/abs/dance2music-automatic-dance-driven-music-generation-2107.062522021-07-21 https://scifaro.com/en/abs/serialized-multi-layer-multi-head-attention-for-neural-speaker-embedding-2107.064932021-07-15 https://scifaro.com/en/abs/the-period-modulated-harmonic-locked-loop-pm-hll-a-low-effort-algorithm-for-rapid-time-domain-multi-periodicity-estimation-2107.066452021-12-23 https://scifaro.com/en/abs/localization-based-sequential-grouping-for-continuous-speech-separation-2107.068532021-07-15 https://scifaro.com/en/abs/leveraging-hierarchical-structures-for-few-shot-musical-instrument-recognition-2107.070292021-08-02 https://scifaro.com/en/abs/objective-metrics-to-evaluate-residual-echo-suppression-during-double-talk-2107.074712021-07-16 https://scifaro.com/en/abs/recognizing-bird-species-in-diverse-soundscapes-under-weak-supervision-2107.077282021-07-19 https://scifaro.com/en/abs/a-multimodal-machine-learning-framework-for-teacher-vocal-delivery-evaluation-2107.079562021-07-19 https://scifaro.com/en/abs/continual-learning-for-automated-audio-captioning-using-the-learning-without-forgetting-approach-2107.080282021-07-19 https://scifaro.com/en/abs/an-improved-stargan-for-emotional-voice-conversion-enhancing-voice-quality-and-data-augmentation-2107.083612021-07-20 https://scifaro.com/en/abs/measuring-a-six-hole-recorder-flute-s-response-to-breath-pressure-variations-and-fitting-a-model-2107.087272021-07-20 https://scifaro.com/en/abs/over-parameterization-and-generalization-in-audio-classification-2107.089332021-07-20 https://scifaro.com/en/abs/sequence-to-sequence-piano-transcription-with-transformers-2107.091422021-07-21 https://scifaro.com/en/abs/music-tempo-estimation-via-neural-networks-a-comparative-analysis-2107.092082021-07-21 https://scifaro.com/en/abs/robust-deep-learning-frameworks-for-acoustic-scene-and-respiratory-sound-classification-2107.092682021-07-21 https://scifaro.com/en/abs/joint-echo-cancellation-and-noise-suppression-based-on-cascaded-magnitude-and-complex-mask-estimation-2107.092982021-07-21 https://scifaro.com/en/abs/persa-a-deep-learning-front-end-for-context-agnostic-audio-classification-2107.093112021-07-21 https://scifaro.com/en/abs/a-real-time-speaker-diarization-system-based-on-spatial-spectrum-2107.093212021-07-21 https://scifaro.com/en/abs/assessment-of-self-attention-on-learned-features-for-sound-event-localization-and-detection-2107.093882021-09-28 https://scifaro.com/en/abs/on-prosody-modeling-for-asr-tts-based-voice-conversion-2107.094772021-07-21 https://scifaro.com/en/abs/melody-structure-transfer-network-generating-music-with-separable-self-attention-2107.098772021-07-22 https://scifaro.com/en/abs/fine-grained-music-plagiarism-detection-revealing-plagiarists-through-bipartite-graph-matching-and-a-comprehensive-large-scale-dataset-2107.098892023-07-04 https://scifaro.com/en/abs/js-fake-chorales-a-synthetic-dataset-of-polyphonic-music-with-human-annotation-2107.103882022-04-04 https://scifaro.com/en/abs/starganv2-vc-a-diverse-unsupervised-non-parallel-framework-for-natural-sounding-voice-conversion-2107.103942021-07-26 https://scifaro.com/en/abs/using-umap-to-inspect-audio-data-for-unsupervised-anomaly-detection-under-domain-shift-conditions-2107.108802021-10-19 https://scifaro.com/en/abs/saladnet-self-attentive-multisource-localization-in-the-ambisonics-domain-2107.110662021-07-26 https://scifaro.com/en/abs/multi-channel-speech-enhancement-with-2-d-convolutional-time-frequency-domain-features-and-a-pre-trained-acoustic-model-2107.112222021-09-27 https://scifaro.com/en/abs/multi-channel-automatic-music-transcription-using-tensor-algebra-2107.112502021-07-26 https://scifaro.com/en/abs/automatic-detection-of-noise-events-at-shooting-range-using-machine-learning-2107.114532021-07-27 https://scifaro.com/en/abs/dynamic-portal-occlusion-for-precomputed-interactive-sound-propagation-2107.115482021-07-28 https://scifaro.com/en/abs/cough-detection-from-acoustic-signals-for-patient-monitoring-system-2107.118352021-07-27 https://scifaro.com/en/abs/joint-direction-and-proximity-classification-of-overlapping-sound-events-from-binaural-audio-2107.120332021-07-27 https://scifaro.com/en/abs/sveva-fair-a-framework-for-evaluating-fairness-in-speaker-verification-2107.120492022-10-05 https://scifaro.com/en/abs/beyond-voice-identity-conversion-manipulating-voice-attributes-by-adversarial-learning-of-structured-disentangled-representations-2107.123462021-07-28 https://scifaro.com/en/abs/cross-speaker-style-transfer-with-prosody-bottleneck-in-neural-speech-synthesis-2107.125622021-07-28 https://scifaro.com/en/abs/audio-to-score-alignment-using-deep-automatic-music-transcription-2107.128542022-01-03 https://scifaro.com/en/abs/cyclegan-based-non-parallel-speech-enhancement-with-an-adaptive-attention-in-attention-mechanism-2107.131432021-09-15 https://scifaro.com/en/abs/on-perceived-emotion-in-expressive-piano-performance-further-experimental-evidence-for-the-relevance-of-mid-level-perceptual-features-2107.132312021-07-29 https://scifaro.com/en/abs/pitch-informed-instrument-assignment-using-a-deep-convolutional-network-with-multiple-kernel-shapes-2107.136172021-07-30 https://scifaro.com/en/abs/blind-room-parameter-estimation-using-multiple-multichannel-speech-recordings-2107.138322021-07-30 https://scifaro.com/en/abs/pkspell-data-driven-pitch-spelling-and-key-signature-estimation-2107.140092021-07-30 https://scifaro.com/en/abs/estimating-respiratory-rate-from-breath-audio-obtained-through-wearable-microphones-2107.140282021-07-30 https://scifaro.com/en/abs/multi-task-learning-in-utterance-level-and-segmental-level-spoof-detection-2107.141322021-09-01 https://scifaro.com/en/abs/evaluating-the-covid-19-identification-resnet-cider-on-the-interspeech-covid-19-from-audio-challenges-2107.145492021-08-02 https://scifaro.com/en/abs/task3-dcase2021-challenge-sound-event-localization-and-detection-using-squeeze-excitation-residual-cnns-2107.145612021-08-02 https://scifaro.com/en/abs/dadagp-a-dataset-of-tokenized-guitarpro-songs-for-sequence-models-2107.146532021-08-02 https://scifaro.com/en/abs/task-1a-dcase-2021-acoustic-scene-classification-with-mismatch-devices-using-squeeze-excitation-technique-and-low-complexity-constraint-2107.146582021-08-02 https://scifaro.com/en/abs/sequence-to-sequence-voice-reconstruction-for-silent-speech-in-a-tonal-language-2108.001902022-06-02 https://scifaro.com/en/abs/surprisenet-melody-harmonization-conditioning-on-user-controlled-surprise-contours-2108.003782021-08-25 https://scifaro.com/en/abs/end-to-end-bangla-speech-synthesis-2108.005002021-08-03 https://scifaro.com/en/abs/musical-speech-a-transformer-based-composition-tool-2108.010432021-08-03 https://scifaro.com/en/abs/speaker-adaptation-with-continuous-vocoder-based-dnn-tts-2108.011542021-08-04 https://scifaro.com/en/abs/darkgan-exploiting-knowledge-distillation-for-comprehensible-audio-synthesis-with-gans-2108.012162021-08-04 https://scifaro.com/en/abs/the-performance-evaluation-of-attention-based-neural-asr-under-mixed-speech-input-2108.012452021-08-04 https://scifaro.com/en/abs/an-analysis-of-iranian-music-intervals-based-on-pitch-histogram-2108.012832021-08-04 https://scifaro.com/en/abs/emopia-a-multi-modal-pop-piano-dataset-for-emotion-recognition-and-emotion-based-music-generation-2108.013742021-08-04 https://scifaro.com/en/abs/is-disentanglement-enough-on-latent-representations-for-controllable-music-generation-2108.014502021-08-04 https://scifaro.com/en/abs/a-benchmarking-initiative-for-audio-domain-music-generation-using-the-freesound-loop-dataset-2108.015762022-09-23 https://scifaro.com/en/abs/improving-music-performance-assessment-with-contrastive-learning-2108.017112021-08-16 https://scifaro.com/en/abs/information-sieve-content-leakage-reduction-in-end-to-end-prosody-for-expressive-speech-synthesis-2108.018312021-08-05 https://scifaro.com/en/abs/on-the-exploitability-of-audio-machine-learning-pipelines-to-surreptitious-adversarial-examples-2108.020102021-08-05 https://scifaro.com/en/abs/pervasive-hand-gesture-recognition-for-smartphones-using-non-audible-sound-and-deep-learning-2108.021482021-08-05 https://scifaro.com/en/abs/daft-exprt-cross-speaker-prosody-transfer-on-any-text-for-expressive-speech-synthesis-2108.022712023-07-13 https://scifaro.com/en/abs/improved-speech-emotion-recognition-using-transfer-learning-and-spectrogram-augmentation-2108.025102021-08-17 https://scifaro.com/en/abs/sloclas-a-database-for-joint-sound-localization-and-classification-2108.025392021-08-06 https://scifaro.com/en/abs/performer-identification-from-symbolic-representation-of-music-using-statistical-models-2108.025762021-08-06 https://scifaro.com/en/abs/mstre-net-multistreaming-acoustic-modeling-for-automatic-lyrics-transcription-2108.026252021-08-06 https://scifaro.com/en/abs/an-empirical-study-on-end-to-end-singing-voice-synthesis-with-encoder-decoder-architectures-2108.030082021-08-29 https://scifaro.com/en/abs/specmix-a-mixed-sample-data-augmentation-method-for-training-withtime-frequency-domain-features-2108.030202021-08-09 https://scifaro.com/en/abs/the-eihw-glam-deep-attentive-multi-model-fusion-system-for-cough-based-covid-19-recognition-in-the-dicova-2021-challenge-2108.030412021-08-09 https://scifaro.com/en/abs/a-unified-model-for-zero-shot-music-source-separation-transcription-and-synthesis-2108.034562021-08-10 https://scifaro.com/en/abs/cough-detection-using-selected-informative-features-from-audio-signals-2108.035382021-08-10 https://scifaro.com/en/abs/deep-single-shot-musical-instrument-identification-using-scalograms-2108.035692021-08-10 https://scifaro.com/en/abs/audio-spectral-enhancement-leveraging-autoencoders-for-low-latency-reconstruction-of-long-lossy-audio-sequences-2108.037032021-08-10 https://scifaro.com/en/abs/time-frequency-localization-using-deep-convolutional-maxout-neural-network-in-persian-speech-recognition-2108.038182022-09-01 https://scifaro.com/en/abs/segmentation-free-heart-pathology-detection-using-deep-learning-2108.041392021-08-10 https://scifaro.com/en/abs/stargan-vc-asr-stargan-based-non-parallel-voice-conversion-regularized-by-automatic-speech-recognition-2108.043952023-01-18 https://scifaro.com/en/abs/an-empirical-investigation-into-audio-pipeline-approaches-for-classifying-bird-species-2108.044492021-08-11 https://scifaro.com/en/abs/depth-infused-binaural-audio-generation-using-hierarchical-cross-modal-attention-2108.049062021-08-12 https://scifaro.com/en/abs/robust-feature-learning-on-long-duration-sounds-for-acoustic-scene-classification-2108.050082021-08-12 https://scifaro.com/en/abs/variable-length-music-score-infilling-via-xlnet-and-musically-specialized-positional-encoding-2108.050642021-08-12 https://scifaro.com/en/abs/on-the-compensation-between-magnitude-and-phase-in-speech-separation-2108.054702022-01-05 https://scifaro.com/en/abs/text-anchor-based-metric-learning-for-small-footprint-keyword-spotting-2108.055162021-08-13 https://scifaro.com/en/abs/deep-neural-network-voice-activity-detector-for-downsampled-audio-data-an-experiment-report-2108.055532021-08-13 https://scifaro.com/en/abs/rw-resnet-a-novel-speech-anti-spoofing-model-using-raw-waveform-2108.056842021-08-16 https://scifaro.com/en/abs/parameter-tuning-of-time-frequency-masking-algorithms-for-reverberant-artifact-removal-within-the-cochlear-implant-stimulus-2108.059292021-08-16 https://scifaro.com/en/abs/pruning-vs-xnor-net-a-comprehensive-study-of-deep-learning-for-audio-classification-on-edge-devices-2108.061282022-01-19 https://scifaro.com/en/abs/cross-modal-spectrum-transformation-network-for-acoustic-scene-classification-2108.064012021-08-17 https://scifaro.com/en/abs/nist-sre-cts-superset-a-large-scale-dataset-for-telephony-speaker-recognition-2108.071182021-08-17 https://scifaro.com/en/abs/convolutive-prediction-for-reverberant-speech-separation-2108.071942021-08-17 https://scifaro.com/en/abs/convolutive-prediction-for-monaural-speech-dereverberation-and-noisy-reverberant-speaker-separation-2108.073762021-11-11 https://scifaro.com/en/abs/neuralsound-learning-based-modal-sound-synthesis-with-acoustic-transfer-2108.074252022-05-31 https://scifaro.com/en/abs/neonatal-bowel-sound-detection-using-convolutional-neural-network-and-laplace-hidden-semi-markov-model-2108.074672022-06-02 https://scifaro.com/en/abs/estimation-of-playable-piano-fingering-by-pitch-difference-fingering-matching-model-2108.090582021-08-23 https://scifaro.com/en/abs/using-growth-transform-dynamical-systems-for-spatio-temporal-data-sonification-2108.095372021-08-24 https://scifaro.com/en/abs/subject-envelope-based-multitype-reconstruction-algorithm-of-speech-samples-of-parkinson-s-disease-2108.099222021-08-24 https://scifaro.com/en/abs/general-theory-of-music-by-icosahedron-2-analysis-of-musical-pieces-by-the-exceptional-musical-icosahedra-2108.102942022-08-03 https://scifaro.com/en/abs/one-tts-alignment-to-rule-them-all-2108.104472021-08-25 https://scifaro.com/en/abs/differential-music-automated-music-generation-using-lstm-networks-with-representation-based-on-melodic-and-harmonic-intervals-2108.104492021-08-25 https://scifaro.com/en/abs/detecting-drill-failure-in-the-small-short-sound-drill-dataset-2108.110892021-11-10 https://scifaro.com/en/abs/accomontage-accompaniment-arrangement-via-phrase-selection-and-style-transfer-2108.112132021-08-26 https://scifaro.com/en/abs/self-attention-for-audio-super-resolution-2108.116372021-08-27 https://scifaro.com/en/abs/determining-the-origin-of-impulsive-noise-events-using-paired-wireless-sound-sensors-2108.117582021-08-27 https://scifaro.com/en/abs/classification-of-emotions-and-evaluation-of-customer-satisfaction-from-speech-in-real-world-acoustic-environments-2108.119812021-08-30 https://scifaro.com/en/abs/full-attention-bidirectional-deep-learning-structure-for-single-channel-speech-enhancement-2108.121052021-08-30 https://scifaro.com/en/abs/task-aware-warping-factors-in-mask-based-speech-enhancement-2108.121282021-08-30 https://scifaro.com/en/abs/separable-temporal-convolution-plus-temporally-pooled-attention-for-lightweight-high-performance-keyword-spotting-2108.121462021-08-30 https://scifaro.com/en/abs/music-composition-with-deep-learning-a-review-2108.122902021-09-08 https://scifaro.com/en/abs/unsupervised-learning-of-deep-features-for-music-segmentation-2108.129552021-08-31 https://scifaro.com/en/abs/armor-a-benchmark-for-meta-evaluation-of-artificial-music-2108.129732021-08-31 https://scifaro.com/en/abs/rsknet-mtsp-effective-and-portable-deep-architecture-for-speaker-verification-2108.132492021-08-31 https://scifaro.com/en/abs/adversarial-example-devastation-and-detection-on-speech-recognition-system-by-adding-random-noise-2108.135622021-10-19 https://scifaro.com/en/abs/self-supervised-learning-based-domain-adaptation-for-robust-speaker-verification-2108.138432021-09-01 https://scifaro.com/en/abs/automatic-non-invasive-cough-detection-based-on-accelerometer-and-audio-signals-2109.001032022-05-12 https://scifaro.com/en/abs/ctal-pre-training-cross-modal-transformer-for-audio-and-language-representations-2109.001812021-09-02 https://scifaro.com/en/abs/prior-distribution-design-for-music-bleeding-sound-reduction-based-on-nonnegative-matrix-factorization-2109.002372021-09-02 https://scifaro.com/en/abs/a-separable-temporal-convolution-neural-network-with-attention-for-small-footprint-keyword-spotting-2109.002602021-09-02 https://scifaro.com/en/abs/embedding-and-beamforming-all-neural-causal-beamformer-for-multichannel-speech-enhancement-2109.002652021-09-03 https://scifaro.com/en/abs/a-novel-multi-centroid-template-matching-algorithm-and-its-application-to-cough-detection-2109.006302021-09-07 https://scifaro.com/en/abs/controllable-deep-melody-generation-via-hierarchical-music-structure-representation-2109.006632021-09-03 https://scifaro.com/en/abs/multichannel-audio-source-separation-with-independent-deeply-learned-matrix-analysis-using-product-of-source-models-2109.007042021-09-03 https://scifaro.com/en/abs/binaural-audio-generation-via-multi-task-learning-2109.007482021-09-03 https://scifaro.com/en/abs/network-modulation-synthesis-new-algorithms-for-generating-musical-audio-using-autoencoder-networks-2109.019482025-09-30 https://scifaro.com/en/abs/the-speakin-system-for-voxceleb-speaker-recognition-challange-2021-2109.019892021-09-07 https://scifaro.com/en/abs/a-two-stage-complex-network-using-cycle-consistent-generative-adversarial-networks-for-speech-enhancement-2109.020112021-09-07 https://scifaro.com/en/abs/the-bytedance-speaker-diarization-system-for-the-voxceleb-speaker-recognition-challenge-2021-2109.020472021-09-07 https://scifaro.com/en/abs/efficient-attention-branch-network-with-combined-loss-function-for-automatic-speaker-verification-spoof-detection-2109.020512021-09-21 https://scifaro.com/en/abs/the-phonexia-voxceleb-speaker-recognition-challenge-2021-system-description-2109.020522021-09-09 https://scifaro.com/en/abs/timbre-transfer-with-variational-auto-encoding-and-cycle-consistent-adversarial-networks-2109.020962021-10-12 https://scifaro.com/en/abs/audio-based-musical-version-identification-elements-and-challenges-2109.024722021-11-10 https://scifaro.com/en/abs/machine-learning-challenges-limitations-and-compatibility-for-audio-restoration-processes-2109.026922021-09-08 https://scifaro.com/en/abs/binaural-soundnet-predicting-semantics-depth-and-motion-with-binaural-sounds-2109.027632022-03-01 https://scifaro.com/en/abs/complementing-handcrafted-features-with-raw-waveform-using-a-light-weight-auxiliary-model-2109.027732021-09-08 https://scifaro.com/en/abs/fastaudio-a-learnable-audio-front-end-for-spoof-speech-detection-2109.027742021-09-08 https://scifaro.com/en/abs/fruit-cov-an-efficient-vision-based-framework-for-speedy-detection-and-diagnosis-of-sars-cov-2-infections-through-recorded-cough-sounds-2109.032192021-09-08 https://scifaro.com/en/abs/a-survey-of-sound-source-localization-with-deep-learning-methods-2109.034652022-07-20 https://scifaro.com/en/abs/time-alignment-using-lip-images-for-frame-based-electrolaryngeal-voice-conversion-2109.035512021-09-09 https://scifaro.com/en/abs/beijing-zkj-npu-speaker-verification-system-for-voxceleb-speaker-recognition-challenge-2021-2109.035682021-11-19 https://scifaro.com/en/abs/beamtransformer-microphone-array-based-overlapping-speech-detection-2109.040492021-09-10 https://scifaro.com/en/abs/deepemo-deep-learning-for-speech-emotion-recognition-2109.040812021-09-10 https://scifaro.com/en/abs/speech-enhancement-by-noise-self-supervised-rank-constrained-spatial-covariance-matrix-estimation-via-independent-deeply-learned-matrix-analysis-2109.046582021-09-13 https://scifaro.com/en/abs/self-attention-channel-combinator-frontend-for-end-to-end-multichannel-far-field-speech-recognition-2109.047832021-09-13 https://scifaro.com/en/abs/decoupling-magnitude-and-phase-estimation-with-deep-resunet-for-music-source-separation-2109.054182021-09-14 https://scifaro.com/en/abs/zero-shot-text-to-speech-for-text-based-insertion-in-audio-narration-2109.054262021-09-14 https://scifaro.com/en/abs/structure-enhanced-pop-music-generation-via-harmony-aware-learning-2109.064412022-07-13 https://scifaro.com/en/abs/a-machine-learning-framework-for-acoustic-design-assessment-in-early-design-stages-2109.064592021-09-15 https://scifaro.com/en/abs/cross-speaker-emotion-disentangling-and-transfer-for-end-to-end-speech-synthesis-2109.067332022-04-11 https://scifaro.com/en/abs/bachmmachine-an-interpretable-and-scalable-model-for-algorithmic-harmonization-for-four-part-baroque-chorales-2109.076232022-02-24 https://scifaro.com/en/abs/speaker-placement-agnosticism-improving-the-distance-based-amplitude-panning-algorithm-2109.087042021-09-21 https://scifaro.com/en/abs/speechnas-towards-better-trade-off-between-latency-and-accuracy-for-large-scale-speaker-verification-2109.088392022-01-02 https://scifaro.com/en/abs/ms-sincresnet-joint-learning-of-1d-and-2d-kernels-using-multi-scale-sincnet-and-resnet-for-music-genre-classification-2109.089102021-09-21 https://scifaro.com/en/abs/hybrid-data-augmentation-and-deep-attention-based-dilated-convolutional-recurrent-neural-networks-for-speech-emotion-recognition-2109.090262021-09-21 https://scifaro.com/en/abs/arca23k-an-audio-dataset-for-investigating-open-set-label-noise-2109.092272022-03-01 https://scifaro.com/en/abs/telemelody-lyric-to-melody-generation-with-a-template-based-two-stage-method-2109.096172022-11-15 https://scifaro.com/en/abs/audio-interval-retrieval-using-convolutional-neural-networks-2109.099062021-09-22 https://scifaro.com/en/abs/an-audio-synthesis-framework-derived-from-industrial-process-control-2109.104552021-09-23 https://scifaro.com/en/abs/a-few-shot-learning-approach-for-sound-source-distance-estimation-using-relation-networks-2109.105612024-10-08 https://scifaro.com/en/abs/noisy-to-noisy-voice-conversion-framework-with-denoising-model-2109.106082021-09-23 https://scifaro.com/en/abs/low-latency-incremental-text-to-speech-synthesis-with-distilled-context-prediction-network-2109.107242021-09-23 https://scifaro.com/en/abs/scenario-aware-speech-recognition-advancements-for-apollo-fearless-steps-chime-4-corpora-2109.110862021-09-24 https://scifaro.com/en/abs/unet-tts-improving-unseen-speaker-and-style-transfer-in-one-shot-voice-cloning-2109.111152022-02-25 https://scifaro.com/en/abs/joint-speaker-diarisation-and-tracking-in-switching-state-space-model-2109.111402021-09-24 https://scifaro.com/en/abs/physics-informed-neural-networks-for-one-dimensional-sound-field-predictions-with-parameterized-sources-and-impedance-boundaries-2109.113132023-08-11 https://scifaro.com/en/abs/implementation-of-interactive-tools-for-investigating-fundamental-frequency-response-of-voiced-sounds-to-auditory-stimulation-2109.115942021-09-27 https://scifaro.com/en/abs/causal-analysis-of-carnatic-music-a-preliminary-study-2109.117822021-09-27 https://scifaro.com/en/abs/evaluating-x-vector-based-speaker-anonymization-under-white-box-assessment-2109.119462021-10-01 https://scifaro.com/en/abs/a-data-acquisition-setup-for-data-driven-acoustic-design-2109.120142021-09-27 https://scifaro.com/en/abs/parameterized-channel-normalization-for-far-field-deep-speaker-verification-2109.120562021-09-27 https://scifaro.com/en/abs/optimized-power-normalized-cepstral-coefficients-towards-robust-deep-speaker-verification-2109.120582021-09-27 https://scifaro.com/en/abs/rendering-spatial-sound-for-interoperable-experiences-in-the-audio-metaverse-2109.124712021-09-28 https://scifaro.com/en/abs/general-theory-of-music-by-icosahedron-3-musical-invariant-and-melakarta-raga-2109.124752021-09-28 https://scifaro.com/en/abs/joint-magnitude-estimation-and-phase-recovery-using-cycle-in-cycle-gan-for-non-parallel-speech-enhancement-2109.125912022-02-15 https://scifaro.com/en/abs/soundata-a-python-library-for-reproducible-use-of-audio-datasets-2109.126902021-10-05 https://scifaro.com/en/abs/estimating-angle-of-arrival-aoa-of-multiple-echoes-in-a-steering-vector-space-2109.130722021-09-28 https://scifaro.com/en/abs/inferring-facing-direction-from-voice-signals-2109.130942021-09-30 https://scifaro.com/en/abs/fastmvae2-on-improving-and-accelerating-the-fast-variational-autoencoder-based-source-separation-algorithm-for-determined-mixtures-2109.134962022-09-08 https://scifaro.com/en/abs/flowvocoder-a-small-footprint-neural-vocoder-based-normalizing-flow-for-speech-synthesis-2109.136752022-03-28 https://scifaro.com/en/abs/voicefixer-toward-general-speech-restoration-with-neural-vocoder-2109.137312021-10-06 https://scifaro.com/en/abs/diffusion-based-voice-conversion-with-fast-maximum-likelihood-sampling-scheme-2109.138212022-08-05 https://scifaro.com/en/abs/cross-domain-semi-supervised-audio-event-classification-using-contrastive-regularization-2109.145082021-09-30 https://scifaro.com/en/abs/adaptive-approach-for-sparse-representations-using-the-locally-competitive-algorithm-for-audio-2109.147052022-04-08 https://scifaro.com/en/abs/emergency-vehicles-audio-detection-and-localization-in-autonomous-driving-2109.147972021-10-05 https://scifaro.com/en/abs/fine-tuning-wav2vec2-for-speaker-recognition-2109.150532022-05-09 https://scifaro.com/en/abs/assessing-algorithmic-biases-for-musical-version-identification-2109.151882021-10-01 https://scifaro.com/en/abs/spliceout-a-simple-and-efficient-audio-augmentation-method-2110.000462021-10-14 https://scifaro.com/en/abs/incremental-layer-wise-self-supervised-learning-for-efficient-speech-domain-adaptation-on-device-2110.001552021-10-04 https://scifaro.com/en/abs/leveraging-low-distortion-target-estimates-for-improved-speech-enhancement-2110.005702021-10-04 https://scifaro.com/en/abs/processing-phoneme-specific-segments-for-cleft-lip-and-palate-speech-enhancement-2110.007942021-10-05 https://scifaro.com/en/abs/pl-eesr-perceptual-loss-based-end-to-end-robust-speaker-representation-extraction-2110.009402021-10-05 https://scifaro.com/en/abs/enriching-ontology-with-temporal-commonsense-for-low-resource-audio-tagging-2110.010092021-10-05 https://scifaro.com/en/abs/on-the-interplay-between-sparsity-naturalness-intelligibility-and-prosody-in-speech-synthesis-2110.011472021-10-29 https://scifaro.com/en/abs/audio-captioning-using-sound-event-detection-2110.012102021-10-08 https://scifaro.com/en/abs/audio-visual-evaluation-of-oratory-skills-2110.013672021-10-05 https://scifaro.com/en/abs/building-a-noisy-audio-dataset-to-evaluate-machine-learning-approaches-for-automatic-speech-recognition-systems-2110.014252021-10-05 https://scifaro.com/en/abs/sound-event-detection-transformer-an-event-based-end-to-end-model-for-sound-event-detection-2110.020112021-11-15 https://scifaro.com/en/abs/interpreting-intermediate-convolutional-layers-in-unsupervised-acoustic-word-classification-2110.023752022-04-29 https://scifaro.com/en/abs/voice-aging-with-audio-visual-style-transfer-2110.024112021-10-07 https://scifaro.com/en/abs/editts-score-based-editing-for-controllable-text-to-speech-2110.025842022-07-12 https://scifaro.com/en/abs/spell-my-name-keyword-boosted-speech-recognition-2110.027912021-10-07 https://scifaro.com/en/abs/an-investigation-of-the-effectiveness-of-phase-for-audio-classification-2110.028782022-05-02 https://scifaro.com/en/abs/strengthnet-deep-learning-based-emotion-strength-assessment-for-emotional-speech-synthesis-2110.031562021-10-11 https://scifaro.com/en/abs/transferring-voice-knowledge-for-acoustic-event-detection-an-empirical-study-2110.031742021-10-08 https://scifaro.com/en/abs/attention-is-all-you-need-good-embeddings-with-statistics-are-enough-large-scale-audio-understanding-without-transformers-convolutions-berts-mixers-attention-rnns-or-2110.031832022-02-01 https://scifaro.com/en/abs/sound-event-detection-guided-by-semantic-contexts-of-scenes-2110.032432022-02-18 https://scifaro.com/en/abs/a-cough-based-deep-learning-framework-for-detecting-covid-19-2110.032512022-10-04 https://scifaro.com/en/abs/a-novel-blind-source-separation-framework-towards-maximum-signal-to-interference-ratio-2110.032722022-03-09 https://scifaro.com/en/abs/wenetspeech-a-10000-hours-multi-domain-mandarin-corpus-for-speech-recognition-2110.033702022-02-24 https://scifaro.com/en/abs/advancing-the-dimensionality-reduction-of-speaker-embeddings-for-speaker-diarisation-disentangling-noise-and-informing-speech-activity-2110.033802022-11-04 https://scifaro.com/en/abs/gantron-emotional-speech-synthesis-with-generative-adversarial-networks-2110.033902021-10-08 https://scifaro.com/en/abs/serab-a-multi-lingual-benchmark-for-speech-emotion-recognition-2110.034142021-10-08 https://scifaro.com/en/abs/prototype-learning-for-interpretable-respiratory-sound-analysis-2110.035362022-02-08 https://scifaro.com/en/abs/voice-reenactment-with-f0-and-timing-constraints-and-adversarial-learning-of-conversions-2110.037442022-06-01 https://scifaro.com/en/abs/wake-cough-cough-spotting-and-cougher-identification-for-personalised-long-term-cough-monitoring-2110.037712022-09-13 https://scifaro.com/en/abs/fast-rir-fast-neural-diffuse-room-impulse-response-generator-2110.040572022-02-08 https://scifaro.com/en/abs/affective-burst-detection-from-speech-using-kernel-fusion-dilated-convolutional-neural-networks-2110.040912021-10-11 https://scifaro.com/en/abs/auto-dsp-learning-to-optimize-acoustic-echo-cancellers-2110.042842021-10-11 https://scifaro.com/en/abs/towards-lightweight-applications-asymmetric-enroll-verify-structure-for-speaker-verification-2110.044382022-01-27 https://scifaro.com/en/abs/using-multiple-reference-audios-and-style-embedding-constraints-for-speech-synthesis-2110.044512021-10-12 https://scifaro.com/en/abs/a-mutual-learning-framework-for-few-shot-sound-event-detection-2110.044742022-06-07 https://scifaro.com/en/abs/pama-tts-progression-aware-monotonic-attention-for-stable-seq2seq-tts-with-accurate-phoneme-duration-control-2110.044862022-03-21 https://scifaro.com/en/abs/universal-paralinguistic-speech-representations-using-self-supervised-conformers-2110.046212022-12-14 https://scifaro.com/en/abs/streaming-on-device-detection-of-device-directed-speech-from-voice-and-touch-based-invocation-2110.046562021-10-12 https://scifaro.com/en/abs/an-overview-of-techniques-for-biomarker-discovery-in-voice-signal-2110.046782021-10-12 https://scifaro.com/en/abs/can-audio-captions-be-evaluated-with-image-caption-metrics-2110.046842022-01-28 https://scifaro.com/en/abs/towards-high-fidelity-singing-voice-conversion-with-acoustic-reference-and-contrastive-predictive-coding-2110.047542021-10-12 https://scifaro.com/en/abs/multi-task-learning-with-metadata-for-music-mood-classification-2110.047652021-10-12 https://scifaro.com/en/abs/laughnet-synthesizing-laughter-utterances-from-waveform-silhouettes-and-a-single-laughter-example-2110.049462022-01-27 https://scifaro.com/en/abs/kernel-learning-for-sound-field-estimation-with-l1-and-l2-regularizations-2110.049722021-10-13 https://scifaro.com/en/abs/melons-generating-melody-with-long-term-structure-using-transformers-and-structure-graph-2110.050202021-11-04 https://scifaro.com/en/abs/pitch-preservation-in-singing-voice-synthesis-2110.050332021-10-13 https://scifaro.com/en/abs/multi-query-multi-head-attention-pooling-and-inter-topk-penalty-for-speaker-verification-2110.050422021-10-13 https://scifaro.com/en/abs/source-mixing-and-separation-robust-audio-steganography-2110.050542022-02-21 https://scifaro.com/en/abs/amicable-examples-for-informed-source-separation-2110.050592022-02-21 https://scifaro.com/en/abs/efficient-training-of-audio-transformers-with-patchout-2110.050692023-01-26 https://scifaro.com/en/abs/a-multi-resolution-front-end-for-end-to-end-speech-anti-spoofing-2110.050872021-10-12 https://scifaro.com/en/abs/vocadito-a-dataset-of-solo-vocals-with-f-0-note-and-lyric-annotations-2110.055802021-11-01 https://scifaro.com/en/abs/evaluation-of-latent-space-disentanglement-in-the-presence-of-interdependent-attributes-2110.055872021-10-13 https://scifaro.com/en/abs/foster-strengths-and-circumvent-weaknesses-a-speech-enhancement-framework-with-two-branch-collaborative-learning-2110.057132021-10-13 https://scifaro.com/en/abs/music-sentiment-transfer-2110.057652021-10-13 https://scifaro.com/en/abs/large-scale-self-supervised-speech-representation-learning-for-automatic-speaker-verification-2110.057772022-01-25 https://scifaro.com/en/abs/adapting-tts-models-for-new-speakers-using-transfer-learning-2110.057982022-04-07 https://scifaro.com/en/abs/metricgan-u-unsupervised-speech-enhancement-dereverberation-based-only-on-noisy-reverberated-speech-2110.058662021-10-13 https://scifaro.com/en/abs/multi-channel-narrow-band-deep-speech-separation-with-full-band-permutation-invariant-training-2110.059662022-04-13 https://scifaro.com/en/abs/multi-channel-far-field-speaker-verification-with-large-scale-ad-hoc-microphone-arrays-2110.059752022-03-29 https://scifaro.com/en/abs/improving-the-performance-of-automated-audio-captioning-via-integrating-the-acoustic-and-semantic-information-2110.061002021-10-13 https://scifaro.com/en/abs/covid-19-diagnosis-from-cough-acoustics-using-convnets-and-data-augmentation-2110.061232026-05-21 https://scifaro.com/en/abs/s3prl-vc-open-source-voice-conversion-framework-with-self-supervised-speech-representations-2110.062802021-10-14 https://scifaro.com/en/abs/an-annihilating-filter-based-doa-estimation-for-uniform-linear-array-2110.063232021-10-14 https://scifaro.com/en/abs/algorithmic-composition-by-autonomous-systems-with-multiple-time-scales-2110.063712021-10-14 https://scifaro.com/en/abs/dual-branch-attention-in-attention-transformer-for-single-channel-speech-enhancement-2110.064672022-02-15 https://scifaro.com/en/abs/music-source-separation-with-deep-equilibrium-models-2110.064942022-04-29 https://scifaro.com/en/abs/spatial-data-augmentation-with-simulated-room-impulse-responses-for-sound-event-localization-and-detection-2110.065012022-04-29 https://scifaro.com/en/abs/automatic-dj-transitions-with-differentiable-audio-effects-and-generative-adversarial-networks-2110.065252022-02-18 https://scifaro.com/en/abs/simple-attention-module-based-speaker-verification-with-iterative-noisy-label-detection-2110.065342021-10-14 https://scifaro.com/en/abs/eihw-mtg-dicova-2021-challenge-system-report-2110.065432021-10-14 https://scifaro.com/en/abs/duality-temporal-channel-frequency-attention-enhanced-speaker-representation-learning-2110.065652021-10-18 https://scifaro.com/en/abs/end-to-end-translation-of-human-neural-activity-to-speech-with-a-dual-dual-generative-adversarial-network-2110.066342022-03-29 https://scifaro.com/en/abs/singer-separation-for-karaoke-content-generation-2110.067072024-08-20 https://scifaro.com/en/abs/study-of-positional-encoding-approaches-for-audio-spectrogram-transformers-2110.069992023-10-09 https://scifaro.com/en/abs/comparison-of-svd-and-factorized-tdnn-approaches-for-speech-to-text-2110.070272021-10-15 https://scifaro.com/en/abs/improve-cross-lingual-voice-cloning-using-low-quality-code-switched-data-2110.072102022-11-18 https://scifaro.com/en/abs/specsingan-sound-effect-variation-synthesis-using-single-image-gans-2110.073112022-04-06 https://scifaro.com/en/abs/conformer-based-self-supervised-learning-for-non-speech-audio-tasks-2110.073132022-01-10 https://scifaro.com/en/abs/m2met-the-icassp-2022-multi-channel-multi-party-meeting-transcription-challenge-2110.073932022-02-28 https://scifaro.com/en/abs/humbugdb-a-large-scale-acoustic-mosquito-dataset-2110.076072021-10-18 https://scifaro.com/en/abs/using-deepproblog-to-perform-complex-event-processing-on-an-audio-stream-2110.080902021-10-18 https://scifaro.com/en/abs/towards-identity-preserving-normal-to-dysarthric-voice-conversion-2110.082132021-10-18 https://scifaro.com/en/abs/omni-sparsity-dnn-fast-sparsity-optimization-for-on-device-streaming-e2e-asr-via-supernet-2110.083522022-07-21 https://scifaro.com/en/abs/nn3a-neural-network-supported-acoustic-echo-cancellation-noise-suppression-and-automatic-gain-control-for-real-time-communications-2110.084372021-10-19 https://scifaro.com/en/abs/controllable-multichannel-speech-dereverberation-based-on-deep-neural-networks-2110.084392021-10-19 https://scifaro.com/en/abs/towards-robust-waveform-based-acoustic-models-2110.086342022-06-30 https://scifaro.com/en/abs/improving-end-to-end-modeling-for-mispronunciation-detection-with-effective-augmentation-mechanisms-2110.087312021-10-19 https://scifaro.com/en/abs/storage-and-authentication-of-audio-footage-for-ioaut-devices-using-distributed-ledger-technology-2110.088212021-10-19 https://scifaro.com/en/abs/decar-deep-clustering-for-learning-general-purpose-audio-representations-2110.088952023-03-15 https://scifaro.com/en/abs/ldnet-unified-listener-dependent-modeling-in-mos-prediction-for-synthetic-speech-2110.091032021-10-19 https://scifaro.com/en/abs/real-additive-margin-softmax-for-speaker-verification-2110.091162021-10-19 https://scifaro.com/en/abs/karatuner-towards-end-to-end-natural-pitch-correction-for-singing-voice-in-karaoke-2110.091212022-06-28 https://scifaro.com/en/abs/spectnt-a-time-frequency-transformer-for-music-audio-2110.091272021-10-26 https://scifaro.com/en/abs/learning-models-for-query-by-vocal-percussion-a-comparative-study-2110.092232021-10-19 https://scifaro.com/en/abs/eihw-mtg-second-dicova-challenge-system-report-2110.092392021-10-19 https://scifaro.com/en/abs/fmfcc-a-a-challenging-mandarin-dataset-for-synthetic-speech-detection-2110.094412021-10-19 https://scifaro.com/en/abs/adversarial-domain-adaptation-with-paired-examples-for-acoustic-scene-classification-on-different-recording-devices-2110.095982023-09-08 https://scifaro.com/en/abs/who-calls-the-shots-rethinking-few-shot-learning-for-audio-2110.096002021-10-20 https://scifaro.com/en/abs/neural-synthesis-of-footsteps-sound-effects-with-generative-adversarial-networks-2110.096052021-12-13 https://scifaro.com/en/abs/neural-lexicon-reader-reduce-pronunciation-errors-in-end-to-end-tts-by-leveraging-external-textual-knowledge-2110.096982022-06-27 https://scifaro.com/en/abs/rep-works-in-speaker-verification-2110.097202021-10-20 https://scifaro.com/en/abs/improving-emotional-speech-synthesis-by-using-sus-constrained-vae-and-text-encoder-aggregation-2110.097802022-01-31 https://scifaro.com/en/abs/ssast-self-supervised-audio-spectrogram-transformer-2110.097842022-02-14 https://scifaro.com/en/abs/speech-pattern-based-black-box-model-watermarking-for-automatic-speech-recognition-2110.098142022-05-03 https://scifaro.com/en/abs/temporal-separation-of-whale-vocalizations-from-background-oceanic-noise-using-a-power-calculation-2110.100102022-03-22 https://scifaro.com/en/abs/continual-self-training-with-bootstrapped-remixing-for-speech-enhancement-2110.101032022-11-14 https://scifaro.com/en/abs/an-investigation-of-enhancing-ctc-model-for-triggered-attention-based-streaming-asr-2110.104022021-10-22 https://scifaro.com/en/abs/a-study-on-data-augmentation-in-voice-anti-spoofing-2110.104912021-10-22 https://scifaro.com/en/abs/progressive-learning-for-stabilizing-label-selection-in-speech-separation-with-mapping-based-method-2110.105932022-03-22 https://scifaro.com/en/abs/adapting-speech-separation-to-real-world-meetings-using-mixture-invariant-training-2110.107392021-10-22 https://scifaro.com/en/abs/tparn-triple-path-attentive-recurrent-network-for-time-domain-multichannel-speech-enhancement-2110.107572022-04-07 https://scifaro.com/en/abs/optimizing-multi-taper-features-for-deep-speaker-verification-2110.109832021-10-27 https://scifaro.com/en/abs/wav2clip-learning-robust-audio-representations-from-clip-2110.114992022-02-16 https://scifaro.com/en/abs/signal-envelope-a-c-library-with-python-bindings-for-temporal-envelope-estimation-2110.118072021-10-25 https://scifaro.com/en/abs/time-domain-ad-hoc-array-speech-enhancement-using-a-triple-path-network-2110.118442022-07-06 https://scifaro.com/en/abs/optimizing-alignment-of-speech-and-language-latent-spaces-for-end-to-end-speech-recognition-and-understanding-2110.121382021-10-26 https://scifaro.com/en/abs/discrete-acoustic-space-for-an-efficient-sampling-in-neural-text-to-speech-2110.125392023-09-15 https://scifaro.com/en/abs/lhotse-a-speech-data-representation-library-for-the-modern-deep-learning-ecosystem-2110.125612021-10-26 https://scifaro.com/en/abs/delightfultts-the-microsoft-speech-synthesis-system-for-blizzard-challenge-2021-2110.126122021-11-22 https://scifaro.com/en/abs/a-deep-reinforcement-learning-approach-for-audio-based-navigation-and-audio-source-localization-in-multi-speaker-environments-2110.127782021-11-30 https://scifaro.com/en/abs/actions-speak-louder-than-listening-evaluating-music-style-transfer-based-on-editing-experience-2110.128552021-10-26 https://scifaro.com/en/abs/unsupervised-source-separation-by-steering-pretrained-music-models-2110.130712021-10-26 https://scifaro.com/en/abs/multichannel-speech-enhancement-without-beamforming-2110.131302022-04-07 https://scifaro.com/en/abs/deep-learning-tools-for-audacity-helping-researchers-expand-the-artist-s-toolkit-2110.133232021-11-01 https://scifaro.com/en/abs/cs-rep-making-speaker-verification-networks-embracing-re-parameterization-2110.134652022-04-05 https://scifaro.com/en/abs/aqp-an-open-modular-python-platform-for-objective-speech-and-audio-quality-metrics-2110.135892022-07-01 https://scifaro.com/en/abs/temporal-knowledge-distillation-for-on-device-audio-classification-2110.141312022-02-08 https://scifaro.com/en/abs/zero-shot-voice-conversion-via-self-supervised-prosody-representation-learning-2110.144222022-06-01 https://scifaro.com/en/abs/generalizing-auc-optimization-to-multiclass-classification-for-audio-segmentation-with-limited-training-data-2110.144252021-10-28 https://scifaro.com/en/abs/nonnegative-tucker-decomposition-with-beta-divergence-for-music-structure-analysis-of-audio-signals-2110.144342022-08-03 https://scifaro.com/en/abs/exploring-single-song-autoencoding-schemes-for-audio-based-music-structure-analysis-2110.144372022-03-09 https://scifaro.com/en/abs/neural-analysis-and-synthesis-reconstructing-speech-from-self-supervised-representations-2110.145132021-10-29 https://scifaro.com/en/abs/vrm-phase-i-vkw-system-description-of-long-short-video-customizable-keyword-wakeup-challenge-2110.153162021-10-29 https://scifaro.com/en/abs/improving-noise-robustness-of-contrastive-speech-representation-learning-with-speech-reconstruction-2110.154302021-11-01 https://scifaro.com/en/abs/decision-attentive-regularization-to-improve-simultaneous-speech-translation-systems-2110.157292022-06-20 https://scifaro.com/en/abs/vrain-upv-mllp-s-system-for-the-blizzard-challenge-2021-2110.157922021-11-01 https://scifaro.com/en/abs/learning-continuous-representation-of-audio-for-arbitrary-scale-super-resolution-2111.001952022-03-31 https://scifaro.com/en/abs/speech-emotion-recognition-using-quaternion-convolutional-neural-networks-2111.004042021-11-02 https://scifaro.com/en/abs/analysis-of-north-indian-classical-ragas-using-tonnetz-2111.004362021-11-02 https://scifaro.com/en/abs/a-novel-1d-state-space-for-efficient-music-rhythmic-analysis-2111.007042022-02-22 https://scifaro.com/en/abs/a-mathematical-model-of-the-vowel-space-2111.008682021-11-03 https://scifaro.com/en/abs/refinegan-universally-generating-waveform-better-than-ground-truth-with-highly-accurate-pitch-and-intensity-responses-2111.009622022-03-22 https://scifaro.com/en/abs/evaluating-robustness-of-you-only-hear-once-yoho-algorithm-on-noisy-audios-in-the-voice-dataset-2111.012052021-11-03 https://scifaro.com/en/abs/learning-to-generate-piano-music-with-sustain-pedals-2111.012162021-11-03 https://scifaro.com/en/abs/attention-guided-generative-adversarial-network-for-whisper-to-normal-speech-conversion-2111.013422021-11-03 https://scifaro.com/en/abs/cyclegan-with-dual-adversarial-loss-for-bone-conducted-speech-enhancement-2111.014302021-11-03 https://scifaro.com/en/abs/synthesizing-speech-from-intracranial-depth-electrodes-using-an-encoder-decoder-framework-2111.014572022-12-16 https://scifaro.com/en/abs/a-strongly-labelled-polyphonic-dataset-of-urban-sounds-with-spatiotemporal-context-2111.020062022-06-07 https://scifaro.com/en/abs/a-comparative-study-of-speaker-role-identification-in-air-traffic-communication-using-deep-learning-approaches-2111.020412022-08-23 https://scifaro.com/en/abs/stc-speaker-recognition-systems-for-the-nist-sre-2021-2111.022982021-11-04 https://scifaro.com/en/abs/weight-block-or-unit-exploring-sparsity-tradeoffs-for-speech-enhancement-on-tiny-neural-accelerators-2111.023512021-11-11 https://scifaro.com/en/abs/inqss-a-speech-intelligibility-and-quality-assessment-model-using-a-multi-task-learning-network-2111.025852022-07-04 https://scifaro.com/en/abs/speech-recognition-for-air-traffic-control-via-feature-learning-and-end-to-end-training-2111.026542021-11-05 https://scifaro.com/en/abs/mt3-multi-task-multitrack-music-transcription-2111.030172022-03-16 https://scifaro.com/en/abs/objective-measurement-of-pitch-extractors-responses-to-frequency-modulated-sounds-and-two-reference-pitch-extraction-methods-for-analyzing-voice-pitch-responses-to-auditory-stimulation-2111.036292022-06-29 https://scifaro.com/en/abs/sig-vc-a-speaker-information-guided-zero-shot-voice-conversion-system-for-both-human-beings-and-machines-2111.038112023-04-04 https://scifaro.com/en/abs/digital-audio-processing-tools-for-music-corpus-studies-2111.038952021-11-10 https://scifaro.com/en/abs/towards-noise-robust-trigger-word-detection-with-contrastive-learning-pre-task-for-fast-on-boarding-of-new-trigger-words-2111.039712022-07-28 https://scifaro.com/en/abs/meta-tts-meta-learning-for-few-shot-speaker-adaptive-text-to-speech-2111.040402022-08-01 https://scifaro.com/en/abs/theme-transformer-symbolic-music-generation-with-theme-conditioned-transformer-2111.040932022-03-22 https://scifaro.com/en/abs/characterizing-the-adversarial-vulnerability-of-speech-self-supervised-learning-2111.043302022-03-30 https://scifaro.com/en/abs/seofp-net-compression-and-acceleration-of-deep-neural-networks-for-speech-enhancement-using-sign-exponent-only-floating-points-2111.044362021-11-09 https://scifaro.com/en/abs/ultra-low-power-keyword-spotting-at-the-edge-2111.049882021-11-10 https://scifaro.com/en/abs/speaker-generation-2111.050952021-11-10 https://scifaro.com/en/abs/caesynth-real-time-timbre-interpolation-and-pitch-control-with-conditional-autoencoders-2111.051742021-11-10 https://scifaro.com/en/abs/inclusive-speaker-verification-with-adaptive-thresholding-2111.055012021-11-11 https://scifaro.com/en/abs/improving-the-chamberlin-digital-state-variable-filter-2111.055922022-02-21 https://scifaro.com/en/abs/structure-from-silence-learning-scene-structure-from-ambient-sound-2111.058462021-11-11 https://scifaro.com/en/abs/a-generic-deep-learning-based-cough-analysis-system-from-clinically-validated-samples-for-point-of-need-covid-19-test-and-severity-levels-2111.058952021-11-12 https://scifaro.com/en/abs/music-score-expansion-with-variable-length-infilling-2111.060462021-11-12 https://scifaro.com/en/abs/unsupervised-noise-adaptive-speech-enhancement-by-discriminator-constrained-optimal-transport-2111.063162021-11-12 https://scifaro.com/en/abs/towards-an-efficient-voice-identification-using-wav2vec2-0-and-hubert-based-on-the-quran-reciters-dataset-2111.063312021-11-12 https://scifaro.com/en/abs/domain-generalization-on-efficient-acoustic-scene-classification-using-residual-normalization-2111.065312021-11-15 https://scifaro.com/en/abs/a-convolutional-neural-network-based-approach-to-recognize-bangla-spoken-digits-from-speech-signal-2111.066252021-11-15 https://scifaro.com/en/abs/fully-automatic-page-turning-on-real-scores-2111.066432021-11-15 https://scifaro.com/en/abs/speech-emotion-recognition-using-deep-sparse-auto-encoder-extreme-learning-machine-with-a-new-weighting-scheme-and-spectro-temporal-features-along-with-classical-feature-selection-and-a-new-quantum-inspired-dimension-reduction-method-2111.070942021-11-16 https://scifaro.com/en/abs/direct-noisy-speech-modeling-for-noisy-to-noisy-voice-conversion-2111.071162021-11-16 https://scifaro.com/en/abs/speech-emotion-recognition-system-by-quaternion-nonlinear-echo-state-network-2111.072342021-11-16 https://scifaro.com/en/abs/time-frequency-attention-for-monaural-speech-enhancement-2111.075182022-03-10 https://scifaro.com/en/abs/symbolic-music-loop-generation-with-vq-vae-2111.076572021-11-16 https://scifaro.com/en/abs/metric-based-multimodal-meta-learning-for-human-movement-identification-via-footstep-recognition-2111.079792021-11-16 https://scifaro.com/en/abs/an-exploratory-study-on-perceptual-spaces-of-the-singing-voice-2111.081962021-11-17 https://scifaro.com/en/abs/detecting-acoustic-reflectors-using-a-robot-s-ego-noise-2111.083272021-11-17 https://scifaro.com/en/abs/towards-lightweight-controllable-audio-synthesis-with-conditional-implicit-neural-representations-2111.084622021-12-03 https://scifaro.com/en/abs/zero-shot-singing-technique-conversion-2111.088392021-11-18 https://scifaro.com/en/abs/information-fusion-in-attention-networks-using-adaptive-and-multi-level-factorized-bilinear-pooling-for-audio-visual-emotion-recognition-2111.089102021-11-18 https://scifaro.com/en/abs/subject-enveloped-deep-sample-fuzzy-ensemble-learning-algorithm-of-parkinson-s-speech-data-2111.090142021-11-18 https://scifaro.com/en/abs/high-quality-streaming-speech-synthesis-with-low-sentence-length-independent-latency-2111.090522021-11-18 https://scifaro.com/en/abs/cross-lingual-low-resource-speaker-adaptation-using-phonological-features-2111.090752021-11-18 https://scifaro.com/en/abs/rapping-singing-voice-synthesis-based-on-phoneme-level-prosody-control-2111.091462021-11-18 https://scifaro.com/en/abs/towards-intelligibility-oriented-audio-visual-speech-enhancement-2111.096422021-11-19 https://scifaro.com/en/abs/dawdreamer-bridging-the-gap-between-digital-audio-workstations-and-python-interfaces-2111.099312021-11-22 https://scifaro.com/en/abs/differentiable-wavetable-synthesis-2111.100032022-02-15 https://scifaro.com/en/abs/improved-prosodic-clustering-for-multispeaker-and-speaker-independent-phoneme-level-prosody-control-2111.101682021-11-22 https://scifaro.com/en/abs/word-level-style-control-for-expressive-non-attentive-speech-synthesis-2111.101732021-11-22 https://scifaro.com/en/abs/prosodic-clustering-for-phoneme-level-prosody-control-in-end-to-end-speech-synthesis-2111.101772021-11-22 https://scifaro.com/en/abs/interpreting-deep-urban-sound-classification-using-layer-wise-relevance-propagation-2111.102352021-11-22 https://scifaro.com/en/abs/deep-spoken-keyword-spotting-an-overview-2111.105922021-11-23 https://scifaro.com/en/abs/implicit-acoustic-echo-cancellation-for-keyword-spotting-and-device-directed-speech-detection-2111.106392022-10-05 https://scifaro.com/en/abs/automatic-detection-of-depression-from-stratified-samples-of-audio-data-2111.107832021-11-23 https://scifaro.com/en/abs/health-monitoring-of-industrial-machines-using-scene-aware-threshold-selection-2111.108972021-11-23 https://scifaro.com/en/abs/multi-channel-multi-speaker-asr-using-3d-spatial-feature-2111.110232021-11-23 https://scifaro.com/en/abs/comparing-the-accuracy-of-deep-neural-networks-dnn-and-convolutional-neural-network-cnn-in-music-genre-recognition-mgr-experiments-on-kurdish-music-2111.110632021-11-23 https://scifaro.com/en/abs/music-classification-beyond-supervised-learning-towards-real-world-applications-2111.116362021-12-06 https://scifaro.com/en/abs/adtof-a-large-dataset-of-non-synthetic-music-for-automatic-drum-transcription-2111.117372021-11-24 https://scifaro.com/en/abs/guided-tts-a-diffusion-model-for-text-to-speech-via-classifier-guidance-2111.117552022-06-13 https://scifaro.com/en/abs/upsampling-layers-for-music-source-separation-2111.117732021-11-24 https://scifaro.com/en/abs/longitudinal-speech-biomarkers-for-automated-alzheimer-s-detection-2111.118592021-11-24 https://scifaro.com/en/abs/towards-learning-universal-audio-representations-2111.121242022-06-24 https://scifaro.com/en/abs/how-speech-is-recognized-to-be-emotional-a-study-based-on-information-decomposition-2111.123242021-11-25 https://scifaro.com/en/abs/a-study-on-decoupled-probabilistic-linear-discriminant-analysis-2111.123262021-11-25 https://scifaro.com/en/abs/an-map-estimation-for-between-class-variance-2111.123312021-11-25 https://scifaro.com/en/abs/non-intrusive-binaural-speech-intelligibility-prediction-from-discrete-latent-representations-2111.125312022-03-23 https://scifaro.com/en/abs/towards-cross-cultural-analysis-using-music-information-dynamics-2111.125882021-11-25 https://scifaro.com/en/abs/semi-supervised-audio-classification-with-partially-labeled-data-2111.127612021-11-29 https://scifaro.com/en/abs/polyphonic-sound-event-detection-using-capsule-neural-network-on-multi-type-multi-scale-time-frequency-representation-2111.128692021-11-29 https://scifaro.com/en/abs/a-muze-net-music-generation-by-composing-the-harmony-based-on-the-generated-melody-2111.129862021-11-29 https://scifaro.com/en/abs/semi-supervised-music-tagging-transformer-2111.134572021-11-29 https://scifaro.com/en/abs/speaker-embedding-aware-neural-diarization-for-flexible-number-of-speakers-with-textual-information-2111.136942021-11-30 https://scifaro.com/en/abs/how-deep-are-the-fakes-focusing-on-audio-deepfake-a-survey-2111.142032021-11-30 https://scifaro.com/en/abs/responding-to-challenge-call-of-machine-learning-model-development-in-diagnosing-respiratory-disease-sounds-2111.143542021-11-30 https://scifaro.com/en/abs/mixed-precision-dnn-qunatization-for-overlapped-speech-separation-and-recognition-2111.144792021-11-30 https://scifaro.com/en/abs/catch-me-if-you-hear-me-audio-visual-navigation-in-complex-unmapped-environments-with-moving-sounds-2111.148432023-01-04 https://scifaro.com/en/abs/cycletransgan-evc-a-cyclegan-based-emotional-voice-conversion-model-with-transformer-2111.151592021-12-01 https://scifaro.com/en/abs/sp-sedt-self-supervised-pre-training-for-sound-event-detection-transformer-2111.152222022-04-07 https://scifaro.com/en/abs/environmental-sound-extraction-using-onomatopoeic-words-2112.002092022-02-18 https://scifaro.com/en/abs/score-transformer-generating-musical-score-from-note-level-representation-2112.003552021-12-02 https://scifaro.com/en/abs/semi-supervised-music-emotion-recognition-using-noisy-student-training-and-harmonic-pitch-class-profiles-2112.007022021-12-10 https://scifaro.com/en/abs/music-to-dance-generation-with-optimal-transport-2112.018062022-05-05 https://scifaro.com/en/abs/catch-me-if-you-can-blackbox-adversarial-attacks-on-automatic-speech-recognition-using-frequency-masking-2112.018212022-04-13 https://scifaro.com/en/abs/speech-separation-using-an-asynchronous-fully-recurrent-convolutional-neural-network-2112.023212021-12-07 https://scifaro.com/en/abs/yourtts-towards-zero-shot-multi-speaker-tts-and-zero-shot-voice-conversion-for-everyone-2112.024182023-05-02 https://scifaro.com/en/abs/conditional-deep-hierarchical-variational-autoencoder-for-voice-conversion-2112.027962021-12-07 https://scifaro.com/en/abs/vocbench-a-neural-vocoder-benchmark-for-speech-synthesis-2112.030992021-12-07 https://scifaro.com/en/abs/audio-deepfake-perceptions-in-college-going-populations-2112.033512021-12-08 https://scifaro.com/en/abs/learning-music-audio-representations-via-weak-language-supervision-2112.042142022-02-18 https://scifaro.com/en/abs/training-robust-zero-shot-voice-conversion-models-with-self-supervised-features-2112.044242022-02-14 https://scifaro.com/en/abs/nice-beam-neural-integrated-covariance-estimators-for-time-varying-beamformers-2112.046132021-12-10 https://scifaro.com/en/abs/cws-presunet-music-source-separation-with-channel-wise-subband-phase-aware-resunet-2112.046852021-12-10 https://scifaro.com/en/abs/noise-robust-blind-reverberation-time-estimation-using-noise-aware-time-frequency-masking-2112.047262021-12-10 https://scifaro.com/en/abs/lipsound2-self-supervised-pre-training-for-lip-to-speech-reconstruction-and-lip-reading-2112.047482022-09-13 https://scifaro.com/en/abs/personalized-musically-induced-emotions-of-not-so-popular-colombian-music-2112.049752021-12-10 https://scifaro.com/en/abs/domain-adaptation-and-autoencoder-based-unsupervised-speech-enhancement-2112.050362021-12-10 https://scifaro.com/en/abs/music-demixing-with-the-slicq-transform-2112.055092021-12-13 https://scifaro.com/en/abs/an-ensemble-1d-cnn-lstm-gru-model-with-data-augmentation-for-speech-emotion-recognition-2112.056662022-11-23 https://scifaro.com/en/abs/hybrid-neural-networks-for-on-device-directional-hearing-2112.058932021-12-14 https://scifaro.com/en/abs/u-shaped-transformer-with-frequency-band-aware-attention-for-speech-enhancement-2112.060522023-05-10 https://scifaro.com/en/abs/perceptual-loss-with-recognition-model-for-single-channel-enhancement-and-robust-asr-2112.060682021-12-14 https://scifaro.com/en/abs/visualising-and-explaining-deep-learning-models-for-speech-quality-prediction-2112.062192021-12-14 https://scifaro.com/en/abs/pm-mmut-boosted-phone-mask-data-augmentation-using-multi-modeling-unit-training-for-phonetic-reduction-robust-e2e-speech-recognition-2112.067212022-07-05 https://scifaro.com/en/abs/computational-bioacoustics-with-deep-learning-a-review-and-roadmap-2112.067252024-02-01 https://scifaro.com/en/abs/mean-square-error-based-secondary-source-placement-in-sound-field-synthesis-with-prior-information-on-desired-field-2112.067742021-12-14 https://scifaro.com/en/abs/real-time-neural-voice-camouflage-2112.070762022-02-18 https://scifaro.com/en/abs/explore-long-range-context-feature-for-speaker-verification-2112.071342021-12-15 https://scifaro.com/en/abs/embedding-based-music-emotion-recognition-using-composite-loss-2112.071922023-04-11 https://scifaro.com/en/abs/noise-reduction-and-driving-event-extraction-method-for-performance-improvement-on-driving-noise-based-surface-anomaly-detection-2112.072142021-12-15 https://scifaro.com/en/abs/automatic-covid-19-disease-diagnosis-using-1d-convolutional-neural-network-and-augmentation-with-human-respiratory-sound-based-on-parameters-cough-breath-and-voice-2112.072852021-12-15 https://scifaro.com/en/abs/supervised-learning-for-multi-zone-sound-field-reproduction-under-harsh-environmental-conditions-2112.073492021-12-15 https://scifaro.com/en/abs/end-to-end-speaker-diarization-with-transformer-2112.074632021-12-15 https://scifaro.com/en/abs/a-literature-review-on-covid-19-disease-diagnosis-from-respiratory-sound-data-2112.076702021-12-16 https://scifaro.com/en/abs/zero-shot-audio-source-separation-through-query-based-learning-from-weakly-labeled-data-2112.078912022-02-15 https://scifaro.com/en/abs/the-exploitation-of-multiple-feature-extraction-techniques-for-speaker-identification-in-emotional-states-under-disguised-voices-2112.079402021-12-16 https://scifaro.com/en/abs/speech-frame-implementation-for-speech-analysis-and-recognition-2112.080272021-12-16 https://scifaro.com/en/abs/emotionbox-a-music-element-driven-emotional-music-generation-system-using-recurrent-neural-network-2112.085612021-12-17 https://scifaro.com/en/abs/knowledge-distillation-leveraging-alternative-soft-targets-from-non-parallel-qualified-speech-data-2112.088782021-12-17 https://scifaro.com/en/abs/connecting-the-dots-between-audio-and-text-without-parallel-data-through-visual-knowledge-transfer-2112.089952022-05-04 https://scifaro.com/en/abs/towards-robust-real-time-audio-visual-speech-enhancement-2112.090602021-12-17 https://scifaro.com/en/abs/midi-ddsp-detailed-control-of-musical-performance-via-hierarchical-modeling-2112.093122022-03-21 https://scifaro.com/en/abs/jtubespeech-corpus-of-japanese-speech-collected-from-youtube-for-speech-recognition-and-speaker-verification-2112.093232021-12-20 https://scifaro.com/en/abs/discretization-and-re-synthesis-an-alternative-method-to-solve-the-cocktail-party-problem-2112.093822022-01-11 https://scifaro.com/en/abs/linguistic-and-gender-variation-in-speech-emotion-recognition-using-spectral-features-2112.095962022-10-28 https://scifaro.com/en/abs/soundify-matching-sound-effects-to-video-2112.097262024-06-26 https://scifaro.com/en/abs/detect-what-you-want-target-sound-detection-2112.101532022-07-08 https://scifaro.com/en/abs/generating-chord-progression-from-melody-with-flexible-harmonic-rhythm-and-controllable-harmonic-density-2112.111222023-12-05 https://scifaro.com/en/abs/self-supervised-learning-based-monaural-speech-enhancement-with-complex-cycle-consistent-2112.111422021-12-22 https://scifaro.com/en/abs/safeguarding-test-signals-for-acoustic-measurement-using-arbitrary-sounds-2112.113732021-12-22 https://scifaro.com/en/abs/self-supervised-learning-based-monaural-speech-enhancement-with-multi-task-pre-training-2112.114592022-01-02 https://scifaro.com/en/abs/graph-attentive-feature-aggregation-for-text-independent-speaker-verification-2112.123432021-12-24 https://scifaro.com/en/abs/multi-variant-consistency-based-self-supervised-learning-for-robust-automatic-speech-recognition-2112.125222022-05-05 https://scifaro.com/en/abs/enabling-real-time-on-chip-audio-super-resolution-for-bone-conduction-microphones-2112.131562021-12-28 https://scifaro.com/en/abs/novel-dual-channel-long-short-term-memory-compressed-capsule-networks-for-emotion-recognition-2112.133502021-12-28 https://scifaro.com/en/abs/novel-hybrid-dnn-approaches-for-speaker-verification-in-emotional-and-stressful-talking-environments-2112.133532021-12-28 https://scifaro.com/en/abs/acoustic-scene-classification-using-auditory-datasets-2112.134502022-07-18 https://scifaro.com/en/abs/retrieving-effective-acoustic-impedance-and-refractive-index-for-size-mismatch-samples-2112.134532024-06-19 https://scifaro.com/en/abs/bilingual-speech-recognition-by-estimating-speaker-geometry-from-video-data-2112.134632021-12-28 https://scifaro.com/en/abs/feature-extraction-with-mel-scale-separation-method-on-noise-audio-recordings-2112.149302022-01-03 https://scifaro.com/en/abs/audio-to-symbolic-arrangement-via-cross-modal-music-representation-learning-2112.151102022-02-23 https://scifaro.com/en/abs/evaluating-deep-music-generation-methods-using-data-augmentation-2201.000522022-01-04 https://scifaro.com/en/abs/bird-species-classification-and-acoustic-features-selection-based-on-distributed-neural-network-with-two-stage-windowing-of-short-term-features-2201.001242022-01-04 https://scifaro.com/en/abs/generating-adversarial-samples-for-training-wake-up-word-detection-systems-against-confusing-words-2201.001672022-01-04 https://scifaro.com/en/abs/classifying-autism-from-crowdsourced-semi-structured-speech-recordings-a-machine-learning-approach-2201.009272022-01-05 https://scifaro.com/en/abs/exploring-longitudinal-cough-breath-and-voice-data-for-covid-19-progression-prediction-via-sequential-deep-learning-model-development-and-validation-2201.012322022-06-23 https://scifaro.com/en/abs/robust-self-supervised-audio-visual-speech-recognition-2201.017632022-07-18 https://scifaro.com/en/abs/self-supervised-beat-tracking-in-musical-signals-with-polyphonic-contrastive-learning-2201.017712023-07-18 https://scifaro.com/en/abs/implementing-simple-spectral-denoising-for-environmental-audio-recordings-2201.020992022-01-07 https://scifaro.com/en/abs/a-sinusoidal-signal-reconstruction-method-for-the-inversion-of-the-mel-spectrogram-2201.024832022-01-10 https://scifaro.com/en/abs/audio-representations-for-deep-learning-in-sound-synthesis-a-review-2201.024902022-01-10 https://scifaro.com/en/abs/a-novel-audio-representation-using-space-filling-curves-2201.028052022-01-11 https://scifaro.com/en/abs/emotional-speaker-identification-using-a-novel-capsule-nets-model-2201.029942022-01-11 https://scifaro.com/en/abs/an-ensemble-of-deep-learning-frameworks-applied-for-predicting-respiratory-anomalies-2201.030542022-01-11 https://scifaro.com/en/abs/local-information-assisted-attention-free-decoder-for-audio-captioning-2201.032172022-08-10 https://scifaro.com/en/abs/sub-mw-keyword-spotting-on-an-mcu-analog-binary-feature-extraction-and-binary-neural-networks-2201.033862022-01-12 https://scifaro.com/en/abs/music2video-automatic-generation-of-music-video-with-fusion-of-audio-and-text-2201.038092022-06-10 https://scifaro.com/en/abs/emotion-intensity-and-its-control-for-emotional-voice-conversion-2201.039672022-07-19 https://scifaro.com/en/abs/sound-dr-reliable-sound-dataset-and-baseline-artificial-intelligence-system-for-respiratory-illnesses-2201.045812023-08-07 https://scifaro.com/en/abs/voxsrc-2021-the-third-voxceleb-speaker-recognition-challenge-2201.045832022-11-17 https://scifaro.com/en/abs/the-effectiveness-of-time-stretching-for-enhancing-dysarthric-speech-for-improved-dysarthric-speech-recognition-2201.049082022-01-14 https://scifaro.com/en/abs/fish-sounds-towards-the-evaluation-of-marine-acoustic-biodiversity-through-data-driven-audio-source-separation-2201.050132022-01-17 https://scifaro.com/en/abs/beyond-chord-vocabularies-exploiting-pitch-relationships-in-a-chord-estimation-metric-2201.052442022-01-17 https://scifaro.com/en/abs/multiphonic-modeling-using-impulse-pattern-formulation-ipf-2201.054522022-01-17 https://scifaro.com/en/abs/anomalous-sound-detection-using-spectral-temporal-information-fusion-2201.055102022-05-02 https://scifaro.com/en/abs/spectro-temporal-deep-features-for-disordered-speech-assessment-and-recognition-2201.055542022-01-20 https://scifaro.com/en/abs/investigation-of-data-augmentation-techniques-for-disordered-speech-recognition-2201.055622022-01-20 https://scifaro.com/en/abs/a-novel-multi-task-learning-method-for-symbolic-music-emotion-recognition-2201.057822022-01-19 https://scifaro.com/en/abs/convmixer-feature-interactive-convolution-with-curriculum-learning-for-small-footprint-and-noisy-far-field-keyword-spotting-2201.058632023-05-09 https://scifaro.com/en/abs/modeling-the-repetition-based-recovering-of-acoustic-and-visual-sources-with-dendritic-neurons-2201.061232022-10-25 https://scifaro.com/en/abs/comparative-study-of-acoustic-echo-cancellation-algorithms-for-speech-recognition-system-in-noisy-environment-2201.062092022-01-19 https://scifaro.com/en/abs/on-training-targets-and-activation-functions-for-deep-representation-learning-in-text-dependent-speaker-verification-2201.064262022-01-19 https://scifaro.com/en/abs/msemotts-multi-scale-emotion-transfer-prediction-and-control-for-emotional-speech-synthesis-2201.064602022-01-19 https://scifaro.com/en/abs/opencpop-a-high-quality-open-source-chinese-popular-song-corpus-for-singing-voice-synthesis-2201.074292022-01-21 https://scifaro.com/en/abs/mhtts-fast-multi-head-text-to-speech-for-spontaneous-speech-with-imperfect-transcription-2201.074382022-02-07 https://scifaro.com/en/abs/unsupervised-personalization-of-an-emotion-recognition-system-the-unique-properties-of-the-externalization-of-valence-in-speech-2201.078762023-05-15 https://scifaro.com/en/abs/cross-lingual-text-to-speech-using-multi-task-learning-and-speaker-classifier-joint-training-2201.081242022-01-21 https://scifaro.com/en/abs/kinit-classification-in-ethiopian-chants-azmaris-and-modern-music-a-new-dataset-and-cnn-benchmark-2201.084482023-05-10 https://scifaro.com/en/abs/can-machines-generate-personalized-music-a-hybrid-favorite-aware-method-for-user-preference-music-transfer-2201.085262022-01-24 https://scifaro.com/en/abs/nas-vad-neural-architecture-search-for-voice-activity-detection-2201.090322022-10-05 https://scifaro.com/en/abs/exploring-auditory-acoustic-features-for-the-diagnosis-of-the-covid-19-2201.091102022-01-25 https://scifaro.com/en/abs/end-to-end-neural-speech-coding-for-real-time-communications-2201.094292022-02-16 https://scifaro.com/en/abs/disentangling-style-and-speaker-attributes-for-tts-style-transfer-2201.094722022-01-25 https://scifaro.com/en/abs/bias-in-automated-speaker-recognition-2201.094862022-06-22 https://scifaro.com/en/abs/unsupervised-music-source-separation-using-differentiable-parametric-source-models-2201.095922023-02-01 https://scifaro.com/en/abs/improving-factored-hybrid-hmm-acoustic-modeling-without-state-tying-2201.096922022-01-25 https://scifaro.com/en/abs/optimizing-tandem-speaker-verification-and-anti-spoofing-systems-2201.097092022-01-25 https://scifaro.com/en/abs/improving-adversarial-waveform-generation-based-singing-voice-conversion-with-harmonic-signals-2201.101302022-01-26 https://scifaro.com/en/abs/improved-mispronunciation-detection-system-using-a-hybrid-ctc-att-based-approach-for-l2-english-speakers-2201.101982022-01-26 https://scifaro.com/en/abs/sasv-challenge-2022-a-spoofing-aware-speaker-verification-challenge-evaluation-plan-2201.102832022-03-03 https://scifaro.com/en/abs/exploiting-hybrid-models-of-tensor-train-networks-for-spoken-command-recognition-2201.106092022-01-27 https://scifaro.com/en/abs/noise-robust-voice-conversion-with-domain-adversarial-training-2201.106932022-01-27 https://scifaro.com/en/abs/j-mac-japanese-multi-speaker-audiobook-corpus-for-speech-synthesis-2201.108962022-01-27 https://scifaro.com/en/abs/figaro-generating-symbolic-music-with-fine-grained-artistic-control-2201.109362024-02-23 https://scifaro.com/en/abs/learnable-wavelet-packet-transform-for-data-adapted-spectrograms-2201.110692022-06-14 https://scifaro.com/en/abs/rapid-solution-for-searching-similar-audio-items-2201.111782022-01-28 https://scifaro.com/en/abs/discovering-phonetic-inventories-with-crosslingual-automatic-speech-recognition-2201.112072022-01-31 https://scifaro.com/en/abs/the-msxf-tts-system-for-icassp-2022-add-challenge-2201.114002022-01-28 https://scifaro.com/en/abs/dual-learning-music-composition-and-dance-choreography-2201.119992022-02-01 https://scifaro.com/en/abs/automatic-audio-captioning-using-attention-weighted-event-based-embeddings-2201.123522022-02-01 https://scifaro.com/en/abs/it-owave-it-o-stochastic-differential-equation-is-all-you-need-for-wave-generation-2201.125192022-04-15 https://scifaro.com/en/abs/the-hccl-dku-system-for-fake-audio-generation-task-of-the-2022-icassp-add-challenge-2201.125672022-02-01 https://scifaro.com/en/abs/partitura-a-python-package-for-handling-symbolic-musical-data-2201.131442022-02-01 https://scifaro.com/en/abs/differentiable-digital-signal-processing-mixture-model-for-synthesis-parameter-extraction-from-mixture-of-harmonic-sounds-2202.002002022-02-02 https://scifaro.com/en/abs/the-impact-of-removing-head-movements-on-audio-visual-speech-enhancement-2202.005382022-02-03 https://scifaro.com/en/abs/hts-at-a-hierarchical-token-semantic-audio-transformer-for-sound-classification-and-detection-2202.008742022-02-03 https://scifaro.com/en/abs/melody-extraction-from-polyphonic-music-by-deep-learning-approaches-a-review-2202.010782022-02-03 https://scifaro.com/en/abs/real-time-emergency-vehicle-event-detection-using-audio-data-2202.013672022-02-04 https://scifaro.com/en/abs/a-psychoacoustic-quality-criterion-for-path-traced-sound-propagation-2202.015822022-10-11 https://scifaro.com/en/abs/the-royalflush-system-of-speech-recognition-for-m2met-challenge-2202.016142022-02-25 https://scifaro.com/en/abs/mfa-tdnn-with-multi-scale-frequency-channel-attention-for-text-independent-speaker-verification-with-short-utterances-2202.016242022-02-16 https://scifaro.com/en/abs/improving-lyrics-alignment-through-joint-pitch-detection-2202.016462022-02-04 https://scifaro.com/en/abs/robust-audio-anomaly-detection-2202.017842022-02-07 https://scifaro.com/en/abs/musical-audio-similarity-with-self-supervised-convolutional-neural-networks-2202.021122022-02-07 https://scifaro.com/en/abs/polyphonic-pitch-detection-with-convolutional-recurrent-neural-networks-2202.021152022-02-07 https://scifaro.com/en/abs/seed-sound-event-early-detection-via-evidential-uncertainty-2202.024412022-02-15 https://scifaro.com/en/abs/a-neural-beam-filter-for-real-time-multi-channel-speech-enhancement-2202.025002022-02-08 https://scifaro.com/en/abs/optimization-of-a-real-time-wavelet-based-algorithm-for-improving-speech-intelligibility-2202.025452022-07-25 https://scifaro.com/en/abs/deep-impulse-responses-estimating-and-parameterizing-filters-with-deep-networks-2202.034162022-02-08 https://scifaro.com/en/abs/maximizing-audio-event-detection-model-performance-on-small-datasets-through-knowledge-transfer-data-augmentation-and-pretraining-an-ablation-study-2202.035142022-02-09 https://scifaro.com/en/abs/summary-on-the-icassp-2022-multi-channel-multi-party-meeting-transcription-grand-challenge-2202.036472022-02-28 https://scifaro.com/en/abs/speech-emotion-recognition-using-self-supervised-features-2202.038962022-02-09 https://scifaro.com/en/abs/the-volcspeech-system-for-the-icassp-2022-multi-channel-multi-party-meeting-transcription-challenge-2202.042612022-02-11 https://scifaro.com/en/abs/cau-ku-team-s-submission-to-add-2022-challenge-task-1-low-quality-fake-audio-detection-through-frequency-feature-masking-2202.043282022-02-10 https://scifaro.com/en/abs/binaural-audio-rendering-in-the-spherical-harmonic-domain-a-summary-of-the-mathematics-and-its-pitfalls-2202.043932022-09-15 https://scifaro.com/en/abs/conditional-drums-generation-using-compound-word-representations-2202.044642022-02-22 https://scifaro.com/en/abs/multimodal-audio-visual-information-fusion-using-canonical-correlated-graph-neural-network-for-energy-efficient-speech-enhancement-2202.045282022-09-19 https://scifaro.com/en/abs/shas-approaching-optimal-segmentation-for-end-to-end-speech-translation-2202.047742022-07-07 https://scifaro.com/en/abs/royalflush-speaker-diarization-system-for-icassp-2022-multi-channel-multi-party-meeting-transcription-challenge-2202.048142022-02-21 https://scifaro.com/en/abs/auditory-model-based-phase-aware-bayesian-spectral-amplitude-estimator-for-single-channel-speech-enhancement-2202.048822022-02-11 https://scifaro.com/en/abs/sound-masking-degrades-perception-of-self-location-during-stepping-a-case-for-sound-transparent-spacesuits-for-mars-2202.049582022-02-11 https://scifaro.com/en/abs/barwise-compression-schemes-for-audio-based-music-structure-analysis-2202.049812022-04-18 https://scifaro.com/en/abs/semi-supervised-convolutive-nmf-for-automatic-piano-transcription-2202.049892022-04-15 https://scifaro.com/en/abs/learnable-nonlinear-compression-for-robust-speaker-verification-2202.052362022-02-11 https://scifaro.com/en/abs/single-channel-speech-enhancement-by-using-psychoacoustical-model-inspired-fusion-framework-2202.052722025-12-18 https://scifaro.com/en/abs/an-initial-description-of-capabilities-and-constraints-for-a-computational-auditory-system-an-artificial-ear-for-cognitive-architectures-2202.053322022-02-14 https://scifaro.com/en/abs/faag-fast-adversarial-audio-generation-through-interactive-attack-optimisation-2202.054162022-02-14 https://scifaro.com/en/abs/a-sonification-of-the-zcosmos-galaxy-dataset-2202.055392022-11-16 https://scifaro.com/en/abs/audio-based-deep-learning-frameworks-for-detecting-covid-19-2202.056262022-03-03 https://scifaro.com/en/abs/audio-defect-detection-in-music-with-deep-networks-2202.057182022-02-14 https://scifaro.com/en/abs/a-novel-speech-intelligibility-enhancement-model-based-on-canonicalcorrelation-and-deep-learning-2202.057562022-02-14 https://scifaro.com/en/abs/the-hamse-ontology-using-semantic-technologies-to-support-music-representation-interoperability-and-musicological-analysis-2202.058172023-03-31 https://scifaro.com/en/abs/wav2vec2-0-on-the-edge-performance-evaluation-2202.059932022-02-15 https://scifaro.com/en/abs/deep-performer-score-to-audio-music-performance-synthesis-2202.060342022-02-22 https://scifaro.com/en/abs/learning-long-term-music-representations-via-hierarchical-contextual-constraints-2202.061802022-02-15 https://scifaro.com/en/abs/multi-task-deep-residual-echo-suppression-with-echo-aware-loss-2202.068502022-05-31 https://scifaro.com/en/abs/multi-style-training-for-south-african-call-centre-audio-2202.072192022-02-16 https://scifaro.com/en/abs/speechpainter-text-conditioned-speech-inpainting-2202.072732022-03-31 https://scifaro.com/en/abs/phase-vocoder-done-right-2202.073822022-02-16 https://scifaro.com/en/abs/audio-inpainting-via-ell-1-minimization-and-dictionary-learning-2202.074792022-02-16 https://scifaro.com/en/abs/phase-based-signal-representations-for-scattering-2202.074842024-07-09 https://scifaro.com/en/abs/non-iterative-filter-bank-phase-re-construction-2202.074982022-02-18 https://scifaro.com/en/abs/speech-denoising-in-the-waveform-domain-with-self-attention-2202.077902022-07-08 https://scifaro.com/en/abs/learning-deep-direct-path-relative-transfer-function-for-binaural-sound-source-localization-2202.078412022-02-17 https://scifaro.com/en/abs/conversational-speech-recognition-by-learning-conversation-level-characteristics-2202.078552022-02-18 https://scifaro.com/en/abs/srp-dnn-learning-direct-path-phase-difference-for-multiple-moving-sound-source-localization-2202.078592022-02-17 https://scifaro.com/en/abs/singing-tacotron-global-duration-control-attention-and-dynamic-filter-for-end-to-end-singing-voice-synthesis-2202.079072022-02-22 https://scifaro.com/en/abs/dbt-net-dual-branch-federative-magnitude-and-phase-estimation-with-attention-in-attention-transformer-for-monaural-speech-enhancement-2202.079312022-08-02 https://scifaro.com/en/abs/on-loss-functions-and-evaluation-metrics-for-music-source-separation-2202.079682022-02-17 https://scifaro.com/en/abs/adima-abuse-detection-in-multilingual-audio-2202.079912022-02-17 https://scifaro.com/en/abs/chord-conditioned-melody-harmonization-with-controllable-harmonicity-2202.084232023-02-23 https://scifaro.com/en/abs/add-2022-the-first-audio-deep-synthesis-detection-challenge-2202.084332024-07-03 https://scifaro.com/en/abs/a-study-of-designing-compact-audio-visual-wake-word-spotting-system-based-on-iterative-fine-tuning-in-neural-network-pruning-2202.085092022-02-18 https://scifaro.com/en/abs/remixit-continual-self-training-of-speech-enhancement-models-via-bootstrapped-remixing-2202.088622022-08-30 https://scifaro.com/en/abs/word-embeddings-for-automatic-equalization-in-audio-mixing-2202.088982022-09-21 https://scifaro.com/en/abs/attributable-watermarking-of-speech-generative-models-2202.089002022-03-16 https://scifaro.com/en/abs/multimodal-emotion-recognition-using-transfer-learning-from-speaker-recognition-and-bert-based-models-2202.089742022-02-21 https://scifaro.com/en/abs/a-summary-of-the-compare-covid-19-challenges-2202.089812022-02-21 https://scifaro.com/en/abs/predicting-sex-and-stroke-success-computer-aided-player-grunt-analysis-in-tennis-matches-2202.091022022-02-21 https://scifaro.com/en/abs/deep-learning-architectures-for-multi-pitch-estimation-towards-reliable-evaluation-2202.091982022-02-21 https://scifaro.com/en/abs/evaluation-of-neuromorphic-spike-encoding-of-sound-using-information-theory-2202.096192023-02-16 https://scifaro.com/en/abs/it-s-raw-audio-generation-with-state-space-models-2202.097292022-02-22 https://scifaro.com/en/abs/enhancing-affective-representations-of-music-induced-eeg-through-multimodal-supervision-and-latent-domain-adaptation-2202.097502022-02-22 https://scifaro.com/en/abs/towards-automatic-transcription-of-polyphonic-electric-guitar-music-a-new-dataset-and-a-multi-loss-transformer-model-2202.099072022-02-22 https://scifaro.com/en/abs/campnet-context-aware-mask-prediction-for-end-to-end-text-based-speech-editing-2202.099502022-03-23 https://scifaro.com/en/abs/avqvc-one-shot-voice-conversion-by-vector-quantization-with-applying-contrastive-learning-2202.100202022-02-22 https://scifaro.com/en/abs/adversarial-attacks-on-speech-recognition-systems-for-mission-critical-applications-a-survey-2202.105942022-02-23 https://scifaro.com/en/abs/nnspeech-speaker-guided-conditional-variational-autoencoder-for-zero-shot-multi-speaker-text-to-speech-2202.107122022-02-23 https://scifaro.com/en/abs/improving-cross-lingual-speech-synthesis-with-triplet-training-scheme-2202.107292022-02-23 https://scifaro.com/en/abs/sound-adversarial-audio-visual-navigation-2202.109102022-02-23 https://scifaro.com/en/abs/drvc-a-framework-of-any-to-any-voice-conversion-with-self-supervised-learning-2202.109762022-02-23 https://scifaro.com/en/abs/flowsense-monitoring-airflow-in-building-ventilation-systems-using-audio-sensing-2202.111362022-02-24 https://scifaro.com/en/abs/towards-speaker-age-estimation-with-label-distribution-learning-2202.114242022-02-24 https://scifaro.com/en/abs/listen-to-interpret-post-hoc-interpretability-for-audio-networks-with-nmf-2202.114792022-10-25 https://scifaro.com/en/abs/differentially-private-speaker-anonymization-2202.118232022-10-07 https://scifaro.com/en/abs/phase-continuity-learning-derivatives-of-phase-spectrum-for-speech-enhancement-2202.119182022-02-25 https://scifaro.com/en/abs/flat-latent-manifolds-for-human-machine-co-creation-of-music-2202.122432022-08-11 https://scifaro.com/en/abs/a-perceptual-measure-for-evaluating-the-resynthesis-of-automatic-music-transcriptions-2202.122572022-03-08 https://scifaro.com/en/abs/ask2mask-guided-data-selection-for-masked-speech-modeling-2202.127192022-02-28 https://scifaro.com/en/abs/language-independent-speaker-anonymization-approach-using-self-supervised-pre-trained-models-2202.130972022-04-28 https://scifaro.com/en/abs/an-acoustic-signal-cavitation-detection-framework-based-on-xgboost-with-adaptive-selection-feature-engineering-2202.132262022-03-02 https://scifaro.com/en/abs/regional-local-adversarially-learned-one-class-classifier-anomalous-sound-detection-in-global-long-term-space-2202.132452022-08-16 https://scifaro.com/en/abs/hierarchical-linear-dynamical-system-for-representing-notes-from-recorded-audio-2202.132552022-03-01 https://scifaro.com/en/abs/on-the-relevance-of-bandwidth-extension-for-speaker-identification-2202.138652022-03-01 https://scifaro.com/en/abs/extended-graph-temporal-classification-for-multi-speaker-end-to-end-asr-2203.002322022-03-02 https://scifaro.com/en/abs/dmf-net-a-decoupling-style-multi-band-fusion-model-for-full-band-speech-enhancement-2203.004722022-08-02 https://scifaro.com/en/abs/a-comparative-study-of-several-parameterizations-for-speaker-recognition-2203.005132022-03-02 https://scifaro.com/en/abs/a-conformer-based-acoustic-model-for-robust-automatic-speech-recognition-2203.007252022-10-21 https://scifaro.com/en/abs/speaker-adaption-with-intuitive-prosodic-features-for-statistical-parametric-speech-synthesis-2203.009512022-03-03 https://scifaro.com/en/abs/a-multi-scale-time-frequency-spectrogram-discriminator-for-gan-based-non-autoregressive-tts-2203.010802022-03-23 https://scifaro.com/en/abs/a-multi-task-learning-for-cavitation-detection-and-cavitation-intensity-recognition-of-valve-acoustic-signals-2203.011182022-05-11 https://scifaro.com/en/abs/speaker-recognition-improvement-using-blind-inversion-of-distortions-2203.011642022-03-03 https://scifaro.com/en/abs/audio-self-supervised-learning-a-survey-2203.012052022-03-03 https://scifaro.com/en/abs/smtnet-hierarchical-cavitation-intensity-recognition-based-on-sub-main-transfer-network-2203.014292023-07-13 https://scifaro.com/en/abs/generative-modeling-for-low-dimensional-speech-attributes-with-neural-spline-flows-2203.017862022-06-28 https://scifaro.com/en/abs/nonlinear-predictive-models-computation-in-adpcm-schemes-2203.020202022-03-07 https://scifaro.com/en/abs/look-listen-multi-modal-correlation-learning-for-active-speaker-detection-and-speech-enhancement-2203.022162022-07-08 https://scifaro.com/en/abs/istftnet-fast-and-lightweight-mel-spectrogram-vocoder-incorporating-inverse-short-time-fourier-transform-2203.023952022-03-07 https://scifaro.com/en/abs/ontological-learning-from-weak-labels-2203.024832022-03-07 https://scifaro.com/en/abs/audio-visual-speech-separation-based-on-joint-feature-representation-with-cross-modal-attention-2203.026552022-03-08 https://scifaro.com/en/abs/neuraldps-neural-deterministic-plus-stochastic-model-with-multiband-excitation-for-noise-controllable-waveform-generation-2203.026782022-03-08 https://scifaro.com/en/abs/single-microphone-speaker-extraction-using-unified-time-frequency-siamese-unet-2203.029412022-03-08 https://scifaro.com/en/abs/c-p-map-a-novel-evaluation-toolkit-for-speaker-verification-2203.029422022-03-08 https://scifaro.com/en/abs/cnn-self-attention-voice-activity-detector-2203.029442022-03-08 https://scifaro.com/en/abs/variational-auto-encoder-based-mandarin-speech-cloning-2203.029672022-03-08 https://scifaro.com/en/abs/hear-holistic-evaluation-of-audio-representations-2203.030222025-06-18 https://scifaro.com/en/abs/speaker-recognition-by-means-of-a-combination-of-linear-and-nonlinear-predictive-models-2203.031902022-03-08 https://scifaro.com/en/abs/attention-based-region-of-interest-roi-detection-for-speech-emotion-recognition-2203.034282022-03-08 https://scifaro.com/en/abs/detection-of-ai-synthesized-hindi-speech-2203.037062022-03-09 https://scifaro.com/en/abs/speechformer-a-hierarchical-efficient-framework-incorporating-the-characteristics-of-speech-2203.038122022-03-11 https://scifaro.com/en/abs/digital-speech-algorithms-for-speaker-de-identification-2203.039322022-03-09 https://scifaro.com/en/abs/vovit-low-latency-graph-based-audio-visual-voice-separation-transformer-2203.040992022-07-20 https://scifaro.com/en/abs/speaker-identification-experiments-under-gender-de-identification-2203.046382022-04-13 https://scifaro.com/en/abs/robust-federated-learning-against-adversarial-attacks-for-speech-emotion-recognition-2203.046962022-03-10 https://scifaro.com/en/abs/an-environmental-feature-representation-in-i-vector-space-for-room-verification-and-metadata-estimation-2203.048802022-03-10 https://scifaro.com/en/abs/eaceleb-an-east-asian-language-speaking-celebrity-dataset-for-speaker-recognition-2203.053332022-03-11 https://scifaro.com/en/abs/parameter-free-attentive-scoring-for-speaker-verification-2203.056422023-03-07 https://scifaro.com/en/abs/improving-the-transferability-of-speech-separation-by-meta-learning-2203.058822022-03-14 https://scifaro.com/en/abs/deep-convolutional-neural-network-for-roadway-incident-surveillance-using-audio-data-2203.060592022-03-14 https://scifaro.com/en/abs/climate-change-computer-audition-a-call-to-action-and-overview-on-audio-intelligence-to-help-save-the-planet-2203.060642022-03-14 https://scifaro.com/en/abs/infrastructure-free-deep-learned-urban-noise-monitoring-at-sim-100mw-2203.062202025-06-17 https://scifaro.com/en/abs/sa-sasv-an-end-to-end-spoof-aggregated-spoofing-aware-speaker-verification-system-2203.065172022-03-28 https://scifaro.com/en/abs/bi-sampling-approach-to-classify-music-mood-leveraging-raga-rasa-association-in-indian-classical-music-2203.065832022-03-15 https://scifaro.com/en/abs/cmkd-cnn-transformer-based-cross-model-knowledge-distillation-for-audio-classification-2203.067602022-03-15 https://scifaro.com/en/abs/mdnet-learning-monaural-speech-enhancement-from-deep-prior-gradient-2203.071792022-03-17 https://scifaro.com/en/abs/taylorbeamformer-learning-all-neural-beamformer-for-multi-channel-speech-enhancement-from-taylor-s-approximation-theory-2203.071952022-03-17 https://scifaro.com/en/abs/leveraging-unimodal-self-supervised-learning-for-multimodal-audio-visual-speech-recognition-2203.079962022-03-29 https://scifaro.com/en/abs/can-a-neural-network-hear-the-shape-of-a-drum-2203.080732022-04-27 https://scifaro.com/en/abs/instance-level-loss-based-multiple-instance-learning-framework-for-acoustic-scene-classification-2203.084392022-07-01 https://scifaro.com/en/abs/learning-audio-representations-with-mlps-2203.084902022-03-17 https://scifaro.com/en/abs/tms-a-temporal-multi-scale-backbone-design-for-speaker-embedding-2203.090982022-03-18 https://scifaro.com/en/abs/contrastive-learning-with-positive-negative-frame-mask-for-music-representation-2203.091292022-04-05 https://scifaro.com/en/abs/prediction-of-speech-intelligibility-with-dnn-based-performance-measures-2203.091482022-03-18 https://scifaro.com/en/abs/speaker-recognition-using-residual-signal-of-linear-and-nonlinear-prediction-models-2203.092312022-03-18 https://scifaro.com/en/abs/assessing-progress-of-parkinson-s-disease-using-acoustic-analysis-of-phonation-2203.092952023-04-05 https://scifaro.com/en/abs/robust-and-complex-approach-of-pathological-speech-signal-analysis-2203.094022022-03-18 https://scifaro.com/en/abs/improve-few-shot-voice-cloning-using-multi-modal-learning-2203.097082022-03-21 https://scifaro.com/en/abs/dgc-vector-a-new-speaker-embedding-for-zero-shot-voice-conversion-2203.097222022-03-21 https://scifaro.com/en/abs/speaker-embedding-aware-neural-diarization-an-efficient-framework-for-overlapping-speech-diarization-in-meeting-scenarios-2203.097672022-04-01 https://scifaro.com/en/abs/adavocoder-adaptive-vocoder-for-custom-voice-2203.098252023-01-06 https://scifaro.com/en/abs/neural-predictor-for-black-box-adversarial-attacks-on-speech-recognition-2203.098492022-03-21 https://scifaro.com/en/abs/automatic-analysis-of-categorical-verbal-fluency-for-mild-cognitive-impartment-detection-a-non-linear-language-independent-approach-2203.098782022-03-21 https://scifaro.com/en/abs/identification-of-hypokinetic-dysarthria-using-acoustic-analysis-of-poem-recitation-2203.098802022-03-21 https://scifaro.com/en/abs/a-lightweight-instrument-agnostic-model-for-polyphonic-note-transcription-and-multipitch-estimation-2203.098932022-05-13 https://scifaro.com/en/abs/personalized-filled-pause-generation-with-group-wise-prediction-models-2203.099612022-04-25 https://scifaro.com/en/abs/ross-utilizing-robotic-rotation-for-audio-source-separation-2203.100722022-03-21 https://scifaro.com/en/abs/on-the-role-of-lip-articulation-in-visual-speech-perception-2203.101172022-11-11 https://scifaro.com/en/abs/a-track-wise-ensemble-event-independent-network-for-polyphonic-sound-event-localization-and-detection-2203.102282022-03-22 https://scifaro.com/en/abs/a-study-on-robustness-to-perturbations-for-representations-of-environmental-sound-2203.104252022-07-08 https://scifaro.com/en/abs/ecapa-tdnn-for-multi-speaker-text-to-speech-synthesis-2203.104732022-03-29 https://scifaro.com/en/abs/wesinger-data-augmented-singing-voice-synthesis-with-auxiliary-losses-2203.107502022-06-28 https://scifaro.com/en/abs/phase-aware-spoof-speech-detection-based-on-res2net-with-phase-network-2203.107932022-03-22 https://scifaro.com/en/abs/perceptual-features-as-markers-of-parkinson-s-disease-the-issue-of-clinical-interpretability-2203.108302022-03-22 https://scifaro.com/en/abs/multi-class-versus-one-class-classifier-in-spontaneous-speech-analysis-oriented-to-alzheimer-disease-diagnosis-2203.108372022-03-22 https://scifaro.com/en/abs/spoofing-aware-speaker-verification-with-unsupervised-domain-adaptation-2203.109922022-04-27 https://scifaro.com/en/abs/autotts-end-to-end-text-to-speech-synthesis-through-differentiable-duration-modeling-2203.110492023-03-08 https://scifaro.com/en/abs/individualizing-head-related-transfer-functions-for-binaural-acoustic-applications-2203.111382022-03-22 https://scifaro.com/en/abs/automated-detection-of-foreground-speech-with-wearable-sensing-in-everyday-home-environments-a-transfer-learning-approach-2203.112942022-03-23 https://scifaro.com/en/abs/the-voicemos-challenge-2022-2203.113892022-07-05 https://scifaro.com/en/abs/residual-guided-non-intrusive-speech-quality-assessment-2203.114992022-03-23 https://scifaro.com/en/abs/a-text-to-speech-pipeline-evaluation-methodology-and-initial-fine-tuning-results-for-child-speech-synthesis-2203.115622022-04-05 https://scifaro.com/en/abs/conditional-generative-data-augmentation-for-clinical-audio-datasets-2203.115702025-02-11 https://scifaro.com/en/abs/ct-sat-contextual-transformer-for-sequential-audio-tagging-2203.115732022-03-23 https://scifaro.com/en/abs/analysis-of-disfluencies-for-automatic-detection-of-mild-cognitive-impartment-a-deep-learning-approach-2203.116062022-03-23 https://scifaro.com/en/abs/nonlinear-prediction-with-neural-nets-in-adpcm-2203.116122022-03-23 https://scifaro.com/en/abs/speaker-recognition-with-a-mlp-classifier-and-lpcc-codebook-2203.116142022-03-23 https://scifaro.com/en/abs/estimation-of-speaker-age-and-height-from-speech-signal-using-bi-encoder-transformer-mixture-model-2203.117742022-03-23 https://scifaro.com/en/abs/federated-self-supervised-learning-for-acoustic-event-classification-2203.119972022-03-24 https://scifaro.com/en/abs/music-generation-using-an-lstm-2203.121052022-03-24 https://scifaro.com/en/abs/on-adversarial-robustness-of-large-scale-audio-visual-learning-2203.121222022-04-22 https://scifaro.com/en/abs/fullsubnet-channel-attention-fullsubnet-with-complex-spectrograms-for-speech-enhancement-2203.121882022-03-29 https://scifaro.com/en/abs/towards-expressive-speaking-style-modelling-with-hierarchical-context-information-for-mandarin-speech-synthesis-2203.122012022-04-07 https://scifaro.com/en/abs/quantitative-evaluation-approach-for-translation-of-perceptual-soundscape-attributes-initial-application-to-the-thai-language-2203.122452023-07-04 https://scifaro.com/en/abs/a-combination-between-vq-and-covariance-matrices-for-speaker-recognition-2203.123062022-03-24 https://scifaro.com/en/abs/wider-or-deeper-neural-network-architecture-for-acoustic-scene-classification-with-mismatched-recording-devices-2203.123142022-03-24 https://scifaro.com/en/abs/metricgan-increasing-robustness-of-noise-reduction-on-unseen-data-2203.123692022-06-16 https://scifaro.com/en/abs/an-interactive-music-infilling-interface-for-pop-music-composition-2203.127362022-03-25 https://scifaro.com/en/abs/disentangleing-content-and-fine-grained-prosody-information-via-hybrid-asr-bottleneck-features-for-voice-conversion-2203.128132022-03-25 https://scifaro.com/en/abs/a-new-subband-non-linear-prediction-coding-algorithm-for-narrowband-speech-signal-the-nadpcmb-mlt-coding-scheme-2203.128942022-03-25 https://scifaro.com/en/abs/wide-band-sub-band-speech-coding-using-nonlinear-prediction-2203.128962022-03-25 https://scifaro.com/en/abs/selfremaster-self-supervised-speech-restoration-with-analysis-by-synthesis-approach-using-channel-modeling-2203.129372022-06-29 https://scifaro.com/en/abs/score-difficulty-analysis-for-piano-performance-education-based-on-fingering-2203.130102022-03-25 https://scifaro.com/en/abs/bailando-3d-dance-generation-by-actor-critic-gpt-with-choreographic-memory-2203.130552022-03-28 https://scifaro.com/en/abs/hifi-a-unified-framework-for-bandwidth-extension-and-speech-enhancement-2203.130862023-12-12 https://scifaro.com/en/abs/midiverto-a-web-application-to-visualize-tonality-in-real-time-2203.131582022-03-25 https://scifaro.com/en/abs/complex-frequency-domain-linear-prediction-a-tool-to-compute-modulation-spectrum-of-speech-2203.132162022-04-04 https://scifaro.com/en/abs/continuous-time-audiovisual-fusion-with-recurrence-vs-attention-for-in-the-wild-affect-recognition-2203.132852022-03-30 https://scifaro.com/en/abs/audiotagging-done-right-2nd-comparison-of-deep-learning-methods-for-environmental-sound-classification-2203.134482022-08-25 https://scifaro.com/en/abs/wavefuzz-a-clean-label-poisoning-attack-to-protect-your-voice-2203.134972022-03-28 https://scifaro.com/en/abs/delores-decorrelating-latent-spaces-for-low-resource-audio-representation-learning-2203.136282022-06-28 https://scifaro.com/en/abs/audio-text-retrieval-in-context-2203.136452022-03-30 https://scifaro.com/en/abs/chain-based-discriminative-autoencoders-for-speech-recognition-2203.136872022-06-16 https://scifaro.com/en/abs/speech-enhanced-and-noise-aware-networks-for-robust-speech-recognition-2203.136962022-11-24 https://scifaro.com/en/abs/smp-phat-lightweight-doa-estimation-by-merging-microphone-pairs-2203.144092022-03-29 https://scifaro.com/en/abs/subjective-evaluation-of-deep-learning-models-for-symbolic-music-composition-2203.146412022-04-05 https://scifaro.com/en/abs/training-speaker-recognition-systems-with-limited-data-2203.146882023-02-28 https://scifaro.com/en/abs/vtts-visual-text-to-speech-2203.147252022-03-29 https://scifaro.com/en/abs/studies-corpus-of-japanese-empathetic-dialogue-speech-towards-friendly-voice-agent-2203.147572022-06-17 https://scifaro.com/en/abs/analyzing-language-independent-speaker-anonymization-framework-under-unseen-conditions-2203.148342022-03-29 https://scifaro.com/en/abs/robust-speaker-recognition-with-transformers-using-wav2vec-2-0-2203.150952022-03-30 https://scifaro.com/en/abs/investigation-of-different-calibration-methods-for-deep-speaker-embedding-based-verification-systems-2203.151062022-03-30 https://scifaro.com/en/abs/improving-source-separation-by-explicitly-modeling-dependencies-between-sources-2203.151402022-03-30 https://scifaro.com/en/abs/cmgan-conformer-based-metric-gan-for-speech-enhancement-2203.151492024-05-07 https://scifaro.com/en/abs/shifted-chunk-encoder-for-transformer-based-streaming-end-to-end-asr-2203.152062022-09-27 https://scifaro.com/en/abs/mfa-conformer-multi-scale-feature-aggregation-conformer-for-automatic-speaker-verification-2203.152492022-11-14 https://scifaro.com/en/abs/neuragen-a-low-resource-neural-network-based-approach-for-gender-classification-2203.152532022-03-30 https://scifaro.com/en/abs/applying-syntax-unicode-x2013-prosody-mapping-hypothesis-and-prosodic-well-formedness-constraints-to-neural-sequence-to-sequence-speech-synthesis-2203.152762022-03-30 https://scifaro.com/en/abs/noise-robust-speech-recognition-with-10-minutes-unparalleled-in-domain-data-2203.153212022-03-30 https://scifaro.com/en/abs/speech-emotion-recognition-with-co-attention-based-multi-level-acoustic-information-2203.153262022-03-30 https://scifaro.com/en/abs/iranian-modal-music-dastgah-detection-using-deep-neural-networks-2203.153352022-10-20 https://scifaro.com/en/abs/spoofing-aware-speaker-verification-by-multi-level-fusion-2203.153772022-03-30 https://scifaro.com/en/abs/voiceme-personalized-voice-generation-in-tts-2203.153792022-07-12 https://scifaro.com/en/abs/investigating-self-supervised-pretraining-frameworks-for-pathological-speech-recognition-2203.154312022-06-30 https://scifaro.com/en/abs/wenet-2-0-more-productive-end-to-end-speech-recognition-toolkit-2203.154552022-07-06 https://scifaro.com/en/abs/machine-composition-of-korean-music-via-topological-data-analysis-and-artificial-neural-network-2203.154682022-03-30 https://scifaro.com/en/abs/learning-neural-audio-features-without-supervision-2203.155192022-03-30 https://scifaro.com/en/abs/interactive-audio-text-representation-for-automated-audio-captioning-with-contrastive-learning-2203.155262022-04-13 https://scifaro.com/en/abs/a-dataset-for-speech-emotion-recognition-in-greek-theatrical-plays-2203.155682022-03-30 https://scifaro.com/en/abs/subspace-based-representation-and-learning-for-phonotactic-spoken-language-recognition-2203.155762022-03-30 https://scifaro.com/en/abs/disentangling-speech-from-surroundings-with-neural-embeddings-2203.155782023-06-06 https://scifaro.com/en/abs/locality-matters-a-locality-biased-linear-attention-for-automatic-speech-recognition-2203.156092022-03-30 https://scifaro.com/en/abs/dynamic-latency-for-ctc-based-streaming-automatic-speech-recognition-with-emformer-2203.156132022-03-30 https://scifaro.com/en/abs/nix-tts-lightweight-and-end-to-end-text-to-speech-via-module-wise-distillation-2203.156432022-11-08 https://scifaro.com/en/abs/drspeech-degradation-robust-text-to-speech-synthesis-with-frame-level-and-utterance-level-acoustic-representation-learning-2203.156832022-06-30 https://scifaro.com/en/abs/target-geometry-estimation-using-deep-neural-networks-in-sonar-sensing-2203.157702022-03-30 https://scifaro.com/en/abs/an-overview-analysis-of-sequence-to-sequence-emotional-voice-conversion-2203.158732022-03-31 https://scifaro.com/en/abs/federated-domain-adaptation-for-asr-with-full-self-supervision-2203.159662022-04-06 https://scifaro.com/en/abs/multi-target-extractor-and-detector-for-unknown-number-speaker-diarization-2203.160072023-06-07 https://scifaro.com/en/abs/conferencingspeech-2022-challenge-non-intrusive-objective-speech-quality-assessment-nisqa-challenge-for-online-conferencing-applications-2203.160322022-04-04 https://scifaro.com/en/abs/optimizing-shoulder-to-shoulder-a-coordinated-sub-band-fusion-model-for-real-time-full-band-speech-enhancement-2203.160332022-06-16 https://scifaro.com/en/abs/enhancing-zero-shot-many-to-many-voice-conversion-with-self-attention-vae-2203.160372022-08-23 https://scifaro.com/en/abs/disentangling-the-impacts-of-language-and-channel-variability-on-speech-separation-networks-2203.160402022-06-22 https://scifaro.com/en/abs/coarse-to-fine-recursive-speech-separation-for-unknown-number-of-speakers-2203.160542022-03-31 https://scifaro.com/en/abs/combination-of-time-domain-frequency-domain-and-cepstral-domain-acoustic-features-for-speech-commands-classification-2203.160852022-06-20 https://scifaro.com/en/abs/improving-distortion-robustness-of-self-supervised-speech-processing-tasks-with-domain-adaptation-2203.161042022-07-26 https://scifaro.com/en/abs/example-based-explanations-with-adversarial-attacks-for-respiratory-sound-analysis-2203.161412022-03-31 https://scifaro.com/en/abs/does-audio-deepfake-detection-generalize-2203.162632026-03-30 https://scifaro.com/en/abs/acoustics-specific-piano-velocity-estimation-2203.162942026-01-21 https://scifaro.com/en/abs/rainbow-keywords-efficient-incremental-learning-for-online-spoken-keyword-spotting-2203.163612022-07-01 https://scifaro.com/en/abs/learn2sing-2-0-diffusion-and-mutual-information-based-target-speaker-svs-by-learning-from-singing-teacher-2203.164082022-05-27 https://scifaro.com/en/abs/forensic-analysis-and-localization-of-multiply-compressed-mp3-audio-using-transformers-2203.164992022-05-02 https://scifaro.com/en/abs/hybrid-handcrafted-and-learnable-audio-representation-for-analysis-of-speech-under-cognitive-and-physical-load-2203.166372022-10-26 https://scifaro.com/en/abs/generation-of-speaker-representations-using-heterogeneous-training-batch-assembly-2203.166462022-04-01 https://scifaro.com/en/abs/improving-speaker-de-identification-with-functional-data-analysis-of-f0-trajectories-2203.167382022-04-01 https://scifaro.com/en/abs/effective-data-screening-technique-for-crowdsourced-speech-intelligibility-experiments-evaluation-with-irm-based-speech-enhancement-2203.167602023-07-27 https://scifaro.com/en/abs/learning-decoupling-features-through-orthogonality-regularization-2203.167722022-04-01 https://scifaro.com/en/abs/a-comparative-study-on-speaker-attributed-automatic-speech-recognition-in-multi-party-meetings-2203.168342022-07-04 https://scifaro.com/en/abs/neufa-neural-network-based-end-to-end-forced-alignment-with-bidirectional-attention-mechanism-2203.168382022-04-01 https://scifaro.com/en/abs/neural-architecture-search-for-speech-emotion-recognition-2203.169282022-04-01 https://scifaro.com/en/abs/wavthruvec-latent-speech-representation-as-intermediate-features-for-neural-speech-synthesis-2203.169302022-11-22 https://scifaro.com/en/abs/hifi-vc-high-quality-asr-based-voice-conversion-2203.169372022-04-01 https://scifaro.com/en/abs/a-comparative-study-between-linear-and-nonlinear-speech-prediction-2203.169622022-04-01 https://scifaro.com/en/abs/a-comparative-study-of-fusion-methods-for-sasv-challenge-2022-2203.169702022-04-01 https://scifaro.com/en/abs/acoustic-net-a-novel-neural-network-for-sound-localization-and-quantification-2203.169882022-04-01 https://scifaro.com/en/abs/a-temporal-oriented-broadcast-resnet-for-covid-19-detection-2203.170122022-04-01 https://scifaro.com/en/abs/cta-rnn-channel-and-temporal-wise-attention-rnn-leveraging-pre-trained-asr-embeddings-for-speech-emotion-recognition-2203.170232022-04-01 https://scifaro.com/en/abs/adversarial-speaker-distillation-for-countermeasure-model-on-automatic-speaker-verification-2203.170312025-02-17 https://scifaro.com/en/abs/manipulation-of-oral-cancer-speech-using-neural-articulatory-synthesis-2203.170722022-04-01 https://scifaro.com/en/abs/impact-of-environmental-noise-on-alzheimer-s-disease-detection-from-speech-should-you-let-a-baby-cry-2203.171102022-09-15 https://scifaro.com/en/abs/pre-training-transformer-decoder-for-end-to-end-asr-model-with-unpaired-speech-data-2203.171132022-06-22 https://scifaro.com/en/abs/perceptual-contrast-stretching-on-target-feature-for-speech-enhancement-2203.171522022-07-18 https://scifaro.com/en/abs/automatic-detection-of-expressed-emotion-from-five-minute-speech-samples-challenges-and-opportunities-2203.172422022-04-01 https://scifaro.com/en/abs/data-augmented-cross-lingual-synthesis-in-a-teacher-student-framework-2204.000612022-04-04 https://scifaro.com/en/abs/speech-and-the-n-back-task-as-a-lens-into-depression-how-combining-both-may-allow-us-to-isolate-different-core-symptoms-of-depression-2204.000882022-04-04 https://scifaro.com/en/abs/perceptive-non-linear-speech-processing-and-spiking-neural-networks-2204.000942022-04-04 https://scifaro.com/en/abs/adaptive-hybrid-speech-coding-with-a-mlp-lpc-structure-2204.002452022-04-04 https://scifaro.com/en/abs/speaker-verification-in-mismatch-training-and-testing-conditions-2204.003112022-04-04 https://scifaro.com/en/abs/using-segment-based-features-of-jaw-movements-to-recognize-foraging-activities-in-grazing-cattle-2204.003312023-08-29 https://scifaro.com/en/abs/end-to-end-integration-of-speech-recognition-speech-enhancement-and-self-supervised-learning-representation-2204.005402022-04-04 https://scifaro.com/en/abs/learning-neural-acoustic-fields-2204.006282023-01-18 https://scifaro.com/en/abs/end-to-end-multi-talker-audio-visual-asr-using-an-active-speaker-attention-module-2204.006522022-04-05 https://scifaro.com/en/abs/speaker-adaptation-for-wav2vec2-based-dysarthric-asr-2204.007702022-04-05 https://scifaro.com/en/abs/leveraging-phone-mask-training-for-phonetic-reduction-robust-e2e-uyghur-speech-recognition-2204.008192022-04-05 https://scifaro.com/en/abs/improving-target-sound-extraction-with-timestamp-information-2204.008212022-04-05 https://scifaro.com/en/abs/acoustic-to-articulatory-inversion-based-on-speech-decomposition-and-auxiliary-feature-2204.008732022-04-05 https://scifaro.com/en/abs/an-objective-test-tool-for-pitch-extractors-response-attributes-2204.009022022-06-27 https://scifaro.com/en/abs/stylewavegan-style-based-synthesis-of-drum-sounds-with-extensive-controls-using-generative-adversarial-networks-2204.009072022-08-29 https://scifaro.com/en/abs/measuring-pitch-extractors-response-to-frequency-modulated-multi-component-signals-2204.009112022-04-05 https://scifaro.com/en/abs/content-dependent-fine-grained-speaker-embedding-for-zero-shot-speaker-adaptation-in-text-to-speech-synthesis-2204.009902022-11-14 https://scifaro.com/en/abs/a-computational-analysis-of-pitch-drift-in-unaccompanied-solo-singing-using-dbscan-clustering-2204.010092022-04-05 https://scifaro.com/en/abs/on-incorporating-social-speaker-characteristics-in-synthetic-speech-2204.011152022-04-05 https://scifaro.com/en/abs/on-the-model-size-selection-for-speaker-identification-2204.012942022-04-05 https://scifaro.com/en/abs/nonlinear-vectorial-prediction-with-neural-nets-2204.012952022-04-05 https://scifaro.com/en/abs/an-initialization-scheme-for-meeting-separation-with-spatial-mixture-models-2204.013382022-04-05 https://scifaro.com/en/abs/learning-the-proximity-operator-in-unfolded-admm-for-phase-retrieval-2204.013602022-08-17 https://scifaro.com/en/abs/introducing-ecapa-tdnn-and-wav2vec2-0-embeddings-to-stuttering-detection-2204.015642022-04-05 https://scifaro.com/en/abs/residual-guided-personalized-speech-synthesis-based-on-face-image-2204.016722022-04-05 https://scifaro.com/en/abs/gwa-a-large-high-quality-acoustic-dataset-for-audio-processing-2204.017872022-06-22 https://scifaro.com/en/abs/learning-to-adapt-to-domain-shifts-with-few-shot-samples-in-anomalous-sound-detection-2204.019052022-04-06 https://scifaro.com/en/abs/audio-visual-multi-channel-speech-separation-dereverberation-and-recognition-2204.019772022-04-11 https://scifaro.com/en/abs/a-complementary-joint-training-approach-using-unpaired-speech-and-text-for-low-resource-automatic-speech-recognition-2204.020232022-04-06 https://scifaro.com/en/abs/on-the-relevance-of-bandwidth-extension-for-speaker-verification-2204.020402022-04-06 https://scifaro.com/en/abs/a-mixed-supervised-learning-framework-for-target-sound-detection-2204.020882022-07-20 https://scifaro.com/en/abs/non-linear-speech-coding-with-mlp-rbf-and-elman-based-prediction-2204.021012022-04-06 https://scifaro.com/en/abs/metaaudio-a-few-shot-audio-classification-benchmark-2204.021212022-04-12 https://scifaro.com/en/abs/radur-a-reference-aware-and-duration-robust-network-for-target-sound-detection-2204.021432022-04-06 https://scifaro.com/en/abs/utmos-utokyo-sarulab-system-for-voicemos-challenge-2022-2204.021522022-06-30 https://scifaro.com/en/abs/adversarial-learning-of-intermediate-acoustic-feature-for-end-to-end-lightweight-text-to-speech-2204.021722023-08-29 https://scifaro.com/en/abs/repeat-after-me-self-supervised-learning-of-acoustic-to-articulatory-mapping-by-vocal-imitation-2204.022692022-04-06 https://scifaro.com/en/abs/how-information-on-acoustic-scenes-and-sound-events-mutually-benefits-event-detection-and-scene-classification-tasks-2204.022792022-04-06 https://scifaro.com/en/abs/what-can-predictive-speech-coders-learn-from-speaker-recognizers-2204.024002022-04-07 https://scifaro.com/en/abs/improving-voice-trigger-detection-with-metric-learning-2204.024552022-09-15 https://scifaro.com/en/abs/simple-and-effective-unsupervised-speech-synthesis-2204.025242022-04-21 https://scifaro.com/en/abs/a-new-nonlinear-speaker-parameterization-algorithm-for-speaker-identification-2204.026092022-04-07 https://scifaro.com/en/abs/towards-multi-scale-speaking-style-modelling-with-hierarchical-context-information-for-mandarin-speech-synthesis-2204.027432022-07-06 https://scifaro.com/en/abs/federated-self-supervised-speech-representations-are-we-there-yet-2204.028042022-07-21 https://scifaro.com/en/abs/aggression-in-hindi-and-english-speech-acoustic-correlates-and-automatic-identification-2204.028142022-04-07 https://scifaro.com/en/abs/somos-the-samsung-open-mos-dataset-for-the-evaluation-of-neural-text-to-speech-synthesis-2204.030402022-09-28 https://scifaro.com/en/abs/ffc-se-fast-fourier-convolution-for-speech-enhancement-2204.030422022-04-08 https://scifaro.com/en/abs/3m-multi-loss-multi-path-and-multi-level-neural-networks-for-speech-recognition-2204.031782022-04-15 https://scifaro.com/en/abs/speech-pre-training-with-acoustic-piece-2204.032402022-04-08 https://scifaro.com/en/abs/expressive-singing-synthesis-using-local-style-token-and-dual-path-pitch-encoder-2204.032492022-04-08 https://scifaro.com/en/abs/arabic-text-to-speech-tts-data-preparation-2204.032552022-04-08 https://scifaro.com/en/abs/genre-conditioned-acoustic-models-for-automatic-lyrics-transcription-of-polyphonic-music-2204.033072022-04-08 https://scifaro.com/en/abs/linguistic-acoustic-similarity-based-accent-shift-for-accent-recognition-2204.033982022-07-04 https://scifaro.com/en/abs/self-supervised-learning-for-robust-voice-cloning-2204.034212022-11-04 https://scifaro.com/en/abs/heterogeneous-target-speech-separation-2204.035942022-11-14 https://scifaro.com/en/abs/successes-and-critical-failures-of-neural-networks-in-capturing-human-like-speech-recognition-2204.037402023-04-20 https://scifaro.com/en/abs/enhanced-exemplar-autoencoder-with-cycle-consistency-loss-in-any-to-one-voice-conversion-2204.038472022-04-13 https://scifaro.com/en/abs/reliable-visualization-for-deep-speaker-recognition-2204.038522022-04-13 https://scifaro.com/en/abs/adding-connectionist-temporal-summarization-into-conformer-to-improve-its-decoder-efficiency-for-speech-recognition-2204.038892022-04-11 https://scifaro.com/en/abs/the-sillwood-technologies-system-for-the-voicemos-challenge-2022-2204.039672022-04-11 https://scifaro.com/en/abs/self-supervised-speaker-diarization-2204.041662022-10-07 https://scifaro.com/en/abs/multichannel-speech-separation-with-narrow-band-conformer-2204.044642022-07-04 https://scifaro.com/en/abs/inferring-pitch-from-coarse-spectral-features-2204.045792022-12-14 https://scifaro.com/en/abs/self-supervised-audio-and-text-pre-training-with-extremely-low-resource-parallel-data-2204.046452022-04-12 https://scifaro.com/en/abs/deep-embeddings-for-robust-user-based-amateur-vocal-percussion-classification-2204.046462022-04-12 https://scifaro.com/en/abs/deep-conditional-representation-learning-for-drum-sample-retrieval-by-vocalisation-2204.046512022-04-12 https://scifaro.com/en/abs/towards-evaluation-of-autonomously-generated-musical-compositions-a-comprehensive-survey-2204.047562022-04-12 https://scifaro.com/en/abs/on-the-pragmatism-of-using-binary-classifiers-over-data-intensive-neural-network-classifiers-for-detection-of-covid-19-from-voice-2204.048022022-10-27 https://scifaro.com/en/abs/fusion-of-self-supervised-learned-models-for-mos-prediction-2204.048552022-04-12 https://scifaro.com/en/abs/fine-grained-noise-control-for-multispeaker-speech-synthesis-2204.050702022-10-28 https://scifaro.com/en/abs/an-approach-to-improving-sound-based-vehicle-speed-estimation-2204.050822022-04-12 https://scifaro.com/en/abs/how-to-listen-rethinking-visual-sound-localization-2204.051562022-04-12 https://scifaro.com/en/abs/interspeech-2022-audio-deep-packet-loss-concealment-challenge-2204.052222022-04-12 https://scifaro.com/en/abs/small-footprint-multi-channel-convmixer-for-keyword-spotting-with-centroid-based-awareness-2204.054452022-04-13 https://scifaro.com/en/abs/speech-emotion-recognition-with-global-aware-fusion-on-multi-scale-feature-representation-2204.055712022-04-13 https://scifaro.com/en/abs/adff-attention-based-deep-feature-fusion-approach-for-music-emotion-recognition-2204.056492022-07-01 https://scifaro.com/en/abs/sound-event-triage-detecting-sound-events-considering-priority-of-classes-2204.064022023-01-12 https://scifaro.com/en/abs/receptive-field-analysis-of-temporal-convolutional-networks-for-monaural-speech-dereverberation-2204.064392022-07-04 https://scifaro.com/en/abs/the-effect-of-speech-pathology-on-automatic-speaker-verification-a-large-scale-study-2204.064502023-11-23 https://scifaro.com/en/abs/predicting-score-distribution-to-improve-non-intrusive-speech-quality-estimation-2204.066162022-04-15 https://scifaro.com/en/abs/from-environmental-sound-representation-to-robustness-of-2d-cnn-models-against-adversarial-attacks-2204.070182022-04-15 https://scifaro.com/en/abs/streamable-neural-audio-synthesis-with-non-causal-convolutions-2204.070642022-04-15 https://scifaro.com/en/abs/learning-and-controlling-the-source-filter-representation-of-speech-with-a-variational-autoencoder-2204.070752023-03-22 https://scifaro.com/en/abs/deep-cardiosound-an-ensembled-deep-learning-model-for-heart-sound-multilabelling-2204.074202022-04-25 https://scifaro.com/en/abs/improving-frame-online-neural-speech-enhancement-with-overlapped-frame-prediction-2204.075662022-07-13 https://scifaro.com/en/abs/ufrc-a-unified-framework-for-reliable-covid-19-detection-on-crowdsourced-cough-audio-2204.077632022-07-01 https://scifaro.com/en/abs/advances-in-thunder-sound-synthesis-2204.080262022-04-19 https://scifaro.com/en/abs/robust-end-to-end-speaker-diarization-with-generic-neural-clustering-2204.081642022-04-19 https://scifaro.com/en/abs/differentiable-time-frequency-scattering-on-gpu-2204.082692022-07-21 https://scifaro.com/en/abs/extracting-targeted-training-data-from-asr-models-and-how-to-mitigate-it-2204.083452022-06-29 https://scifaro.com/en/abs/caption-feature-space-regularization-for-audio-captioning-2204.084092022-04-19 https://scifaro.com/en/abs/ab-ba-analysis-a-framework-for-estimating-keyword-spotting-recall-improvement-while-maintaining-audio-privacy-2204.084742022-04-20 https://scifaro.com/en/abs/automated-audio-captioning-using-audio-event-clues-2204.085672022-04-20 https://scifaro.com/en/abs/self-supervised-adversarial-domain-adaptation-for-cross-corpus-and-cross-language-speech-emotion-recognition-2204.086252022-04-20 https://scifaro.com/en/abs/audio-visual-wake-word-spotting-system-for-misp-challenge-2021-2204.086862022-04-21 https://scifaro.com/en/abs/a-convolutional-attentional-neural-framework-for-structure-aware-performance-score-synchronization-2204.088222022-04-20 https://scifaro.com/en/abs/disappeared-command-spoofing-attack-on-automatic-speech-recognition-systems-with-sound-masking-2204.089772022-06-09 https://scifaro.com/en/abs/contentvec-an-improved-self-supervised-speech-representation-by-disentangling-speakers-2204.092242022-06-27 https://scifaro.com/en/abs/exploration-strategies-for-articulatory-synthesis-of-complex-syllable-onsets-2204.093812022-07-01 https://scifaro.com/en/abs/clotho-aqa-a-crowdsourced-dataset-for-audio-question-answering-2204.096342022-06-20 https://scifaro.com/en/abs/layer-wise-fast-adaptation-for-end-to-end-multi-accent-speech-recognition-2204.098832022-04-22 https://scifaro.com/en/abs/stft-domain-neural-speech-enhancement-with-very-low-algorithmic-latency-2204.099112022-12-07 https://scifaro.com/en/abs/sintra-learning-an-inspiration-model-from-a-single-multi-track-music-segment-2204.099172022-04-22 https://scifaro.com/en/abs/baseline-systems-for-the-first-spoofing-aware-speaker-verification-challenge-score-and-embedding-fusion-2204.099762022-04-22 https://scifaro.com/en/abs/physical-modeling-using-recurrent-neural-networks-with-fast-convolutional-layers-2204.101252022-06-02 https://scifaro.com/en/abs/unifying-cosine-and-plda-back-ends-for-speaker-verification-2204.105232022-04-25 https://scifaro.com/en/abs/speaking-rate-controllable-hifi-gan-using-feature-interpolation-2204.105612022-04-25 https://scifaro.com/en/abs/fused-audio-instance-and-representation-for-respiratory-disease-detection-2204.105812023-11-27 https://scifaro.com/en/abs/e2e-segmenter-joint-segmenting-and-decoding-for-long-form-asr-2204.107492022-06-16 https://scifaro.com/en/abs/musical-stylistic-analysis-a-study-of-intervallic-transition-graphs-via-persistent-homology-2204.111392022-04-26 https://scifaro.com/en/abs/dictionary-attacks-on-speaker-verification-2204.113042022-12-13 https://scifaro.com/en/abs/emotion-aware-transformer-encoder-for-empathetic-dialogue-generation-2204.113202022-04-26 https://scifaro.com/en/abs/real-time-speech-emotion-recognition-based-on-syllable-level-feature-extraction-2204.113822023-02-23 https://scifaro.com/en/abs/back-ends-selection-for-deep-speaker-embeddings-2204.114032022-04-26 https://scifaro.com/en/abs/understanding-audio-features-via-trainable-basis-functions-2204.114372022-04-26 https://scifaro.com/en/abs/end-to-end-audio-strikes-back-boosting-augmentations-towards-an-efficient-audio-classification-network-2204.114792022-07-06 https://scifaro.com/en/abs/syntaspeech-syntax-aware-generative-adversarial-text-to-speech-2204.117922022-04-26 https://scifaro.com/en/abs/parallel-synthesis-for-autoregressive-speech-generation-2204.118062024-06-06 https://scifaro.com/en/abs/meta-af-meta-learning-for-adaptive-filters-2204.119422022-11-23 https://scifaro.com/en/abs/reformulating-speaker-diarization-as-community-detection-with-emphasis-on-topological-structure-2204.121122022-04-27 https://scifaro.com/en/abs/a-comparative-study-on-approaches-to-acoustic-scene-classification-using-cnns-2204.121772023-05-10 https://scifaro.com/en/abs/on-machine-learning-driven-surrogates-for-sound-transmission-loss-simulations-2204.122902022-12-14 https://scifaro.com/en/abs/measurement-uncertainty-and-unicity-of-single-number-quantities-describing-the-spatial-decay-of-speech-level-in-open-plan-offices-2204.124862022-04-27 https://scifaro.com/en/abs/named-entity-recognition-for-audio-de-identification-2204.126222022-04-28 https://scifaro.com/en/abs/masked-spectrogram-prediction-for-self-supervised-audio-pre-training-2204.127682022-04-28 https://scifaro.com/en/abs/unsupervised-word-segmentation-using-k-nearest-neighbors-2204.130942022-04-28 https://scifaro.com/en/abs/improving-multimodal-speech-recognition-by-data-augmentation-and-speech-representations-2204.132062022-04-29 https://scifaro.com/en/abs/music-enhancement-via-image-translation-and-vocoding-2204.132892022-04-29 https://scifaro.com/en/abs/pseudo-strong-labels-for-large-scale-weakly-supervised-audio-tagging-2204.134302022-04-29 https://scifaro.com/en/abs/regotron-regularizing-the-tacotron2-architecture-via-monotonic-alignment-loss-2204.134372022-07-15 https://scifaro.com/en/abs/emotion-recognition-in-persian-speech-using-deep-neural-networks-2204.136012022-11-15 https://scifaro.com/en/abs/unaligned-supervision-for-automatic-music-transcription-in-the-wild-2204.136682022-04-29 https://scifaro.com/en/abs/unsupervised-voice-face-representation-learning-by-cross-modal-prototype-contrast-2204.140572022-05-30 https://scifaro.com/en/abs/taylor-can-you-hear-me-now-a-taylor-unfolding-framework-for-monaural-speech-enhancement-2205.002062022-05-03 https://scifaro.com/en/abs/relation-guided-acoustic-scene-classification-aided-with-event-embeddings-2205.004992022-05-03 https://scifaro.com/en/abs/a-novel-speech-driven-lip-sync-model-with-cnn-and-lstm-2205.009162022-05-03 https://scifaro.com/en/abs/music-interpretation-analysis-a-multimodal-approach-to-score-informed-resynthesis-of-piano-recordings-2205.009412022-05-03 https://scifaro.com/en/abs/harmof0-logarithmic-scale-dilated-convolution-for-pitch-estimation-2205.010192022-06-22 https://scifaro.com/en/abs/few-shot-musical-source-separation-2205.012732022-05-04 https://scifaro.com/en/abs/on-monoaural-speech-enhancement-for-automatic-recognition-of-real-noisy-speech-using-mixture-invariant-training-2205.017512022-09-21 https://scifaro.com/en/abs/synthesized-speech-detection-using-convolutional-transformer-based-spectrogram-analysis-2205.018002022-05-05 https://scifaro.com/en/abs/frequency-domain-based-detection-of-generated-audio-2205.018062022-05-05 https://scifaro.com/en/abs/svts-scalable-video-to-speech-synthesis-2205.020582022-08-17 https://scifaro.com/en/abs/speaker-recognition-in-the-wild-2205.024752022-05-06 https://scifaro.com/en/abs/m2r2-missing-modality-robust-emotion-recognition-framework-with-iterative-data-augmentation-2205.025242022-05-06 https://scifaro.com/en/abs/sound2synth-interpreting-sound-via-fm-synthesizer-parameters-estimation-2205.030432022-07-29 https://scifaro.com/en/abs/musical-score-following-and-audio-alignment-2205.032472022-05-09 https://scifaro.com/en/abs/robustness-of-neural-architectures-for-audio-event-detection-2205.032682022-08-01 https://scifaro.com/en/abs/transformer-based-multi-aspect-multi-granularity-non-native-english-speaker-pronunciation-assessment-2205.034322022-05-10 https://scifaro.com/en/abs/vocalsound-a-dataset-for-improving-human-vocal-sounds-recognition-2205.034332022-06-22 https://scifaro.com/en/abs/muskits-an-end-to-end-music-processing-toolkit-for-singing-voice-synthesis-2205.040292022-07-05 https://scifaro.com/en/abs/cross-utterance-conditioned-vae-for-non-autoregressive-text-to-speech-2205.041202022-05-10 https://scifaro.com/en/abs/insights-on-modelling-physiological-appraisal-and-affective-indicators-of-stress-using-audio-features-2205.043282022-05-11 https://scifaro.com/en/abs/fatigue-prediction-in-outdoor-running-conditions-using-audio-data-2205.043432022-05-10 https://scifaro.com/en/abs/gamified-speaker-comparison-by-listening-2205.049232022-05-11 https://scifaro.com/en/abs/generalized-fast-multichannel-nonnegative-matrix-factorization-based-on-gaussian-scale-mixtures-for-blind-source-separation-2205.053302022-05-12 https://scifaro.com/en/abs/beyond-the-status-quo-a-contemporary-survey-of-advances-and-challenges-in-audio-captioning-2205.053572023-11-17 https://scifaro.com/en/abs/symphony-generation-with-permutation-invariant-language-model-2205.054482022-09-19 https://scifaro.com/en/abs/scream-detection-in-heavy-metal-music-2205.055802022-05-12 https://scifaro.com/en/abs/towards-robust-unsupervised-disentanglement-of-sequential-data-a-case-study-using-music-audio-2205.058712022-06-16 https://scifaro.com/en/abs/unified-source-filter-gan-with-harmonic-plus-noise-source-excitation-generation-2205.060532022-07-04 https://scifaro.com/en/abs/data-aided-underwater-acoustic-ray-propagation-modeling-2205.060662023-08-25 https://scifaro.com/en/abs/the-acm-multimedia-2022-computational-paralinguistics-challenge-vocalisations-stuttering-activity-mosquitoes-2205.067992022-05-16 https://scifaro.com/en/abs/cmelgan-an-efficient-conditional-generative-model-based-on-mel-spectrograms-2205.073192022-05-17 https://scifaro.com/en/abs/prism-pre-trained-indeterminate-speaker-representation-model-for-speaker-diarization-and-speaker-verification-2205.074502022-06-28 https://scifaro.com/en/abs/l3-net-deep-audio-embeddings-to-improve-covid-19-detection-from-smartphone-data-2205.076822022-05-17 https://scifaro.com/en/abs/transferability-of-adversarial-attacks-on-synthetic-speech-detection-2205.077112022-05-17 https://scifaro.com/en/abs/utterance-weighted-multi-dilation-temporal-convolutional-networks-for-monaural-speech-dereverberation-2205.084552022-07-26 https://scifaro.com/en/abs/dynamic-recognition-of-speakers-for-consent-management-by-contrastive-embedding-replay-2205.084592024-10-28 https://scifaro.com/en/abs/the-power-of-fragmentation-a-hierarchical-transformer-model-for-structural-segmentation-in-symbolic-music-generation-2205.085792022-07-12 https://scifaro.com/en/abs/deploying-self-supervised-learning-in-the-wild-for-hybrid-automatic-speech-recognition-2205.085982022-05-19 https://scifaro.com/en/abs/mesh2ir-neural-acoustic-impulse-response-generator-for-complex-3d-scenes-2205.092482022-07-13 https://scifaro.com/en/abs/the-ai-mechanic-acoustic-vehicle-characterization-neural-networks-2205.096672022-05-20 https://scifaro.com/en/abs/estimation-of-binary-time-frequency-masks-from-ambient-noise-2205.102052024-02-05 https://scifaro.com/en/abs/multiple-offsets-multilateration-a-new-paradigm-for-sensor-network-calibration-with-unsynchronized-reference-nodes-2205.112992022-05-24 https://scifaro.com/en/abs/adaptive-few-shot-learning-algorithm-for-rare-sound-event-detection-2205.117382022-05-27 https://scifaro.com/en/abs/deep-learning-based-automated-classification-of-chinese-speech-sound-disorders-2205.117482022-07-07 https://scifaro.com/en/abs/singer-identification-for-metaverse-with-timbral-and-middle-level-perceptual-features-2205.118172022-05-25 https://scifaro.com/en/abs/metasid-singer-identification-with-domain-adaptation-for-metaverse-2205.118212022-05-25 https://scifaro.com/en/abs/tdass-target-domain-adaptation-speech-synthesis-framework-for-multi-speaker-low-resource-tts-2205.118242022-05-25 https://scifaro.com/en/abs/susing-su-net-for-singing-voice-synthesis-2205.118412022-05-25 https://scifaro.com/en/abs/heterogeneous-reservoir-computing-models-for-persian-speech-recognition-2205.125942022-05-26 https://scifaro.com/en/abs/dt-sv-a-transformer-based-time-domain-approach-for-speaker-verification-2205.132492022-05-27 https://scifaro.com/en/abs/mimii-dg-sound-dataset-for-malfunctioning-industrial-machine-investigation-and-inspection-for-domain-generalization-task-2205.138792022-11-23 https://scifaro.com/en/abs/speech-augmentation-based-unsupervised-learning-for-keyword-spotting-2205.143292022-05-31 https://scifaro.com/en/abs/feature-pyramid-attention-based-residual-neural-network-for-environmental-sound-classification-2205.144112022-05-31 https://scifaro.com/en/abs/supervoice-text-independent-speaker-verification-using-ultrasound-energy-in-human-speech-2205.144962022-05-31 https://scifaro.com/en/abs/speaker-identification-using-speech-recognition-2205.146492022-05-31 https://scifaro.com/en/abs/modeling-beats-and-downbeats-with-a-time-frequency-transformer-2205.147012022-05-31 https://scifaro.com/en/abs/personalized-acoustic-echo-cancellation-for-full-duplex-communications-2205.151952022-07-01 https://scifaro.com/en/abs/ai-enabled-sound-pattern-recognition-on-asthma-medication-adherence-evaluation-with-the-rda-benchmark-suite-2205.153602023-04-18 https://scifaro.com/en/abs/guided-tts-2-a-diffusion-model-for-high-quality-adaptive-text-to-speech-with-untranscribed-data-2205.153702022-06-01 https://scifaro.com/en/abs/adavits-tiny-vits-for-low-computing-resource-speaker-adaptation-2206.002082022-11-03 https://scifaro.com/en/abs/towards-generalisable-audio-representations-for-audio-visual-navigation-2206.003932022-06-02 https://scifaro.com/en/abs/towards-context-aware-neural-performance-score-synchronisation-2206.004542022-06-02 https://scifaro.com/en/abs/speech-artifact-removal-from-eeg-recordings-of-spoken-word-production-with-tensor-decomposition-2206.006352022-06-02 https://scifaro.com/en/abs/musical-instrument-recognition-by-xgboost-combining-feature-fusion-2206.009012022-06-03 https://scifaro.com/en/abs/partitura-a-python-package-for-symbolic-music-processing-2206.010712022-07-13 https://scifaro.com/en/abs/the-match-file-format-encoding-alignments-between-scores-and-performances-2206.011042022-07-13 https://scifaro.com/en/abs/the-musical-arrow-of-time-the-role-of-temporal-asymmetry-in-music-and-its-organicist-implications-2206.013052022-06-06 https://scifaro.com/en/abs/detecting-the-severity-of-major-depressive-disorder-from-speech-a-novel-hard-training-methodology-2206.015422023-05-26 https://scifaro.com/en/abs/variable-rate-hierarchical-cpc-leads-to-acoustic-unit-discovery-in-speech-2206.022112022-12-06 https://scifaro.com/en/abs/zero-shot-voice-conditioning-for-denoising-diffusion-tts-models-2206.022462022-06-23 https://scifaro.com/en/abs/tagged-mri-sequence-to-audio-synthesis-via-self-residual-attention-guided-heterogeneous-translator-2206.022842022-09-27 https://scifaro.com/en/abs/canonical-cortical-graph-neural-networks-and-its-application-for-speech-enhancement-in-audio-visual-hearing-aids-2206.026712023-02-01 https://scifaro.com/en/abs/universal-speech-enhancement-with-score-based-diffusion-2206.030652022-09-19 https://scifaro.com/en/abs/as2t-arbitrary-source-to-target-adversarial-attack-on-speaker-recognition-systems-2206.033512022-06-08 https://scifaro.com/en/abs/towards-understanding-and-mitigating-audio-adversarial-examples-for-speaker-recognition-2206.033932022-06-08 https://scifaro.com/en/abs/few-shot-audio-visual-learning-of-environment-acoustics-2206.040062022-11-28 https://scifaro.com/en/abs/bigvgan-a-universal-neural-vocoder-with-large-scale-training-2206.046582023-02-17 https://scifaro.com/en/abs/clap-learning-audio-concepts-from-natural-language-supervision-2206.047692022-06-13 https://scifaro.com/en/abs/speak-like-a-dog-human-to-non-human-creature-voice-conversion-2206.047802023-01-18 https://scifaro.com/en/abs/motif-mining-and-unsupervised-representation-learning-for-birdclef-2022-2206.048052024-07-10 https://scifaro.com/en/abs/feature-learning-and-ensemble-pre-tasks-based-self-supervised-speech-denoising-and-dereverberation-2206.049622022-06-13 https://scifaro.com/en/abs/zero-shot-audio-classification-using-image-embeddings-2206.049842022-06-13 https://scifaro.com/en/abs/going-beyond-the-cookie-theft-picture-test-detecting-cognitive-impairments-using-acoustic-features-2206.050182022-10-31 https://scifaro.com/en/abs/ahd-convnet-for-speech-emotion-classification-2206.052862022-06-22 https://scifaro.com/en/abs/multi-instrument-music-synthesis-with-spectrogram-diffusion-2206.054082022-12-14 https://scifaro.com/en/abs/description-and-discussion-on-dcase-2022-challenge-task-2-unsupervised-anomalous-sound-detection-for-machine-condition-monitoring-applying-domain-generalization-techniques-2206.058762022-11-23 https://scifaro.com/en/abs/improvement-of-serial-approach-to-anomalous-sound-detection-by-incorporating-two-binary-cross-entropies-for-outlier-exposure-2206.059292022-06-14 https://scifaro.com/en/abs/low-complexity-deep-learning-frameworks-for-acoustic-scene-classification-2206.060572022-06-14 https://scifaro.com/en/abs/optimizing-musical-chord-inversions-using-the-cartesian-coordinate-system-2206.061172022-06-14 https://scifaro.com/en/abs/robust-time-series-denoising-with-learnable-wavelet-packet-transform-2206.061262022-11-16 https://scifaro.com/en/abs/speech-intelligibility-of-simulated-hearing-loss-sounds-and-its-prediction-using-the-gammachirp-envelope-similarity-index-gesi-2206.065732023-11-29 https://scifaro.com/en/abs/whis-hearing-impairment-simulator-based-on-the-gammachirp-auditory-filterbank-2206.066042023-11-29 https://scifaro.com/en/abs/exploring-speaker-enrolment-for-few-shot-personalisation-in-emotional-vocalisation-prediction-2206.066802022-06-22 https://scifaro.com/en/abs/lpcse-neural-speech-enhancement-through-linear-predictive-coding-2206.069082022-06-23 https://scifaro.com/en/abs/frequency-centroid-features-for-word-recognition-of-non-native-english-speakers-2206.071762022-06-16 https://scifaro.com/en/abs/accurate-emotion-strength-assessment-for-seen-and-unseen-speech-based-on-data-driven-deep-learning-2206.072292022-06-16 https://scifaro.com/en/abs/streaming-non-autoregressive-model-for-any-to-many-voice-conversion-2206.072882022-06-16 https://scifaro.com/en/abs/text-aware-end-to-end-mispronunciation-detection-and-diagnosis-2206.072892022-06-16 https://scifaro.com/en/abs/frcrn-boosting-feature-representation-using-frequency-recurrence-for-monaural-speech-enhancement-2206.072932024-12-02 https://scifaro.com/en/abs/on-the-design-and-training-strategies-for-rnn-based-online-neural-speech-separation-systems-2206.073402023-02-22 https://scifaro.com/en/abs/on-the-use-of-deep-mask-estimation-module-for-neural-source-separation-systems-2206.073472022-06-16 https://scifaro.com/en/abs/investigating-multi-feature-selection-and-ensembling-for-audio-classification-2206.075112022-06-16 https://scifaro.com/en/abs/epg2s-speech-generation-and-speech-enhancement-based-on-electropalatography-and-audio-signals-using-multimodal-learning-2206.078602023-11-29 https://scifaro.com/en/abs/automatic-prosody-annotation-with-pre-trained-text-speech-model-2206.079562022-06-17 https://scifaro.com/en/abs/dcase-2022-comparative-analysis-of-cnns-for-acoustic-scene-classification-under-low-complexity-considerations-2206.080072022-06-17 https://scifaro.com/en/abs/acoustic-modeling-for-end-to-end-empathetic-dialogue-speech-synthesis-using-linguistic-and-prosodic-contexts-of-dialogue-history-2206.080392022-06-17 https://scifaro.com/en/abs/adversarial-privacy-protection-on-speech-enhancement-2206.081702022-06-17 https://scifaro.com/en/abs/censer-curriculum-semi-supervised-learning-for-speech-recognition-based-on-self-supervised-pre-training-2206.081892022-06-28 https://scifaro.com/en/abs/event-related-data-conditioning-for-acoustic-event-classification-2206.082332022-06-17 https://scifaro.com/en/abs/a-language-model-with-million-context-length-for-raw-audio-2206.082972024-12-24 https://scifaro.com/en/abs/soundspaces-2-0-a-simulation-platform-for-visual-acoustic-learning-2206.083122023-01-24 https://scifaro.com/en/abs/paraformer-fast-and-accurate-parallel-transformer-for-non-autoregressive-end-to-end-speech-recognition-2206.083172023-03-31 https://scifaro.com/en/abs/tackling-spoofing-aware-speaker-verification-with-multi-model-fusion-2206.091312022-06-22 https://scifaro.com/en/abs/redundancy-reduction-twins-network-a-training-framework-for-multi-output-emotion-regression-2206.091422022-06-29 https://scifaro.com/en/abs/gmm-based-multi-stage-wiener-filtering-for-low-snr-speech-enhancement-2206.092982022-07-18 https://scifaro.com/en/abs/wolonet-wave-outlooker-for-efficient-and-high-fidelity-speech-synthesis-2206.099202022-06-22 https://scifaro.com/en/abs/a-multi-grained-based-attention-network-for-semi-supervised-sound-event-detection-2206.101752022-11-01 https://scifaro.com/en/abs/human-in-the-loop-speaker-adaptation-for-dnn-based-multi-speaker-tts-2206.102562022-06-22 https://scifaro.com/en/abs/joint-analysis-of-acoustic-scenes-and-sound-events-based-on-multitask-learning-with-dynamic-weight-adaptation-2206.103492022-06-22 https://scifaro.com/en/abs/rethinking-audio-visual-synchronization-for-active-speaker-detection-2206.104212022-07-12 https://scifaro.com/en/abs/exploring-the-effectiveness-of-self-supervised-learning-and-classifier-chains-in-emotion-recognition-of-nonverbal-vocalizations-2206.106952022-06-23 https://scifaro.com/en/abs/jointist-joint-learning-for-multi-instrument-transcription-and-its-applications-2206.108052022-06-30 https://scifaro.com/en/abs/dynamic-restrained-uncertainty-weighting-loss-for-multitask-learning-of-vocal-expression-2206.110492022-06-29 https://scifaro.com/en/abs/radio2speech-high-quality-speech-recovery-from-radio-frequency-signals-2206.110662022-06-23 https://scifaro.com/en/abs/few-shot-long-tailed-bird-audio-recognition-2206.112602022-07-05 https://scifaro.com/en/abs/restoring-speech-intelligibility-for-hearing-aid-users-with-deep-learning-2206.115672022-06-24 https://scifaro.com/en/abs/formant-estimation-and-tracking-using-probabilistic-heat-maps-2206.116322022-06-24 https://scifaro.com/en/abs/towards-green-asr-lossless-4-bit-quantization-of-a-hybrid-tdnn-system-on-the-300-hr-switchboard-corpus-2206.116432022-06-24 https://scifaro.com/en/abs/the-sjtu-x-lance-lab-system-for-cnsrc-2022-2206.116992023-05-16 https://scifaro.com/en/abs/comparing-supervised-and-self-supervised-embedding-for-exvo-multi-task-learning-track-2206.119682022-07-26 https://scifaro.com/en/abs/byol-s-learning-self-supervised-speech-representations-by-bootstrapping-2206.120382022-10-26 https://scifaro.com/en/abs/exact-prosody-cloning-in-zero-shot-multispeaker-text-to-speech-2206.122292022-10-25 https://scifaro.com/en/abs/deformable-cnn-and-imbalance-aware-feature-learning-for-singing-technique-classification-2206.122302022-06-27 https://scifaro.com/en/abs/pocap-corpus-a-multimodal-dataset-for-smart-operating-room-speech-assistant-using-interventional-radiology-workflow-analysis-2206.123202022-06-27 https://scifaro.com/en/abs/burst2vec-an-adversarial-multi-task-approach-for-predicting-emotion-age-and-origin-from-vocal-bursts-2206.124692022-10-19 https://scifaro.com/en/abs/multitask-vocal-burst-modeling-with-resnets-and-pre-trained-paralinguistic-conformers-2206.124942022-06-28 https://scifaro.com/en/abs/domain-generalization-with-relaxed-instance-frequency-wise-normalization-for-multi-device-acoustic-scene-classification-2206.125132022-06-28 https://scifaro.com/en/abs/self-supervised-context-aware-style-representation-for-expressive-speech-synthesis-2206.125592022-06-28 https://scifaro.com/en/abs/generating-diverse-vocal-bursts-with-stylegan2-and-mel-spectrograms-2206.125632022-06-28 https://scifaro.com/en/abs/self-supervision-and-learnable-strfs-for-age-emotion-and-country-prediction-2206.125682022-06-28 https://scifaro.com/en/abs/synthesizing-personalized-non-speech-vocalization-from-discrete-speech-representations-2206.126622022-06-28 https://scifaro.com/en/abs/on-comparison-of-encoders-for-attention-based-end-to-end-speech-recognition-in-standalone-and-rescoring-mode-2206.128292022-08-26 https://scifaro.com/en/abs/speak-like-a-professional-increasing-speech-intelligibility-by-mimicking-professional-announcer-voice-with-voice-conversion-2206.130212022-06-28 https://scifaro.com/en/abs/uncertainty-calibration-for-deep-audio-classifiers-2206.130712022-06-28 https://scifaro.com/en/abs/sound-model-factory-an-integrated-system-architecture-for-generative-audio-modelling-2206.130852022-06-28 https://scifaro.com/en/abs/speecheq-speech-emotion-recognition-based-on-multi-scale-unified-datasets-and-multitask-learning-2206.131012022-07-29 https://scifaro.com/en/abs/sequence-level-speaker-change-detection-with-difference-based-continuous-integrate-and-fire-2206.131102022-06-28 https://scifaro.com/en/abs/a-two-stage-full-band-speech-enhancement-model-with-effective-spectral-compression-mapping-2206.131362022-06-28 https://scifaro.com/en/abs/impact-of-acoustic-event-tagging-on-scene-classification-in-a-multi-task-learning-framework-2206.134762022-06-28 https://scifaro.com/en/abs/clearbuds-wireless-binaural-earbuds-for-learning-based-speech-enhancement-2206.136112022-06-29 https://scifaro.com/en/abs/tiny-sepformer-a-tiny-time-domain-transformer-network-for-speech-separation-2206.136892022-07-01 https://scifaro.com/en/abs/dummy-prototypical-networks-for-few-shot-open-set-keyword-spotting-2206.136912022-06-29 https://scifaro.com/en/abs/domain-agnostic-few-shot-learning-for-speaker-verification-2206.137002022-06-29 https://scifaro.com/en/abs/personalized-keyword-spotting-through-multi-task-learning-2206.137082022-06-29 https://scifaro.com/en/abs/comparison-of-speech-representations-for-the-mos-prediction-system-2206.138172022-06-29 https://scifaro.com/en/abs/qti-submission-to-dcase-2021-residual-normalization-for-device-imbalanced-acoustic-scene-classification-with-efficient-design-2206.139092022-10-26 https://scifaro.com/en/abs/attack-agnostic-dataset-towards-generalization-and-stabilization-of-audio-deepfake-detection-2206.139792022-10-13 https://scifaro.com/en/abs/language-based-audio-retrieval-with-converging-tied-layers-and-contrastive-loss-2206.146592022-06-30 https://scifaro.com/en/abs/drumgan-vst-a-plugin-for-drum-sound-analysis-synthesis-with-autoencoding-generative-adversarial-networks-2206.147232022-06-30 https://scifaro.com/en/abs/interpretable-melody-generation-from-lyrics-with-discrete-valued-adversarial-training-2206.150272022-07-06 https://scifaro.com/en/abs/fearless-feature-refinement-loss-for-ensembling-self-supervised-learning-features-in-robust-end-to-end-speech-recognition-2206.150562022-07-01 https://scifaro.com/en/abs/language-model-based-emotion-prediction-methods-for-emotional-speech-synthesis-systems-2206.150672022-07-04 https://scifaro.com/en/abs/an-evaluation-of-three-stage-voice-conversion-framework-for-noisy-and-reverberant-conditions-2206.151552022-07-01 https://scifaro.com/en/abs/libaca-pyaca-and-aca-code-audio-content-analysis-in-3-languages-2206.152192022-07-01 https://scifaro.com/en/abs/r-melnet-reduced-mel-spectral-modeling-for-neural-tts-2206.152762022-07-01 https://scifaro.com/en/abs/sonification-as-a-reliable-alternative-to-conventional-visual-surgical-navigation-2206.152912022-07-01 https://scifaro.com/en/abs/implicit-neural-spatial-filtering-for-multichannel-source-separation-in-the-waveform-domain-2206.154232022-07-01 https://scifaro.com/en/abs/volume-independent-music-matching-by-frequency-spectrum-comparison-2206.154262022-07-01 https://scifaro.com/en/abs/improving-speech-enhancement-through-fine-grained-speech-characteristics-2207.002372022-07-12 https://scifaro.com/en/abs/automatic-evaluation-of-speaker-similarity-2207.003442022-07-04 https://scifaro.com/en/abs/distance-based-sound-separation-2207.005622022-07-04 https://scifaro.com/en/abs/learning-noise-independent-speech-representation-for-high-quality-voice-conversion-for-noisy-target-speakers-2207.007562022-07-05 https://scifaro.com/en/abs/unsupervised-symbolic-music-segmentation-using-ensemble-temporal-prediction-errors-2207.007602022-07-05 https://scifaro.com/en/abs/tree-constrained-pointer-generator-with-graph-neural-network-encodings-for-contextual-speech-recognition-2207.008572022-07-05 https://scifaro.com/en/abs/improving-transformer-based-conversational-asr-by-inter-sentential-attention-mechanism-2207.008832022-07-05 https://scifaro.com/en/abs/towards-error-resilient-neural-speech-coding-2207.009932022-07-05 https://scifaro.com/en/abs/generating-gender-ambiguous-voices-for-privacy-preserving-speech-recognition-2207.010522022-07-05 https://scifaro.com/en/abs/araus-a-large-scale-dataset-and-baseline-models-of-affective-responses-to-augmented-urban-soundscapes-2207.010782024-07-03 https://scifaro.com/en/abs/multi-modal-multi-correlation-learning-for-audio-visual-speech-separation-2207.011972022-07-05 https://scifaro.com/en/abs/cross-speaker-emotion-transfer-based-on-prosody-compensation-for-end-to-end-speech-synthesis-2207.011982022-07-05 https://scifaro.com/en/abs/tmgan-plc-audio-packet-loss-concealment-using-temporal-memory-generative-adversarial-network-2207.012552022-07-05 https://scifaro.com/en/abs/minimizing-sequential-confusion-error-in-speech-command-recognition-2207.012612022-07-05 https://scifaro.com/en/abs/catt-kws-a-multi-stage-customized-keyword-spotting-framework-based-on-cascaded-transducer-transformer-2207.012672022-07-05 https://scifaro.com/en/abs/stochastic-restoration-of-heavily-compressed-musical-audio-using-generative-adversarial-networks-2207.016672022-07-06 https://scifaro.com/en/abs/an-adaptive-music-generation-architecture-for-games-based-on-the-deep-learning-transformer-mode-2207.016982022-09-13 https://scifaro.com/en/abs/backend-ensemble-for-speaker-verification-and-spoofing-countermeasure-2207.018022022-09-26 https://scifaro.com/en/abs/glow-wavegan-2-high-quality-zero-shot-text-to-speech-synthesis-and-any-to-any-voice-conversion-2207.018322022-07-06 https://scifaro.com/en/abs/wesinger-2-fully-parallel-singing-voice-synthesis-via-multi-singer-conditional-adversarial-training-2207.018862023-02-17 https://scifaro.com/en/abs/ultra-low-bitrate-speech-coding-with-pretrained-transformers-2207.022622022-07-07 https://scifaro.com/en/abs/cross-scale-vector-quantization-for-scalable-neural-speech-coding-2207.030672022-07-08 https://scifaro.com/en/abs/visual-assisted-sound-source-depth-estimation-in-the-wild-2207.030742022-07-22 https://scifaro.com/en/abs/learning-music-dance-representations-through-explicit-implicit-rhythm-synchronization-2207.031902023-08-11 https://scifaro.com/en/abs/end-to-end-binaural-speech-synthesis-2207.036972022-07-11 https://scifaro.com/en/abs/fastlts-non-autoregressive-end-to-end-unconstrained-lip-to-speech-synthesis-2207.038002022-07-14 https://scifaro.com/en/abs/bast-binaural-audio-spectrogram-transformer-for-binaural-sound-localization-2207.039272024-08-08 https://scifaro.com/en/abs/a-multi-tasking-model-of-speaker-keyword-classification-for-keeping-human-in-the-loop-of-drone-assisted-inspection-2207.040272022-11-02 https://scifaro.com/en/abs/automated-audio-captioning-and-language-based-audio-retrieval-2207.041562023-05-16 https://scifaro.com/en/abs/learning-to-separate-voices-by-spatial-regions-2207.042032022-07-18 https://scifaro.com/en/abs/a-comparative-study-of-self-supervised-speech-representation-based-voice-conversion-2207.043562022-11-23 https://scifaro.com/en/abs/joint-analysis-of-acoustic-scenes-and-sound-events-with-weakly-labeled-data-2207.043572022-07-12 https://scifaro.com/en/abs/towards-proper-contrastive-self-supervised-learning-strategies-for-music-audio-representation-2207.044712022-07-12 https://scifaro.com/en/abs/delightfultts-2-end-to-end-speech-synthesis-with-adversarial-vector-quantized-auto-encoders-2207.046462022-07-12 https://scifaro.com/en/abs/speaker-consistency-loss-and-step-wise-optimization-for-semi-supervised-joint-training-of-tts-and-asr-using-unpaired-text-data-2207.046592022-07-12 https://scifaro.com/en/abs/the-hccl-system-for-the-nist-sre21-2207.046762022-07-12 https://scifaro.com/en/abs/speaker-anonymization-with-phonetic-intermediate-representations-2207.048342022-07-12 https://scifaro.com/en/abs/indoor-optical-fiber-eavesdropping-approach-and-its-avoidance-2207.052672022-10-05 https://scifaro.com/en/abs/multitask-learning-from-augmented-auxiliary-data-for-improving-speech-emotion-recognition-2207.052982022-07-13 https://scifaro.com/en/abs/western-mediterranean-wetlands-bird-species-classification-evaluating-small-footprint-deep-learning-approaches-on-a-new-annotated-dataset-2207.053932022-07-13 https://scifaro.com/en/abs/a-generative-deep-learning-approach-for-shape-recognition-of-arbitrary-objects-from-phaseless-acoustic-scattering-data-2207.054332022-07-13 https://scifaro.com/en/abs/efficientleaf-a-faster-learnable-audio-frontend-of-questionable-use-2207.055082022-07-13 https://scifaro.com/en/abs/relyme-improving-lyric-to-melody-generation-by-incorporating-lyric-melody-relationships-2207.056882022-07-13 https://scifaro.com/en/abs/distilled-non-semantic-speech-embeddings-with-binary-neural-networks-for-low-resource-devices-2207.057842023-12-05 https://scifaro.com/en/abs/nec-speaker-selective-cancellation-via-neural-enhanced-ultrasound-shadowing-2207.058482022-07-14 https://scifaro.com/en/abs/visual-context-driven-audio-feature-enhancement-for-robust-end-to-end-audio-visual-speech-recognition-2207.060202022-07-14 https://scifaro.com/en/abs/subband-based-generative-adversarial-network-for-non-parallel-many-to-many-voice-conversion-2207.060572022-07-28 https://scifaro.com/en/abs/controllable-and-lossless-non-autoregressive-end-to-end-text-to-speech-2207.060882022-07-14 https://scifaro.com/en/abs/polyphonic-sound-event-detection-for-highly-dense-birdsong-scenes-2207.063492022-07-14 https://scifaro.com/en/abs/masked-autoencoders-that-listen-2207.064052023-01-13 https://scifaro.com/en/abs/wakeword-detection-under-distribution-shifts-2207.064232022-07-15 https://scifaro.com/en/abs/semi-supervised-cross-lingual-speech-emotion-recognition-2207.067672023-09-15 https://scifaro.com/en/abs/rsd-gan-regularized-sobolev-defense-gan-against-speech-to-text-adversarial-attacks-2207.068582022-10-26 https://scifaro.com/en/abs/data-augmentation-for-low-resource-quechua-asr-improvement-2207.068722022-07-15 https://scifaro.com/en/abs/sub-8-bit-quantization-of-streaming-keyword-spotting-models-for-embedded-chipsets-2207.069202022-09-09 https://scifaro.com/en/abs/proceedings-of-the-icml-2022-expressive-vocalizations-workshop-and-competition-recognizing-generating-and-personalizing-vocal-bursts-2207.069582022-08-17 https://scifaro.com/en/abs/multitrack-music-transformer-2207.069832023-05-26 https://scifaro.com/en/abs/audio-guided-album-cover-art-generation-with-genetic-algorithms-2207.071622022-07-18 https://scifaro.com/en/abs/podcastmix-a-dataset-for-separating-music-and-speech-in-podcasts-2207.074032022-07-18 https://scifaro.com/en/abs/continual-learning-for-on-device-environmental-sound-classification-2207.074292022-07-19 https://scifaro.com/en/abs/low-bit-shift-network-for-end-to-end-spoken-language-understanding-2207.074972022-07-18 https://scifaro.com/en/abs/few-shot-bioacoustic-event-detection-at-the-dcase-2022-challenge-2207.079112022-07-19 https://scifaro.com/en/abs/visually-aware-acoustic-event-detection-using-heterogeneous-graphs-2207.079352022-07-19 https://scifaro.com/en/abs/latent-domain-predictive-neural-speech-coding-2207.083632025-10-16 https://scifaro.com/en/abs/the-vocal-signature-of-social-anxiety-exploration-using-hypothesis-testing-and-machine-learning-approaches-2207.085342022-07-19 https://scifaro.com/en/abs/style-transfer-of-audio-effects-with-differentiable-signal-processing-2207.087592022-07-19 https://scifaro.com/en/abs/audio-input-generates-continuous-frames-to-synthesize-facial-video-using-generative-adiversarial-networks-2207.088132022-07-20 https://scifaro.com/en/abs/contrastive-environmental-sound-representation-learning-2207.088252022-07-20 https://scifaro.com/en/abs/realistic-sources-receivers-and-walls-improve-the-generalisability-of-virtually-supervised-blind-acoustic-parameter-estimators-2207.091332022-07-20 https://scifaro.com/en/abs/machine-learning-applied-to-classify-flow-induced-sound-parameters-from-simulated-human-voice-2207.092652022-07-20 https://scifaro.com/en/abs/covid-19-detection-from-respiratory-sounds-with-hierarchical-spectrogram-transformers-2207.095292023-05-30 https://scifaro.com/en/abs/diffsound-discrete-diffusion-model-for-text-to-sound-generation-2207.099832023-05-01 https://scifaro.com/en/abs/fine-grained-early-frequency-attention-for-deep-speaker-recognition-2207.100062022-07-21 https://scifaro.com/en/abs/audioscopev2-audio-visual-attention-architectures-for-calibrated-open-domain-on-screen-sound-separation-2207.101412022-07-22 https://scifaro.com/en/abs/spatial-aware-multi-task-learning-based-speech-separation-2207.102292022-07-22 https://scifaro.com/en/abs/deep-audio-waveform-prior-2207.104412022-10-26 https://scifaro.com/en/abs/room-geometry-blind-inference-based-on-the-localization-of-real-sound-source-and-first-order-reflections-2207.104782022-07-25 https://scifaro.com/en/abs/surrey-system-for-dcase-2022-task-5-few-shot-bioacoustic-event-detection-with-segment-level-metric-learning-2207.105472022-07-22 https://scifaro.com/en/abs/knowledge-transfer-and-distillation-from-autoregressive-to-non-autoregressive-speech-recognition-2207.106002022-07-22 https://scifaro.com/en/abs/a-proposal-for-foley-sound-synthesis-challenge-2207.107602022-07-25 https://scifaro.com/en/abs/end-to-end-and-self-supervised-learning-for-compare-2022-stuttering-sub-challenge-2207.108172022-07-25 https://scifaro.com/en/abs/physics-informed-convolutional-neural-network-with-bicubic-spline-interpolation-for-sound-field-estimation-2207.109372022-07-25 https://scifaro.com/en/abs/head-related-transfer-function-interpolation-from-spatially-sparse-measurements-using-autoencoder-with-source-position-conditioning-2207.109672022-07-25 https://scifaro.com/en/abs/inference-skipping-for-more-efficient-real-time-speech-enhancement-with-parallel-rnns-2207.111082022-07-25 https://scifaro.com/en/abs/learning-unsupervised-hierarchies-of-audio-concepts-2207.112312022-07-25 https://scifaro.com/en/abs/housex-a-fine-grained-house-music-dataset-and-its-potential-in-the-music-industry-2207.116902022-10-13 https://scifaro.com/en/abs/simultaneous-source-separation-of-unknown-numbers-of-single-channel-underwater-acoustic-signals-based-on-deep-neural-networks-with-separator-decoder-structure-2207.117492024-05-29 https://scifaro.com/en/abs/cross-modal-contrastive-representation-learning-for-audio-to-image-generation-2207.121212022-07-26 https://scifaro.com/en/abs/domain-adapting-deep-reinforcement-learning-for-real-world-speech-emotion-recognition-2207.122482024-12-30 https://scifaro.com/en/abs/cfad-a-chinese-dataset-for-fake-audio-detection-2207.123082023-07-19 https://scifaro.com/en/abs/an-exhaustive-variable-selection-study-for-linear-models-of-soundscape-emotions-rankings-and-gibbs-analysis-2207.127432022-07-27 https://scifaro.com/en/abs/distinguishing-between-pre-and-post-treatment-in-the-speech-of-patients-with-chronic-obstructive-pulmonary-disease-2207.127842023-03-14 https://scifaro.com/en/abs/perception-aware-attack-creating-adversarial-music-via-reverse-engineering-human-perception-2207.131922022-07-28 https://scifaro.com/en/abs/end-to-end-audiovisual-feature-fusion-for-active-speaker-detection-2207.134342022-11-24 https://scifaro.com/en/abs/soundchoice-grapheme-to-phoneme-models-with-semantic-disambiguation-2207.137032022-07-29 https://scifaro.com/en/abs/deep-learning-based-acoustic-mosquito-detection-in-noisy-conditions-using-trainable-kernels-and-augmentations-2207.138432022-08-22 https://scifaro.com/en/abs/eeg2mel-reconstructing-sound-from-brain-responses-to-music-2207.138452022-07-29 https://scifaro.com/en/abs/learning-phone-recognition-from-unpaired-audio-and-phone-sequences-based-on-generative-adversarial-network-2207.145682022-08-01 https://scifaro.com/en/abs/towards-unconstrained-audio-splicing-detection-and-localization-with-neural-networks-2207.146822024-05-06 https://scifaro.com/en/abs/jazz-contrafact-detection-2208.007922022-08-02 https://scifaro.com/en/abs/samplematch-drum-sample-retrieval-by-musical-context-2208.011412022-08-03 https://scifaro.com/en/abs/audio-deepfake-detection-based-on-a-combination-of-f0-information-and-real-plus-imaginary-spectrogram-features-2208.012142023-03-03 https://scifaro.com/en/abs/vq-t-rnn-transducers-using-vector-quantized-prediction-network-states-2208.018182022-08-04 https://scifaro.com/en/abs/zero-shot-style-transfer-for-gesture-animation-driven-by-text-and-speech-using-adversarial-disentanglement-of-multimodal-style-encoding-2208.019172022-08-04 https://scifaro.com/en/abs/self-supervised-speaker-verification-using-dynamic-loss-gate-and-label-correction-2208.019282022-08-04 https://scifaro.com/en/abs/the-sjtu-system-for-short-duration-speaker-verification-challenge-2021-2208.019332022-08-04 https://scifaro.com/en/abs/audio-visual-scene-classification-via-contrastive-event-object-alignment-and-semantic-based-fusion-2208.020862022-08-04 https://scifaro.com/en/abs/adversarial-attacks-on-asr-systems-an-overview-2208.022502022-08-05 https://scifaro.com/en/abs/tokyo-kion-on-query-based-generative-sonification-of-atmospheric-data-2208.024942022-12-29 https://scifaro.com/en/abs/keyword-spotting-system-and-evaluation-of-pruning-and-quantization-methods-on-low-power-edge-microcontrollers-2208.027652022-08-05 https://scifaro.com/en/abs/deep-feature-learning-for-medical-acoustics-2208.030842026-01-21 https://scifaro.com/en/abs/robust-acoustic-domain-identification-with-its-application-to-speaker-diarization-2208.031622022-08-09 https://scifaro.com/en/abs/a-model-you-can-hear-audio-identification-with-playable-prototypes-2208.033112022-08-08 https://scifaro.com/en/abs/variational-autoencoders-for-anomaly-detection-in-respiratory-sounds-2208.033262023-12-05 https://scifaro.com/en/abs/chronological-self-training-for-real-time-speaker-diarization-2208.033932022-08-09 https://scifaro.com/en/abs/tgavc-improving-autoencoder-voice-conversion-with-text-guided-and-adversarial-training-2208.040352022-08-09 https://scifaro.com/en/abs/denoising-induction-motor-sounds-using-an-autoencoder-2208.044622022-08-10 https://scifaro.com/en/abs/ddsp-based-singing-vocoders-a-new-subtractive-based-synthesizer-and-a-comprehensive-evaluation-2208.047562022-08-22 https://scifaro.com/en/abs/pure-data-and-inscore-animated-notation-for-new-music-2208.048772022-08-10 https://scifaro.com/en/abs/mathematical-foundations-of-complex-tonality-2208.049742023-07-11 https://scifaro.com/en/abs/generative-data-augmentation-guided-by-triplet-loss-for-speech-emotion-recognition-2208.049942022-08-11 https://scifaro.com/en/abs/subjective-evaluation-of-deep-neural-network-based-speech-enhancement-systems-in-real-world-conditions-2208.050572022-08-16 https://scifaro.com/en/abs/controlling-perceived-emotion-in-symbolic-music-generation-with-monte-carlo-tree-search-2208.051622022-09-02 https://scifaro.com/en/abs/towards-cross-speaker-reading-style-transfer-on-audiobook-dataset-2208.053592022-08-22 https://scifaro.com/en/abs/symbolic-music-loop-generation-with-neural-discrete-representations-2208.056052022-11-01 https://scifaro.com/en/abs/re-creation-of-creations-a-new-paradigm-for-lyric-to-melody-generation-2208.056972023-01-31 https://scifaro.com/en/abs/an-investigation-on-selecting-audio-pre-trained-models-for-audio-captioning-2208.061272022-08-15 https://scifaro.com/en/abs/ddx7-differentiable-fm-synthesis-of-musical-instrument-sounds-2208.061692022-08-15 https://scifaro.com/en/abs/models-of-music-cognition-and-composition-2208.068782022-08-16 https://scifaro.com/en/abs/analysis-of-impact-of-emotions-on-target-speech-extraction-and-speech-separation-2208.070912022-08-16 https://scifaro.com/en/abs/towards-parametric-speech-synthesis-using-gaussian-markov-model-of-spectral-envelope-and-wavelet-based-decomposition-of-f0-2208.071222022-08-16 https://scifaro.com/en/abs/lcsm-a-lightweight-complex-spectral-mapping-framework-for-stereophonic-acoustic-echo-cancellation-2208.072772022-08-16 https://scifaro.com/en/abs/how-should-we-evaluate-synthesized-environmental-sounds-2208.076792022-08-17 https://scifaro.com/en/abs/enhancing-audio-perception-of-music-by-ai-picked-room-acoustics-2208.079942022-08-18 https://scifaro.com/en/abs/domestic-sound-event-detection-by-shift-consistency-mean-teacher-training-and-adversarial-domain-adaptation-2208.081312022-08-18 https://scifaro.com/en/abs/extract-fundamental-frequency-based-on-cnn-combined-with-pyin-2208.083542022-08-18 https://scifaro.com/en/abs/musika-fast-infinite-waveform-music-generation-2208.087062022-08-19 https://scifaro.com/en/abs/deploying-enhanced-speech-feature-decreased-audio-complaints-at-svt-play-vod-service-2208.089602022-08-19 https://scifaro.com/en/abs/representation-learning-for-the-automatic-indexing-of-sound-effects-libraries-2208.090962022-08-22 https://scifaro.com/en/abs/3m-an-effective-multi-view-multi-granularity-and-multi-aspect-modeling-approach-to-english-pronunciation-assessment-2208.091102022-09-13 https://scifaro.com/en/abs/improving-post-processing-of-audio-event-detectors-using-reinforcement-learning-2208.092012022-08-22 https://scifaro.com/en/abs/fully-automated-end-to-end-fake-audio-detection-2208.096182022-08-23 https://scifaro.com/en/abs/an-initial-investigation-for-detecting-vocoder-fingerprints-of-fake-audio-2208.096462022-08-23 https://scifaro.com/en/abs/representation-learning-with-graph-neural-networks-for-speech-emotion-recognition-2208.098302022-08-23 https://scifaro.com/en/abs/multi-view-attention-transfer-for-efficient-speech-enhancement-2208.103672022-11-01 https://scifaro.com/en/abs/audio-deepfake-attribution-an-initial-dataset-and-investigation-2208.104892024-11-19 https://scifaro.com/en/abs/improving-speech-emotion-recognition-through-focus-and-calibration-attention-mechanisms-2208.104912022-08-24 https://scifaro.com/en/abs/are-disentangled-representations-all-you-need-to-build-speaker-anonymization-systems-2208.104972023-01-16 https://scifaro.com/en/abs/concurrent-validity-of-automatic-speech-and-pause-measures-during-passage-reading-in-als-2208.105972022-08-24 https://scifaro.com/en/abs/fall-detection-from-audios-with-audio-transformers-2208.106592022-08-24 https://scifaro.com/en/abs/deep-model-with-built-in-cross-attention-alignment-for-acoustic-echo-cancellation-2208.113082023-03-15 https://scifaro.com/en/abs/improved-zero-shot-audio-tagging-classification-with-patchout-spectrogram-transformers-2208.114022022-08-25 https://scifaro.com/en/abs/improving-natural-language-based-audio-retrieval-with-transfer-learning-and-audio-text-augmentations-2208.114602022-11-01 https://scifaro.com/en/abs/interpreting-song-lyrics-with-an-audio-informed-pre-trained-language-model-2208.116712022-08-25 https://scifaro.com/en/abs/digital-audio-tampering-detection-based-on-enf-spatio-temporal-features-representation-learning-2208.119202022-08-26 https://scifaro.com/en/abs/a-study-on-broadcast-networks-for-music-genre-classification-2208.120862022-08-26 https://scifaro.com/en/abs/contrastive-audio-language-learning-for-music-2208.122082022-08-26 https://scifaro.com/en/abs/music-separation-enhancement-with-generative-modeling-2208.123872022-08-29 https://scifaro.com/en/abs/leveraging-symmetrical-convolutional-transformer-networks-for-speech-to-singing-voice-style-transfer-2208.124102022-08-29 https://scifaro.com/en/abs/concept-based-techniques-for-musicologist-friendly-explanations-in-a-deep-music-classifier-2208.124852022-08-30 https://scifaro.com/en/abs/spatio-temporal-representation-learning-enhanced-source-cell-phone-recognition-from-speech-recordings-2208.127532022-08-29 https://scifaro.com/en/abs/mel-spectrogram-inversion-with-stable-pitch-2208.127822022-08-29 https://scifaro.com/en/abs/sa-sliding-attack-for-synthetic-speech-detection-with-resistance-to-clipping-and-self-splicing-2208.130662022-10-13 https://scifaro.com/en/abs/training-text-to-speech-systems-from-synthetic-data-a-practical-approach-for-accent-transfer-tasks-2208.131832022-08-30 https://scifaro.com/en/abs/towards-disentangled-speech-representations-2208.131912022-08-30 https://scifaro.com/en/abs/computing-with-hypervectors-for-efficient-speaker-identification-2208.132852022-08-30 https://scifaro.com/en/abs/gridless-3d-recovery-of-image-sources-from-room-impulse-responses-2208.140172022-12-08 https://scifaro.com/en/abs/hppnet-modeling-the-harmonic-structure-and-pitch-invariance-in-piano-transcription-2208.143392022-09-01 https://scifaro.com/en/abs/meloform-generating-melody-with-musical-form-based-on-expert-systems-and-neural-networks-2208.143452022-08-31 https://scifaro.com/en/abs/towards-robust-music-source-separation-on-loud-commercial-music-2208.143552022-08-31 https://scifaro.com/en/abs/a-real-time-tempo-and-meter-tracking-system-for-rhythmic-improvis-2208.147172022-09-01 https://scifaro.com/en/abs/open-challenges-in-musical-metacreation-2208.147342022-09-01 https://scifaro.com/en/abs/a-new-corpus-for-computational-music-research-and-a-novel-method-for-musical-structure-analysis-2208.147472022-09-01 https://scifaro.com/en/abs/harmonization-and-evaluation-tweaking-the-parameters-on-human-listeners-2208.147502022-09-01 https://scifaro.com/en/abs/domain-shift-oriented-machine-anomalous-sound-detection-model-based-on-self-supervised-learning-2208.148122022-09-08 https://scifaro.com/en/abs/cadence-detection-in-symbolic-classical-music-using-graph-neural-networks-2208.148192022-09-01 https://scifaro.com/en/abs/sketching-the-expression-flexible-rendering-of-expressive-piano-performance-with-self-supervised-learning-2208.148672022-09-07 https://scifaro.com/en/abs/evaluating-generative-audio-systems-and-their-metrics-2209.001302022-09-02 https://scifaro.com/en/abs/what-is-missing-in-deep-music-generation-a-study-of-repetition-and-structure-in-popular-music-2209.001822022-09-02 https://scifaro.com/en/abs/generating-coherent-drum-accompaniment-with-fills-and-improvisations-2209.002912022-09-02 https://scifaro.com/en/abs/accomontage2-a-complete-harmonization-and-accompaniment-arrangement-system-2209.003532022-09-02 https://scifaro.com/en/abs/identify-the-beehive-sound-using-deep-learning-2209.013742022-09-07 https://scifaro.com/en/abs/equivariant-self-supervision-for-musical-tempo-estimation-2209.014782022-09-07 https://scifaro.com/en/abs/exploiting-pre-trained-feature-networks-for-generative-adversarial-networks-in-audio-domain-loop-generation-2209.017512022-09-07 https://scifaro.com/en/abs/bridging-music-and-text-with-crowdsourced-music-comments-a-sequence-to-sequence-framework-for-thematic-music-comments-generation-2209.019962022-09-07 https://scifaro.com/en/abs/instrument-separation-of-symbolic-music-by-explicitly-guided-diffusion-model-2209.026962022-09-08 https://scifaro.com/en/abs/read-it-to-me-an-emotionally-aware-speech-narration-application-2209.027852022-09-08 https://scifaro.com/en/abs/the-role-of-vocal-persona-in-natural-and-synthesized-speech-2209.028552022-11-01 https://scifaro.com/en/abs/improving-choral-music-separation-through-expressive-synthesized-data-from-sampled-instruments-2209.028712022-09-08 https://scifaro.com/en/abs/audiolm-a-language-modeling-approach-to-audio-generation-2209.031432023-07-27 https://scifaro.com/en/abs/multimodal-speech-enhancement-using-burst-propagation-2209.032752024-09-10 https://scifaro.com/en/abs/what-did-i-just-hear-detecting-pornographic-sounds-in-adult-videos-using-neural-networks-2209.037112022-09-09 https://scifaro.com/en/abs/developing-a-multi-variate-prediction-model-for-the-detection-of-covid-19-from-crowd-sourced-respiratory-voice-data-2209.037272022-09-09 https://scifaro.com/en/abs/hardware-accelerator-and-neural-network-co-optimization-for-ultra-low-power-audio-processing-devices-2209.038072022-09-30 https://scifaro.com/en/abs/dyadic-interaction-assessment-from-free-living-audio-for-depression-severity-assessment-2209.039012022-09-09 https://scifaro.com/en/abs/tf-gridnet-making-time-frequency-domain-models-great-again-for-monaural-speaker-separation-2209.039522023-03-16 https://scifaro.com/en/abs/improving-the-environmental-perception-of-autonomous-vehicles-using-deep-learning-based-audio-classification-2209.040752022-09-12 https://scifaro.com/en/abs/prediction-method-of-soundscape-impressions-using-environmental-sounds-and-aerial-photographs-2209.040772022-09-12 https://scifaro.com/en/abs/matt-a-multiple-instance-attention-mechanism-for-long-tail-music-genre-classification-2209.041092022-09-12 https://scifaro.com/en/abs/overlapped-speech-and-gender-detection-with-wavlm-pre-trained-features-2209.041672022-09-12 https://scifaro.com/en/abs/a-semi-supervised-algorithm-for-improving-the-consistency-of-crowdsourced-datasets-the-covid-19-case-study-on-respiratory-disorder-classification-2209.043602023-08-22 https://scifaro.com/en/abs/deid-vc-speaker-de-identification-via-zero-shot-pseudo-voice-conversion-2209.045302022-09-13 https://scifaro.com/en/abs/pay-attention-to-hard-trials-2209.046872022-09-13 https://scifaro.com/en/abs/binaural-signal-representations-for-joint-sound-event-detection-and-acoustic-scene-classification-2209.059002022-09-14 https://scifaro.com/en/abs/songdriver-real-time-music-accompaniment-generation-without-logical-latency-nor-exposure-bias-2209.060542022-10-14 https://scifaro.com/en/abs/using-rater-and-system-metadata-to-explain-variance-in-the-voicemos-challenge-2022-dataset-2209.063582022-09-15 https://scifaro.com/en/abs/i2cr-improving-noise-robustness-on-keyword-spotting-using-inter-intra-contrastive-regularization-2209.063602022-09-15 https://scifaro.com/en/abs/convnext-based-neural-network-for-audio-anti-spoofing-2209.064342022-12-23 https://scifaro.com/en/abs/paratts-learning-linguistic-and-prosodic-cross-sentence-information-in-paragraph-based-tts-2209.064842022-09-15 https://scifaro.com/en/abs/non-parallel-voice-conversion-for-asr-augmentation-2209.069872022-09-16 https://scifaro.com/en/abs/beat-transformer-demixed-beat-and-downbeat-tracking-with-dilated-self-attention-2209.071402022-09-16 https://scifaro.com/en/abs/domain-adversarial-training-on-conditional-variational-auto-encoder-for-controllable-music-generation-2209.071442022-09-16 https://scifaro.com/en/abs/mvnet-memory-assistance-and-vocal-reinforcement-network-for-speech-enhancement-2209.073022022-09-16 https://scifaro.com/en/abs/self-supervised-attention-networks-and-uncertainty-loss-weighting-for-multi-task-emotion-recognition-on-vocal-bursts-2209.073842022-09-28 https://scifaro.com/en/abs/detecting-synthetic-speech-manipulation-in-real-audio-recordings-2209.074982022-09-16 https://scifaro.com/en/abs/self-relation-attention-and-temporal-awareness-for-emotion-recognition-via-vocal-burst-2209.076292022-09-27 https://scifaro.com/en/abs/musicaiz-a-python-library-for-symbolic-music-generation-analysis-and-visualization-2209.079742022-09-19 https://scifaro.com/en/abs/compose-embellish-well-structured-piano-performance-generation-via-a-two-stage-approach-2209.082122023-03-08 https://scifaro.com/en/abs/playing-technique-detection-by-fusing-note-onset-information-in-guzheng-performance-2209.087742022-09-20 https://scifaro.com/en/abs/the-royalflush-system-for-voxceleb-speaker-recognition-challenge-2022-2209.090102022-09-21 https://scifaro.com/en/abs/sjtu-aispeech-system-for-voxceleb-speaker-recognition-challenge-2022-2209.090762022-09-21 https://scifaro.com/en/abs/a-closer-look-at-weakly-supervised-audio-visual-source-localization-2209.096342022-09-21 https://scifaro.com/en/abs/the-bucea-speaker-diarization-system-for-the-voxceleb-speaker-recognition-challenge-2022-2209.096352022-09-21 https://scifaro.com/en/abs/meta-learning-for-adaptive-filters-with-higher-order-frequency-dependencies-2209.099552022-09-22 https://scifaro.com/en/abs/setting-the-rhythm-scene-deep-learning-based-drum-loop-generation-from-arbitrary-language-cues-2209.100162022-09-22 https://scifaro.com/en/abs/dynamic-time-alignment-of-dimensional-annotations-of-emotion-using-recurrent-neural-networks-2209.102232022-09-22 https://scifaro.com/en/abs/learning-hierarchical-metrical-structure-beyond-measures-2209.102592022-09-22 https://scifaro.com/en/abs/modeling-perceptual-loudness-of-piano-tone-theory-and-applications-2209.106742022-11-01 https://scifaro.com/en/abs/controllable-accented-text-to-speech-synthesis-2209.108042022-09-23 https://scifaro.com/en/abs/the-speakin-system-description-for-cnsrc2022-2209.108462022-09-23 https://scifaro.com/en/abs/mntts-an-open-source-mongolian-text-to-speech-synthesis-dataset-and-accompanied-baseline-2209.108482022-09-23 https://scifaro.com/en/abs/a-multi-stage-multi-codebook-vq-vae-approach-to-high-performance-neural-tts-2209.108872022-09-23 https://scifaro.com/en/abs/maths-computation-and-flamenco-overview-and-challenges-2209.109702022-09-23 https://scifaro.com/en/abs/predicting-pairwise-preferences-between-tts-audio-stimuli-using-parallel-ratings-data-and-anti-symmetric-twin-neural-networks-2209.110032022-09-23 https://scifaro.com/en/abs/cmgan-conformer-based-metric-gan-for-monaural-speech-enhancement-2209.111122024-05-07 https://scifaro.com/en/abs/the-microsoft-system-for-voxceleb-speaker-recognition-challenge-2022-2209.112662022-09-26 https://scifaro.com/en/abs/unikw-at-unified-keyword-spotting-and-audio-tagging-2209.113772022-09-26 https://scifaro.com/en/abs/an-artificial-neural-network-based-system-for-detecting-machine-failures-using-tiny-sound-data-a-case-study-2209.115272022-09-26 https://scifaro.com/en/abs/synthetic-voice-spoofing-detection-based-on-online-hard-example-mining-2209.115852022-09-27 https://scifaro.com/en/abs/the-speakin-speaker-verification-system-for-far-field-speaker-verification-challenge-2022-2209.116252022-09-26 https://scifaro.com/en/abs/speech-enhancement-with-perceptually-motivated-optimization-and-dual-transformations-2209.119052022-09-27 https://scifaro.com/en/abs/joint-speech-activity-and-overlap-detection-with-multi-exit-architecture-2209.119062022-09-27 https://scifaro.com/en/abs/unsupervised-domain-adaptation-for-speech-recognition-with-unsupervised-error-correction-2209.120432022-09-27 https://scifaro.com/en/abs/song-emotion-recognition-a-performance-comparison-between-audio-features-and-artificial-neural-networks-2209.120452022-09-27 https://scifaro.com/en/abs/multimodal-exponentially-modified-gaussian-oscillators-2209.122022023-01-24 https://scifaro.com/en/abs/multi-task-adversarial-training-algorithm-for-multi-speaker-neural-text-to-speech-2209.125492022-09-27 https://scifaro.com/en/abs/faked-speech-detection-with-zero-prior-knowledge-2209.125732024-05-24 https://scifaro.com/en/abs/effects-of-language-mismatch-in-automatic-forensic-voice-comparison-using-deep-learning-embeddings-2209.126022023-04-12 https://scifaro.com/en/abs/the-efficacy-of-self-supervised-speech-models-for-audio-representations-2209.129002023-02-01 https://scifaro.com/en/abs/computing-melodic-templates-in-oral-music-traditions-2209.135982022-09-29 https://scifaro.com/en/abs/an-efficient-multitask-learning-architecture-for-affective-vocal-burst-analysis-2209.139142022-09-29 https://scifaro.com/en/abs/mewehv-mel-and-wave-embeddings-for-human-voice-tasks-2209.140782023-06-27 https://scifaro.com/en/abs/deepfake-audio-detection-by-speaker-verification-2209.140982022-09-29 https://scifaro.com/en/abs/audio-barlow-twins-self-supervised-audio-representation-learning-2209.143452022-12-26 https://scifaro.com/en/abs/the-chamber-ensemble-generator-limitless-high-quality-mir-data-via-generative-modeling-2209.144582022-09-30 https://scifaro.com/en/abs/classification-of-vocal-bursts-for-acii-2022-a-vb-type-competition-using-convolutional-neural-networks-and-deep-acoustic-embeddings-2209.148422022-10-14 https://scifaro.com/en/abs/convrnn-t-convolutional-augmented-recurrent-neural-network-transducers-for-streaming-speech-recognition-2209.148682022-09-30 https://scifaro.com/en/abs/an-empirical-study-of-weakly-supervised-audio-tagging-embeddings-for-general-audio-representations-2209.151672022-10-03 https://scifaro.com/en/abs/an-efficient-encoder-decoder-architecture-with-top-down-attention-for-speech-separation-2209.152002023-03-31 https://scifaro.com/en/abs/wake-word-detection-based-on-res2net-2209.152962022-10-03 https://scifaro.com/en/abs/symphony-localizing-multiple-acoustic-sources-with-a-single-microphone-array-2209.153252022-10-03 https://scifaro.com/en/abs/chordmics-acoustic-signal-purification-with-distributed-microphones-2209.153342022-10-03 https://scifaro.com/en/abs/audiogen-textually-guided-audio-generation-2209.153522023-03-07 https://scifaro.com/en/abs/match-to-win-analysing-sequences-lengths-for-efficient-self-supervised-learning-in-speech-and-audio-2209.155752022-11-23 https://scifaro.com/en/abs/hsd-a-hierarchical-singing-annotation-dataset-2209.156402022-10-03 https://scifaro.com/en/abs/multi-stage-progressive-compression-of-conformer-transducer-for-on-device-speech-recognition-2210.001692022-10-04 https://scifaro.com/en/abs/efficient-acoustic-feature-transformation-in-mismatched-environments-using-a-guided-gan-2210.007212022-10-07 https://scifaro.com/en/abs/push-pull-characterizing-the-adversarial-robustness-for-audio-visual-active-speaker-detection-2210.007532022-10-04 https://scifaro.com/en/abs/and-what-if-two-musical-versions-don-t-share-melody-harmony-rhythm-or-lyrics-2210.012562022-10-05 https://scifaro.com/en/abs/pay-self-attention-to-audio-visual-navigation-2210.013532022-10-06 https://scifaro.com/en/abs/rhythmic-gesticulator-rhythm-aware-co-speech-gesture-synthesis-with-hierarchical-neural-embeddings-2210.014482023-05-05 https://scifaro.com/en/abs/improving-label-deficient-keyword-spotting-through-self-supervised-pretraining-2210.017032023-05-25 https://scifaro.com/en/abs/learning-temporal-resolution-in-spectrogram-for-audio-classification-2210.017192024-01-15 https://scifaro.com/en/abs/tc-sknet-with-gridmask-for-low-complexity-classification-of-acoustic-scene-2210.022872022-10-06 https://scifaro.com/en/abs/asvspoof-2021-towards-spoofed-and-deepfake-speech-detection-in-the-wild-2210.024372023-06-23 https://scifaro.com/en/abs/feasibility-on-detecting-door-slamming-towards-monitoring-early-signs-of-domestic-violence-2210.026422022-10-07 https://scifaro.com/en/abs/psvrf-learning-to-restore-pitch-shifted-voice-without-reference-2210.027312023-03-14 https://scifaro.com/en/abs/the-sound-of-silence-efficiency-of-first-digit-features-in-synthetic-audio-detection-2210.027462022-10-07 https://scifaro.com/en/abs/melody-infilling-with-user-provided-structural-context-2210.028292022-10-07 https://scifaro.com/en/abs/wakeupnet-a-mobile-transformer-based-framework-for-end-to-end-streaming-voice-trigger-2210.029042022-10-07 https://scifaro.com/en/abs/animetab-a-new-guitar-tablature-dataset-of-anime-and-game-music-2210.030272022-10-07 https://scifaro.com/en/abs/damage-control-during-domain-adaptation-for-transducer-based-automatic-speech-recognition-2210.032552022-10-10 https://scifaro.com/en/abs/the-perspectiveliberator-an-upmixing-6dof-rendering-plugin-for-single-perspective-ambisonic-room-impulse-responses-2210.033602022-10-11 https://scifaro.com/en/abs/model-based-estimation-of-in-car-communication-feedback-applied-to-speech-zone-detection-2210.033632022-11-08 https://scifaro.com/en/abs/an-overview-of-affective-speech-synthesis-and-conversion-in-the-deep-learning-era-2210.035382023-03-14 https://scifaro.com/en/abs/supervised-and-unsupervised-learning-of-audio-representations-for-music-understanding-2210.037992022-10-11 https://scifaro.com/en/abs/cobert-self-supervised-speech-representation-learning-through-code-representation-learning-2210.040622023-07-06 https://scifaro.com/en/abs/automated-audio-captioning-via-fusion-of-low-and-high-dimensional-features-2210.050372022-10-18 https://scifaro.com/en/abs/conchshell-a-generative-adversarial-networks-that-turns-pictures-into-piano-music-2210.050762022-10-12 https://scifaro.com/en/abs/the-dku-tencent-system-for-the-voxceleb-speaker-recognition-challenge-2022-2210.050922022-10-12 https://scifaro.com/en/abs/diffroll-diffusion-based-generative-music-transcription-with-unsupervised-pretraining-capability-2210.051482024-06-03 https://scifaro.com/en/abs/deep-spectro-temporal-artifacts-for-detecting-synthesized-speech-2210.052542022-10-12 https://scifaro.com/en/abs/mfcca-multi-frame-cross-channel-attention-for-multi-speaker-asr-in-multi-party-meeting-scenario-2210.052652022-10-12 https://scifaro.com/en/abs/gan-you-hear-me-reclaiming-unconditional-speech-synthesis-from-diffusion-models-2210.052712022-10-12 https://scifaro.com/en/abs/an-experimental-study-on-private-aggregation-of-teacher-ensemble-learning-for-end-to-end-speech-recognition-2210.056142022-10-17 https://scifaro.com/en/abs/enemy-spotted-in-game-gun-sound-dataset-for-gunshot-classification-and-localization-2210.059172023-02-20 https://scifaro.com/en/abs/jukedrummer-conditional-beat-aware-audio-domain-drum-accompaniment-generation-via-transformer-vq-vae-2210.060072022-11-01 https://scifaro.com/en/abs/specrnet-towards-faster-and-more-accessible-audio-deepfake-detection-2210.061052022-10-13 https://scifaro.com/en/abs/thuee-system-description-for-nist-2020-sre-cts-challenge-2210.061112022-10-13 https://scifaro.com/en/abs/individualized-conditioning-and-negative-distances-for-speaker-separation-2210.063682022-10-13 https://scifaro.com/en/abs/anonymizing-speech-with-generative-adversarial-networks-to-preserve-speaker-privacy-2210.070022022-10-21 https://scifaro.com/en/abs/hierarchical-diffusion-models-for-singing-voice-neural-vocoder-2210.075082022-10-19 https://scifaro.com/en/abs/transformer-based-speech-synthesizer-attribution-in-an-open-set-scenario-2210.075462022-10-17 https://scifaro.com/en/abs/empirical-study-incorporating-linguistic-knowledge-on-filled-pauses-for-personalized-spontaneous-speech-synthesis-2210.075592023-09-20 https://scifaro.com/en/abs/training-speech-emotion-classifier-without-categorical-annotations-2210.076422022-10-17 https://scifaro.com/en/abs/full-stack-bioacoustics-field-kit-to-ai-to-action-workshop-report-2210.076852022-10-17 https://scifaro.com/en/abs/accelerating-rnn-based-speech-enhancement-on-a-multi-core-mcu-with-mixed-fp16-int8-post-training-quantization-2210.076922022-10-17 https://scifaro.com/en/abs/improving-generalizability-of-distilled-self-supervised-speech-processing-models-under-distorted-settings-2210.079782022-10-21 https://scifaro.com/en/abs/learning-invariant-representation-and-risk-minimized-for-unsupervised-accent-domain-adaptation-2210.081822022-11-01 https://scifaro.com/en/abs/a-policy-based-approach-to-the-specaugment-method-for-low-resource-e2e-asr-2210.085202022-10-18 https://scifaro.com/en/abs/robust-general-and-low-complexity-acoustic-scene-classification-systems-and-an-effective-visualization-for-presenting-a-sound-scene-context-2210.086102022-10-18 https://scifaro.com/en/abs/how-to-leverage-dnn-based-speech-enhancement-for-multi-channel-speaker-verification-2210.088342022-10-18 https://scifaro.com/en/abs/visual-onoma-to-wave-environmental-sound-synthesis-from-visual-onomatopoeias-and-sound-source-images-2210.091732022-10-18 https://scifaro.com/en/abs/sub-8-bit-quantization-for-on-device-speech-recognition-a-regularization-free-approach-2210.091882022-11-02 https://scifaro.com/en/abs/svldl-improved-speaker-age-estimation-using-selective-variance-label-distribution-learning-2210.095242022-11-17 https://scifaro.com/en/abs/a-hybrid-system-of-sound-event-detection-transformer-and-frame-wise-model-for-dcase-2022-task-4-2210.095292022-10-19 https://scifaro.com/en/abs/improving-robustness-of-spontaneous-speech-synthesis-with-linguistic-speech-regularization-and-pseudo-filled-pause-insertion-2210.098152023-09-20 https://scifaro.com/en/abs/mid-attribute-speaker-generation-using-optimal-transport-based-interpolation-of-gaussian-mixture-models-2210.099162022-10-19 https://scifaro.com/en/abs/hmm-vs-ctc-for-automatic-speech-recognition-comparison-based-on-full-sum-training-from-scratch-2210.099512022-10-19 https://scifaro.com/en/abs/birdsoundsdenoising-deep-visual-audio-denoising-for-bird-sounds-2210.101962022-10-20 https://scifaro.com/en/abs/speaker-and-age-invariant-training-for-child-acoustic-modeling-using-adversarial-multi-task-learning-2210.102312022-11-08 https://scifaro.com/en/abs/two-stage-training-method-for-japanese-electrolaryngeal-speech-enhancement-based-on-sequence-to-sequence-voice-conversion-2210.103142022-10-20 https://scifaro.com/en/abs/museformer-transformer-with-fine-and-coarse-grained-attention-for-music-generation-2210.103492022-11-01 https://scifaro.com/en/abs/audio-tampering-detection-based-on-shallow-and-deep-feature-representation-learning-2210.105062022-10-20 https://scifaro.com/en/abs/end-to-end-integration-of-speech-recognition-dereverberation-beamforming-and-self-supervised-learning-representation-2210.107422022-10-20 https://scifaro.com/en/abs/modeling-animal-vocalizations-through-synthesizers-2210.108572022-10-21 https://scifaro.com/en/abs/large-scale-learning-of-generalised-representations-for-speaker-recognition-2210.109852022-10-28 https://scifaro.com/en/abs/robust-one-shot-singing-voice-conversion-2210.110962023-10-09 https://scifaro.com/en/abs/play-it-back-iterative-attention-for-audio-recognition-2210.113282023-03-14 https://scifaro.com/en/abs/text-enhancement-for-paragraph-processing-in-end-to-end-code-switching-tts-2210.114292022-10-21 https://scifaro.com/en/abs/adaptive-re-calibration-of-channel-wise-features-for-adversarial-audio-classification-2210.117222022-10-24 https://scifaro.com/en/abs/adversarial-permutation-invariant-training-for-universal-sound-separation-2210.121082023-03-07 https://scifaro.com/en/abs/optimizing-bilingual-neural-transducer-with-synthetic-code-switching-text-generation-2210.122142022-10-25 https://scifaro.com/en/abs/beans-the-benchmark-of-animal-sounds-2210.123002022-10-25 https://scifaro.com/en/abs/neural-sound-field-decomposition-with-super-resolution-of-sound-direction-2210.123452022-10-25 https://scifaro.com/en/abs/speech-emotion-recognition-via-an-attentive-time-frequency-neural-network-2210.124302022-10-25 https://scifaro.com/en/abs/gct-gated-contextual-transformer-for-sequential-audio-tagging-2210.125412022-10-25 https://scifaro.com/en/abs/quantitative-evidence-on-overlooked-aspects-of-enrollment-speaker-embeddings-for-target-speaker-separation-2210.126352022-10-27 https://scifaro.com/en/abs/10-hours-data-is-all-you-need-2210.130672022-10-25 https://scifaro.com/en/abs/spectral-clustering-aware-learning-of-embeddings-for-speaker-diarisation-2210.135762023-03-16 https://scifaro.com/en/abs/adapitch-adaption-multi-speaker-text-to-speech-conditioned-on-pitch-disentangling-with-untranscribed-data-2210.138032022-10-26 https://scifaro.com/en/abs/improving-speech-representation-learning-via-speech-level-and-phoneme-level-masking-approach-2210.138052022-10-26 https://scifaro.com/en/abs/metaspeech-speech-effects-switch-along-with-environment-for-metaverse-2210.138112022-10-26 https://scifaro.com/en/abs/coloc-conditioned-localizer-and-classifier-for-sound-event-localization-and-detection-2210.139322022-10-26 https://scifaro.com/en/abs/audio-mfcc-gram-transformers-for-respiratory-insufficiency-detection-in-covid-19-2210.140852022-10-26 https://scifaro.com/en/abs/dynamic-speech-endpoint-detection-with-regression-targets-2210.142522022-10-27 https://scifaro.com/en/abs/the-npu-aslp-system-for-the-iscslp-2022-magichub-code-swiching-asr-challenge-2210.144482022-10-27 https://scifaro.com/en/abs/scp-gan-self-correcting-discriminator-optimization-for-training-consistency-preserving-metric-gan-on-speech-enhancement-tasks-2210.144742022-10-27 https://scifaro.com/en/abs/aves-animal-vocalization-encoder-based-on-self-supervision-2210.144932022-10-27 https://scifaro.com/en/abs/two-stage-dimensional-emotion-recognition-by-fusing-predictions-of-acoustic-and-text-networks-using-svm-2210.144952022-10-27 https://scifaro.com/en/abs/parallel-gated-neural-network-with-attention-mechanism-for-speech-enhancement-2210.145092022-10-28 https://scifaro.com/en/abs/efficient-data-mosaicing-with-simulation-based-inference-2210.146022023-02-02 https://scifaro.com/en/abs/fast-yet-effective-speech-emotion-recognition-with-self-distillation-2210.146362022-10-27 https://scifaro.com/en/abs/speaker-diarization-based-on-multi-channel-microphone-array-in-small-scale-meeting-2210.146442022-10-27 https://scifaro.com/en/abs/tsup-speaker-diarization-system-for-conversational-short-phrase-speaker-diarization-challenge-2210.146532023-10-26 https://scifaro.com/en/abs/full-band-general-audio-synthesis-with-score-based-diffusion-2210.146612022-10-27 https://scifaro.com/en/abs/in-search-of-strong-embedding-extractors-for-speaker-diarisation-2210.146822022-10-27 https://scifaro.com/en/abs/pronunciation-generation-for-foreign-language-words-in-intra-sentential-code-switching-speech-recognition-2210.146912022-10-27 https://scifaro.com/en/abs/pretrained-audio-neural-networks-for-speech-emotion-recognition-in-portuguese-2210.147162022-10-27 https://scifaro.com/en/abs/semi-supervised-learning-based-on-reference-model-for-low-resource-tts-2210.147232022-10-27 https://scifaro.com/en/abs/text-to-speech-synthesis-from-dark-data-with-evaluation-in-the-loop-data-selection-2210.148502022-10-27 https://scifaro.com/en/abs/knowledge-transfer-for-on-device-speech-emotion-recognition-with-neural-structured-learning-2210.149772023-05-12 https://scifaro.com/en/abs/towards-high-quality-neural-tts-for-low-resource-languages-by-learning-compact-speech-representations-2210.151312022-10-28 https://scifaro.com/en/abs/v-cloak-intelligibility-naturalness-timbre-preserving-real-time-voice-anonymization-2210.151402022-10-28 https://scifaro.com/en/abs/audio-signal-enhancement-with-learning-from-positive-and-unlabelled-data-2210.151432023-04-27 https://scifaro.com/en/abs/articulation-gan-unsupervised-modeling-of-articulatory-learning-2210.151732023-05-10 https://scifaro.com/en/abs/a-knowledge-driven-vowel-based-approach-of-depression-classification-from-speech-using-data-augmentation-2210.152612022-10-28 https://scifaro.com/en/abs/on-out-of-distribution-detection-for-audio-with-deep-nearest-neighbors-2210.152832023-02-28 https://scifaro.com/en/abs/san-a-robust-end-to-end-asr-model-architecture-2210.152852022-10-28 https://scifaro.com/en/abs/deformable-temporal-convolutional-networks-for-monaural-noisy-reverberant-speech-separation-2210.153052023-03-13 https://scifaro.com/en/abs/rigid-body-sound-synthesis-with-differentiable-modal-resonators-2210.153062022-10-31 https://scifaro.com/en/abs/convolutive-block-matching-segmentation-algorithm-with-application-to-music-structure-analysis-2210.153562023-09-27 https://scifaro.com/en/abs/explicit-intensity-control-for-accented-text-to-speech-2210.153642022-10-28 https://scifaro.com/en/abs/a-training-and-inference-strategy-using-noisy-and-enhanced-speech-as-target-for-speech-enhancement-without-clean-speech-2210.153682023-05-23 https://scifaro.com/en/abs/casnet-investigating-channel-robustness-for-speech-separation-2210.153702022-10-28 https://scifaro.com/en/abs/opening-the-black-box-of-wav2vec-feature-encoder-2210.153862022-10-28 https://scifaro.com/en/abs/freevc-towards-high-quality-text-free-one-shot-voice-conversion-2210.154182022-10-28 https://scifaro.com/en/abs/toroidal-probabilistic-spherical-discriminant-analysis-2210.154412022-10-28 https://scifaro.com/en/abs/virtuoso-massive-multilingual-speech-text-joint-semi-supervised-learning-for-text-to-speech-2210.154472023-03-16 https://scifaro.com/en/abs/source-filter-hifi-gan-fast-and-pitch-controllable-high-fidelity-neural-vocoder-2210.155332023-02-28 https://scifaro.com/en/abs/lyricjam-sonic-a-generative-system-for-real-time-composition-and-musical-improvisation-2210.156382022-10-28 https://scifaro.com/en/abs/fedaudio-a-federated-learning-benchmark-for-audio-tasks-2210.157072023-02-09 https://scifaro.com/en/abs/one-shot-acoustic-matching-of-audio-signals-learning-to-hear-music-in-any-room-concert-hall-2210.157502022-11-02 https://scifaro.com/en/abs/on-the-role-of-visual-context-in-enriching-music-representations-2210.158282022-10-31 https://scifaro.com/en/abs/gm-tcnet-gated-multi-scale-temporal-convolutional-network-using-emotion-causality-for-speech-emotion-recognition-2210.158342022-11-08 https://scifaro.com/en/abs/hierarchical-speaker-representation-for-target-speaker-extraction-2210.158492024-01-08 https://scifaro.com/en/abs/speech-enhancement-with-intelligent-neural-homomorphic-synthesis-2210.158532022-10-31 https://scifaro.com/en/abs/residual-adapters-for-few-shot-text-to-speech-speaker-adaptation-2210.158682022-10-31 https://scifaro.com/en/abs/a-comprehensive-study-on-self-supervised-distillation-for-speaker-representation-learning-2210.159362022-11-28 https://scifaro.com/en/abs/exploring-the-effects-of-channel-sparsity-on-neural-network-pruning-for-acoustic-scene-classification-2210.159602023-07-21 https://scifaro.com/en/abs/spectrograms-are-sequences-of-patches-2210.159882022-10-31 https://scifaro.com/en/abs/towards-zero-shot-text-based-voice-editing-using-acoustic-context-conditioning-utterance-embeddings-and-reference-encoders-2210.160452022-10-31 https://scifaro.com/en/abs/deep-learning-object-detection-approaches-to-signal-identification-2210.161732022-11-03 https://scifaro.com/en/abs/pretraining-respiratory-sound-representations-using-metadata-and-contrastive-learning-2210.161922023-08-14 https://scifaro.com/en/abs/universal-speaker-recognition-encoders-for-different-speech-segments-duration-2210.162312022-10-31 https://scifaro.com/en/abs/filter-and-evolve-progressive-pseudo-label-refining-for-semi-supervised-automatic-speech-recognition-2210.163182022-11-01 https://scifaro.com/en/abs/heartsiam-a-domain-invariant-model-for-heart-sound-classification-2210.163942023-02-28 https://scifaro.com/en/abs/learning-audio-visual-dynamics-using-scene-graphs-for-audio-source-separation-2210.164722022-11-01 https://scifaro.com/en/abs/relating-human-perception-of-musicality-to-prediction-in-a-predictive-coding-model-2210.165872022-11-01 https://scifaro.com/en/abs/unifying-the-discrete-and-continuous-emotion-labels-for-speech-emotion-recognition-2210.166422022-11-01 https://scifaro.com/en/abs/symmetric-saliency-based-adversarial-attack-to-speaker-identification-2210.167772023-02-28 https://scifaro.com/en/abs/adaptive-speech-quality-aware-complex-neural-network-for-acoustic-echo-cancellation-with-supervised-contrastive-learning-2210.167912022-11-10 https://scifaro.com/en/abs/srtnet-time-domain-speech-enhancement-via-stochastic-refinement-2210.168052022-11-01 https://scifaro.com/en/abs/tt-net-dual-path-transformer-based-sound-field-translation-in-the-spherical-harmonic-domain-2210.168492022-11-01 https://scifaro.com/en/abs/synthesizer-preset-interpolation-using-transformer-auto-encoders-2210.169842023-03-10 https://scifaro.com/en/abs/wespeaker-a-research-and-production-oriented-speaker-embedding-learning-toolkit-2210.170162022-11-02 https://scifaro.com/en/abs/joint-pre-training-with-speech-and-bilingual-text-for-direct-speech-to-speech-translation-2210.170272022-11-01 https://scifaro.com/en/abs/fusionformer-fusing-operations-in-transformer-for-efficient-streaming-speech-recognition-2210.170792022-11-01 https://scifaro.com/en/abs/structured-state-space-decoder-for-speech-recognition-and-synthesis-2210.170982022-11-01 https://scifaro.com/en/abs/exploring-train-and-test-time-augmentations-for-audio-language-learning-2210.171432023-05-24 https://scifaro.com/en/abs/audio-time-scale-modification-with-temporal-compressing-networks-2210.171522023-10-09 https://scifaro.com/en/abs/self-supervised-hierarchical-metrical-structure-modeling-2210.171832023-01-26 https://scifaro.com/en/abs/combining-automatic-speaker-verification-and-prosody-analysis-for-synthetic-speech-detection-2210.172222022-11-01 https://scifaro.com/en/abs/cross-lingual-text-to-speech-with-flow-based-voice-conversion-for-improved-pronunciation-2210.172642024-02-28 https://scifaro.com/en/abs/accentspeech-learning-accent-from-crowd-sourced-data-for-target-speaker-tts-with-accents-2210.173052022-11-01 https://scifaro.com/en/abs/robust-melgan-a-robust-universal-neural-vocoder-for-high-fidelity-tts-2210.173492022-11-03 https://scifaro.com/en/abs/analysis-and-detection-of-singing-techniques-in-repertoires-of-j-pop-solo-singers-2210.173672022-11-17 https://scifaro.com/en/abs/active-learning-of-non-semantic-speech-tasks-with-pretrained-models-2211.001192024-02-19 https://scifaro.com/en/abs/sdmuse-stochastic-differential-music-editing-and-generation-via-hybrid-representation-2211.002222022-11-03 https://scifaro.com/en/abs/investigating-content-aware-neural-text-to-speech-mos-prediction-using-prosodic-and-linguistic-features-2211.003422023-05-09 https://scifaro.com/en/abs/generating-multilingual-gender-ambiguous-text-to-speech-voices-2211.003752023-06-13 https://scifaro.com/en/abs/modelling-black-box-audio-effects-with-time-varying-feature-modulation-2211.004972023-05-11 https://scifaro.com/en/abs/trimtail-low-latency-streaming-asr-with-simple-but-effective-spectrogram-level-length-penalty-2211.005222023-01-24 https://scifaro.com/en/abs/learning-utterance-level-representations-through-token-level-acoustic-latents-prediction-for-expressive-speech-synthesis-2211.005232022-11-02 https://scifaro.com/en/abs/magnitude-or-phase-a-two-stage-algorithm-for-dereverberation-2211.006072022-11-02 https://scifaro.com/en/abs/unified-end-to-end-speech-recognition-and-endpointing-for-fast-and-efficient-speech-systems-2211.007862023-02-16 https://scifaro.com/en/abs/impact-of-annotation-modality-on-label-quality-and-model-performance-in-the-automatic-assessment-of-laughter-in-the-wild-2211.007942022-11-03 https://scifaro.com/en/abs/build-a-sre-challenge-system-lessons-from-voxsrc-2022-and-cnsrc-2022-2211.008152023-06-02 https://scifaro.com/en/abs/conversation-oriented-asr-with-multi-look-ahead-cbs-architecture-2211.008582022-11-03 https://scifaro.com/en/abs/pop2piano-pop-audio-based-piano-cover-generation-2211.008952023-04-04 https://scifaro.com/en/abs/simd-size-aware-weight-regularization-for-fast-neural-vocoding-on-cpu-2211.008982022-11-03 https://scifaro.com/en/abs/speechblender-speech-augmentation-framework-for-mispronunciation-data-generation-2211.009232023-07-13 https://scifaro.com/en/abs/fast-u2-fast-and-accurate-end-to-end-speech-recognition-in-joint-ctc-attention-frames-2211.009412022-11-03 https://scifaro.com/en/abs/multi-speaker-multi-style-speech-synthesis-with-timbre-and-style-disentanglement-2211.009672022-11-23 https://scifaro.com/en/abs/spectromap-peak-detection-algorithm-for-audio-fingerprinting-2211.009822023-05-03 https://scifaro.com/en/abs/a-weighted-variance-variational-autoencoder-model-for-speech-enhancement-2211.009902023-10-27 https://scifaro.com/en/abs/singing-voice-synthesis-with-vibrato-modeling-and-latent-energy-representation-2211.009962022-11-03 https://scifaro.com/en/abs/intermediate-fine-tuning-using-imperfect-synthetic-speech-for-improving-electrolaryngeal-speech-recognition-2211.010792023-05-31 https://scifaro.com/en/abs/dspgan-a-gan-based-universal-vocoder-for-high-fidelity-tts-by-time-frequency-domain-supervision-from-dsp-2211.010872023-05-30 https://scifaro.com/en/abs/audio-language-modeling-using-perceptually-guided-discrete-representations-2211.012232022-11-07 https://scifaro.com/en/abs/a-quantum-kernel-learning-approach-to-acoustic-modeling-for-spoken-command-recognition-2211.012632023-08-28 https://scifaro.com/en/abs/low-resource-music-genre-classification-with-cross-modal-neural-model-reprogramming-2211.013172023-05-04 https://scifaro.com/en/abs/predicting-phoneme-level-prosody-latents-using-ar-and-flow-based-prior-networks-for-expressive-speech-synthesis-2211.013272022-11-03 https://scifaro.com/en/abs/the-iscslp-2022-intelligent-cockpit-speech-recognition-challenge-icsrc-dataset-tracks-baseline-and-results-2211.015852022-11-04 https://scifaro.com/en/abs/iterative-autoregression-a-novel-trick-to-improve-your-low-latency-speech-enhancement-model-2211.017512023-12-06 https://scifaro.com/en/abs/hypersound-generating-implicit-neural-representations-of-audio-signals-with-hypernetworks-2211.018392024-01-26 https://scifaro.com/en/abs/dynamic-kernels-and-channel-attention-for-low-resource-speaker-verification-2211.020002023-02-28 https://scifaro.com/en/abs/real-time-target-sound-extraction-2211.022502023-04-20 https://scifaro.com/en/abs/wireless-deep-speech-semantic-transmission-2211.022832022-11-07 https://scifaro.com/en/abs/binaural-rendering-of-ambisonic-signals-by-neural-networks-2211.023012022-11-07 https://scifaro.com/en/abs/improving-speech-prosody-of-audiobook-text-to-speech-synthesis-with-acoustic-and-textual-contexts-2211.023362022-11-07 https://scifaro.com/en/abs/speaker-vgg-cct-cross-corpus-speech-emotion-recognition-with-speaker-embedding-and-vision-transformers-2211.023662022-11-07 https://scifaro.com/en/abs/norespeech-knowledge-distillation-based-conditional-diffusion-model-for-noise-robust-expressive-tts-2211.024482022-11-07 https://scifaro.com/en/abs/fast-and-efficient-speech-enhancement-with-variational-autoencoders-2211.027282022-11-08 https://scifaro.com/en/abs/visinger-2-high-fidelity-end-to-end-singing-voice-synthesis-enhanced-by-digital-signal-processing-synthesizer-2211.029032022-11-08 https://scifaro.com/en/abs/effective-audio-classification-network-based-on-paired-inverse-pyramid-structure-and-dense-mlp-block-2211.029402023-06-01 https://scifaro.com/en/abs/i-hear-your-true-colors-image-guided-audio-generation-2211.030892023-02-28 https://scifaro.com/en/abs/seeing-sound-audio-classification-with-the-wigner-wille-distribution-and-convolutional-neural-networks-2211.032022022-11-08 https://scifaro.com/en/abs/hi-kia-a-speech-emotion-recognition-dataset-for-wake-up-words-2211.033712022-11-08 https://scifaro.com/en/abs/egocentric-audio-visual-noise-suppression-2211.036432023-05-04 https://scifaro.com/en/abs/high-resolution-embedding-extractor-for-speaker-diarisation-2211.040602022-11-09 https://scifaro.com/en/abs/improving-performance-of-real-time-full-band-blind-packet-loss-concealment-with-predictive-network-2211.040712023-05-15 https://scifaro.com/en/abs/ber-balanced-error-rate-for-speaker-diarization-2211.043042022-11-09 https://scifaro.com/en/abs/towards-improved-room-impulse-response-estimation-for-speech-recognition-2211.044732023-03-21 https://scifaro.com/en/abs/improving-noisy-student-training-on-non-target-domain-data-for-automatic-speech-recognition-2211.047172023-03-02 https://scifaro.com/en/abs/efficient-large-scale-audio-tagging-via-transformer-to-cnn-knowledge-distillation-2211.047722023-06-26 https://scifaro.com/en/abs/global-and-local-optimization-beamforming-for-broadband-sources-2211.049212023-10-26 https://scifaro.com/en/abs/emofake-an-initial-dataset-for-emotion-fake-audio-detection-2211.053632024-07-25 https://scifaro.com/en/abs/ganstrument-adversarial-instrument-sound-synthesis-with-pitch-invariant-instance-conditioning-2211.053852023-03-08 https://scifaro.com/en/abs/speech-enhancement-with-fullband-subband-cross-attention-network-2211.054322022-11-11 https://scifaro.com/en/abs/privacy-utility-balanced-voice-de-identification-using-adversarial-examples-2211.054462022-11-11 https://scifaro.com/en/abs/vis2mus-exploring-multimodal-representation-mapping-for-controllable-music-generation-2211.055432022-11-11 https://scifaro.com/en/abs/optimal-condition-training-for-target-source-separation-2211.059272022-11-14 https://scifaro.com/en/abs/a-gait-triaging-toolkit-for-overlapping-acoustic-events-in-indoor-environments-2211.059442022-11-17 https://scifaro.com/en/abs/acoustic-pornography-recognition-using-convolutional-neural-networks-and-bag-of-refinements-2211.059832022-11-17 https://scifaro.com/en/abs/scenefake-an-initial-dataset-and-benchmarks-for-scene-fake-audio-detection-2211.060732024-04-05 https://scifaro.com/en/abs/maskedspeech-context-aware-speech-synthesis-with-masking-strategy-2211.061702023-05-19 https://scifaro.com/en/abs/on-the-robustness-of-non-intrusive-speech-quality-model-by-adversarial-examples-2211.065082022-11-15 https://scifaro.com/en/abs/low-pass-filtering-and-bandwidth-extension-for-robust-anti-spoofing-countermeasure-against-codec-variabilities-2211.065462022-11-15 https://scifaro.com/en/abs/improving-the-robustness-of-distilhubert-to-unseen-noisy-conditions-via-data-augmentation-curriculum-learning-and-multi-task-enhancement-2211.065622022-11-15 https://scifaro.com/en/abs/large-scale-contrastive-language-audio-pretraining-with-feature-fusion-and-keyword-to-caption-augmentation-2211.066872024-03-25 https://scifaro.com/en/abs/autovocoder-fast-waveform-generation-from-a-learned-speech-representation-using-differentiable-digital-signal-processing-2211.069892023-05-25 https://scifaro.com/en/abs/ym2413-mdb-a-multi-instrumental-fm-video-game-music-dataset-with-emotion-annotations-2211.071312022-11-15 https://scifaro.com/en/abs/exploiting-device-and-audio-data-to-tag-music-with-user-aware-listening-contexts-2211.072502022-11-15 https://scifaro.com/en/abs/medleyvox-an-evaluation-dataset-for-multiple-singing-voices-separation-2211.073022023-05-05 https://scifaro.com/en/abs/describing-emotions-with-acoustic-property-prompts-for-speech-emotion-recognition-2211.077372022-11-16 https://scifaro.com/en/abs/music-similarity-calculation-of-individual-instrumental-sounds-using-metric-learning-2211.078632022-11-16 https://scifaro.com/en/abs/show-me-the-instruments-musical-instrument-retrieval-from-mixture-audio-2211.079512022-11-16 https://scifaro.com/en/abs/ssm-net-feature-learning-for-music-structure-analysis-using-a-self-similarity-matrix-based-loss-2211.081412022-11-16 https://scifaro.com/en/abs/temporal-modeling-matters-a-novel-temporal-emotional-modeling-approach-for-speech-emotion-recognition-2211.082332023-10-03 https://scifaro.com/en/abs/multilingual-speech-emotion-recognition-with-multi-gating-mechanism-and-neural-architecture-search-2211.082372022-11-17 https://scifaro.com/en/abs/online-phase-reconstruction-via-dnn-based-phase-differences-estimation-2211.082462022-11-16 https://scifaro.com/en/abs/flowgrad-using-motion-for-visual-sound-source-localization-2211.083672023-04-18 https://scifaro.com/en/abs/music-instrument-classification-reprogrammed-2211.083792022-11-16 https://scifaro.com/en/abs/leveraging-heteroscedastic-uncertainty-in-learning-complex-spectral-mapping-for-single-channel-speech-enhancement-2211.086242023-03-09 https://scifaro.com/en/abs/pbsm-backdoor-attack-against-keyword-spotting-based-on-pitch-boosting-and-sound-masking-2211.086972022-11-17 https://scifaro.com/en/abs/exploring-detection-based-method-for-speaker-diarization-ego4d-audio-only-diarization-challenge-2022-2211.087082022-11-17 https://scifaro.com/en/abs/conditional-variational-autoencoder-to-improve-neural-audio-synthesis-for-polyphonic-music-sound-2211.087152022-11-17 https://scifaro.com/en/abs/speaker-adaptation-for-end-to-end-speech-recognition-systems-in-noisy-environments-2211.087742023-12-08 https://scifaro.com/en/abs/improving-speech-emotion-recognition-with-unsupervised-speaking-style-transfer-2211.088432023-12-29 https://scifaro.com/en/abs/rapid-connectionist-speaker-adaptation-2211.089782022-11-17 https://scifaro.com/en/abs/is-my-automatic-audio-captioning-system-so-bad-spider-max-a-metric-to-consider-several-caption-candidates-2211.089832022-11-17 https://scifaro.com/en/abs/psychophysiology-aided-perceptually-fluent-speech-analysis-of-children-who-stutter-2211.090892025-05-13 https://scifaro.com/en/abs/a-review-of-intelligent-music-generation-systems-2211.091242023-11-21 https://scifaro.com/en/abs/low-resource-mongolian-speech-synthesis-based-on-automatic-prosody-annotation-2211.093652023-01-05 https://scifaro.com/en/abs/balanced-deep-cca-for-bird-vocalization-detection-2211.093762022-11-18 https://scifaro.com/en/abs/token-level-speaker-change-detection-using-speaker-difference-and-speech-content-via-continuous-integrate-and-fire-2211.093812022-11-18 https://scifaro.com/en/abs/commu-dataset-for-combinatorial-music-generation-2211.093852022-11-18 https://scifaro.com/en/abs/nansy-unified-voice-synthesis-with-neural-analysis-and-synthesis-2211.094072022-11-18 https://scifaro.com/en/abs/longfnt-long-form-speech-recognition-with-factorized-neural-transducer-2211.094122022-11-18 https://scifaro.com/en/abs/back-translation-style-data-augmentation-for-mandarin-chinese-polyphone-disambiguation-2211.094952022-11-18 https://scifaro.com/en/abs/adaptive-representations-of-sound-for-automatic-insect-recognition-2211.095032022-11-18 https://scifaro.com/en/abs/heart-abnormality-detection-from-heart-sound-signals-using-mfcc-feature-and-dual-stream-attention-based-network-2211.097512022-11-18 https://scifaro.com/en/abs/robust-vocal-quality-feature-embeddings-for-dysphonic-voice-detection-2211.098582023-01-27 https://scifaro.com/en/abs/audio-anti-spoofing-using-a-simple-attention-module-and-joint-optimization-based-on-additive-angular-margin-loss-and-meta-learning-2211.098982022-11-21 https://scifaro.com/en/abs/multi-source-domain-adaptation-for-text-independent-forensic-speaker-recognition-2211.099132022-11-21 https://scifaro.com/en/abs/speaker-overlap-aware-neural-diarization-for-multi-party-meeting-analysis-2211.102432022-11-21 https://scifaro.com/en/abs/edge-editable-dance-generation-from-music-2211.106582022-11-29 https://scifaro.com/en/abs/phonemic-adversarial-attack-against-audio-recognition-in-real-world-2211.106612022-11-22 https://scifaro.com/en/abs/contrastive-regularization-for-multimodal-emotion-recognition-using-audio-and-text-2211.108852022-11-22 https://scifaro.com/en/abs/la-voce-low-snr-audio-visual-speech-enhancement-using-neural-vocoders-2211.109992023-03-14 https://scifaro.com/en/abs/exploring-the-efficacy-of-pre-trained-checkpoints-in-text-to-music-generation-task-2211.112162023-01-05 https://scifaro.com/en/abs/timbreclip-connecting-timbre-to-text-and-images-2211.112252022-11-22 https://scifaro.com/en/abs/sscformer-push-the-limit-of-chunk-wise-conformer-for-streaming-asr-using-sequentially-sampled-chunks-and-chunked-causal-convolution-2211.114192024-02-06 https://scifaro.com/en/abs/a-dataset-for-greek-traditional-and-folk-music-lyra-2211.114792022-11-22 https://scifaro.com/en/abs/latent-iterative-refinement-for-modular-source-separation-2211.119172023-10-17 https://scifaro.com/en/abs/disentangled-feature-learning-for-real-time-neural-speech-coding-2211.119602023-02-28 https://scifaro.com/en/abs/taylorbeamixer-learning-taylor-inspired-all-neural-multi-channel-speech-enhancement-from-beam-space-dictionary-perspective-2211.120242022-12-01 https://scifaro.com/en/abs/robust-training-for-speaker-verification-against-noisy-labels-2211.120802026-04-29 https://scifaro.com/en/abs/aero-audio-super-resolution-in-the-spectral-domain-2211.122322023-02-28 https://scifaro.com/en/abs/tf-gridnet-integrating-full-and-sub-band-modeling-for-speech-separation-2211.124332023-08-07 https://scifaro.com/en/abs/imasc-icfoss-malayalam-speech-corpus-2211.127962022-11-24 https://scifaro.com/en/abs/on-the-typicality-of-musical-sequences-2211.130162022-11-24 https://scifaro.com/en/abs/asit-local-global-audio-spectrogram-vision-transformer-for-event-classification-2211.131892024-08-15 https://scifaro.com/en/abs/voice-preserving-zero-shot-multiple-accent-conversion-2211.132822023-10-17 https://scifaro.com/en/abs/tessp-text-enhanced-self-supervised-speech-pre-training-2211.134432022-11-28 https://scifaro.com/en/abs/can-knowledge-of-end-to-end-text-to-speech-models-improve-neural-midi-to-audio-synthesis-systems-2211.138682023-03-22 https://scifaro.com/en/abs/efficient-incremental-text-to-speech-on-gpus-2211.139392022-12-06 https://scifaro.com/en/abs/learning-general-audio-representations-with-large-scale-training-of-patchout-audio-transformers-2211.139562023-03-03 https://scifaro.com/en/abs/puffin-pitch-synchronous-neural-waveform-generation-for-fullband-speech-on-modest-devices-2211.141302023-06-09 https://scifaro.com/en/abs/automated-detection-of-dolphin-whistles-with-convolutional-networks-and-transfer-learning-2211.154062025-07-29 https://scifaro.com/en/abs/musfa-improving-music-structural-function-analysis-with-partially-labeled-data-2211.157872022-11-30 https://scifaro.com/en/abs/ok-computer-analysis-an-audio-corpus-study-of-radiohead-2211.158342022-11-30 https://scifaro.com/en/abs/neural-vocoder-feature-estimation-for-dry-singing-voice-separation-2211.159482022-11-30 https://scifaro.com/en/abs/neural-speech-phase-prediction-based-on-parallel-estimation-architecture-and-anti-wrapping-losses-2211.159742023-02-17 https://scifaro.com/en/abs/model-extraction-attack-against-self-supervised-speech-models-2211.160442023-10-10 https://scifaro.com/en/abs/controllable-speech-synthesis-by-learning-discrete-phoneme-level-prosodic-representations-2211.163072022-11-30 https://scifaro.com/en/abs/a-general-unfolding-speech-enhancement-method-motivated-by-taylor-s-theorem-2211.167642023-03-29 https://scifaro.com/en/abs/how-to-virtually-train-your-speaker-localizer-2211.169582023-05-26 https://scifaro.com/en/abs/topological-data-analysis-for-speech-processing-2211.172232023-09-12 https://scifaro.com/en/abs/deep-neural-network-techniques-for-monaural-speech-enhancement-state-of-the-art-analysis-2212.003692023-06-21 https://scifaro.com/en/abs/a-domain-knowledge-inspired-music-embedding-space-and-a-novel-attention-mechanism-for-symbolic-music-modeling-2212.009732025-06-18 https://scifaro.com/en/abs/sonus-texere-automated-dense-soundtrack-construction-for-books-using-movie-adaptations-2212.010332022-12-05 https://scifaro.com/en/abs/accear-accelerometer-acoustic-eavesdropping-with-unconstrained-vocabulary-2212.010422022-12-05 https://scifaro.com/en/abs/neal-an-open-source-tool-for-audio-annotation-2212.014572022-12-09 https://scifaro.com/en/abs/unisyn-an-end-to-end-unified-model-for-text-to-speech-and-singing-voice-synthesis-2212.015462022-12-07 https://scifaro.com/en/abs/generative-models-for-improved-naturalness-intelligibility-and-voicing-of-whispered-speech-2212.017752023-01-31 https://scifaro.com/en/abs/melody-transcription-via-generative-pre-training-2212.018842022-12-06 https://scifaro.com/en/abs/speech-mos-multi-task-learning-and-rater-bias-correction-2212.019112022-12-06 https://scifaro.com/en/abs/nbc2-multichannel-speech-separation-with-revised-narrow-band-conformer-2212.020762022-12-06 https://scifaro.com/en/abs/end-to-end-recording-device-identification-based-on-deep-representation-learning-2212.020842022-12-06 https://scifaro.com/en/abs/dear-a-deep-learning-based-audio-re-recording-resilient-watermarking-2212.023392023-04-04 https://scifaro.com/en/abs/map-music2vec-a-simple-and-effective-baseline-for-self-supervised-music-audio-representation-learning-2212.025082022-12-07 https://scifaro.com/en/abs/audio-latent-space-cartography-2212.026102022-12-08 https://scifaro.com/en/abs/covariance-regularization-for-probabilistic-linear-discriminant-analysis-2212.030392022-12-07 https://scifaro.com/en/abs/label-free-knowledge-distillation-with-contrastive-loss-for-light-weight-speaker-recognition-2212.030902022-12-07 https://scifaro.com/en/abs/improve-bilingual-tts-using-dynamic-language-and-phonology-embedding-2212.034352022-12-08 https://scifaro.com/en/abs/variational-speech-waveform-compression-to-catalyze-semantic-communications-2212.052942022-12-14 https://scifaro.com/en/abs/leveraging-modality-specific-representations-for-audio-visual-speech-recognition-via-reinforcement-learning-2212.053012023-02-03 https://scifaro.com/en/abs/a-comparison-of-audio-preprocessing-techniques-and-deep-learning-algorithms-for-raga-recognition-2212.053352022-12-13 https://scifaro.com/en/abs/towards-trustworthy-phoneme-boundary-detection-with-autoregressive-model-and-improved-evaluation-metric-2212.063872022-12-14 https://scifaro.com/en/abs/style-label-free-cross-speaker-style-transfer-by-quantized-vae-and-speaker-wise-normalization-in-speech-synthesis-2212.063972022-12-14 https://scifaro.com/en/abs/disentangling-prosody-representations-with-unsupervised-speech-reconstruction-2212.069722023-09-27 https://scifaro.com/en/abs/clipsep-learning-text-queried-sound-separation-with-noisy-unlabeled-videos-2212.070652023-03-07 https://scifaro.com/en/abs/multi-scale-feature-fusion-transformer-network-for-end-to-end-single-channel-speech-separation-2212.071632022-12-15 https://scifaro.com/en/abs/a-large-scale-and-pcr-referenced-vocal-audio-dataset-for-covid-19-2212.077382023-11-06 https://scifaro.com/en/abs/towards-unified-all-neural-beamforming-for-time-and-frequency-domain-speech-separation-2212.083482022-12-27 https://scifaro.com/en/abs/audio-based-ai-classifiers-show-no-evidence-of-improved-covid-19-screening-over-simple-symptoms-checkers-2212.085702023-03-03 https://scifaro.com/en/abs/statistical-design-and-analysis-for-robust-machine-learning-a-case-study-from-covid-19-2212.085712023-02-28 https://scifaro.com/en/abs/source-tracing-detecting-voice-spoofing-2212.086012022-12-19 https://scifaro.com/en/abs/learning-from-taxonomy-multi-label-few-shot-classification-for-everyday-sound-recognition-2212.089522022-12-20 https://scifaro.com/en/abs/a-review-of-speech-centric-trustworthy-machine-learning-privacy-safety-and-fairness-2212.090062023-05-09 https://scifaro.com/en/abs/exploring-workplace-behaviors-through-speaking-patterns-using-large-scale-multimodal-wearable-recordings-a-study-of-healthcare-providers-2212.090902022-12-20 https://scifaro.com/en/abs/speaking-style-conversion-in-the-waveform-domain-using-discrete-self-supervised-units-2212.097302023-10-20 https://scifaro.com/en/abs/exploring-effective-fusion-algorithms-for-speech-based-self-supervised-learning-models-2212.100922022-12-21 https://scifaro.com/en/abs/visual-transformers-for-primates-classification-and-covid-detection-2212.100932022-12-21 https://scifaro.com/en/abs/vsvc-backdoor-attack-against-keyword-spotting-based-on-voiceprint-selection-and-voice-conversion-2212.101032022-12-21 https://scifaro.com/en/abs/emotion-selectable-end-to-end-text-based-speech-editing-2212.101912022-12-21 https://scifaro.com/en/abs/hopf-physical-reservoir-computer-for-reconfigurable-sound-recognition-2212.103702023-01-30 https://scifaro.com/en/abs/an-audio-visual-speech-separation-model-inspired-by-cortico-thalamo-cortical-circuits-2212.107442024-03-26 https://scifaro.com/en/abs/4d-asr-joint-modeling-of-ctc-attention-transducer-and-mask-predict-decoders-2212.108182023-05-31 https://scifaro.com/en/abs/alcap-alignment-augmented-music-captioner-2212.109012023-10-24 https://scifaro.com/en/abs/polytopic-analysis-of-music-2212.110542022-12-23 https://scifaro.com/en/abs/generating-music-with-sentiment-using-transformer-gans-2212.111342022-12-22 https://scifaro.com/en/abs/audio-denoising-for-robust-audio-fingerprinting-2212.112772022-12-23 https://scifaro.com/en/abs/earspy-spying-caller-speech-and-identity-through-tiny-vibrations-of-smartphone-ear-speakers-2212.121512022-12-26 https://scifaro.com/en/abs/feature-selection-approaches-for-optimising-music-emotion-recognition-methods-2212.133692022-12-29 https://scifaro.com/en/abs/voice-conversion-with-limited-data-and-limitless-data-augmentations-2212.135812022-12-29 https://scifaro.com/en/abs/multi-modal-deep-learning-system-for-depression-and-anxiety-detection-2212.144902023-01-02 https://scifaro.com/en/abs/defense-against-adversarial-attacks-on-audio-deepfake-detection-2212.145972023-06-13 https://scifaro.com/en/abs/blind-restoration-of-real-world-audio-by-1d-operational-gans-2212.146182023-01-23 https://scifaro.com/en/abs/emogator-a-new-open-source-vocal-burst-dataset-with-baseline-machine-learning-classification-methodologies-2301.005082023-04-07 https://scifaro.com/en/abs/language-models-are-drummers-drum-composition-with-natural-language-pre-training-2301.011622023-01-04 https://scifaro.com/en/abs/an-ensemble-based-framework-for-mispronunciation-detection-of-arabic-phonemes-2301.013782023-01-05 https://scifaro.com/en/abs/validity-in-music-information-research-experiments-2301.015782023-01-05 https://scifaro.com/en/abs/multi-genre-music-transformer-composing-full-length-musical-piece-2301.023852023-01-09 https://scifaro.com/en/abs/multimodal-lyrics-rhythm-matching-2301.027322025-07-10 https://scifaro.com/en/abs/tunesformer-forming-irish-tunes-with-control-codes-by-bar-patching-2301.028842023-12-13 https://scifaro.com/en/abs/perceptual-neural-physical-sound-matching-2301.028862023-03-14 https://scifaro.com/en/abs/introducing-model-inversion-attacks-on-automatic-speaker-recognition-2301.032062023-01-10 https://scifaro.com/en/abs/generative-emotional-ai-for-speech-emotion-recognition-the-case-for-synthetic-emotional-speech-augmentation-2301.037512023-01-11 https://scifaro.com/en/abs/unifyspeech-a-unified-framework-for-zero-shot-text-to-speech-and-voice-conversion-2301.038012023-01-11 https://scifaro.com/en/abs/rethinking-complex-valued-deep-neural-networks-for-monaural-speech-enhancement-2301.043202023-01-12 https://scifaro.com/en/abs/perceive-and-predict-self-supervised-speech-representation-based-loss-functions-for-speech-enhancement-2301.043882023-06-27 https://scifaro.com/en/abs/wuyun-exploring-hierarchical-skeleton-guided-melody-generation-using-knowledge-enhanced-deep-learning-2301.044882023-03-15 https://scifaro.com/en/abs/acoustic-correlates-of-the-syllabic-rhythm-of-speech-modulation-spectrum-or-local-features-of-the-temporal-envelope-2301.058982023-10-13 https://scifaro.com/en/abs/an-order-complexity-model-for-aesthetic-quality-assessment-of-symbolic-homophony-music-scores-2301.059082023-01-18 https://scifaro.com/en/abs/training-one-model-to-detect-heart-and-lung-sound-events-from-single-point-auscultations-2301.060782023-01-18 https://scifaro.com/en/abs/what-artificial-intelligence-might-teach-us-about-the-origin-of-human-language-2301.062112023-01-18 https://scifaro.com/en/abs/improving-target-speaker-extraction-with-sparse-lda-transformed-speaker-embeddings-2301.062772023-01-18 https://scifaro.com/en/abs/msanii-high-fidelity-music-synthesis-on-a-shoestring-budget-2301.064682023-01-18 https://scifaro.com/en/abs/the-newsbridge-telecom-sudparis-voxceleb-speaker-recognition-challenge-2022-system-description-2301.074912023-01-19 https://scifaro.com/en/abs/an-investigation-of-the-reconstruction-capacity-of-stacked-convolutional-autoencoders-for-log-mel-spectrograms-2301.076652023-01-19 https://scifaro.com/en/abs/from-english-to-more-languages-parameter-efficient-model-reprogramming-for-cross-lingual-speech-recognition-2301.078512023-06-30 https://scifaro.com/en/abs/thlnet-two-stage-heterogeneous-lightweight-network-for-monaural-speech-enhancement-2301.079392023-05-22 https://scifaro.com/en/abs/spothitpy-a-study-for-ml-based-song-hit-prediction-using-spotify-2301.079782023-01-20 https://scifaro.com/en/abs/adjoint-based-identification-of-sound-sources-for-sound-reinforcement-and-source-localization-2301.086202023-01-23 https://scifaro.com/en/abs/cellular-network-speech-enhancement-removing-background-and-transmission-noise-2301.090272023-01-24 https://scifaro.com/en/abs/a-comprehensive-survey-on-heart-sound-analysis-in-the-deep-learning-era-2301.093622024-05-14 https://scifaro.com/en/abs/deep-attention-based-alignment-network-for-melody-generation-from-incomplete-lyrics-2301.100152023-01-25 https://scifaro.com/en/abs/mesostructures-beyond-spectrogram-loss-in-differentiable-time-frequency-analysis-2301.101832023-01-25 https://scifaro.com/en/abs/multilingual-multiaccented-multispeaker-tts-with-radtts-2301.103352023-01-26 https://scifaro.com/en/abs/hear4health-a-blueprint-for-making-computer-audition-a-staple-of-modern-healthcare-2301.104772023-01-26 https://scifaro.com/en/abs/on-batching-variable-size-inputs-for-training-end-to-end-speech-enhancement-systems-2301.105872023-11-09 https://scifaro.com/en/abs/musiclm-generating-music-from-text-2301.113252023-01-27 https://scifaro.com/en/abs/automated-arrangements-of-multi-part-music-for-sets-of-monophonic-instruments-2301.120842023-01-31 https://scifaro.com/en/abs/who-is-snoring-snore-based-user-recognition-2301.122092023-01-31 https://scifaro.com/en/abs/achieving-timestamp-prediction-while-recognizing-with-non-autoregressive-end-to-end-asr-model-2301.123432023-01-31 https://scifaro.com/en/abs/artistic-curve-steganography-carried-by-musical-audio-2301.123542023-01-31 https://scifaro.com/en/abs/audioldm-text-to-audio-generation-with-latent-diffusion-models-2301.125032023-09-12 https://scifaro.com/en/abs/composer-s-assistant-an-interactive-transformer-for-multi-track-midi-infilling-2301.125252023-07-18 https://scifaro.com/en/abs/make-an-audio-text-to-audio-generation-with-prompt-enhanced-diffusion-models-2301.126612023-01-31 https://scifaro.com/en/abs/singsong-generating-musical-accompaniments-from-singing-2301.126622023-01-31 https://scifaro.com/en/abs/archisound-audio-generation-with-diffusion-2301.132672023-02-01 https://scifaro.com/en/abs/automated-time-frequency-domain-audio-crossfades-using-graph-cuts-2301.133802023-02-01 https://scifaro.com/en/abs/an-comparative-analysis-of-different-pitch-and-metrical-grid-encoding-methods-in-the-task-of-sequential-music-generation-2301.133832023-02-01 https://scifaro.com/en/abs/instructtts-modelling-expressive-tts-in-discrete-latent-space-with-natural-language-style-prompt-2301.136622023-06-27 https://scifaro.com/en/abs/jointist-simultaneous-improvement-of-multi-instrument-transcription-and-music-source-separation-via-joint-training-2302.002862023-02-03 https://scifaro.com/en/abs/epic-sounds-a-large-scale-dataset-of-actions-that-sound-2302.006462025-07-17 https://scifaro.com/en/abs/speech-enhancement-for-virtual-meetings-on-cellular-networks-2302.008682023-02-17 https://scifaro.com/en/abs/goniometers-are-a-powerful-acoustic-feature-for-music-information-retrieval-tasks-2302.010902023-08-17 https://scifaro.com/en/abs/multi-source-diffusion-models-for-simultaneous-music-generation-and-separation-2302.022572024-03-19 https://scifaro.com/en/abs/audio-representation-learning-by-distilling-video-as-privileged-information-2302.028452023-02-07 https://scifaro.com/en/abs/improved-vehicle-sub-type-classification-for-acoustic-traffic-monitoring-2302.029452023-02-07 https://scifaro.com/en/abs/speak-read-and-prompt-high-fidelity-text-to-speech-with-minimal-supervision-2302.035402023-02-08 https://scifaro.com/en/abs/noise2music-text-conditioned-music-generation-with-diffusion-models-2302.039172023-03-07 https://scifaro.com/en/abs/ernie-music-text-to-waveform-music-generation-with-diffusion-models-2302.044562023-09-22 https://scifaro.com/en/abs/joint-acoustic-echo-cancellation-and-speech-dereverberation-using-kalman-filters-2302.044692023-02-10 https://scifaro.com/en/abs/incorporating-total-variation-regularization-in-the-design-of-an-intelligent-query-by-humming-system-2302.045772023-02-10 https://scifaro.com/en/abs/gtr-ctrl-instrument-and-genre-conditioning-for-guitar-focused-music-generation-with-transformers-2302.053932023-02-13 https://scifaro.com/en/abs/attention-does-not-guarantee-best-performance-in-speech-enhancement-2302.056902023-02-14 https://scifaro.com/en/abs/local-spectral-attention-for-full-band-speech-enhancement-2302.056932023-02-14 https://scifaro.com/en/abs/parameterizable-acoustical-modeling-and-auralization-of-cultural-heritage-sites-based-on-photogrammetry-2302.057252023-02-14 https://scifaro.com/en/abs/semanticac-semantics-assisted-framework-for-audio-classification-2302.059402023-02-14 https://scifaro.com/en/abs/detection-and-classification-of-vocal-productions-in-large-scale-audio-recordings-2302.076402023-08-14 https://scifaro.com/en/abs/paaploss-a-phonetic-aligned-acoustic-parameter-loss-for-speech-enhancement-2302.080952023-02-17 https://scifaro.com/en/abs/personalized-audio-quality-preference-prediction-2302.081302023-02-17 https://scifaro.com/en/abs/an-attention-based-approach-to-hierarchical-multi-label-music-instrument-classification-2302.081362023-02-17 https://scifaro.com/en/abs/ace-vc-adaptive-and-controllable-voice-conversion-using-explicitly-disentangled-self-supervised-speech-representations-2302.081372023-02-17 https://scifaro.com/en/abs/quickvc-any-to-many-voice-conversion-using-inverse-short-time-fourier-transform-for-faster-conversion-2302.082962023-02-24 https://scifaro.com/en/abs/jazznet-a-dataset-of-fundamental-piano-patterns-for-music-audio-machine-learning-research-2302.086322023-02-20 https://scifaro.com/en/abs/gaussian-smoothed-imbalance-data-improves-speech-emotion-recognition-2302.086502023-02-20 https://scifaro.com/en/abs/lip-to-speech-synthesis-in-the-wild-with-multi-task-learning-2302.088412023-02-20 https://scifaro.com/en/abs/deep-implicit-distribution-alignment-networks-for-cross-corpus-speech-emotion-recognition-2302.089212023-02-20 https://scifaro.com/en/abs/exposing-ai-synthesized-human-voices-using-neural-vocoder-artifacts-2302.091982023-04-28 https://scifaro.com/en/abs/cost-effective-models-for-detecting-depression-from-speech-2302.092142023-02-21 https://scifaro.com/en/abs/a-sidecar-separator-can-convert-a-single-talker-speech-recognition-system-to-a-multi-talker-one-2302.099082023-03-07 https://scifaro.com/en/abs/towards-measuring-and-scoring-speaker-diarization-fairness-2302.099912023-02-21 https://scifaro.com/en/abs/voxsrc-2022-the-fourth-voxceleb-speaker-recognition-challenge-2302.102482023-03-07 https://scifaro.com/en/abs/pykanto-a-python-library-to-accelerate-research-on-wild-bird-song-2302.103402023-06-12 https://scifaro.com/en/abs/nonparallel-emotional-voice-conversion-for-unseen-speaker-emotion-pairs-using-dual-domain-adversarial-network-virtual-domain-pairing-2302.105362023-02-22 https://scifaro.com/en/abs/dasformer-deep-alternating-spectrogram-transformer-for-multi-single-channel-speech-separation-2302.106572023-03-15 https://scifaro.com/en/abs/interpretable-spectrum-transformation-attacks-to-speaker-recognition-2302.106862023-02-22 https://scifaro.com/en/abs/a-reinforcement-learning-framework-for-online-speaker-diarization-2302.109242023-02-23 https://scifaro.com/en/abs/do-orcas-have-semantic-language-machine-learning-to-predict-orca-behaviors-using-partially-labeled-vocalization-data-2302.109832023-02-23 https://scifaro.com/en/abs/improving-contextual-spelling-correction-by-external-acoustics-attention-and-semantic-aware-data-augmentation-2302.111922023-02-23 https://scifaro.com/en/abs/cross-modal-audio-visual-co-learning-for-text-independent-speaker-verification-2302.112542023-02-23 https://scifaro.com/en/abs/advancing-stuttering-detection-via-data-augmentation-class-balanced-loss-and-multi-contextual-deep-learning-2302.113432023-02-23 https://scifaro.com/en/abs/improving-speech-enhancement-via-event-based-query-2302.115582023-02-27 https://scifaro.com/en/abs/mossformer-pushing-the-performance-limit-of-monaural-speech-separation-using-gated-single-head-transformer-with-convolution-augmented-joint-self-attentions-2302.118242023-02-24 https://scifaro.com/en/abs/d2former-a-fully-complex-dual-path-dual-decoder-conformer-network-using-joint-complex-masking-and-complex-spectral-mapping-for-monaural-speech-enhancement-2302.118322023-02-24 https://scifaro.com/en/abs/unsupervised-noise-adaptation-using-data-simulation-2302.119812023-02-24 https://scifaro.com/en/abs/metric-oriented-speech-enhancement-using-diffusion-probabilistic-model-2302.119892023-02-24 https://scifaro.com/en/abs/data-leakage-in-cross-modal-retrieval-training-a-case-study-2302.122582023-08-29 https://scifaro.com/en/abs/catch-you-and-i-can-revealing-source-voiceprint-against-voice-conversion-2302.124342023-02-27 https://scifaro.com/en/abs/supervised-hierarchical-clustering-using-graph-neural-networks-for-speaker-diarization-2302.127162023-02-27 https://scifaro.com/en/abs/towards-multi-task-learning-of-speech-and-speaker-recognition-2302.127732023-05-29 https://scifaro.com/en/abs/speaker-recognition-in-realistic-scenario-using-multimodal-data-2302.130332023-02-28 https://scifaro.com/en/abs/two-stream-joint-training-for-speaker-independent-acoustic-to-articulatory-inversion-2302.132732023-02-28 https://scifaro.com/en/abs/mingling-or-misalignment-temporal-shift-for-speech-emotion-recognition-with-pre-trained-representations-2302.132772023-03-02 https://scifaro.com/en/abs/contrast-plc-contrastive-learning-for-packet-loss-concealment-2302.132842023-02-28 https://scifaro.com/en/abs/implementation-of-an-aeroacoustic-simulation-pipeline-using-opencfs-acoustics-and-opencfs-data-applied-to-human-phonation-2302.132902023-02-28 https://scifaro.com/en/abs/multi-modality-in-music-predicting-emotion-in-music-from-high-level-audio-features-and-lyrics-2302.133212023-02-28 https://scifaro.com/en/abs/from-audio-to-symbolic-encoding-2302.134012023-02-28 https://scifaro.com/en/abs/a-low-latency-attention-module-for-streaming-self-supervised-speech-representation-learning-2302.134512024-03-19 https://scifaro.com/en/abs/3d-neural-beamforming-for-multi-channel-speech-separation-against-location-uncertainty-2302.134622023-02-28 https://scifaro.com/en/abs/ve-kws-visual-modality-enhanced-end-to-end-keyword-spotting-2302.135232023-03-15 https://scifaro.com/en/abs/continuous-descriptor-based-control-for-deep-audio-synthesis-2302.135422023-02-28 https://scifaro.com/en/abs/a-comparative-analysis-of-latent-regressor-losses-for-singing-voice-conversion-2302.136782023-02-28 https://scifaro.com/en/abs/dst-deformable-speech-transformer-for-emotion-recognition-2302.137292023-02-28 https://scifaro.com/en/abs/phone-and-speaker-spatial-organization-in-self-supervised-speech-representations-2302.140552023-09-22 https://scifaro.com/en/abs/explanations-for-automatic-speech-recognition-2302.140622023-03-01 https://scifaro.com/en/abs/halluaudio-hallucinating-frequency-as-concepts-for-few-shot-audio-classification-2302.142042023-03-01 https://scifaro.com/en/abs/adapter-incremental-continual-learning-of-efficient-audio-spectrogram-transformers-2302.143142024-01-03 https://scifaro.com/en/abs/crossspeech-speaker-independent-acoustic-representation-for-cross-lingual-speech-synthesis-2302.143702023-06-13 https://scifaro.com/en/abs/exploring-self-supervised-pre-trained-asr-models-for-dysarthric-and-elderly-speech-recognition-2302.145642023-06-23 https://scifaro.com/en/abs/dehubert-disentangling-noise-in-a-self-supervised-model-for-robust-speech-recognition-2302.145972023-03-01 https://scifaro.com/en/abs/pcf-ecapa-tdnn-with-progressive-channel-fusion-for-speaker-verification-2303.002042023-03-02 https://scifaro.com/en/abs/distance-based-weight-transfer-from-near-field-to-far-field-speaker-verification-2303.002642023-03-16 https://scifaro.com/en/abs/cam-a-fast-and-efficient-network-for-speaker-verification-using-context-aware-masking-2303.003322023-06-19 https://scifaro.com/en/abs/on-the-audio-visual-synchronization-for-lip-to-speech-synthesis-2303.005022023-03-02 https://scifaro.com/en/abs/a-comparison-of-speech-data-augmentation-methods-using-s3prl-toolkit-2303.005102024-04-01 https://scifaro.com/en/abs/whisperx-time-accurate-speech-transcription-of-long-form-audio-2303.007472023-07-12 https://scifaro.com/en/abs/distilling-multi-level-x-vector-knowledge-for-small-footprint-speaker-verification-2303.011252023-12-21 https://scifaro.com/en/abs/speaker-aware-anti-spoofing-2303.011262023-06-09 https://scifaro.com/en/abs/learning-from-yourself-a-self-distillation-method-for-fake-speech-detection-2303.012112023-03-03 https://scifaro.com/en/abs/defending-against-adversarial-audio-via-diffusion-model-2303.015072023-03-06 https://scifaro.com/en/abs/fine-grained-emotional-control-of-text-to-speech-learning-to-rank-inter-and-intra-class-emotion-intensities-2303.015082023-03-14 https://scifaro.com/en/abs/wesper-zero-shot-and-realtime-whisper-to-normal-voice-conversion-for-whisper-based-speech-interactions-2303.016392023-03-06 https://scifaro.com/en/abs/miipher-a-robust-speech-restoration-model-integrating-self-supervised-speech-and-text-representations-2303.016642023-08-15 https://scifaro.com/en/abs/loopergp-a-loopable-sequence-model-for-live-coding-performance-using-guitarpro-tablature-2303.016652023-03-06 https://scifaro.com/en/abs/dwformer-dynamic-window-transformer-for-speech-emotion-recognition-2303.016942023-03-06 https://scifaro.com/en/abs/unified-keyword-spotting-and-audio-tagging-on-mobile-devices-with-transformers-2303.018122023-03-06 https://scifaro.com/en/abs/spectrogram-inversion-for-audio-source-separation-via-consistency-mixing-and-magnitude-constraints-2303.018642023-07-03 https://scifaro.com/en/abs/decoding-and-visualising-intended-emotion-in-an-expressive-piano-performance-2303.018752023-03-06 https://scifaro.com/en/abs/low-complexity-audio-embedding-extractors-2303.018792023-06-26 https://scifaro.com/en/abs/automatch-a-large-scale-audio-beat-matching-benchmark-for-boosting-deep-learning-assistant-video-editing-2303.018842023-03-06 https://scifaro.com/en/abs/the-dku-post-challenge-audio-visual-wake-word-spotting-system-for-the-2021-misp-challenge-deep-analysis-2303.023482023-03-07 https://scifaro.com/en/abs/a-general-framework-for-learning-procedural-audio-models-of-environmental-sounds-2303.023962023-03-07 https://scifaro.com/en/abs/hybrid-y-net-architecture-for-singing-voice-separation-2303.025992023-03-07 https://scifaro.com/en/abs/heterogeneous-graph-learning-for-acoustic-event-classification-2303.026652023-03-14 https://scifaro.com/en/abs/time-frequency-network-for-robust-speaker-recognition-2303.026732023-03-08 https://scifaro.com/en/abs/scaling-strategies-for-on-device-low-complexity-source-separation-with-conv-tasnet-2303.030052023-03-07 https://scifaro.com/en/abs/utilizing-synthetic-training-data-for-the-supervised-classification-of-rat-ultrasonic-vocalizations-2303.031832024-01-22 https://scifaro.com/en/abs/approach-to-learning-generalized-audio-representation-through-batch-embedding-covariance-regularization-and-constant-q-transforms-2303.035912023-03-08 https://scifaro.com/en/abs/face-fast-accurate-and-context-aware-audio-annotation-and-classification-2303.036662023-03-08 https://scifaro.com/en/abs/improving-self-supervised-learning-for-audio-representations-by-feature-diversity-and-decorrelation-2303.037172023-03-08 https://scifaro.com/en/abs/a-multi-stage-triple-path-method-for-speech-separation-in-noisy-and-reverberant-environments-2303.037322023-03-08 https://scifaro.com/en/abs/multi-dimensional-and-multi-scale-modeling-for-speech-separation-optimized-by-discriminative-learning-2303.037372023-03-08 https://scifaro.com/en/abs/leveraging-pre-trained-audioldm-for-sound-generation-a-benchmark-study-2303.038572024-07-30 https://scifaro.com/en/abs/danceanyway-synthesizing-beat-guided-3d-dances-with-randomized-temporal-contrastive-learning-2303.038702024-11-26 https://scifaro.com/en/abs/an-inception-residual-based-architecture-with-multi-objective-loss-for-detecting-respiratory-anomalies-2303.041042023-06-21 https://scifaro.com/en/abs/self-supervised-speech-representation-learning-for-keyword-spotting-with-light-weight-transformers-2303.042552023-03-09 https://scifaro.com/en/abs/onsets-and-velocities-affordable-real-time-piano-transcription-using-convolutional-neural-networks-2303.044852023-06-02 https://scifaro.com/en/abs/exploring-efficient-tuned-learning-audio-representation-method-from-brivl-2303.045852023-08-08 https://scifaro.com/en/abs/hierarchical-network-with-decoupled-knowledge-distillation-for-speech-emotion-recognition-2303.051342023-03-10 https://scifaro.com/en/abs/improving-few-shot-learning-for-talking-face-system-with-tts-data-augmentation-2303.053222023-03-10 https://scifaro.com/en/abs/mmcosine-multi-modal-cosine-loss-towards-balanced-audio-visual-fine-grained-learning-2303.053382023-03-14 https://scifaro.com/en/abs/told-a-novel-two-stage-overlap-aware-framework-for-speaker-diarization-2303.053972023-12-14 https://scifaro.com/en/abs/improving-weakly-supervised-sound-event-detection-with-causal-intervention-2303.056782023-03-13 https://scifaro.com/en/abs/improving-text-audio-retrieval-by-text-aware-attention-pooling-and-prior-matrix-revised-loss-2303.056812023-03-31 https://scifaro.com/en/abs/mixpgd-hybrid-adversarial-training-for-speech-recognition-systems-2303.057582023-03-13 https://scifaro.com/en/abs/tayloraecnet-a-taylor-style-neural-network-for-full-band-echo-cancellation-2303.063792023-10-10 https://scifaro.com/en/abs/analysing-the-masked-predictive-coding-training-criterion-for-pre-training-a-speech-representation-model-2303.069822024-01-12 https://scifaro.com/en/abs/a-two-stage-speaker-extraction-algorithm-under-adverse-acoustic-conditions-using-a-single-microphone-2303.070722023-03-14 https://scifaro.com/en/abs/vani-very-lightweight-accent-controllable-tts-for-native-and-non-native-speakers-with-identity-preservation-2303.075782023-03-15 https://scifaro.com/en/abs/cat-causal-audio-transformer-for-audio-classification-2303.076262023-03-15 https://scifaro.com/en/abs/feature-rich-audio-model-inversion-for-data-free-knowledge-distillation-towards-general-sound-classification-2303.076432023-03-15 https://scifaro.com/en/abs/improving-music-genre-classification-from-multi-modal-properties-of-music-and-genre-correlations-perspective-2303.076672023-06-13 https://scifaro.com/en/abs/qi-tts-questioning-intonation-control-for-emotional-speech-synthesis-2303.076822023-03-15 https://scifaro.com/en/abs/dynamic-alignment-mask-ctc-improved-mask-ctc-with-aligned-cross-entropy-2303.076872023-03-15 https://scifaro.com/en/abs/improving-prosody-for-cross-speaker-style-transfer-by-semi-supervised-style-extractor-and-hierarchical-modeling-in-speech-synthesis-2303.077112023-03-15 https://scifaro.com/en/abs/diffuseroll-multi-track-multi-category-music-generation-based-on-diffusion-model-2303.077942023-03-15 https://scifaro.com/en/abs/blat-bootstrapping-language-audio-pre-training-based-on-audioset-tag-guided-synthetic-data-2303.079022024-03-06 https://scifaro.com/en/abs/a-study-on-bias-and-fairness-in-deep-speaker-recognition-2303.080262023-03-15 https://scifaro.com/en/abs/facilitating-deep-acoustic-phenotyping-a-basic-coding-scheme-of-infant-vocalisations-preluding-computational-analysis-machine-learning-and-clinical-reasoning-2303.082392025-02-21 https://scifaro.com/en/abs/cross-speaker-emotion-transfer-by-manipulating-speech-style-latents-2303.083292023-03-16 https://scifaro.com/en/abs/autonomous-soundscape-augmentation-with-multimodal-fusion-of-visual-and-participant-linked-inputs-2303.083422024-07-03 https://scifaro.com/en/abs/transfer-learning-based-diagnosis-and-analysis-of-lung-sound-aberrations-2303.083622023-03-16 https://scifaro.com/en/abs/generating-symbolic-music-using-diffusion-models-2303.083852023-05-16 https://scifaro.com/en/abs/enhancing-unsupervised-audio-representation-learning-via-adversarial-sample-generation-2303.085612023-03-16 https://scifaro.com/en/abs/phoneix-acoustic-feature-processing-strategy-for-enhanced-singing-pronunciation-with-phoneme-distribution-predictor-2303.086072023-03-16 https://scifaro.com/en/abs/blind-estimation-of-audio-processing-graph-2303.086102023-05-09 https://scifaro.com/en/abs/improving-perceptual-quality-intelligibility-and-acoustics-on-voip-platforms-2303.090482023-03-17 https://scifaro.com/en/abs/zero-shot-sound-event-classification-using-a-sound-attribute-vector-with-global-and-local-feature-learning-2303.103162023-03-21 https://scifaro.com/en/abs/weight-sharing-supernet-for-searching-specialized-acoustic-event-classification-networks-across-device-constraints-2303.103512023-03-21 https://scifaro.com/en/abs/earcough-enabling-continuous-subject-cough-event-detection-on-hearables-2303.104452023-03-21 https://scifaro.com/en/abs/content-adaptive-front-end-for-audio-classification-2303.104462024-12-24 https://scifaro.com/en/abs/textless-speech-to-music-retrieval-using-emotion-similarity-2303.105392023-03-21 https://scifaro.com/en/abs/audio-text-models-do-not-yet-leverage-natural-language-2303.106672023-03-21 https://scifaro.com/en/abs/multiscale-audio-spectrogram-transformer-for-efficient-audio-classification-2303.107572023-03-21 https://scifaro.com/en/abs/relate-auditory-speech-to-eeg-by-shallow-deep-attention-based-network-2303.108972023-03-21 https://scifaro.com/en/abs/exploring-representation-learning-for-small-footprint-keyword-spotting-2303.109122023-03-21 https://scifaro.com/en/abs/ds-tdnn-dual-stream-time-delay-neural-network-with-global-aware-filter-for-speaker-verification-2303.110202023-08-02 https://scifaro.com/en/abs/icassp-2023-deep-noise-suppression-challenge-2303.115102023-05-10 https://scifaro.com/en/abs/bytecover3-accurate-cover-song-identification-on-short-queries-2303.116922023-03-22 https://scifaro.com/en/abs/personalized-lightweight-text-to-speech-voice-cloning-with-adaptive-structured-pruning-2303.118162023-03-22 https://scifaro.com/en/abs/exploring-turkish-speech-recognition-via-hybrid-ctc-attention-architecture-and-multi-feature-fusion-network-2303.123002023-03-23 https://scifaro.com/en/abs/dual-quaternions-theory-and-applications-in-sound-2303.126922023-03-24 https://scifaro.com/en/abs/lmcodec-a-low-bitrate-speech-codec-with-causal-transformer-models-2303.129842023-03-24 https://scifaro.com/en/abs/beyond-universal-transformer-block-reusing-with-adaptor-in-transformer-for-automatic-speech-recognition-2303.130722023-04-06 https://scifaro.com/en/abs/frame-level-multi-label-playing-technique-detection-using-multi-scale-network-and-self-attention-mechanism-2303.132722023-03-24 https://scifaro.com/en/abs/a-survey-on-audio-diffusion-models-text-to-speech-synthesis-and-enhancement-in-generative-ai-2303.133362023-04-04 https://scifaro.com/en/abs/in-depth-analysis-of-music-structure-as-a-text-network-2303.136312024-01-03 https://scifaro.com/en/abs/symbolic-music-structure-analysis-with-graph-representations-and-changepoint-detection-methods-2303.138812023-03-27 https://scifaro.com/en/abs/wave-u-net-discriminator-fast-and-lightweight-discriminator-for-generative-adversarial-network-based-speech-synthesis-2303.139092023-03-27 https://scifaro.com/en/abs/time-domain-speech-enhancement-assisted-by-multi-resolution-frequency-encoder-and-decoder-2303.145932023-03-28 https://scifaro.com/en/abs/data-augmentation-for-environmental-sound-classification-using-diffusion-probabilistic-model-with-top-k-selection-discriminator-2303.151612023-04-05 https://scifaro.com/en/abs/pitchclass2vec-symbolic-music-structure-segmentation-with-chord-embeddings-2303.153062023-03-28 https://scifaro.com/en/abs/adaptive-background-music-for-a-fighting-game-a-multi-instrument-volume-modulation-approach-2303.157342024-03-06 https://scifaro.com/en/abs/transaudio-towards-the-transferable-adversarial-audio-attack-via-learning-contextualized-perturbations-2303.159402023-03-29 https://scifaro.com/en/abs/unsupervised-anomaly-detection-and-localization-of-machine-audio-a-gan-based-approach-2303.179492023-04-03 https://scifaro.com/en/abs/a-unified-compression-framework-for-efficient-speech-driven-talking-face-generation-2304.004712023-05-01 https://scifaro.com/en/abs/musical-creativity-enabled-by-nonlinear-oscillations-of-a-bubble-in-water-2304.008222023-04-04 https://scifaro.com/en/abs/audit-audio-editing-by-following-instructions-with-latent-diffusion-models-2304.008302023-04-06 https://scifaro.com/en/abs/designing-and-evaluating-speech-emotion-recognition-systems-a-reality-check-case-study-with-iemocap-2304.008602023-05-16 https://scifaro.com/en/abs/lipsfus-a-neuromorphic-dataset-for-audio-visual-sensory-fusion-of-lip-reading-2304.010802023-04-04 https://scifaro.com/en/abs/dual-attention-neural-transducers-for-efficient-wake-word-spotting-in-speech-recognition-2304.019052023-04-06 https://scifaro.com/en/abs/pac-hubert-self-supervised-music-source-separation-via-primitive-auditory-clustering-and-hidden-unit-bert-2304.021602023-04-06 https://scifaro.com/en/abs/efficient-audio-captioning-transformer-with-patchout-and-text-guidance-2304.029162023-04-07 https://scifaro.com/en/abs/automatic-detection-of-reactions-to-music-via-earable-sensing-2304.032952023-04-10 https://scifaro.com/en/abs/dsvae-interpretable-disentangled-representation-for-synthetic-speech-detection-2304.033232023-08-01 https://scifaro.com/en/abs/on-site-noise-exposure-technique-for-noise-robust-machine-fault-classification-2304.035222023-04-10 https://scifaro.com/en/abs/graph-attention-for-automated-audio-captioning-2304.035862023-04-11 https://scifaro.com/en/abs/anomalous-sound-detection-using-audio-representation-with-machine-id-based-contrastive-learning-pretraining-2304.035882023-04-11 https://scifaro.com/en/abs/espnet-st-v2-multipurpose-spoken-language-translation-toolkit-2304.045962023-07-10 https://scifaro.com/en/abs/in-situ-crack-and-keyhole-pore-detection-in-laser-directed-energy-deposition-through-acoustic-signal-and-deep-learning-2304.045982023-04-12 https://scifaro.com/en/abs/enhancing-speech-to-speech-translation-with-multiple-tts-targets-2304.046182023-04-11 https://scifaro.com/en/abs/affectmachine-classical-a-novel-system-for-generating-affective-classical-music-2304.049152023-04-12 https://scifaro.com/en/abs/sim-t-simplify-the-transformer-network-by-multiplexing-technique-for-speech-recognition-2304.049912023-04-12 https://scifaro.com/en/abs/soft-dynamic-time-warping-for-multi-pitch-estimation-and-beyond-2304.050322023-04-12 https://scifaro.com/en/abs/looking-similar-sounding-different-leveraging-counterfactual-cross-modal-pairs-for-audiovisual-representation-learning-2304.056002024-06-11 https://scifaro.com/en/abs/self-supervised-learning-with-cluster-aware-dino-for-high-performance-robust-speaker-verification-2304.057542023-04-13 https://scifaro.com/en/abs/a-phoneme-informed-neural-network-model-for-note-level-singing-transcription-2304.059172023-04-13 https://scifaro.com/en/abs/pd-adsv-an-automated-diagnosing-system-using-voice-signals-and-hard-voting-ensemble-method-for-parkinson-s-disease-2304.060162024-10-28 https://scifaro.com/en/abs/context-aware-coherent-speaking-style-prediction-with-hierarchical-transformers-for-audiobook-speech-synthesis-2304.063592023-04-14 https://scifaro.com/en/abs/level-generation-for-rhythm-vr-games-2304.068092023-04-17 https://scifaro.com/en/abs/tempo-vs-pitch-understanding-self-supervised-tempo-estimation-2304.068682023-06-27 https://scifaro.com/en/abs/on-data-sampling-strategies-for-training-neural-network-speech-separation-models-2304.071422023-06-19 https://scifaro.com/en/abs/adapting-meter-tracking-models-to-latin-american-music-2304.071862023-04-17 https://scifaro.com/en/abs/self-supervised-auxiliary-loss-for-metric-learning-in-music-similarity-based-retrieval-and-auto-tagging-2304.074492023-04-18 https://scifaro.com/en/abs/fast-random-approximation-of-multi-channel-room-impulse-response-2304.080522023-04-18 https://scifaro.com/en/abs/physics-inspired-neuroacoustic-computing-based-on-tunable-nonlinear-multiple-scattering-2304.083802023-04-18 https://scifaro.com/en/abs/a-voice-disease-detection-method-based-on-mfccs-and-shallow-cnn-2304.087082023-04-19 https://scifaro.com/en/abs/from-words-to-music-a-study-of-subword-tokenization-techniques-in-symbolic-music-generation-2304.089532023-04-26 https://scifaro.com/en/abs/cb-conformer-contextual-biasing-conformer-for-biased-word-recognition-2304.096072023-04-26 https://scifaro.com/en/abs/clamp-contrastive-language-music-pre-training-for-cross-modal-symbolic-music-information-retrieval-2304.110292023-10-19 https://scifaro.com/en/abs/emotional-expression-detection-in-spoken-language-employing-machine-learning-algorithms-2304.110402023-04-24 https://scifaro.com/en/abs/affective-social-anthropomorphic-intelligent-system-2304.110462023-04-24 https://scifaro.com/en/abs/using-mobile-data-and-deep-models-to-assess-auditory-verbal-hallucinations-2304.110492023-04-24 https://scifaro.com/en/abs/a-vector-quantized-masked-autoencoder-for-speech-emotion-recognition-2304.111172023-04-24 https://scifaro.com/en/abs/lightweight-toxicity-detection-in-spoken-language-a-transformer-based-approach-for-edge-devices-2304.114082023-04-25 https://scifaro.com/en/abs/an-order-complexity-model-for-aesthetic-quality-assessment-of-homophony-music-performance-2304.115212023-04-25 https://scifaro.com/en/abs/sar-self-supervised-anti-distortion-representation-for-end-to-end-speech-model-2304.115472023-04-25 https://scifaro.com/en/abs/sound-based-drone-fault-classification-using-multitask-learning-2304.117082023-04-25 https://scifaro.com/en/abs/zero-shot-text-to-speech-synthesis-conditioned-using-self-supervised-speech-representation-model-2304.119762023-12-19 https://scifaro.com/en/abs/deep-audio-visual-singing-voice-transcription-based-on-self-supervised-learning-models-2304.120822023-04-25 https://scifaro.com/en/abs/small-footprint-slimmable-networks-for-keyword-spotting-2304.121832023-04-25 https://scifaro.com/en/abs/pre-training-strategies-using-contrastive-learning-and-playlist-information-for-music-classification-and-similarity-2304.122572023-04-25 https://scifaro.com/en/abs/foley-sound-synthesis-at-the-dcase-2023-challenge-2304.125212023-10-02 https://scifaro.com/en/abs/gtn-bailando-genre-consistent-long-term-3d-dance-generation-based-on-pre-trained-genre-token-network-2304.127042023-04-26 https://scifaro.com/en/abs/adaptive-representations-of-sound-for-automatic-insect-recognition-2304.127392024-02-01 https://scifaro.com/en/abs/the-accompanion-combining-reactivity-robustness-and-musical-expressivity-in-an-automatic-piano-accompanist-2304.129392023-05-31 https://scifaro.com/en/abs/room-dimensions-and-absorption-inference-from-room-transfer-function-via-machine-learning-2304.129932023-04-26 https://scifaro.com/en/abs/ai-synthesized-voice-detection-using-neural-vocoder-artifacts-2304.130852023-04-28 https://scifaro.com/en/abs/multi-speaker-multi-lingual-vqtts-system-for-limmits-2023-challenge-2304.131212024-11-12 https://scifaro.com/en/abs/xai-based-comparison-of-input-representations-for-audio-event-classification-2304.140192023-04-28 https://scifaro.com/en/abs/deep-transfer-learning-for-automatic-speech-recognition-towards-better-generalization-2304.145352023-08-01 https://scifaro.com/en/abs/musical-voice-separation-as-link-prediction-modeling-a-musical-perception-task-as-a-multi-trajectory-tracking-problem-2304.148482023-05-01 https://scifaro.com/en/abs/the-acm-multimedia-2023-computational-paralinguistics-challenge-emotion-share-requests-2304.148822023-05-02 https://scifaro.com/en/abs/adversarial-representation-learning-for-robust-privacy-preservation-in-audio-2305.000112024-01-04 https://scifaro.com/en/abs/enhancing-multilingual-speech-recognition-in-air-traffic-control-by-sentence-level-language-identification-2305.001702023-05-02 https://scifaro.com/en/abs/environmental-sound-synthesis-from-vocal-imitations-and-sound-event-labels-2305.003022023-09-15 https://scifaro.com/en/abs/transformer-based-sequence-labeling-for-audio-classification-based-on-mfccs-2305.004172023-07-06 https://scifaro.com/en/abs/transfer-of-knowledge-among-instruments-in-automatic-music-transcription-2305.004262023-05-02 https://scifaro.com/en/abs/emotions-beyond-words-non-speech-audio-emotion-recognition-with-edge-computing-2305.007252023-05-02 https://scifaro.com/en/abs/cryceleb-a-speaker-verification-dataset-based-on-infant-cry-sounds-2305.009692024-03-22 https://scifaro.com/en/abs/loopy-a-research-friendly-mix-framework-for-music-information-retrieval-on-electronic-dance-music-2305.010512023-05-13 https://scifaro.com/en/abs/contrastive-speech-mixup-for-low-resource-keyword-spotting-2305.011702023-05-03 https://scifaro.com/en/abs/long-term-rhythmic-video-soundtracker-2305.013192023-05-31 https://scifaro.com/en/abs/deep-learning-based-multimodal-with-two-phase-training-strategy-for-daily-life-video-classification-2305.014762023-05-03 https://scifaro.com/en/abs/multitask-learning-in-audio-captioning-a-sentence-embedding-regression-loss-acts-as-a-regularizer-2305.014822023-05-03 https://scifaro.com/en/abs/self-supervised-learning-for-infant-cry-analysis-2305.015782023-05-03 https://scifaro.com/en/abs/integrating-spoken-instructions-into-flight-trajectory-prediction-to-optimize-automation-in-air-traffic-control-2305.016612024-10-21 https://scifaro.com/en/abs/unsupervised-improvement-of-audio-text-cross-modal-representations-2305.018642023-08-02 https://scifaro.com/en/abs/diverse-and-vivid-sound-generation-from-text-descriptions-2305.019802023-05-04 https://scifaro.com/en/abs/m2-ctts-end-to-end-multi-scale-multi-modal-conversational-text-to-speech-synthesis-2305.022692023-05-04 https://scifaro.com/en/abs/learning-to-detect-novel-and-fine-grained-acoustic-sequences-using-pretrained-audio-representations-2305.023822023-05-05 https://scifaro.com/en/abs/hifi-codec-group-residual-vector-quantization-for-high-fidelity-audio-codec-2305.027652023-05-09 https://scifaro.com/en/abs/compressing-audio-cnns-with-graph-centrality-based-filter-pruning-2305.033912023-05-08 https://scifaro.com/en/abs/exploring-softly-masked-language-modelling-for-controllable-symbolic-music-generation-2305.035302023-05-12 https://scifaro.com/en/abs/a-vector-quantized-masked-autoencoder-for-audiovisual-speech-emotion-recognition-2305.035682025-05-12 https://scifaro.com/en/abs/a-multimodal-dynamical-variational-autoencoder-for-audiovisual-speech-representation-learning-2305.035822024-02-21 https://scifaro.com/en/abs/physics-based-acoustic-holograms-2305.036252023-05-08 https://scifaro.com/en/abs/pitch-estimation-by-denoising-preprocessor-and-hybrid-estimation-model-2305.039822023-05-09 https://scifaro.com/en/abs/a-method-for-analyzing-sampling-jitter-in-audio-equipment-2305.045312023-05-09 https://scifaro.com/en/abs/synthesizing-cough-audio-with-gan-for-covid-19-detection-2305.048102023-05-09 https://scifaro.com/en/abs/temporal-convolution-network-based-onset-detection-and-query-by-humming-system-design-2305.051392023-06-09 https://scifaro.com/en/abs/who-is-speaking-actually-robust-and-versatile-speaker-traceability-for-voice-conversion-2305.051522023-07-27 https://scifaro.com/en/abs/joint-multi-scale-cross-lingual-speaking-style-transfer-with-bidirectional-attention-mechanism-for-automatic-dubbing-2305.052032024-07-08 https://scifaro.com/en/abs/learn-to-sing-by-listening-building-controllable-virtual-singer-by-unsupervised-learning-from-voice-recordings-2305.054012023-05-10 https://scifaro.com/en/abs/audioslots-a-slot-centric-generative-model-for-audio-separation-2305.055912023-05-10 https://scifaro.com/en/abs/inter-subnet-speech-enhancement-with-subband-interaction-2305.055992023-05-10 https://scifaro.com/en/abs/vsmask-defending-against-voice-synthesis-attack-via-real-time-predictive-perturbation-2305.057362023-05-11 https://scifaro.com/en/abs/enhancing-gappy-speech-audio-signals-with-generative-adversarial-networks-2305.057802023-05-11 https://scifaro.com/en/abs/mispronunciation-detection-of-basic-quranic-recitation-rules-using-deep-learning-2305.064292023-05-12 https://scifaro.com/en/abs/v2meow-meowing-to-the-visual-beat-via-video-to-music-generation-2305.065942024-02-23 https://scifaro.com/en/abs/extending-audio-masked-autoencoders-toward-audio-restoration-2305.067012023-08-21 https://scifaro.com/en/abs/happyquokka-system-for-icassp-2023-auditory-eeg-challenge-2305.068062023-05-12 https://scifaro.com/en/abs/comospeech-one-step-speech-and-singing-voice-synthesis-via-consistency-model-2305.069082023-10-31 https://scifaro.com/en/abs/tackling-interpretability-in-audio-classification-networks-with-non-negative-matrix-factorization-2305.071322023-05-15 https://scifaro.com/en/abs/transavs-end-to-end-audio-visual-segmentation-with-transformer-2305.072232023-12-27 https://scifaro.com/en/abs/better-speech-synthesis-through-scaling-2305.072432023-05-25 https://scifaro.com/en/abs/music-rearrangement-using-hierarchical-segmentation-2305.073472023-05-15 https://scifaro.com/en/abs/universal-source-separation-with-weakly-labelled-data-2305.074472023-05-15 https://scifaro.com/en/abs/benchmarks-and-leaderboards-for-sound-demixing-tasks-2305.074892024-05-08 https://scifaro.com/en/abs/device-robust-acoustic-scene-classification-via-impulse-response-augmentation-2305.074992025-03-17 https://scifaro.com/en/abs/masked-audio-text-encoders-are-effective-multi-modal-rescorers-2305.076772023-05-26 https://scifaro.com/en/abs/description-and-discussion-on-dcase-2023-challenge-task-2-first-shot-unsupervised-anomalous-sound-detection-for-machine-condition-monitoring-2305.078282023-11-03 https://scifaro.com/en/abs/higher-order-frequency-modulation-synthesis-2305.079092023-05-16 https://scifaro.com/en/abs/apnet-an-all-frame-level-neural-vocoder-incorporating-direct-prediction-of-amplitude-and-phase-spectra-2305.079522023-05-16 https://scifaro.com/en/abs/sound-to-vibration-transformation-for-sensorless-motor-health-monitoring-2305.079602023-05-16 https://scifaro.com/en/abs/remast-real-time-emotion-based-music-arrangement-with-soft-transition-2305.080292024-07-30 https://scifaro.com/en/abs/self-supervised-neural-factor-analysis-for-disentangling-utterance-level-speech-representations-2305.080992023-10-05 https://scifaro.com/en/abs/forknet-simultaneous-time-and-time-frequency-domain-modeling-for-speech-enhancement-2305.082922023-05-16 https://scifaro.com/en/abs/ripple-sparse-self-attention-for-monaural-speech-enhancement-2305.085412023-05-16 https://scifaro.com/en/abs/adversarial-speaker-disentanglement-using-unannotated-external-data-for-self-supervised-representation-based-voice-conversion-2305.091672023-05-17 https://scifaro.com/en/abs/low-complexity-deep-learning-frameworks-for-acoustic-scene-classification-using-teacher-student-scheme-and-multiple-spectrograms-2305.094632023-05-17 https://scifaro.com/en/abs/discrete-diffusion-probabilistic-models-for-symbolic-music-generation-2305.094892023-05-17 https://scifaro.com/en/abs/robust-and-lightweight-audio-fingerprint-for-automatic-content-recognition-2305.095592023-05-18 https://scifaro.com/en/abs/soundstorm-efficient-parallel-audio-generation-2305.096362023-05-17 https://scifaro.com/en/abs/a-whisper-transformer-for-audio-captioning-trained-with-synthetic-captions-and-transfer-learning-2305.096902023-05-18 https://scifaro.com/en/abs/ml-superb-multilingual-speech-universal-performance-benchmark-2305.106152025-02-25 https://scifaro.com/en/abs/zeroprompt-streaming-acoustic-encoders-are-zero-shot-masked-lms-2305.106492023-10-10 https://scifaro.com/en/abs/speech-separation-based-on-contrastive-learning-and-deep-modularization-2305.106522024-10-10 https://scifaro.com/en/abs/accurate-and-reliable-confidence-estimation-based-on-non-autoregressive-end-to-end-speech-recognition-system-2305.106802023-05-26 https://scifaro.com/en/abs/rmssinger-realistic-music-score-based-singing-voice-synthesis-2305.106862023-05-19 https://scifaro.com/en/abs/attention-based-encoder-decoder-network-for-end-to-end-neural-speaker-diarization-with-target-speaker-attractor-2305.107042023-08-16 https://scifaro.com/en/abs/diffusion-based-speech-enhancement-with-joint-generative-and-predictive-decoders-2305.107342024-02-29 https://scifaro.com/en/abs/noise-aware-speech-separation-with-contrastive-learning-2305.107612024-01-09 https://scifaro.com/en/abs/clapspeech-learning-prosody-from-text-context-with-contrastive-language-audio-pre-training-2305.107632023-05-19 https://scifaro.com/en/abs/dq-whisper-joint-distillation-and-quantization-for-efficient-multilingual-speech-recognition-2305.107882024-10-01 https://scifaro.com/en/abs/validation-of-an-ecapa-tdnn-system-for-forensic-automatic-speaker-recognition-under-case-work-conditions-2305.108052023-05-19 https://scifaro.com/en/abs/getmusic-generating-any-music-tracks-with-a-unified-representation-and-diffusion-framework-2305.108412023-10-02 https://scifaro.com/en/abs/funasr-a-fundamental-end-to-end-speech-recognition-toolkit-2305.110132023-05-19 https://scifaro.com/en/abs/unsupervised-multi-channel-separation-and-adaptation-2305.111512024-03-25 https://scifaro.com/en/abs/trustser-on-the-trustworthiness-of-fine-tuning-pre-trained-speech-embeddings-for-speech-emotion-recognition-2305.112292023-05-22 https://scifaro.com/en/abs/parameter-efficient-learning-for-text-to-speech-accent-adaptation-2305.113202023-08-28 https://scifaro.com/en/abs/differentially-private-adapters-for-parameter-efficient-acoustic-modeling-2305.113602023-08-28 https://scifaro.com/en/abs/a-preliminary-study-on-augmenting-speech-emotion-recognition-using-a-diffusion-model-2305.114132023-05-22 https://scifaro.com/en/abs/what-you-hear-is-what-you-see-audio-quality-metrics-from-image-quality-metrics-2305.115822023-08-31 https://scifaro.com/en/abs/midi-draw-sketching-to-control-melody-generation-2305.116052023-05-22 https://scifaro.com/en/abs/sensing-of-inspiration-events-from-speech-comparison-of-deep-learning-and-linguistic-methods-2305.116832023-05-22 https://scifaro.com/en/abs/direction-specific-ambisonics-source-separation-with-end-to-end-deep-learning-2305.117272023-06-21 https://scifaro.com/en/abs/mparrottts-multilingual-multi-speaker-text-to-speech-synthesis-in-low-resource-setting-2305.119262023-05-23 https://scifaro.com/en/abs/ee-tts-emphatic-expressive-tts-with-linguistic-information-2305.121072025-05-27 https://scifaro.com/en/abs/aca-net-towards-lightweight-speaker-verification-using-asymmetric-cross-attention-2305.121212023-05-23 https://scifaro.com/en/abs/comedicspeech-text-to-speech-for-stand-up-comedies-in-low-resource-scenarios-2305.122002023-05-23 https://scifaro.com/en/abs/laughter-synthesis-using-pseudo-phonetic-tokens-with-a-large-scale-in-the-wild-laughter-corpus-2305.124422023-05-29 https://scifaro.com/en/abs/jnv-corpus-a-corpus-of-japanese-nonverbal-vocalizations-with-diverse-phrases-and-emotions-2305.124452023-05-23 https://scifaro.com/en/abs/study-of-gans-for-noisy-speech-simulation-from-clean-speech-2305.124602023-05-23 https://scifaro.com/en/abs/towards-robust-paralinguistic-assessment-for-real-world-mobile-health-mhealth-monitoring-an-initial-study-of-reverberation-effects-on-speech-2305.125142024-08-14 https://scifaro.com/en/abs/the-hccl-system-for-voxceleb-speaker-recognition-challenge-2022-2305.126422023-05-23 https://scifaro.com/en/abs/more-perspectives-mean-better-underwater-target-recognition-and-localization-with-multimodal-data-via-symbiotic-transformer-and-multiview-regression-2305.127012023-05-23 https://scifaro.com/en/abs/progressive-sub-graph-clustering-algorithm-for-semi-supervised-domain-adaptation-speaker-verification-2305.127032023-05-23 https://scifaro.com/en/abs/lean-light-and-efficient-audio-classification-network-2305.127122023-05-23 https://scifaro.com/en/abs/gncformer-enhanced-self-attention-for-automatic-speech-recognition-2305.127552023-05-23 https://scifaro.com/en/abs/the-defender-s-perspective-on-automatic-speaker-verification-an-overview-2305.128042023-06-27 https://scifaro.com/en/abs/nas-fm-neural-architecture-search-for-tunable-and-interpretable-sound-synthesis-based-on-frequency-modulation-2305.128682023-05-23 https://scifaro.com/en/abs/towards-generalizing-deep-audio-fake-detection-networks-2305.130332024-04-10 https://scifaro.com/en/abs/audiotoken-adaptation-of-text-conditioned-diffusion-models-for-audio-to-image-generation-2305.130502023-05-23 https://scifaro.com/en/abs/u-dit-tts-u-diffusion-vision-transformer-for-text-to-speech-2305.131952023-05-23 https://scifaro.com/en/abs/learning-to-detect-an-animal-sound-from-five-examples-2305.132102024-02-01 https://scifaro.com/en/abs/computational-models-of-sound-quality-metrics-using-method-for-calculating-loudness-with-gammatone-gammachirp-auditory-filterbank-2305.132132023-05-23 https://scifaro.com/en/abs/modulation-extraction-for-lfo-driven-audio-effects-2305.132622023-05-23 https://scifaro.com/en/abs/fluentspeech-stutter-oriented-automatic-speech-editing-with-context-aware-diffusion-models-2305.136122023-05-24 https://scifaro.com/en/abs/detection-of-cross-dataset-fake-audio-based-on-prosodic-and-pronunciation-features-2305.137002023-05-24 https://scifaro.com/en/abs/to-rawnet-improving-rawnet-with-tcn-and-orthogonal-regularization-for-fake-audio-detection-2305.137012023-05-24 https://scifaro.com/en/abs/calls-japanese-empathetic-dialogue-speech-corpus-of-complaint-handling-and-attentive-listening-in-customer-center-2305.137132023-05-24 https://scifaro.com/en/abs/ba-sot-boundary-aware-serialized-output-training-for-multi-talker-asr-2305.137162023-10-06 https://scifaro.com/en/abs/chatgpt-edss-empathetic-dialogue-speech-synthesis-trained-from-chatgpt-derived-context-word-embeddings-2305.137242023-05-24 https://scifaro.com/en/abs/a-study-of-audio-mixing-methods-for-piano-transcription-in-violin-piano-ensembles-2305.137582023-05-24 https://scifaro.com/en/abs/add-2023-the-second-audio-deepfake-detection-challenge-2305.137742023-05-24 https://scifaro.com/en/abs/se-bridge-speech-enhancement-with-consistent-brownian-bridge-2305.137962023-05-24 https://scifaro.com/en/abs/zet-speech-zero-shot-adaptive-emotion-controllable-text-to-speech-synthesis-with-diffusion-and-style-based-models-2305.138312023-05-24 https://scifaro.com/en/abs/happy-or-evil-laughter-analysing-a-database-of-natural-audio-samples-2305.140232023-05-24 https://scifaro.com/en/abs/enhancing-speech-emotion-recognition-through-differentiable-architecture-search-2305.144022024-01-22 https://scifaro.com/en/abs/interactive-neural-resonators-2305.148672023-05-25 https://scifaro.com/en/abs/iteratively-improving-speech-recognition-and-voice-conversion-2305.150552023-05-25 https://scifaro.com/en/abs/plcmos-a-data-driven-non-intrusive-metric-for-the-evaluation-of-packet-loss-concealment-algorithms-2305.151272023-05-25 https://scifaro.com/en/abs/sound-design-strategies-for-latent-audio-space-explorations-using-deep-learning-architectures-2305.155712023-06-21 https://scifaro.com/en/abs/metamathematics-of-algorithmic-composition-2305.156012025-05-09 https://scifaro.com/en/abs/efficient-neural-music-generation-2305.157192023-05-26 https://scifaro.com/en/abs/towards-solving-cocktail-party-the-first-method-to-build-a-realistic-dataset-with-ground-truths-for-speech-separation-2305.157582024-08-29 https://scifaro.com/en/abs/anomalous-sound-detection-based-on-sound-separation-2305.158592023-05-26 https://scifaro.com/en/abs/room-impulse-response-estimation-in-a-multiple-source-environment-2305.158982023-05-26 https://scifaro.com/en/abs/latent-diffusion-model-based-foley-sound-generation-system-for-dcase-challenge-2023-task-7-2305.159052023-09-18 https://scifaro.com/en/abs/ordered-and-binary-speaker-embedding-2305.160432023-05-26 https://scifaro.com/en/abs/visualizing-data-augmentation-in-deep-speaker-recognition-2305.160702023-05-26 https://scifaro.com/en/abs/unified-modeling-of-multi-talker-overlapped-speech-recognition-and-diarization-with-a-sidecar-separator-2305.162632023-05-26 https://scifaro.com/en/abs/betray-oneself-a-novel-audio-deepfake-detection-model-via-mono-to-stereo-conversion-2305.163532023-05-29 https://scifaro.com/en/abs/soundsieve-seconds-long-audio-event-recognition-on-intermittently-powered-systems-2305.164452023-05-29 https://scifaro.com/en/abs/a-multi-scale-attentive-transformer-for-multi-instrument-symbolic-music-generation-2305.165922023-05-29 https://scifaro.com/en/abs/diverse-and-expressive-speech-prosody-prediction-with-denoising-diffusion-probabilistic-model-2305.167492023-10-10 https://scifaro.com/en/abs/a-neural-state-space-model-approach-to-efficient-speech-separation-2305.169322023-05-29 https://scifaro.com/en/abs/distriblock-identifying-adversarial-audio-samples-by-leveraging-characteristics-of-the-output-distribution-2305.170002024-11-07 https://scifaro.com/en/abs/spot-keywords-from-very-noisy-and-mixed-speech-2305.177062023-10-10 https://scifaro.com/en/abs/styles2st-zero-shot-style-transfer-for-direct-speech-to-speech-translation-2305.177322023-07-26 https://scifaro.com/en/abs/range-based-equal-error-rate-for-spoof-localization-2305.177392023-05-30 https://scifaro.com/en/abs/bayesian-inference-and-neural-estimation-of-acoustic-wave-propagation-2305.177492023-05-30 https://scifaro.com/en/abs/captdure-captioned-sound-dataset-of-single-sources-2305.177582023-05-30 https://scifaro.com/en/abs/streaming-audio-transformers-for-online-audio-tagging-2305.178342024-06-11 https://scifaro.com/en/abs/retraining-free-customized-asr-for-enharmonic-words-based-on-a-named-entity-aware-model-and-phoneme-similarity-estimation-2305.178462023-05-30 https://scifaro.com/en/abs/speech-and-noise-dual-stream-spectrogram-refine-network-with-speech-distortion-loss-for-robust-speech-recognition-2305.178602023-05-31 https://scifaro.com/en/abs/multi-scale-attention-for-audio-question-answering-2305.179932023-05-30 https://scifaro.com/en/abs/adaptermix-exploring-the-efficacy-of-mixture-of-adapters-for-low-resource-tts-adaptation-2305.180282023-05-30 https://scifaro.com/en/abs/few-shot-class-incremental-audio-classification-using-adaptively-refined-prototypes-2305.180452023-05-30 https://scifaro.com/en/abs/exploration-of-efficient-end-to-end-asr-using-discretized-input-from-self-supervised-learning-2305.181082023-05-30 https://scifaro.com/en/abs/an-efficient-membership-inference-attack-for-the-diffusion-model-by-proximal-initialization-2305.183552023-10-10 https://scifaro.com/en/abs/speech-intelligibility-assessment-of-dysarthric-speech-by-using-goodness-of-pronunciation-with-uncertainty-quantification-2305.183922023-05-31 https://scifaro.com/en/abs/make-an-audio-2-temporal-enhanced-text-to-audio-generation-2305.184742023-05-31 https://scifaro.com/en/abs/building-accurate-low-latency-asr-for-streaming-voice-search-2305.185962023-05-31 https://scifaro.com/en/abs/e-panns-sound-recognition-using-efficient-pre-trained-audio-neural-networks-2305.186652023-05-31 https://scifaro.com/en/abs/understanding-temporally-weakly-supervised-training-a-case-study-for-keyword-spotting-2305.187942023-05-31 https://scifaro.com/en/abs/speaker-anonymization-using-orthogonal-householder-neural-network-2305.188232023-09-14 https://scifaro.com/en/abs/pseudo-siamese-network-based-timbre-reserved-black-box-adversarial-attack-in-speaker-identification-2305.190202023-05-31 https://scifaro.com/en/abs/adaptation-of-tongue-ultrasound-based-silent-speech-interfaces-using-spatial-transformer-networks-2305.191302023-10-18 https://scifaro.com/en/abs/audio-classification-using-ml-methods-2305.193042023-06-01 https://scifaro.com/en/abs/a-unified-audio-visual-learning-framework-for-localization-separation-and-recognition-2305.194582023-06-01 https://scifaro.com/en/abs/promptstyle-controllable-style-transfer-for-text-to-speech-with-natural-language-descriptions-2305.195222023-06-02 https://scifaro.com/en/abs/zero-shot-automatic-pronunciation-assessment-2305.195632023-06-01 https://scifaro.com/en/abs/dc-comix-tts-an-end-to-end-expressive-tts-with-discrete-code-collaborated-with-mixer-2305.195672023-06-29 https://scifaro.com/en/abs/svvad-personal-voice-activity-detection-for-speaker-verification-2305.195812023-06-01 https://scifaro.com/en/abs/learning-music-sequence-representation-from-text-supervision-2305.196022023-06-01 https://scifaro.com/en/abs/intelligible-lip-to-speech-synthesis-with-speech-units-2305.196032023-06-01 https://scifaro.com/en/abs/underwater-art-expanding-information-perspectives-with-text-templates-for-underwater-acoustic-target-recognition-2305.196122024-02-20 https://scifaro.com/en/abs/multi-dataset-co-training-with-sharpness-aware-optimization-for-audio-anti-spoofing-2305.199532023-06-02 https://scifaro.com/en/abs/unssor-unsupervised-neural-speech-separation-by-leveraging-over-determined-training-mixtures-2305.200542023-10-31 https://scifaro.com/en/abs/mert-acoustic-music-understanding-model-with-large-scale-self-supervised-training-2306.001072024-12-30 https://scifaro.com/en/abs/musecoco-generating-symbolic-music-from-text-2306.001102023-06-02 https://scifaro.com/en/abs/speech-inpainting-context-based-speech-synthesis-guided-by-video-2306.004892023-06-02 https://scifaro.com/en/abs/masked-autoencoders-with-multi-window-local-global-attention-are-better-audio-learners-2306.005612023-10-03 https://scifaro.com/en/abs/adaptation-and-optimization-of-automatic-speech-recognition-asr-for-the-maritime-domain-in-the-field-of-vhf-communication-2306.006142025-08-20 https://scifaro.com/en/abs/emomix-emotion-mixing-via-diffusion-models-for-emotional-speech-synthesis-2306.006482023-06-02 https://scifaro.com/en/abs/encoder-decoder-multimodal-speaker-change-detection-2306.006802023-06-02 https://scifaro.com/en/abs/stuttering-detection-using-speaker-representations-and-self-supervised-contextual-embeddings-2306.006892023-06-02 https://scifaro.com/en/abs/undiff-unsupervised-voice-restoration-with-unconditional-diffusion-model-2306.007212023-10-13 https://scifaro.com/en/abs/slothspeech-denial-of-service-attack-against-speech-recognition-models-2306.007942023-06-02 https://scifaro.com/en/abs/adaptive-contextual-biasing-for-transducer-based-streaming-speech-recognition-2306.008042023-08-16 https://scifaro.com/en/abs/vocos-closing-the-gap-between-time-domain-and-fourier-based-neural-vocoders-for-high-quality-audio-synthesis-2306.008142024-05-30 https://scifaro.com/en/abs/adapting-a-convnext-model-to-audio-classification-on-audioset-2306.008302023-06-02 https://scifaro.com/en/abs/differentiable-allpass-filters-for-phase-response-estimation-and-automatic-signal-alignment-2306.008602023-06-05 https://scifaro.com/en/abs/exploration-on-hubert-with-multiple-resolutions-2306.010842023-06-26 https://scifaro.com/en/abs/jepoo-highly-accurate-joint-estimation-of-pitch-onset-and-offset-for-music-information-retrieval-2306.013042024-01-09 https://scifaro.com/en/abs/improved-deepfake-detection-using-whisper-features-2306.014282023-06-05 https://scifaro.com/en/abs/towards-robust-fastspeech-2-by-modelling-residual-multimodality-2306.014422024-09-19 https://scifaro.com/en/abs/learning-local-to-global-feature-aggregation-for-speech-emotion-recognition-2306.014912023-06-05 https://scifaro.com/en/abs/enhance-temporal-relations-in-audio-captioning-with-sound-event-detection-2306.015332024-07-19 https://scifaro.com/en/abs/q-a-query-based-representation-learning-for-multi-track-symbolic-music-re-arrangement-2306.016352023-06-05 https://scifaro.com/en/abs/edit-distance-based-rl-for-rnnt-decoding-2306.017892023-07-17 https://scifaro.com/en/abs/multi-view-multi-task-representation-learning-for-mispronunciation-detection-2306.018452023-08-08 https://scifaro.com/en/abs/bedrf-bidirectional-edge-diffraction-response-function-for-interactive-sound-propagation-2306.019742023-06-06 https://scifaro.com/en/abs/effects-of-tonal-coarticulation-and-prosodic-positions-on-tonal-contours-of-low-rising-tones-in-the-case-of-xiamen-dialect-2306.022512023-06-06 https://scifaro.com/en/abs/mavd-the-first-open-large-scale-mandarin-audio-visual-dataset-with-depth-information-2306.022632023-06-06 https://scifaro.com/en/abs/controllable-lyrics-to-melody-generation-2306.026132023-06-06 https://scifaro.com/en/abs/rethinking-the-visual-cues-in-audio-visual-speaker-extraction-2306.026252023-06-06 https://scifaro.com/en/abs/the-learning-prescription-a-neural-network-hearing-aid-core-2306.027502023-06-06 https://scifaro.com/en/abs/deepvqe-real-time-deep-voice-quality-enhancement-for-joint-acoustic-echo-cancellation-noise-suppression-and-dereverberation-2306.031772023-06-07 https://scifaro.com/en/abs/reef-elegy-an-auditory-display-of-hawaii-s-2019-coral-bleaching-data-2306.033072023-07-07 https://scifaro.com/en/abs/phase-perturbation-improves-channel-robustness-for-speech-spoofing-countermeasures-2306.033892023-10-10 https://scifaro.com/en/abs/emotion-conditioned-melody-harmonization-with-hierarchical-variational-autoencoder-2306.037182023-07-21 https://scifaro.com/en/abs/risc-a-corpus-for-shout-type-classification-and-shout-intensity-prediction-2306.041432024-10-22 https://scifaro.com/en/abs/sangeet-a-xml-based-open-dataset-for-research-in-hindustani-sangeet-2306.041482023-06-08 https://scifaro.com/en/abs/multi-microphone-automatic-speech-segmentation-in-meetings-based-on-circular-harmonics-features-2306.042682023-06-08 https://scifaro.com/en/abs/a-mask-free-neural-network-for-monaural-speech-enhancement-2306.042862023-06-08 https://scifaro.com/en/abs/interpretable-style-transfer-for-text-to-speech-with-controlvae-and-diffusion-bridge-2306.043012023-07-12 https://scifaro.com/en/abs/arabic-dysarthric-speech-recognition-using-adversarial-and-signal-based-augmentation-2306.043682023-06-08 https://scifaro.com/en/abs/systematic-analysis-of-music-representations-from-bert-2306.046282023-06-08 https://scifaro.com/en/abs/adaptive-fake-audio-detection-with-low-rank-model-squeezing-2306.049562023-06-16 https://scifaro.com/en/abs/language-specific-acoustic-boundary-learning-for-mandarin-english-code-switching-speech-recognition-2306.052792023-06-09 https://scifaro.com/en/abs/simple-and-controllable-music-generation-2306.052842024-01-31 https://scifaro.com/en/abs/peft-ser-on-the-use-of-parameter-efficient-transfer-learning-approaches-for-speech-emotion-recognition-using-pre-trained-speech-models-2306.053502024-02-15 https://scifaro.com/en/abs/low-rank-adaptation-method-for-wav2vec2-based-fake-audio-detection-2306.056172023-06-12 https://scifaro.com/en/abs/boosting-fast-and-high-quality-speech-synthesis-with-linear-diffusion-2306.057082023-06-13 https://scifaro.com/en/abs/reconstructing-human-expressiveness-in-piano-performances-with-a-transformer-network-2306.060402023-10-03 https://scifaro.com/en/abs/improving-fairness-and-robustness-in-end-to-end-speech-recognition-through-unsupervised-clustering-2306.060832023-06-12 https://scifaro.com/en/abs/everybody-compose-deep-beats-to-music-2306.062842023-07-11 https://scifaro.com/en/abs/vocoder-free-non-parallel-conversion-of-whispered-speech-with-masked-cycle-consistent-generative-adversarial-networks-2306.065142025-06-24 https://scifaro.com/en/abs/high-fidelity-audio-compression-with-improved-rvqgan-2306.065462023-10-30 https://scifaro.com/en/abs/audio-visual-mandarin-electrolaryngeal-speech-voice-conversion-2306.066522023-06-13 https://scifaro.com/en/abs/mandarin-electrolaryngeal-speech-voice-conversion-using-cross-domain-features-2306.066532023-06-13 https://scifaro.com/en/abs/estimating-the-uncertainty-in-emotion-attributes-using-deep-evidential-regression-2306.067602024-04-02 https://scifaro.com/en/abs/underwater-acoustic-target-recognition-based-on-smoothness-inducing-regularization-and-spectrogram-based-data-augmentation-2306.069452024-05-01 https://scifaro.com/en/abs/unicats-a-unified-context-aware-text-to-speech-framework-with-contextual-vq-diffusion-and-vocoding-2306.075472024-03-29 https://scifaro.com/en/abs/contrastive-learning-based-audio-to-lyrics-alignment-for-multiple-languages-2306.077442023-06-14 https://scifaro.com/en/abs/unlocking-foundation-models-for-privacy-enhancing-speech-understanding-an-early-study-on-low-resource-speech-training-leveraging-label-guided-synthetic-speech-content-2306.077912023-06-14 https://scifaro.com/en/abs/domain-information-control-at-inference-time-for-acoustic-scene-classification-2306.080102023-06-16 https://scifaro.com/en/abs/a-novel-scheme-to-classify-read-and-spontaneous-speech-2306.080122023-06-16 https://scifaro.com/en/abs/research-on-an-improved-conformer-end-to-end-speech-recognition-model-with-r-drop-structure-2306.083292023-06-16 https://scifaro.com/en/abs/gesper-a-restoration-enhancement-framework-for-general-speech-reconstruction-2306.084542023-06-16 https://scifaro.com/en/abs/combining-piano-performance-dimensions-for-score-difficulty-classification-2306.084802023-09-28 https://scifaro.com/en/abs/anticipatory-music-transformer-2306.086202024-07-29 https://scifaro.com/en/abs/unsupervised-speech-intelligibility-assessment-with-utterance-level-alignment-distance-between-teacher-and-learner-wav2vec-2-0-representations-2306.088452023-06-16 https://scifaro.com/en/abs/exploring-isolated-musical-notes-as-pre-training-data-for-predominant-instrument-recognition-in-polyphonic-music-2306.088502023-06-16 https://scifaro.com/en/abs/multi-loss-convolutional-network-with-time-frequency-attention-for-speech-enhancement-2306.089562023-06-16 https://scifaro.com/en/abs/team-acielee-technical-report-for-epic-sounds-audio-based-interaction-recognition-challenge-2023-2306.089982023-06-16 https://scifaro.com/en/abs/coverhunter-cover-song-identification-with-refined-attention-and-alignments-2306.090252023-06-16 https://scifaro.com/en/abs/environmental-sound-classification-on-an-embedded-hardware-platform-2306.091062025-08-07 https://scifaro.com/en/abs/starss23-an-audio-visual-dataset-of-spatial-recordings-of-real-scenes-with-spatiotemporal-annotations-of-sound-events-2306.091262023-11-15 https://scifaro.com/en/abs/few-shot-bioacoustic-event-detection-at-the-dcase-2023-challenge-2306.092232023-06-16 https://scifaro.com/en/abs/sound-demixing-challenge-2023-music-demixing-track-technical-report-tfc-tdf-unet-v3-2306.093822023-07-24 https://scifaro.com/en/abs/competitive-and-resource-efficient-factored-hybrid-hmm-systems-are-simpler-than-you-think-2306.095172023-06-19 https://scifaro.com/en/abs/clipsonic-text-to-audio-synthesis-with-unlabeled-videos-and-pretrained-language-vision-models-2306.096352023-07-25 https://scifaro.com/en/abs/correlation-clustering-of-bird-sounds-2306.099062023-06-21 https://scifaro.com/en/abs/realimpact-a-dataset-of-impact-sound-fields-for-real-objects-2306.099442023-06-19 https://scifaro.com/en/abs/evaluation-of-speech-representations-for-mos-prediction-2306.099792023-06-19 https://scifaro.com/en/abs/acoustic-identification-of-ae-aegypti-mosquitoes-using-smartphone-apps-and-residual-convolutional-neural-networks-2306.100912024-04-22 https://scifaro.com/en/abs/musico-acoustic-depictions-of-laminar-and-turbulent-flows-in-ligeti-piano-etude-no-9-and-a-novel-method-of-analysis-2306.100932023-06-21 https://scifaro.com/en/abs/neural-fast-full-rank-spatial-covariance-analysis-for-blind-source-separation-2306.102402023-06-21 https://scifaro.com/en/abs/text-driven-foley-sound-generation-with-latent-diffusion-model-2306.103592023-09-19 https://scifaro.com/en/abs/mospc-mos-prediction-based-on-pairwise-comparison-2306.104932023-06-21 https://scifaro.com/en/abs/marble-music-audio-representation-benchmark-for-universal-evaluation-2306.105482023-11-27 https://scifaro.com/en/abs/visually-guided-sound-source-separation-with-audio-visual-predictive-coding-2306.106842023-06-21 https://scifaro.com/en/abs/algorithms-of-sampling-frequency-independent-layers-for-non-integer-strides-2306.107182024-01-25 https://scifaro.com/en/abs/learning-an-interpretable-end-to-end-network-for-real-time-acoustic-beamforming-2306.107722023-06-21 https://scifaro.com/en/abs/multitrack-music-transcription-with-a-time-frequency-perceiver-2306.107852023-06-21 https://scifaro.com/en/abs/female-mosquito-detection-by-means-of-ai-techniques-inside-release-containers-in-the-context-of-a-sterile-insect-technique-program-2306.108432024-06-03 https://scifaro.com/en/abs/vocal-timbre-effects-with-differentiable-digital-signal-processing-2306.108862023-06-21 https://scifaro.com/en/abs/frequency-channel-attention-for-computationally-efficient-sound-event-detection-2306.112772023-08-30 https://scifaro.com/en/abs/phase-repair-for-time-domain-convolutional-neural-networks-in-music-super-resolution-2306.112822024-02-20 https://scifaro.com/en/abs/multi-pass-training-and-cross-information-fusion-for-low-resource-end-to-end-accented-speech-recognition-2306.113092023-06-21 https://scifaro.com/en/abs/pipeline-for-recording-datasets-and-running-neural-networks-on-the-bela-embedded-hardware-platform-2306.113892023-06-21 https://scifaro.com/en/abs/sound-reconstruction-from-human-brain-activity-via-a-generative-model-with-brain-like-auditory-features-2306.116292023-06-21 https://scifaro.com/en/abs/knowledge-based-multimodal-music-similarity-2306.122492023-06-22 https://scifaro.com/en/abs/automatic-speech-disentanglement-for-voice-conversion-using-rank-module-and-speech-augmentation-2306.122592023-06-22 https://scifaro.com/en/abs/a-multimodal-prototypical-approach-for-unsupervised-sound-classification-2306.123002023-08-21 https://scifaro.com/en/abs/toward-leveraging-pre-trained-self-supervised-frontends-for-automatic-singing-voice-understanding-tasks-three-case-studies-2306.127142023-09-06 https://scifaro.com/en/abs/mfccgan-a-novel-mfcc-based-speech-synthesizer-using-adversarial-learning-2306.127852023-10-26 https://scifaro.com/en/abs/russian-assimilatory-palatalization-is-incomplete-neutralization-2306.127892023-06-23 https://scifaro.com/en/abs/noisyilrma-diffuse-noise-aware-independent-low-rank-matrix-analysis-for-fast-blind-source-extraction-2306.128202023-06-23 https://scifaro.com/en/abs/siamese-siren-audio-compression-with-implicit-neural-representations-2306.129572023-06-23 https://scifaro.com/en/abs/disco-10m-a-large-scale-music-dataset-2306.135122023-10-06 https://scifaro.com/en/abs/modulation-graphs-in-popular-music-2306.136912023-06-27 https://scifaro.com/en/abs/improving-end-to-end-neural-diarization-using-conversational-summary-representations-2306.138632023-06-27 https://scifaro.com/en/abs/an-analysis-of-personalized-speech-recognition-system-development-for-the-deaf-and-hard-of-hearing-2306.139532023-06-27 https://scifaro.com/en/abs/dse-tts-dual-speaker-embedding-for-cross-lingual-text-to-speech-2306.141452023-06-27 https://scifaro.com/en/abs/primadnn-a-characteristics-aware-dnn-customization-for-singing-technique-detection-2306.141912023-06-27 https://scifaro.com/en/abs/aeroacoustic-source-localization-2306.142762023-07-06 https://scifaro.com/en/abs/the-singing-voice-conversion-challenge-2023-2306.144222023-07-07 https://scifaro.com/en/abs/mono-to-stereo-through-parametric-stereo-generation-2306.146472023-06-27 https://scifaro.com/en/abs/a-deep-learning-architecture-with-spatio-temporal-focusing-for-detecting-respiratory-anomalies-2306.149292023-06-28 https://scifaro.com/en/abs/transsionadd-a-multi-frame-reinforcement-based-sequence-tagging-model-for-audio-deepfake-detection-2306.152122023-06-28 https://scifaro.com/en/abs/multi-perspective-information-fusion-res2net-with-randomspecmix-for-fake-speech-detection-2306.153892023-06-28 https://scifaro.com/en/abs/rmvpe-a-robust-model-for-vocal-pitch-estimation-in-polyphonic-music-2306.154122024-01-09 https://scifaro.com/en/abs/large-scale-unsupervised-audio-pre-training-for-video-to-speech-synthesis-2306.154642024-10-28 https://scifaro.com/en/abs/fake-the-real-backdoor-attack-on-deep-speech-classification-via-voice-conversion-2306.158752023-08-15 https://scifaro.com/en/abs/enhanced-neural-beamformer-with-spatial-information-for-target-speech-extraction-2306.159422023-06-29 https://scifaro.com/en/abs/enrollment-stage-backdoor-attacks-on-speaker-recognition-systems-via-adversarial-ultrasound-2306.160222023-12-12 https://scifaro.com/en/abs/improving-primate-sounds-classification-using-binary-presorting-for-deep-learning-2306.160542023-06-29 https://scifaro.com/en/abs/graph-neural-networks-for-sound-source-localization-on-distributed-microphone-networks-2306.160812023-06-29 https://scifaro.com/en/abs/unitspeech-speaker-adaptive-speech-synthesis-with-untranscribed-data-2306.160832023-06-29 https://scifaro.com/en/abs/focus-on-the-sound-around-you-monaural-target-speaker-extraction-via-distance-and-speaker-information-2306.162412023-10-10 https://scifaro.com/en/abs/mc-spex-towards-effective-speaker-extraction-with-multi-scale-interfusion-and-conditional-speaker-modulation-2306.162502023-06-29 https://scifaro.com/en/abs/cascaded-encoders-for-fine-tuning-asr-models-on-overlapped-speech-2306.163982023-06-29 https://scifaro.com/en/abs/transfer-learning-with-semi-supervised-dataset-annotation-for-birdcall-classification-2306.167602024-07-10 https://scifaro.com/en/abs/predicting-music-hierarchies-with-a-graph-based-neural-decoder-2306.169552023-06-30 https://scifaro.com/en/abs/speech-based-age-and-gender-prediction-with-transformers-2306.169622023-06-30 https://scifaro.com/en/abs/on-the-relevance-of-acoustic-measurements-for-creating-realistic-virtual-acoustic-environments-2306.169672024-10-28 https://scifaro.com/en/abs/diff-foley-synchronized-video-to-audio-synthesis-with-latent-diffusion-models-2306.172032023-07-03 https://scifaro.com/en/abs/audio-embeddings-as-teachers-for-music-classification-2306.174242023-07-03 https://scifaro.com/en/abs/beyond-voice-towards-continuous-3d-hand-pose-tracking-on-commercial-home-assistant-devices-2306.174772025-09-05 https://scifaro.com/en/abs/empirical-interpretation-of-the-relationship-between-speech-acoustic-context-and-emotion-recognition-2306.175002023-07-03 https://scifaro.com/en/abs/casein-cascading-explicit-and-implicit-control-for-fine-grained-emotion-intensity-regulation-2307.000202023-07-04 https://scifaro.com/en/abs/an-end-to-end-multi-module-audio-deepfake-generation-system-for-add-challenge-2023-2307.007292023-07-04 https://scifaro.com/en/abs/musif-a-python-package-for-symbolic-music-feature-extraction-2307.011202026-01-21 https://scifaro.com/en/abs/emogen-eliminating-subjective-bias-in-emotional-music-generation-2307.012292023-07-06 https://scifaro.com/en/abs/robustl2s-speaker-specific-lip-to-speech-synthesis-exploiting-self-supervised-representations-2307.012332023-07-06 https://scifaro.com/en/abs/spatial-temporal-graph-based-multi-channel-speaker-verification-with-ad-hoc-microphone-arrays-2307.013862023-07-06 https://scifaro.com/en/abs/pretraining-conformer-with-asr-or-asv-for-anti-spoofing-countermeasure-2307.015462023-10-31 https://scifaro.com/en/abs/going-retro-astonishingly-simple-yet-effective-rule-based-prosody-modelling-for-speech-synthesis-simulating-emotion-dimensions-2307.021322023-07-06 https://scifaro.com/en/abs/self-supervised-learning-with-diffusion-based-multichannel-speech-enhancement-for-speaker-verification-under-noisy-conditions-2307.022442023-07-06 https://scifaro.com/en/abs/dsarsr-deep-stacked-auto-encoders-enhanced-robust-speaker-recognition-2307.027512023-07-07 https://scifaro.com/en/abs/evaluating-raw-waveforms-with-deep-learning-frameworks-for-speech-emotion-recognition-2307.028202023-07-07 https://scifaro.com/en/abs/whisper-at-noise-robust-automatic-speech-recognizers-are-also-strong-general-audio-event-taggers-2307.031832023-10-10 https://scifaro.com/en/abs/the-chime-7-udase-task-unsupervised-domain-adaptation-for-conversational-speech-enhancement-2307.035332024-01-09 https://scifaro.com/en/abs/roman-numeral-analysis-with-graph-neural-networks-onset-wise-predictions-from-note-wise-features-2307.035442023-07-13 https://scifaro.com/en/abs/emotion-guided-music-accompaniment-generation-based-on-variational-autoencoder-2307.040152023-07-11 https://scifaro.com/en/abs/edge-storage-management-recipe-with-zero-shot-data-compression-for-road-anomaly-detection-2307.042982023-08-29 https://scifaro.com/en/abs/automatic-piano-transcription-with-hierarchical-frequency-time-transformer-2307.043052023-07-11 https://scifaro.com/en/abs/hclas-x-hierarchical-and-cascaded-lyrics-alignment-system-using-multimodal-cross-correlation-2307.043772023-07-11 https://scifaro.com/en/abs/echovest-real-time-sound-classification-and-depth-perception-expressed-through-transcutaneous-electrical-nerve-stimulation-2307.046042023-07-11 https://scifaro.com/en/abs/the-npu-msxf-speech-to-speech-translation-system-for-iwslt-2023-speech-to-speech-translation-task-2307.046302023-07-11 https://scifaro.com/en/abs/vampnet-music-generation-via-masked-acoustic-token-modeling-2307.046862023-07-13 https://scifaro.com/en/abs/vocal-tract-area-estimation-by-gradient-descent-2307.047022023-07-11 https://scifaro.com/en/abs/launchpadgpt-language-model-as-music-visualization-designer-on-launchpad-2307.048272025-10-09 https://scifaro.com/en/abs/the-smarty4covid-dataset-and-knowledge-base-a-framework-enabling-interpretable-analysis-of-audio-signals-2307.050962023-07-12 https://scifaro.com/en/abs/optimizing-feature-extraction-for-symbolic-music-2307.051072026-01-21 https://scifaro.com/en/abs/on-the-effectiveness-of-speech-self-supervised-learning-for-music-2307.051612023-07-12 https://scifaro.com/en/abs/shredgp-guitarist-style-conditioned-tablature-generation-2307.053242023-07-12 https://scifaro.com/en/abs/proggp-from-guitarpro-tablature-neural-generation-to-progressive-metal-production-2307.053282023-07-12 https://scifaro.com/en/abs/collaborative-song-dataset-cosod-an-annotated-dataset-of-multi-artist-collaborations-in-popular-music-2307.055882023-07-20 https://scifaro.com/en/abs/language-routing-mixture-of-experts-for-multilingual-and-code-switching-speech-recognition-2307.059562023-07-17 https://scifaro.com/en/abs/can-large-language-models-aid-in-annotating-speech-emotional-data-uncovering-new-frontiers-2307.060902024-06-21 https://scifaro.com/en/abs/b-clean-sc-clean-sc-for-broadband-sources-2307.061812023-08-21 https://scifaro.com/en/abs/uncovering-the-deceptions-an-analysis-on-audio-spoofing-detection-and-future-prospects-2307.066692023-07-14 https://scifaro.com/en/abs/anuraset-a-dataset-for-benchmarking-neotropical-anuran-calls-identification-in-passive-acoustic-monitoring-2307.068602023-07-14 https://scifaro.com/en/abs/audioinceptionnext-tcl-ai-lab-submission-to-epic-sound-audio-based-interaction-recognition-challenge-2023-2307.072652023-07-17 https://scifaro.com/en/abs/real-time-percussive-technique-recognition-and-embedding-learning-for-the-acoustic-guitar-2307.074262023-07-17 https://scifaro.com/en/abs/single-and-multi-speaker-cloned-voice-detection-from-perceptual-to-learned-features-2307.076832023-09-28 https://scifaro.com/en/abs/noisebandnet-controllable-time-varying-neural-synthesis-of-sound-effects-using-filterbanks-2307.080072024-10-28 https://scifaro.com/en/abs/towards-stealthy-backdoor-attacks-against-speech-recognition-via-elements-of-sound-2307.082082023-07-18 https://scifaro.com/en/abs/tst-time-sparse-transducer-for-automatic-speech-recognition-2307.083232023-07-18 https://scifaro.com/en/abs/oxfordvgg-submission-to-the-ego4d-av-transcription-challenge-2307.090062023-07-19 https://scifaro.com/en/abs/flexiast-flexibility-is-what-ast-needs-2307.092862023-07-19 https://scifaro.com/en/abs/musical-excellence-of-mridangam-an-introductory-review-2307.094252023-07-19 https://scifaro.com/en/abs/jazzvar-a-dataset-of-variations-found-within-solo-piano-performances-of-jazz-standards-for-music-overpainting-2307.096702024-10-15 https://scifaro.com/en/abs/improving-domain-generalization-for-sound-classification-with-sparse-frequency-regularized-transformer-2307.097232023-07-20 https://scifaro.com/en/abs/from-west-to-east-who-can-understand-the-music-of-the-others-better-2307.097952023-07-20 https://scifaro.com/en/abs/interpretable-timbre-synthesis-using-variational-autoencoders-regularized-on-timbre-descriptors-2307.102832023-07-21 https://scifaro.com/en/abs/polyffusion-a-diffusion-model-for-polyphonic-score-generation-with-internal-and-external-controls-2307.103042023-07-21 https://scifaro.com/en/abs/sc-vall-e-style-controllable-zero-shot-text-to-speech-synthesizer-2307.105502023-07-21 https://scifaro.com/en/abs/vesper-a-compact-and-effective-pretrained-model-for-speech-emotion-recognition-2307.107572024-04-19 https://scifaro.com/en/abs/music-genre-classification-with-resnet-and-bi-gru-using-visual-spectrograms-2307.107732023-07-21 https://scifaro.com/en/abs/masr-multi-label-aware-speech-representation-2307.109822023-09-26 https://scifaro.com/en/abs/progressive-distillation-diffusion-for-raw-music-generation-2307.109942023-07-21 https://scifaro.com/en/abs/a-change-of-heart-improving-speech-emotion-recognition-through-speech-to-text-modality-conversion-2307.115842023-07-24 https://scifaro.com/en/abs/exploring-the-integration-of-speech-separation-and-recognition-with-self-supervised-learning-representation-2307.122312023-07-25 https://scifaro.com/en/abs/signal-reconstruction-from-mel-spectrogram-based-on-bi-level-consistency-of-full-band-magnitude-and-phase-2307.122322023-07-25 https://scifaro.com/en/abs/a-meta-learning-scheme-for-fast-accent-domain-expansion-in-mandarin-speech-recognition-2307.122622023-07-25 https://scifaro.com/en/abs/self-supervised-learning-for-audio-based-emotion-recognition-2307.123432023-07-25 https://scifaro.com/en/abs/scraps-speech-contrastive-representations-of-acoustic-and-phonetic-spaces-2307.124452024-02-01 https://scifaro.com/en/abs/robust-automatic-speech-recognition-via-wavaugment-guided-phoneme-adversarial-training-2307.124982023-07-25 https://scifaro.com/en/abs/a-model-for-every-user-and-budget-label-free-and-personalized-mixed-precision-quantization-2307.126592024-02-13 https://scifaro.com/en/abs/online-continual-learning-in-keyword-spotting-for-low-resource-devices-via-pooling-high-order-temporal-statistics-2307.126602023-07-25 https://scifaro.com/en/abs/an-objective-evaluation-of-hearing-aids-and-dnn-based-speech-enhancement-in-complex-acoustic-scenes-2307.128882023-07-25 https://scifaro.com/en/abs/joint-speech-and-overlap-detection-a-benchmark-over-multiple-audio-setup-and-speech-domains-2307.130122023-07-26 https://scifaro.com/en/abs/audio-aware-query-enhanced-transformer-for-audio-visual-segmentation-2307.132362023-07-26 https://scifaro.com/en/abs/cqnv-a-combination-of-coarsely-quantized-bitstream-and-neural-vocoder-for-low-rate-speech-coding-2307.132952023-07-26 https://scifaro.com/en/abs/a-snoring-sound-dataset-for-body-position-recognition-collection-annotation-and-analysis-2307.133462023-07-26 https://scifaro.com/en/abs/non-intrusive-intelligibility-predictor-for-hearing-impaired-individuals-using-self-supervised-speech-representations-2307.134232023-12-08 https://scifaro.com/en/abs/histogram-layer-time-delay-neural-networks-for-passive-sonar-classification-2307.137882023-07-27 https://scifaro.com/en/abs/fitting-auditory-filterbanks-with-multiresolution-neural-networks-2307.138212024-07-09 https://scifaro.com/en/abs/bovinetalk-machine-learning-for-vocalization-analysis-of-dairy-cattle-under-negative-affective-states-2307.139942023-07-27 https://scifaro.com/en/abs/cif-t-a-novel-cif-based-transducer-architecture-for-automatic-speech-recognition-2307.141322024-11-28 https://scifaro.com/en/abs/wavjourney-compositional-audio-creation-with-large-language-models-2307.143352023-11-28 https://scifaro.com/en/abs/single-channel-speech-enhancement-using-u-net-spiking-neural-networks-2307.144642023-07-28 https://scifaro.com/en/abs/complete-and-separate-conditional-separation-with-missing-target-source-attribute-completion-2307.146092023-09-27 https://scifaro.com/en/abs/graph-based-polyphonic-multitrack-music-generation-2307.149282023-07-28 https://scifaro.com/en/abs/improving-audio-text-retrieval-via-hierarchical-cross-modal-interaction-and-auxiliary-captions-2307.153442025-05-06 https://scifaro.com/en/abs/the-flyspeech-audio-visual-speaker-diarization-system-for-misp-challenge-2022-2307.154002023-07-31 https://scifaro.com/en/abs/minimally-supervised-speech-synthesis-with-conditional-diffusion-model-and-language-model-a-comparative-study-of-semantic-coding-2307.154842023-12-19 https://scifaro.com/en/abs/automated-approach-for-source-location-in-shallow-waters-2307.154912023-07-31 https://scifaro.com/en/abs/all-for-one-and-one-for-all-deep-learning-based-feature-fusion-for-synthetic-speech-detection-2307.155552023-07-31 https://scifaro.com/en/abs/unibrivl-robust-universal-representation-and-generation-of-audio-driven-diffusion-models-2307.158982023-09-12 https://scifaro.com/en/abs/moisesdb-a-dataset-for-source-separation-beyond-4-stems-2307.159132023-08-01 https://scifaro.com/en/abs/msstyletts-multi-scale-style-modeling-with-hierarchical-context-information-for-expressive-speech-synthesis-2307.160122023-08-01 https://scifaro.com/en/abs/hiervst-hierarchical-adaptive-zero-shot-voice-style-transfer-2307.161712023-08-01 https://scifaro.com/en/abs/lp-musiccaps-llm-based-pseudo-music-captioning-2307.163722023-08-01 https://scifaro.com/en/abs/vits2-improving-quality-and-efficiency-of-single-stage-text-to-speech-with-adversarial-learning-and-architecture-design-2307.164302023-08-01 https://scifaro.com/en/abs/spatialnet-extensively-learning-spatial-information-for-multichannel-joint-speech-separation-denoising-and-dereverberation-2307.165162023-12-25 https://scifaro.com/en/abs/diffprosody-diffusion-based-latent-prosody-generation-for-expressive-speech-synthesis-with-prosody-conditional-adversarial-training-2307.165492025-01-22 https://scifaro.com/en/abs/audio-visual-video-to-speech-synthesis-with-synthesized-input-audio-2307.165842024-10-28 https://scifaro.com/en/abs/audio-visual-segmentation-by-exploring-cross-modal-mutual-semantics-2307.166202023-08-02 https://scifaro.com/en/abs/monaural-multi-speaker-speech-separation-using-efficient-transformer-model-2308.000102026-02-19 https://scifaro.com/en/abs/exploring-how-a-generative-ai-interprets-music-2308.000152023-08-02 https://scifaro.com/en/abs/music-de-limiter-networks-via-sample-wise-gain-inversion-2308.011872024-06-25 https://scifaro.com/en/abs/careful-whisper-leveraging-advances-in-automatic-speech-recognition-for-robust-and-interpretable-aphasia-subtype-classification-2308.013272023-08-04 https://scifaro.com/en/abs/optimizing-multi-user-indoor-sound-communications-with-acoustic-reconfigurable-metasurfaces-2308.015312024-02-13 https://scifaro.com/en/abs/musicldm-enhancing-novelty-in-text-to-music-generation-using-beat-synchronous-mixup-strategies-2308.015462023-08-04 https://scifaro.com/en/abs/adversarial-training-of-denoising-diffusion-model-using-dual-discriminators-for-high-fidelity-multi-speaker-tts-2308.015732024-04-30 https://scifaro.com/en/abs/federated-representation-learning-for-automatic-speech-recognition-2308.020132023-08-09 https://scifaro.com/en/abs/emo-dna-emotion-decoupling-and-alignment-learning-for-cross-corpus-speech-emotion-recognition-2308.021902023-08-07 https://scifaro.com/en/abs/finding-tori-self-supervised-learning-for-analyzing-korean-folk-song-2308.022492023-08-07 https://scifaro.com/en/abs/efficient-monaural-speech-enhancement-using-spectrum-attention-fusion-2308.022632023-08-07 https://scifaro.com/en/abs/from-discrete-tokens-to-high-fidelity-audio-using-multi-band-diffusion-2308.025602023-11-09 https://scifaro.com/en/abs/towards-improving-harmonic-sensitivity-and-prediction-stability-for-singing-melody-extraction-2308.027232023-08-08 https://scifaro.com/en/abs/a-systematic-exploration-of-joint-training-for-singing-voice-synthesis-2308.028672023-08-08 https://scifaro.com/en/abs/elucidate-gender-fairness-in-singing-voice-transcription-2308.028982023-08-08 https://scifaro.com/en/abs/characterization-of-cough-sounds-using-statistical-analysis-2308.030192023-08-08 https://scifaro.com/en/abs/seaco-paraformer-a-non-autoregressive-asr-system-with-flexible-and-effective-hotword-customization-ability-2308.032662023-12-27 https://scifaro.com/en/abs/do-you-remember-overcoming-catastrophic-forgetting-for-fake-audio-detection-2308.033002023-08-08 https://scifaro.com/en/abs/improving-deep-attractor-network-by-bgru-and-gmm-for-speech-separation-2308.033322023-08-08 https://scifaro.com/en/abs/msac-multiple-speech-attribute-control-method-for-reliable-speech-emotion-recognition-2308.040252024-03-25 https://scifaro.com/en/abs/dual-input-neural-networks-for-positional-sound-source-localization-2308.041692023-08-09 https://scifaro.com/en/abs/auditory-attention-decoding-with-task-related-multi-view-contrastive-learning-2308.042442023-08-09 https://scifaro.com/en/abs/capturing-spectral-and-long-term-contextual-information-for-speech-emotion-recognition-using-deep-learning-techniques-2308.045172023-08-10 https://scifaro.com/en/abs/speaker-recognition-using-isomorphic-graph-attention-network-based-pooling-on-self-supervised-representation-2308.046662024-02-27 https://scifaro.com/en/abs/jen-1-text-guided-universal-music-generation-with-omnidirectional-diffusion-models-2308.047292025-05-08 https://scifaro.com/en/abs/representation-learning-for-audio-privacy-preservation-using-source-separation-and-robust-adversarial-learning-2308.049602025-05-05 https://scifaro.com/en/abs/sound-propagation-in-realistic-interactive-3d-scenes-with-parameterized-sources-using-deep-neural-operators-2308.051412024-01-17 https://scifaro.com/en/abs/conformer-based-target-speaker-automatic-speech-recognition-for-single-channel-audio-2308.052182023-08-11 https://scifaro.com/en/abs/audioldm-2-learning-holistic-audio-generation-with-self-supervised-pretraining-2308.057342024-05-14 https://scifaro.com/en/abs/large-scale-learning-on-overlapped-speech-detection-new-benchmark-and-new-general-system-2308.059872023-09-08 https://scifaro.com/en/abs/audio-is-all-in-one-speech-driven-gesture-synthetics-using-wavlm-pre-trained-model-2308.059952024-04-16 https://scifaro.com/en/abs/an-autoethnographic-exploration-of-xai-in-algorithmic-composition-2308.060892023-08-14 https://scifaro.com/en/abs/lip2vec-efficient-and-robust-visual-speech-recognition-via-latent-to-latent-visual-to-audio-representation-mapping-2308.061122023-08-14 https://scifaro.com/en/abs/phoneme-hallucinator-one-shot-voice-conversion-via-set-expansion-2308.063822024-01-02 https://scifaro.com/en/abs/flexible-keyword-spotting-based-on-homogeneous-audio-text-embedding-2308.064722023-08-15 https://scifaro.com/en/abs/bigwavgan-a-wave-to-wave-generative-adversarial-network-for-music-super-resolution-2308.064832023-10-31 https://scifaro.com/en/abs/istftnet2-faster-and-more-lightweight-istft-based-neural-vocoder-using-1d-2d-cnn-2308.071172023-08-15 https://scifaro.com/en/abs/active-bird2vec-towards-end-to-end-bird-sound-monitoring-with-transformers-2308.071212023-11-22 https://scifaro.com/en/abs/human-voice-pitch-estimation-a-convolutional-network-with-auto-labeled-and-synthetic-data-2308.071702023-12-19 https://scifaro.com/en/abs/audioformer-audio-transformer-learns-audio-feature-representations-from-discrete-acoustic-codes-2308.072212023-08-28 https://scifaro.com/en/abs/diffsed-sound-event-detection-with-denoising-diffusion-2308.072932023-08-21 https://scifaro.com/en/abs/diffv2s-diffusion-based-video-to-speech-synthesis-with-vision-guided-speaker-embedding-2308.077872023-08-16 https://scifaro.com/en/abs/radio2text-streaming-speech-recognition-using-mmwave-radio-signals-2308.081252023-08-17 https://scifaro.com/en/abs/iianet-an-intra-and-inter-modality-attention-network-for-audio-visual-speech-separation-2308.081432024-02-05 https://scifaro.com/en/abs/chinatelecom-system-description-to-voxceleb-speaker-recognition-challenge-2023-2308.081812023-08-17 https://scifaro.com/en/abs/accurate-synthesis-of-dysarthric-speech-for-asr-data-augmentation-2308.084382023-08-17 https://scifaro.com/en/abs/affectecho-speaker-independent-and-language-agnostic-emotion-and-affect-transfer-for-speech-synthesis-2308.085772023-08-21 https://scifaro.com/en/abs/long-frame-shift-neural-speech-phase-prediction-with-spectral-continuity-enhancement-and-interpolation-error-compensation-2308.088502023-08-21 https://scifaro.com/en/abs/bridging-high-quality-audio-and-video-via-language-for-sound-effects-retrieval-from-visual-queries-2308.090892023-08-21 https://scifaro.com/en/abs/robust-audio-anti-spoofing-with-fusion-reconstruction-learning-on-multi-order-spectrograms-2308.093022024-10-04 https://scifaro.com/en/abs/exploring-sampling-techniques-for-generating-melodies-with-a-transformer-language-model-2308.094542023-08-21 https://scifaro.com/en/abs/spatial-librispeech-an-augmented-dataset-for-spatial-audio-learning-2308.095142023-08-21 https://scifaro.com/en/abs/spatial-reconstructed-local-attention-res2net-with-f0-subband-for-fake-speech-detection-2308.099442024-07-09 https://scifaro.com/en/abs/neural-architectures-learning-fourier-transforms-signal-processing-and-much-more-2308.103882023-08-22 https://scifaro.com/en/abs/tokensplit-using-discrete-speech-representations-for-direct-refined-and-transcript-conditioned-speech-separation-and-recognition-2308.104152023-08-22 https://scifaro.com/en/abs/an-anchor-point-based-image-model-for-room-impulse-response-simulation-with-directional-source-radiation-and-sensor-directivity-patterns-2308.105432023-08-22 https://scifaro.com/en/abs/libriwasn-a-data-set-for-meeting-separation-diarization-and-recognition-with-asynchronous-recording-devices-2308.106822023-08-22 https://scifaro.com/en/abs/pmvc-data-augmentation-based-prosody-modeling-for-expressive-voice-conversion-2308.110842023-08-23 https://scifaro.com/en/abs/an-effective-transformer-based-contextual-model-and-temporal-gate-pooling-for-speaker-identification-2308.112412023-09-12 https://scifaro.com/en/abs/music-understanding-llama-advancing-text-to-music-generation-with-question-answering-and-captioning-2308.112762023-08-23 https://scifaro.com/en/abs/convoifilter-a-case-study-of-doing-cocktail-party-speech-recognition-2308.113802024-04-09 https://scifaro.com/en/abs/deep-learning-based-denoising-streamed-from-mobile-phones-improves-speech-in-noise-understanding-for-hearing-aid-users-2308.114562023-08-23 https://scifaro.com/en/abs/leveraging-language-model-capabilities-for-sound-event-detection-2308.115302024-08-06 https://scifaro.com/en/abs/complex-valued-neural-networks-for-voice-anti-spoofing-2308.118002023-08-24 https://scifaro.com/en/abs/audio-generation-with-multiple-conditional-diffusion-model-2308.119402023-12-29 https://scifaro.com/en/abs/ced-consistent-ensemble-distillation-for-audio-tagging-2308.119572023-09-11 https://scifaro.com/en/abs/modeling-bends-in-popular-music-guitar-tablatures-2308.123072023-08-25 https://scifaro.com/en/abs/an-initial-exploration-learning-to-generate-realistic-audio-for-silent-video-2308.124082023-08-25 https://scifaro.com/en/abs/attention-based-acoustic-feature-fusion-network-for-depression-detection-2308.124782023-08-25 https://scifaro.com/en/abs/exploiting-time-frequency-conformers-for-music-audio-enhancement-2308.125992023-08-25 https://scifaro.com/en/abs/naaloss-rethinking-the-objective-of-speech-enhancement-2308.126152023-08-25 https://scifaro.com/en/abs/whombat-an-open-source-annotation-tool-for-machine-learning-development-in-bioacoustics-2308.126882023-11-08 https://scifaro.com/en/abs/real-time-detection-of-ai-generated-speech-for-deepfake-voice-conversion-2308.127342023-08-25 https://scifaro.com/en/abs/wavmark-watermarking-for-audio-generation-2308.127702024-01-09 https://scifaro.com/en/abs/sparks-of-large-audio-models-a-survey-and-outlook-2308.127922023-09-25 https://scifaro.com/en/abs/towards-automated-animal-density-estimation-with-acoustic-spatial-capture-recapture-2308.128592023-08-25 https://scifaro.com/en/abs/lcanets-robust-audio-classification-using-multi-layer-neural-networks-with-lateral-competition-2308.128822024-03-28 https://scifaro.com/en/abs/a-survey-of-ai-music-generation-tools-and-models-2308.129822023-08-28 https://scifaro.com/en/abs/generalizable-zero-shot-speaker-adaptive-speech-synthesis-with-disentangled-representations-2308.130072023-08-28 https://scifaro.com/en/abs/deep-active-audio-feature-learning-in-resource-constrained-environments-2308.132012024-07-02 https://scifaro.com/en/abs/expressive-paragraph-text-to-speech-synthesis-with-multi-step-variational-autoencoder-2308.133652024-09-26 https://scifaro.com/en/abs/a-comprehensive-survey-for-evaluation-methodologies-of-ai-generated-music-2308.137362023-08-29 https://scifaro.com/en/abs/a-small-vocabulary-database-of-ultrasound-image-sequences-of-vocal-tract-dynamics-2308.139412023-10-17 https://scifaro.com/en/abs/multi-subdomain-adversarial-network-for-cross-subject-eeg-based-emotion-recognition-2308.140592023-08-29 https://scifaro.com/en/abs/anomalous-sound-detection-using-self-attention-based-frequency-pattern-analysis-of-machine-sounds-2308.140632023-09-07 https://scifaro.com/en/abs/symbolic-acoustic-multi-domain-music-emotion-modeling-for-instrumental-music-2308.143172023-08-29 https://scifaro.com/en/abs/voice-conversion-with-denoising-diffusion-probabilistic-gan-models-2308.143192023-08-29 https://scifaro.com/en/abs/instructme-an-instruction-guided-music-edit-and-remix-framework-with-latent-diffusion-models-2308.143602023-12-13 https://scifaro.com/en/abs/time-frequency-transformer-a-novel-time-frequency-joint-learning-method-for-speech-emotion-recognition-2308.145682023-08-29 https://scifaro.com/en/abs/pruning-self-attention-for-zero-shot-multi-speaker-text-to-speech-2308.149092023-08-30 https://scifaro.com/en/abs/audio-deepfake-detection-a-survey-2308.149702023-08-30 https://scifaro.com/en/abs/a-review-of-differentiable-digital-signal-processing-for-music-speech-synthesis-2308.154222023-08-30 https://scifaro.com/en/abs/ags-an-dataset-and-taxonomy-for-domestic-scene-sound-event-recognition-2308.157262023-08-31 https://scifaro.com/en/abs/aster-automatic-speech-recognition-system-accessibility-testing-for-stutterers-2308.157422023-08-31 https://scifaro.com/en/abs/dual-path-transformer-based-neural-beamformer-for-target-speech-extraction-2308.159902023-09-08 https://scifaro.com/en/abs/calm-contrastive-cross-modal-speaking-style-modeling-for-expressive-text-to-speech-synthesis-2308.160212023-08-31 https://scifaro.com/en/abs/general-purpose-audio-effect-removal-2308.161772023-08-31 https://scifaro.com/en/abs/the-biased-journey-of-msd-audio-zip-2308.163892023-12-05 https://scifaro.com/en/abs/sequential-pitch-distributions-for-raga-detection-2308.164212023-09-01 https://scifaro.com/en/abs/lightgrad-lightweight-diffusion-probabilistic-model-for-text-to-speech-2308.165692023-09-01 https://scifaro.com/en/abs/improving-mandarin-prosodic-structure-prediction-with-multi-level-contextual-information-2308.165772023-09-01 https://scifaro.com/en/abs/towards-spontaneous-style-modeling-with-semi-supervised-pre-training-for-conversational-text-to-speech-synthesis-2308.165932023-09-01 https://scifaro.com/en/abs/dynamic-nsnet2-efficient-deep-noise-suppression-with-early-exiting-2308.166782024-03-11 https://scifaro.com/en/abs/towards-improving-the-expressiveness-of-singing-voice-synthesis-with-bert-derived-semantic-information-2308.168362023-09-01 https://scifaro.com/en/abs/qs-tts-towards-semi-supervised-text-to-speech-synthesis-via-vector-quantized-self-supervised-speech-representation-learning-2309.001262023-09-04 https://scifaro.com/en/abs/improving-vision-inspired-keyword-spotting-using-dynamic-module-skipping-in-streaming-conformer-encoder-2309.001402024-04-02 https://scifaro.com/en/abs/enhancing-the-vocal-range-of-single-speaker-singing-voice-synthesis-with-melody-unsupervised-pre-training-2309.002842023-09-04 https://scifaro.com/en/abs/mi-go-test-framework-which-uses-youtube-as-data-source-for-evaluating-speech-recognition-models-like-openai-s-whisper-2309.003292023-09-04 https://scifaro.com/en/abs/conette-an-efficient-audio-captioning-system-leveraging-multiple-datasets-with-task-embedding-2309.004542023-09-04 https://scifaro.com/en/abs/pretraining-representations-for-bioacoustic-few-shot-detection-using-supervised-contrastive-learning-2309.008782023-09-06 https://scifaro.com/en/abs/diclet-tts-diffusion-model-based-cross-lingual-emotion-transfer-for-text-to-speech-a-study-between-english-and-mandarin-2309.008832023-09-06 https://scifaro.com/en/abs/timbre-reserved-adversarial-attack-in-speaker-identification-2309.009292023-09-06 https://scifaro.com/en/abs/nadiffuse-noise-aware-diffusion-based-model-for-speech-enhancement-2309.012122023-09-06 https://scifaro.com/en/abs/mdsc-towards-evaluating-the-style-consistency-between-music-and-dance-2309.013402023-12-04 https://scifaro.com/en/abs/sememeasr-boosting-performance-of-end-to-end-speech-recognition-against-domain-and-long-tailed-data-shift-with-sememe-semantic-knowledge-2309.014372023-10-10 https://scifaro.com/en/abs/eventtrojan-manipulating-non-intrusive-speech-quality-assessment-via-imperceptible-events-2309.014802024-09-12 https://scifaro.com/en/abs/evaluating-methods-for-ground-truth-free-foreign-accent-conversion-2309.021332023-09-06 https://scifaro.com/en/abs/fsd-an-initial-chinese-dataset-for-fake-song-detection-2309.022322023-09-07 https://scifaro.com/en/abs/self-similarity-based-and-novelty-based-loss-for-music-structure-analysis-2309.022432023-09-06 https://scifaro.com/en/abs/the-batik-plays-mozart-corpus-linking-performance-to-score-to-musicological-annotations-2309.023992023-09-07 https://scifaro.com/en/abs/voice-morphing-two-identities-in-one-voice-2309.024042023-09-06 https://scifaro.com/en/abs/text-only-domain-adaptation-for-end-to-end-speech-recognition-through-down-sampling-acoustic-representation-2309.024592023-10-10 https://scifaro.com/en/abs/music-source-separation-with-band-split-rope-transformer-2309.026122023-09-12 https://scifaro.com/en/abs/simultaneous-measurement-of-multiple-acoustic-attributes-using-structured-periodic-test-signals-including-music-and-other-sound-materials-2309.027672023-09-07 https://scifaro.com/en/abs/self-supervised-disentanglement-of-harmonic-and-rhythmic-features-in-music-audio-signals-2309.027962023-09-07 https://scifaro.com/en/abs/bigvsan-enhancing-gan-based-neural-vocoders-with-slicing-adversarial-network-2309.028362024-03-26 https://scifaro.com/en/abs/an-efficient-temporary-deepfake-location-approach-based-embeddings-for-partially-spoofed-audio-detection-2309.030362023-11-22 https://scifaro.com/en/abs/presenting-the-swtc-a-symbolic-corpus-of-themes-from-john-williams-star-wars-episodes-i-ix-2309.032982023-09-08 https://scifaro.com/en/abs/highly-controllable-diffusion-based-any-to-any-voice-conversion-model-with-frame-level-prosody-feature-2309.033642023-09-08 https://scifaro.com/en/abs/cross-domain-sound-recognition-for-efficient-underwater-data-analysis-2309.034512024-02-22 https://scifaro.com/en/abs/topological-fingerprints-for-audio-identification-2309.035162023-09-08 https://scifaro.com/en/abs/mvd-a-novel-methodology-and-dataset-for-acoustic-vehicle-type-classification-2309.035442023-09-08 https://scifaro.com/en/abs/understanding-self-supervised-learning-of-speech-representation-via-invariance-and-redundancy-reduction-2309.036192024-01-25 https://scifaro.com/en/abs/spiking-structured-state-space-model-for-monaural-speech-enhancement-2309.036412024-04-23 https://scifaro.com/en/abs/zero-shot-audio-captioning-via-audibility-guidance-2309.038842023-09-08 https://scifaro.com/en/abs/large-scale-automatic-audiobook-creation-2309.039262023-09-11 https://scifaro.com/en/abs/a-neural-speech-codec-for-noise-robust-speech-coding-2309.041322025-09-03 https://scifaro.com/en/abs/cross-utterance-conditioned-vae-for-speech-generation-2309.041562024-09-20 https://scifaro.com/en/abs/a-long-tail-friendly-representation-framework-for-artist-and-music-similarity-2309.041822023-09-11 https://scifaro.com/en/abs/parallel-and-limited-data-voice-conversion-using-stochastic-variational-deep-kernel-learning-2309.044202023-09-11 https://scifaro.com/en/abs/covid-19-detection-system-a-comparative-analysis-of-system-performance-based-on-acoustic-features-of-cough-audio-signals-2309.045052024-06-21 https://scifaro.com/en/abs/the-power-of-sound-tpos-audio-reactive-video-generation-with-stable-diffusion-2309.045092023-09-12 https://scifaro.com/en/abs/exploring-domain-specific-enhancements-for-a-neural-foley-synthesizer-2309.046412023-09-12 https://scifaro.com/en/abs/mask-ctc-based-encoder-pre-training-for-streaming-end-to-end-speech-recognition-2309.046542023-09-12 https://scifaro.com/en/abs/audrandaug-random-image-augmentations-for-audio-classification-2309.047622023-09-12 https://scifaro.com/en/abs/exploring-music-genre-classification-algorithm-analysis-and-deployment-architecture-2309.048612023-09-15 https://scifaro.com/en/abs/efficient-emotional-adaptation-for-audio-driven-talking-head-generation-2309.049462023-10-13 https://scifaro.com/en/abs/multimodal-fish-feeding-intensity-assessment-in-aquaculture-2309.050582024-11-26 https://scifaro.com/en/abs/addressing-feature-imbalance-in-sound-source-separation-2309.052872023-10-05 https://scifaro.com/en/abs/edac-efficient-deployment-of-audio-classification-models-for-covid-19-detection-2309.053572023-09-12 https://scifaro.com/en/abs/slidespeech-a-large-scale-slide-enriched-audio-visual-corpus-2309.053962023-12-27 https://scifaro.com/en/abs/undecidability-results-and-their-relevance-in-modern-music-making-2309.055952023-09-18 https://scifaro.com/en/abs/kernel-interpolation-of-incident-sound-field-in-region-including-scattering-objects-2309.056342023-09-12 https://scifaro.com/en/abs/natural-language-supervision-for-general-purpose-audio-representations-2309.057672024-02-08 https://scifaro.com/en/abs/synvox2-towards-a-privacy-friendly-voxceleb2-dataset-2309.061412023-09-13 https://scifaro.com/en/abs/differentiable-modelling-of-percussive-audio-with-transient-and-spectral-synthesis-2309.066492023-09-14 https://scifaro.com/en/abs/attention-based-encoder-decoder-end-to-end-neural-diarization-with-embedding-enhancer-2309.066722023-09-14 https://scifaro.com/en/abs/piave-a-pose-invariant-audio-visual-speaker-extraction-network-2309.067232023-09-14 https://scifaro.com/en/abs/distinguishing-neural-speech-synthesis-models-through-fingerprints-in-speech-waveforms-2309.067802024-06-18 https://scifaro.com/en/abs/dctts-discrete-diffusion-model-with-contrastive-learning-for-text-to-speech-generation-2309.067872023-09-14 https://scifaro.com/en/abs/emalg-an-enhanced-mandarin-lombard-grid-corpus-with-meaningful-sentences-2309.068582024-01-10 https://scifaro.com/en/abs/getting-more-for-less-using-weak-labels-and-av-mixup-for-robust-audio-visual-speaker-verification-2309.071152024-09-25 https://scifaro.com/en/abs/diffusion-models-for-audio-semantic-communication-2309.071952023-09-15 https://scifaro.com/en/abs/audiosr-versatile-audio-super-resolution-at-scale-2309.073142023-09-15 https://scifaro.com/en/abs/encodecmae-leveraging-neural-codecs-for-universal-audio-representation-learning-2309.073912024-05-22 https://scifaro.com/en/abs/funcodec-a-fundamental-reproducible-and-integrable-open-source-toolkit-for-neural-speech-codec-2309.074052023-10-10 https://scifaro.com/en/abs/banc-towards-efficient-binaural-audio-neural-codec-for-overlapping-speech-2309.074162024-11-26 https://scifaro.com/en/abs/mandarin-lombard-flavor-classification-2309.074192023-09-15 https://scifaro.com/en/abs/spatialcodec-neural-spatial-speech-coding-2309.074322024-07-10 https://scifaro.com/en/abs/analysis-of-speech-separation-performance-degradation-on-emotional-speech-mixtures-2309.074582023-09-15 https://scifaro.com/en/abs/outlier-aware-inlier-modeling-and-multi-scale-scoring-for-anomalous-sound-detection-via-multitask-learning-2309.075002023-09-15 https://scifaro.com/en/abs/singfake-singing-voice-deepfake-detection-2309.075252026-02-05 https://scifaro.com/en/abs/speech-to-speech-translation-with-discrete-unit-based-style-transfer-2309.075662024-07-22 https://scifaro.com/en/abs/aas-vc-on-the-generalization-ability-of-automatic-alignment-search-based-non-autoregressive-sequence-to-sequence-voice-conversion-2309.075982023-09-18 https://scifaro.com/en/abs/multilingual-audio-captioning-using-machine-translated-data-2309.076152023-09-15 https://scifaro.com/en/abs/ddsp-based-neural-waveform-synthesis-of-polyphonic-guitar-performance-from-string-wise-midi-input-2309.076582023-09-15 https://scifaro.com/en/abs/echotune-a-modular-extractor-leveraging-the-variable-length-nature-of-speech-in-asr-tasks-2309.077652024-04-09 https://scifaro.com/en/abs/ciwagan-articulatory-information-exchange-2309.078612023-09-15 https://scifaro.com/en/abs/comparative-assessment-of-markov-models-and-recurrent-neural-networks-for-jazz-music-generation-2309.080272023-09-18 https://scifaro.com/en/abs/voicepat-an-efficient-open-source-evaluation-toolkit-for-voice-privacy-research-2309.080492023-12-25 https://scifaro.com/en/abs/retrieval-augmented-text-to-audio-generation-2309.080512024-01-08 https://scifaro.com/en/abs/ssl-net-a-synergistic-spectral-and-learning-based-network-for-efficient-bird-sound-classification-2309.080722023-12-27 https://scifaro.com/en/abs/characterizing-the-temporal-dynamics-of-universal-speech-representations-for-generalizable-deepfake-detection-2309.080992023-09-18 https://scifaro.com/en/abs/foundation-model-assisted-automatic-speech-emotion-recognition-transcribing-annotating-and-augmenting-2309.081082023-09-18 https://scifaro.com/en/abs/diversity-based-core-set-selection-for-text-to-speech-with-linguistic-and-acoustic-features-2309.081272023-09-18 https://scifaro.com/en/abs/two-step-knowledge-distillation-for-tiny-speech-enhancement-2309.081442023-09-18 https://scifaro.com/en/abs/syn-att-synthetic-speech-attribution-via-semi-supervised-unknown-multi-class-ensemble-of-cnns-2309.081462023-09-18 https://scifaro.com/en/abs/residual-speaker-representation-for-one-shot-voice-conversion-2309.081662024-08-13 https://scifaro.com/en/abs/tf-sepnet-an-efficient-1d-kernel-design-in-cnns-for-low-complexity-acoustic-scene-classification-2309.082002024-05-30 https://scifaro.com/en/abs/hm-conformer-a-conformer-based-audio-deepfake-detection-system-with-hierarchical-pooling-and-multi-level-classification-token-aggregation-methods-2309.082082023-09-18 https://scifaro.com/en/abs/exploring-meta-information-for-audio-based-zero-shot-bird-classification-2309.083982024-06-12 https://scifaro.com/en/abs/audio-visual-active-speaker-extraction-for-sparsely-overlapped-multi-talker-speech-2309.084082023-09-18 https://scifaro.com/en/abs/diverse-audio-embeddings-bringing-features-back-outperforms-clap-2309.087512025-05-08 https://scifaro.com/en/abs/enhance-audio-generation-controllability-through-representation-similarity-regularization-2309.087732023-09-19 https://scifaro.com/en/abs/fastgraphtts-an-ultrafast-syntax-aware-speech-synthesis-framework-2309.088372023-09-19 https://scifaro.com/en/abs/contrastive-latent-space-reconstruction-learning-for-audio-text-retrieval-2309.088392023-09-19 https://scifaro.com/en/abs/regularized-contrastive-pre-training-for-few-shot-bioacoustic-sound-detection-2309.089712024-01-18 https://scifaro.com/en/abs/music-generation-based-on-generative-adversarial-networks-with-transformer-2309.090752023-10-11 https://scifaro.com/en/abs/synthtab-leveraging-synthesized-data-for-guitar-tablature-transcription-2309.090852025-05-27 https://scifaro.com/en/abs/enhancing-gan-based-vocoders-with-contrastive-learning-under-data-limited-condition-2309.090882023-12-19 https://scifaro.com/en/abs/enhancing-quantised-end-to-end-asr-models-via-personalisation-2309.091362023-09-19 https://scifaro.com/en/abs/zero-and-few-shot-sound-event-localization-and-detection-2309.092232024-01-19 https://scifaro.com/en/abs/sound-source-distance-estimation-in-diverse-and-dynamic-acoustic-conditions-2309.092882023-09-19 https://scifaro.com/en/abs/a-few-shot-approach-to-dysarthric-speech-intelligibility-level-classification-using-transformers-2309.093292024-06-17 https://scifaro.com/en/abs/are-soft-prompts-good-zero-shot-learners-for-speech-recognition-2309.094132023-09-19 https://scifaro.com/en/abs/spiking-leaf-a-learnable-auditory-front-end-for-spiking-neural-networks-2309.094692024-03-26 https://scifaro.com/en/abs/face-driven-zero-shot-voice-conversion-with-memory-based-face-voice-alignment-2309.094702023-09-19 https://scifaro.com/en/abs/humtrans-a-novel-open-source-dataset-for-humming-melody-transcription-and-beyond-2309.096232023-10-18 https://scifaro.com/en/abs/electrolaryngeal-speech-intelligibility-enhancement-through-robust-linguistic-encoders-2309.096272024-01-23 https://scifaro.com/en/abs/speech-synthesis-by-unrolling-diffusion-process-using-neural-network-layers-2309.096522025-06-12 https://scifaro.com/en/abs/synth-ac-enhancing-audio-captioning-with-synthetic-supervision-2309.097052023-09-19 https://scifaro.com/en/abs/frame-to-utterance-convergence-a-spectra-temporal-approach-for-unified-spoofing-detection-2309.098372023-09-19 https://scifaro.com/en/abs/crowdotic-a-privacy-preserving-hospital-waiting-room-crowd-density-estimation-with-non-speech-audio-2309.102802023-09-22 https://scifaro.com/en/abs/pdpcrn-parallel-dual-path-crn-with-bi-directional-inter-branch-interactions-for-multi-channel-speech-enhancement-2309.103792023-09-20 https://scifaro.com/en/abs/hierarchical-modeling-of-spatial-cues-via-spherical-harmonics-for-multi-channel-speech-enhancement-2309.103932023-09-20 https://scifaro.com/en/abs/improving-speaker-diarization-using-semantic-information-joint-pairwise-constraints-propagation-2309.104562024-02-06 https://scifaro.com/en/abs/exploring-sentence-type-effects-on-the-lombard-effect-and-intelligibility-enhancement-a-comparative-study-of-natural-and-grid-sentences-2309.104852024-07-10 https://scifaro.com/en/abs/bridging-the-spoof-gap-a-unified-parallel-aggregation-network-for-voice-presentation-attacks-2309.105602023-09-20 https://scifaro.com/en/abs/motif-centric-representation-learning-for-symbolic-music-2309.105972023-09-20 https://scifaro.com/en/abs/used-universal-speaker-extraction-and-diarization-2309.106742025-01-17 https://scifaro.com/en/abs/harmony-and-duality-an-introduction-to-music-theory-2309.107192026-02-27 https://scifaro.com/en/abs/melodyglm-multi-task-pre-training-for-symbolic-melody-generation-2309.107382023-09-21 https://scifaro.com/en/abs/consistencytta-accelerating-diffusion-based-text-to-audio-generation-with-consistency-distillation-2309.107402024-06-25 https://scifaro.com/en/abs/efficient-multi-channel-speech-enhancement-with-spherical-harmonics-injection-for-directional-encoding-2309.108322023-09-21 https://scifaro.com/en/abs/test-time-training-for-speech-2309.109302023-10-02 https://scifaro.com/en/abs/directional-source-separation-for-robust-speech-recognition-on-smart-glasses-2309.109932025-06-17 https://scifaro.com/en/abs/investigating-personalization-methods-in-text-to-music-generation-2309.111402023-09-21 https://scifaro.com/en/abs/auto-acd-a-large-scale-dataset-for-audio-language-representation-learning-2309.115002024-09-10 https://scifaro.com/en/abs/fluenteditor-text-based-speech-editing-by-considering-acoustic-and-prosody-consistency-2309.117252023-09-25 https://scifaro.com/en/abs/tmac-temporal-multi-modal-graph-learning-for-acoustic-event-classification-2309.118452023-09-27 https://scifaro.com/en/abs/a-discourse-level-multi-scale-prosodic-model-for-fine-grained-emotion-analysis-2309.118492023-09-22 https://scifaro.com/en/abs/audio-contrastive-based-fine-tuning-decoupling-representation-learning-and-classification-2309.118952025-09-23 https://scifaro.com/en/abs/improving-language-model-based-zero-shot-text-to-speech-synthesis-with-multi-scale-acoustic-prompts-2309.119772024-04-10 https://scifaro.com/en/abs/passage-summarization-with-recurrent-models-for-audio-sheet-music-retrieval-2309.121112023-09-22 https://scifaro.com/en/abs/self-supervised-contrastive-learning-for-robust-audio-sheet-music-retrieval-systems-2309.121342023-09-22 https://scifaro.com/en/abs/towards-robust-and-truly-large-scale-audio-sheet-music-retrieval-2309.121582023-09-22 https://scifaro.com/en/abs/weakly-supervised-automated-audio-captioning-via-text-only-training-2309.122422023-09-22 https://scifaro.com/en/abs/performance-conditioning-for-diffusion-based-multi-instrument-music-synthesis-2309.122832023-09-22 https://scifaro.com/en/abs/profile-error-tolerant-target-speaker-voice-activity-detection-2309.125212024-04-05 https://scifaro.com/en/abs/crosssinger-a-cross-lingual-multi-singer-high-fidelity-singing-voice-synthesizer-trained-on-monolingual-singers-2309.126722023-09-25 https://scifaro.com/en/abs/deepfake-audio-as-a-data-augmentation-technique-for-training-automatic-speech-to-text-transcription-models-2309.128022026-05-01 https://scifaro.com/en/abs/does-my-dog-speak-like-me-the-acoustic-correlation-between-pet-dogs-and-their-human-owners-2309.130852023-09-26 https://scifaro.com/en/abs/towards-lexical-analysis-of-dog-vocalizations-via-online-videos-2309.130862023-09-26 https://scifaro.com/en/abs/invisible-watermarking-for-audio-generation-diffusion-models-2309.131662023-11-02 https://scifaro.com/en/abs/two-vs-four-channel-sound-event-localization-and-detection-2309.133432023-09-26 https://scifaro.com/en/abs/asca-less-audio-data-is-more-insightful-2309.133732023-09-26 https://scifaro.com/en/abs/coco-nut-corpus-of-japanese-utterance-and-voice-characteristics-description-for-prompt-based-control-2309.135092023-09-26 https://scifaro.com/en/abs/the-second-multi-channel-multi-party-meeting-transcription-challenge-m2met-2-0-a-benchmark-for-speaker-attributed-asr-2309.135732023-10-06 https://scifaro.com/en/abs/hignn-tts-hierarchical-prosody-modeling-with-graph-neural-networks-for-expressive-long-form-tts-2309.139072023-10-10 https://scifaro.com/en/abs/real-time-emergency-vehicle-detection-using-mel-spectrograms-and-regular-expressions-2309.139202024-06-25 https://scifaro.com/en/abs/audio-classification-with-dilated-convolution-with-learnable-spacings-2309.139722023-11-23 https://scifaro.com/en/abs/voicelens-controllable-speaker-generation-and-editing-with-flow-2309.140942023-09-26 https://scifaro.com/en/abs/on-the-relation-between-internal-language-model-and-sequence-discriminative-training-for-neural-transducers-2309.141302024-04-16 https://scifaro.com/en/abs/multi-domain-adaptation-by-self-supervised-learning-for-speaker-verification-2309.141492023-09-26 https://scifaro.com/en/abs/an-investigation-of-distribution-alignment-in-multi-genre-speaker-recognition-2309.141582023-09-26 https://scifaro.com/en/abs/towards-using-cough-for-respiratory-disease-diagnosis-by-leveraging-artificial-intelligence-a-survey-2309.143832023-09-27 https://scifaro.com/en/abs/joint-audio-and-speech-understanding-2309.144052023-12-12 https://scifaro.com/en/abs/speech-audio-synthesis-from-tagged-mri-and-non-negative-matrix-factorization-via-plastic-transformer-2309.145862023-09-27 https://scifaro.com/en/abs/emphasized-non-target-speaker-knowledge-in-knowledge-distillation-for-automatic-speaker-verification-2309.148382024-06-28 https://scifaro.com/en/abs/synthia-s-melody-a-benchmark-framework-for-unsupervised-domain-adaptation-in-audio-2309.150242023-09-27 https://scifaro.com/en/abs/high-fidelity-speech-synthesis-with-minimal-supervision-all-using-diffusion-models-2309.155122023-12-19 https://scifaro.com/en/abs/speech-collage-code-switched-audio-generation-by-collaging-monolingual-corpora-2309.156742023-09-28 https://scifaro.com/en/abs/neural-acoustic-context-field-rendering-realistic-room-impulse-response-with-neural-fields-2309.159772023-09-29 https://scifaro.com/en/abs/lae-st-moe-boosted-language-aware-encoder-using-speech-translation-auxiliary-task-for-e2e-code-switching-asr-2309.161782023-10-10 https://scifaro.com/en/abs/semantic-proximity-alignment-towards-human-perception-consistent-audio-tagging-by-aligning-with-label-text-description-2309.162652024-01-17 https://scifaro.com/en/abs/nomad-unsupervised-learning-of-perceptual-embeddings-for-speech-enhancement-and-non-matching-reference-audio-quality-assessment-2309.162842024-01-22 https://scifaro.com/en/abs/predicting-performance-difficulty-from-piano-sheet-music-images-2309.162872023-09-29 https://scifaro.com/en/abs/bringing-the-discussion-of-minima-sharpness-to-the-audio-domain-a-filter-normalised-evaluation-for-acoustic-scene-classification-2309.163692024-01-17 https://scifaro.com/en/abs/efficient-supervised-training-of-audio-transformers-for-music-representation-learning-2309.164182023-09-29 https://scifaro.com/en/abs/audio-visual-speaker-verification-via-joint-cross-attention-2309.165692023-09-29 https://scifaro.com/en/abs/reflow-tts-a-rectified-flow-model-for-high-fidelity-text-to-speech-2309.170562024-02-01 https://scifaro.com/en/abs/rtfs-net-recurrent-time-frequency-modelling-for-efficient-audio-visual-speech-separation-2309.171892024-03-22 https://scifaro.com/en/abs/improving-audio-captioning-models-with-fine-grained-audio-features-text-embedding-supervision-and-llm-mix-up-augmentation-2309.173522024-01-11 https://scifaro.com/en/abs/fewer-token-neural-speech-codec-with-time-invariant-codes-2310.000142024-03-12 https://scifaro.com/en/abs/gass-generalizing-audio-source-separation-with-large-scale-data-2310.001402023-10-03 https://scifaro.com/en/abs/active-learning-based-fine-tuning-framework-for-speech-emotion-recognition-2310.002832023-10-03 https://scifaro.com/en/abs/pianist-identification-using-convolutional-neural-networks-2310.006992023-10-03 https://scifaro.com/en/abs/uniaudio-an-audio-foundation-model-toward-universal-audio-generation-2310.007042024-12-11 https://scifaro.com/en/abs/f0-analysis-of-ghanaian-pop-singing-reveals-progressive-alignment-with-equal-temperament-over-the-past-three-decades-a-case-study-2310.008702023-10-03 https://scifaro.com/en/abs/usee-unified-speech-enhancement-and-editing-with-conditional-diffusion-models-2310.009002023-10-03 https://scifaro.com/en/abs/diffar-denoising-diffusion-autoregressive-model-for-raw-speech-waveform-generation-2310.013812024-03-12 https://scifaro.com/en/abs/mel-band-roformer-for-music-source-separation-2310.018092023-10-04 https://scifaro.com/en/abs/prompting-audios-using-acoustic-properties-for-emotion-representation-2310.022982023-12-08 https://scifaro.com/en/abs/towards-an-interpretable-representation-of-speaker-identity-via-perceptual-voice-qualities-2310.024972023-10-05 https://scifaro.com/en/abs/shaping-the-epochal-individuality-and-generality-the-temporal-dynamics-of-uncertainty-and-prediction-error-in-musical-improvisation-2310.025182023-10-05 https://scifaro.com/en/abs/improving-severity-preservation-of-healthy-to-pathological-voice-conversion-with-global-style-tokens-2310.025702023-10-05 https://scifaro.com/en/abs/ba-moe-boundary-aware-mixture-of-experts-adapter-for-code-switching-speech-recognition-2310.026292023-10-10 https://scifaro.com/en/abs/multi-resolution-hubert-multi-resolution-speech-self-supervised-learning-with-masked-unit-prediction-2310.027202024-01-31 https://scifaro.com/en/abs/an-integrated-algorithm-for-robust-and-imperceptible-audio-adversarial-examples-2310.033492023-10-06 https://scifaro.com/en/abs/deep-generative-models-of-music-expectation-2310.035002023-10-06 https://scifaro.com/en/abs/securing-voice-biometrics-one-shot-learning-approach-for-audio-deepfake-detection-2310.038562023-10-09 https://scifaro.com/en/abs/diffusion-models-as-masked-audio-video-learners-2310.039372024-01-08 https://scifaro.com/en/abs/effuse-efficient-self-supervised-feature-fusion-for-e2e-asr-in-low-resource-and-multilingual-scenarios-2310.039382024-06-07 https://scifaro.com/en/abs/zero-shot-emotion-transfer-for-cross-lingual-speech-synthesis-2310.039632023-10-09 https://scifaro.com/en/abs/hubertopic-enhancing-semantic-representation-of-hubert-through-self-supervision-utilizing-topic-model-2310.039752023-10-09 https://scifaro.com/en/abs/layer-adapted-implicit-distribution-alignment-networks-for-cross-corpus-speech-emotion-recognition-2310.039922023-10-09 https://scifaro.com/en/abs/u-style-cascading-u-nets-with-multi-level-speaker-and-style-modeling-for-zero-shot-voice-cloning-2310.040042023-10-09 https://scifaro.com/en/abs/mbtfnet-multi-band-temporal-frequency-neural-network-for-singing-voice-enhancement-2310.043692023-10-09 https://scifaro.com/en/abs/neural2speech-a-transfer-learning-framework-for-neural-driven-speech-reconstruction-2310.046442024-02-01 https://scifaro.com/en/abs/lauragpt-listen-attend-understand-and-regenerate-audio-with-gpt-2310.046732024-07-04 https://scifaro.com/en/abs/voiceextender-short-utterance-text-independent-speaker-verification-with-guided-diffusion-model-2310.046812023-10-10 https://scifaro.com/en/abs/a-holistic-evaluation-of-piano-sound-quality-2310.047222025-04-22 https://scifaro.com/en/abs/fm-tone-transfer-with-envelope-learning-2310.048112023-10-10 https://scifaro.com/en/abs/sa-paraformer-non-autoregressive-end-to-end-speaker-attributed-asr-2310.048632023-10-10 https://scifaro.com/en/abs/comparative-analysis-of-transfer-learning-in-deep-learning-text-to-speech-models-on-a-few-shot-low-resource-customized-dataset-2310.049822023-10-10 https://scifaro.com/en/abs/promptspeaker-speaker-generation-based-on-text-descriptions-2310.050012023-10-10 https://scifaro.com/en/abs/salt-distinguishable-speaker-anonymization-through-latent-space-transformation-2310.050512023-10-10 https://scifaro.com/en/abs/vits-based-singing-voice-conversion-system-with-dspgan-post-processing-for-svcc2023-2310.051182023-10-10 https://scifaro.com/en/abs/an-initial-investigation-of-neural-replay-simulator-for-over-the-air-adversarial-perturbations-to-automatic-speaker-verification-2310.053542024-01-04 https://scifaro.com/en/abs/advsv-an-over-the-air-adversarial-attack-dataset-for-speaker-verification-2310.053692024-01-17 https://scifaro.com/en/abs/findings-of-the-2023-ml-superb-challenge-pre-training-and-evaluation-over-more-languages-and-beyond-2310.055132025-02-25 https://scifaro.com/en/abs/audio-compression-assisted-feature-extraction-for-voice-replay-attack-detection-2310.058132023-10-11 https://scifaro.com/en/abs/pre-trained-spatial-priors-on-multichannel-nmf-for-music-source-separation-2310.058212023-10-10 https://scifaro.com/en/abs/jvnv-a-corpus-of-japanese-emotional-speech-with-verbal-content-and-nonverbal-expressions-2310.060722024-03-07 https://scifaro.com/en/abs/on-time-domain-conformer-models-for-monaural-speech-separation-in-noisy-reverberant-acoustic-environments-2310.061252023-10-11 https://scifaro.com/en/abs/an-experiment-on-an-automated-literature-survey-of-data-driven-speech-enhancement-methods-2310.062602025-02-14 https://scifaro.com/en/abs/noisy-arcmix-additive-noisy-angular-margin-loss-combined-with-mixup-anomalous-sound-detection-2310.063642023-10-11 https://scifaro.com/en/abs/topological-data-analysis-of-human-vowels-persistent-homologies-across-representation-spaces-2310.065082023-10-11 https://scifaro.com/en/abs/autocycle-vc-towards-bottleneck-independent-zero-shot-cross-lingual-voice-conversion-2310.065462023-10-11 https://scifaro.com/en/abs/prosody-analysis-of-audiobooks-2310.069302025-06-27 https://scifaro.com/en/abs/neural-harmonium-an-interpretable-deep-structure-for-nonlinear-dynamic-system-identification-with-application-to-audio-processing-2310.070322023-10-12 https://scifaro.com/en/abs/acoustic-model-fusion-for-end-to-end-speech-recognition-2310.070622023-10-12 https://scifaro.com/en/abs/llark-a-multimodal-instruction-following-language-model-for-music-2310.071602024-06-04 https://scifaro.com/en/abs/psychoacoustic-challenges-of-speech-enhancement-on-voip-platforms-2310.071612024-08-02 https://scifaro.com/en/abs/vec-tok-speech-speech-vectorization-and-tokenization-for-neural-speech-generation-2310.072462023-10-13 https://scifaro.com/en/abs/enhancing-expressivity-transfer-in-textless-speech-to-speech-translation-2310.072792023-10-12 https://scifaro.com/en/abs/impact-of-time-and-note-duration-tokenizations-on-deep-learning-symbolic-music-modeling-2310.084972023-10-13 https://scifaro.com/en/abs/compa-addressing-the-gap-in-compositional-reasoning-in-audio-language-models-2310.087532024-08-01 https://scifaro.com/en/abs/dual-branch-knowledge-distillation-for-noise-robust-synthetic-speech-detection-2310.088692024-04-17 https://scifaro.com/en/abs/differential-evolution-algorithm-based-hyper-parameters-selection-of-convolutional-neural-network-for-speech-command-recognition-2310.089142023-11-27 https://scifaro.com/en/abs/transformer-based-autoencoder-with-id-constraint-for-unsupervised-anomalous-sound-detection-2310.089502023-10-16 https://scifaro.com/en/abs/low-latency-speech-enhancement-via-speech-token-generation-2310.089812024-01-24 https://scifaro.com/en/abs/advancing-test-time-adaptation-in-wild-acoustic-test-settings-2310.095052024-10-08 https://scifaro.com/en/abs/dynamic-prediction-of-full-ocean-depth-ssp-by-hierarchical-lstm-an-experimental-result-2310.095222025-03-31 https://scifaro.com/en/abs/selfvc-voice-conversion-with-iterative-refinement-using-self-transformations-2310.096532024-05-06 https://scifaro.com/en/abs/cocoformer-a-controllable-feature-rich-polyphonic-music-generation-method-2310.098432023-11-29 https://scifaro.com/en/abs/mertech-instrument-playing-technique-detection-using-self-supervised-pretrained-model-with-multi-task-finetuning-2310.098532023-10-17 https://scifaro.com/en/abs/joint-music-and-language-attention-models-for-zero-shot-music-tagging-2310.101592023-10-17 https://scifaro.com/en/abs/beatdance-a-beat-based-model-agnostic-contrastive-learning-framework-for-music-dance-retrieval-2310.103002023-10-17 https://scifaro.com/en/abs/locselect-target-speaker-localization-with-an-auditory-selective-hearing-mechanism-2310.104972023-10-18 https://scifaro.com/en/abs/unsupervised-lead-sheet-generation-via-semantic-compression-2310.107722023-10-18 https://scifaro.com/en/abs/a-high-fidelity-and-low-complexity-neural-audio-coding-2310.109922023-10-18 https://scifaro.com/en/abs/lyricist-singer-entropy-affects-lyric-lyricist-classification-performance-2310.110352023-10-18 https://scifaro.com/en/abs/leveraging-diverse-semantic-based-audio-pretrained-models-for-singing-voice-conversion-2310.111602024-09-17 https://scifaro.com/en/abs/serenade-a-model-for-human-in-the-loop-automatic-chord-estimation-2310.111652023-10-18 https://scifaro.com/en/abs/high-fidelity-noise-reduction-with-differentiable-signal-processing-2310.113642023-10-18 https://scifaro.com/en/abs/robust-wake-up-word-detection-by-two-stage-multi-resolution-ensembles-2310.113792023-10-18 https://scifaro.com/en/abs/echoscan-scanning-complex-room-geometries-via-acoustic-echoes-2310.117282024-11-25 https://scifaro.com/en/abs/blind-estimation-of-audio-effects-using-an-auto-encoder-approach-and-differentiable-digital-signal-processing-2310.117812024-02-12 https://scifaro.com/en/abs/physics-informed-neural-network-for-acoustic-resonance-analysis-in-a-one-dimensional-acoustic-tube-2310.118042024-07-09 https://scifaro.com/en/abs/clara-multilingual-contrastive-learning-for-audio-representation-acquisition-2310.118302023-11-02 https://scifaro.com/en/abs/but-chime-7-system-description-2310.119212023-10-19 https://scifaro.com/en/abs/take-the-atrain-introducing-an-interface-for-the-accessible-transcription-of-interviews-2310.119672023-10-19 https://scifaro.com/en/abs/loop-copilot-conducting-ai-ensembles-for-music-generation-and-iterative-editing-2310.124042024-09-02 https://scifaro.com/en/abs/energy-based-models-for-speech-synthesis-2310.127652023-10-20 https://scifaro.com/en/abs/emodiarize-speaker-diarization-and-emotion-identification-from-speech-signals-using-convolutional-neural-networks-2310.128512023-10-20 https://scifaro.com/en/abs/audio-editing-with-non-rigid-text-prompts-2310.128582024-09-25 https://scifaro.com/en/abs/uncertainty-quantification-of-bandgaps-in-acoustic-metamaterials-with-stochastic-geometric-defects-and-material-properties-2310.128692023-10-20 https://scifaro.com/en/abs/powerset-multi-class-cross-entropy-loss-for-neural-speaker-diarization-2310.130252023-10-23 https://scifaro.com/en/abs/salmonn-towards-generic-hearing-abilities-for-large-language-models-2310.132892024-04-09 https://scifaro.com/en/abs/music-augmentation-and-denoising-for-peak-based-audio-fingerprinting-2310.133882023-10-31 https://scifaro.com/en/abs/definition-independent-formalization-of-soundscapes-towards-a-formal-methodology-2310.134042025-02-04 https://scifaro.com/en/abs/two-stage-triplet-loss-training-with-curriculum-augmentation-for-audio-visual-retrieval-2310.134512023-10-23 https://scifaro.com/en/abs/multi-label-open-set-audio-classification-2310.137592023-10-24 https://scifaro.com/en/abs/temporal-convolutional-neural-networks-to-generate-a-head-related-impulse-response-from-one-direction-to-another-2310.140182023-10-24 https://scifaro.com/en/abs/fast-diffusion-gan-model-for-symbolic-music-generation-controlled-by-emotions-2310.140402023-10-24 https://scifaro.com/en/abs/composer-style-specific-symbolic-music-generation-using-vector-quantized-discrete-diffusion-models-2310.140442024-09-05 https://scifaro.com/en/abs/first-shot-unsupervised-anomalous-sound-detection-with-unknown-anomalies-estimated-by-metadata-assisted-audio-generation-2310.141732024-03-12 https://scifaro.com/en/abs/conversational-speech-recognition-by-learning-audio-textual-cross-modal-contextual-representation-2310.142782024-04-30 https://scifaro.com/en/abs/acoustic-bpe-for-speech-generation-with-discrete-tokens-2310.145802024-01-17 https://scifaro.com/en/abs/a-novel-transfer-learning-method-utilizing-acoustic-and-vibration-signals-for-rotating-machinery-fault-diagnosis-2310.147962023-10-24 https://scifaro.com/en/abs/8-8-4-formalizing-time-units-to-handle-symbolic-music-durations-2310.149522023-10-24 https://scifaro.com/en/abs/key-frame-mechanism-for-efficient-conformer-based-end-to-end-speech-recognition-2310.149542023-10-31 https://scifaro.com/en/abs/novel-view-acoustic-synthesis-from-3d-reconstructed-rooms-2310.151302024-08-19 https://scifaro.com/en/abs/syncfusion-multimodal-onset-synchronized-video-to-audio-foley-synthesis-2310.152472023-10-25 https://scifaro.com/en/abs/modality-dropout-for-multimodal-device-directed-speech-detection-using-verbal-and-non-verbal-features-2310.152612023-10-25 https://scifaro.com/en/abs/dynamic-convolutional-neural-networks-as-efficient-pre-trained-audio-models-2310.156482023-10-25 https://scifaro.com/en/abs/cdsd-chinese-dysarthria-speech-database-2310.159302025-02-14 https://scifaro.com/en/abs/complex-image-generation-swintransformer-network-for-audio-denoising-2310.161092023-10-26 https://scifaro.com/en/abs/towards-streaming-speech-to-avatar-synthesis-2310.162872023-10-26 https://scifaro.com/en/abs/structured-multi-track-accompaniment-arrangement-via-style-prior-modelling-2310.163342024-11-26 https://scifaro.com/en/abs/dynamic-processing-neural-network-architecture-for-hearing-loss-compensation-2310.165502023-10-26 https://scifaro.com/en/abs/learning-repeatable-speech-embeddings-using-an-intra-class-correlation-regularizer-2310.170492023-10-27 https://scifaro.com/en/abs/controllable-generation-of-artificial-speaker-embeddings-through-discovery-of-principal-directions-2310.175022023-10-27 https://scifaro.com/en/abs/developing-a-multilingual-dataset-and-evaluation-metrics-for-code-switching-a-focus-on-hong-kong-s-polylingual-dynamics-2310.179532025-03-04 https://scifaro.com/en/abs/style-description-based-text-to-speech-with-conditional-prosodic-layer-normalization-based-diffusion-gan-2310.181692023-10-30 https://scifaro.com/en/abs/exploring-the-emotional-landscape-of-music-an-analysis-of-valence-trends-and-genre-variations-in-spotify-music-data-2310.190522023-10-31 https://scifaro.com/en/abs/feature-aggregation-in-joint-sound-classification-and-localization-neural-networks-2310.190632024-01-30 https://scifaro.com/en/abs/deep-audio-analyzer-a-framework-to-industrialize-the-research-on-audio-forensics-2310.190812023-10-31 https://scifaro.com/en/abs/jen-1-composer-a-unified-framework-for-high-fidelity-multi-track-music-generation-2310.191802024-12-18 https://scifaro.com/en/abs/dpatd-dual-phase-audio-transformer-for-denoising-2310.195882023-10-31 https://scifaro.com/en/abs/dcht-deep-complex-hybrid-transformer-for-speech-enhancement-2310.196022023-10-31 https://scifaro.com/en/abs/musical-form-generation-2310.198422023-11-01 https://scifaro.com/en/abs/lavss-location-guided-audio-visual-spatial-audio-separation-2310.204462023-11-01 https://scifaro.com/en/abs/detecting-syllable-level-pronunciation-stress-with-a-self-attention-model-2311.003012023-11-02 https://scifaro.com/en/abs/semantic-hearing-programming-acoustic-scenes-with-binaural-hearables-2311.003202023-11-02 https://scifaro.com/en/abs/deep-neural-networks-for-automatic-speaker-recognition-do-not-learn-supra-segmental-temporal-features-2311.004892024-07-10 https://scifaro.com/en/abs/active-noise-control-portable-device-design-2311.005352023-11-02 https://scifaro.com/en/abs/controllable-music-production-with-diffusion-models-and-guidance-gradients-2311.006132023-12-06 https://scifaro.com/en/abs/investigating-self-supervised-deep-representations-for-eeg-based-auditory-attention-decoding-2311.008142023-11-08 https://scifaro.com/en/abs/low-latency-real-time-voice-conversion-on-cpu-2311.008732023-11-03 https://scifaro.com/en/abs/in-context-prompt-editing-for-conditional-audio-generation-2311.008952023-11-03 https://scifaro.com/en/abs/on-the-open-prompt-challenge-in-conditional-audio-generation-2311.008972023-11-03 https://scifaro.com/en/abs/e3-tts-easy-end-to-end-diffusion-based-text-to-speech-2311.009452023-11-03 https://scifaro.com/en/abs/video2music-suitable-music-generation-from-videos-using-an-affective-multimodal-transformer-model-2311.009682024-06-03 https://scifaro.com/en/abs/atgnn-audio-tagging-graph-neural-network-2311.015262023-11-06 https://scifaro.com/en/abs/flap-fast-language-audio-pre-training-2311.016152023-11-06 https://scifaro.com/en/abs/acousto-optic-reconstruction-of-exterior-sound-field-based-on-concentric-circle-sampling-with-circular-harmonic-expansion-2311.017152025-07-01 https://scifaro.com/en/abs/filobass-a-dataset-and-corpus-based-study-of-jazz-basslines-2311.020232023-11-20 https://scifaro.com/en/abs/design-of-rubble-analyzer-probe-using-ml-for-earthquake-2311.020872024-02-29 https://scifaro.com/en/abs/tacnet-temporal-audio-source-counting-network-2311.023692024-12-23 https://scifaro.com/en/abs/generalized-zero-shot-audio-to-intent-classification-2311.024822023-11-07 https://scifaro.com/en/abs/yet-another-generative-model-for-room-impulse-response-estimation-2311.025812023-11-07 https://scifaro.com/en/abs/attention-or-convolution-transformer-encoders-in-audio-language-models-for-inference-efficiency-2311.027722024-02-09 https://scifaro.com/en/abs/a-foundation-model-for-music-informatics-2311.033182023-11-07 https://scifaro.com/en/abs/mfaan-unveiling-audio-deepfakes-with-a-multi-feature-authenticity-network-2311.035092024-02-28 https://scifaro.com/en/abs/soundcam-a-dataset-for-finding-humans-using-room-acoustics-2311.035172024-01-17 https://scifaro.com/en/abs/exploring-latent-spaces-of-tonal-music-using-variational-autoencoders-2311.036212023-11-08 https://scifaro.com/en/abs/improved-child-text-to-speech-synthesis-through-fastpitch-based-transfer-learning-2311.043132023-11-09 https://scifaro.com/en/abs/soundbay-deep-learning-framework-for-marine-mammals-and-bioacoustic-research-2311.043432023-11-09 https://scifaro.com/en/abs/whisper-in-focus-enhancing-stuttered-speech-classification-with-encoder-layer-optimization-2311.052032023-11-10 https://scifaro.com/en/abs/what-do-i-hear-generating-sounds-for-visuals-with-chatgpt-2311.056092023-11-10 https://scifaro.com/en/abs/the-aerosonicdb-ypad-0523-dataset-for-acoustic-detection-and-classification-of-aircraft-2311.063682023-11-14 https://scifaro.com/en/abs/adversarial-fine-tuning-using-generated-respiratory-sound-to-address-class-imbalance-2311.064802023-11-14 https://scifaro.com/en/abs/transfer-learning-to-detect-covid-19-coughs-with-incremental-addition-of-patient-coughs-to-healthy-people-s-cough-detection-models-2311.067072023-11-14 https://scifaro.com/en/abs/decoupling-and-interacting-multi-task-learning-network-for-joint-speech-and-accent-recognition-2311.070622023-11-20 https://scifaro.com/en/abs/music-controlnet-multiple-time-varying-controls-for-music-generation-2311.070692023-11-14 https://scifaro.com/en/abs/a-comprehensive-study-on-the-effectiveness-of-asr-representations-for-noise-robust-speech-emotion-recognition-2311.070932026-01-13 https://scifaro.com/en/abs/research-and-experimental-verification-on-low-frequency-long-range-sound-propagation-characteristics-under-ice-covered-and-range-dependent-marine-environment-in-the-arctic-2311.071752023-11-14 https://scifaro.com/en/abs/spontts-modeling-and-transferring-spontaneous-style-for-tts-2311.071792024-01-09 https://scifaro.com/en/abs/efficient-bandwidth-extension-of-musical-signals-using-a-differentiable-harmonic-plus-noise-model-2311.073632023-11-28 https://scifaro.com/en/abs/unsupervised-musical-object-discovery-from-audio-2311.075342023-11-15 https://scifaro.com/en/abs/cross-modal-generative-model-for-visual-guided-binaural-stereo-generation-2311.076302023-11-15 https://scifaro.com/en/abs/distributed-pressure-matching-strategy-using-diffusion-adaptation-2311.077292023-11-15 https://scifaro.com/en/abs/parrot-trained-adversarial-examples-pushing-the-practicality-of-black-box-audio-attacks-against-speaker-recognition-models-2311.077802023-11-21 https://scifaro.com/en/abs/dqr-tts-semi-supervised-text-to-speech-synthesis-with-dynamic-quantized-representation-2311.079652024-02-05 https://scifaro.com/en/abs/reimagining-speech-a-scoping-review-of-deep-learning-powered-voice-conversion-2311.081042023-11-15 https://scifaro.com/en/abs/exploring-variational-auto-encoder-architectures-configurations-and-datasets-for-generative-music-explainable-ai-2311.083362024-02-06 https://scifaro.com/en/abs/choralsynth-synthetic-dataset-of-choral-singing-2311.083502023-11-23 https://scifaro.com/en/abs/research-and-experimental-verification-on-low-frequency-long-range-underwater-sound-propagation-dispersion-characteristics-under-dual-channel-sound-speed-profiles-in-the-chukchi-plateau-2311.084252023-11-16 https://scifaro.com/en/abs/edmsound-spectrogram-based-diffusion-models-for-efficient-and-high-quality-audio-synthesis-2311.086672023-11-21 https://scifaro.com/en/abs/cln-vc-text-free-voice-conversion-based-on-fine-grained-style-control-and-contrastive-learning-with-negative-samples-augmentation-2311.086702023-11-16 https://scifaro.com/en/abs/autoencoder-with-group-based-decoder-and-multi-task-optimization-for-anomalous-sound-detection-2311.088292023-11-16 https://scifaro.com/en/abs/crepe-notes-a-new-method-for-segmenting-pitch-contours-into-discrete-notes-2311.088842023-11-16 https://scifaro.com/en/abs/can-musicgen-create-training-data-for-mir-tasks-2311.090942023-11-16 https://scifaro.com/en/abs/future-full-ocean-deep-ssps-prediction-based-on-hierarchical-long-short-term-memory-neural-networks-2311.095372025-03-31 https://scifaro.com/en/abs/multi-view-spectrogram-transformer-for-respiratory-sound-classification-2311.096552024-05-31 https://scifaro.com/en/abs/dino-vits-data-efficient-zero-shot-tts-with-self-supervised-speaker-verification-loss-for-noise-robustness-2311.097702024-06-19 https://scifaro.com/en/abs/the-song-describer-dataset-a-corpus-of-audio-captions-for-music-and-language-evaluation-2311.100572023-11-27 https://scifaro.com/en/abs/aquatk-an-audio-quality-assessment-toolkit-2311.101132023-11-20 https://scifaro.com/en/abs/retrieval-augmented-generation-of-symbolic-music-with-llms-2311.103842023-12-29 https://scifaro.com/en/abs/the-persian-piano-corpus-a-collection-of-instrument-based-feature-extracted-data-considering-dastgah-2311.110742023-11-21 https://scifaro.com/en/abs/m-2-ugen-multi-modal-music-understanding-and-generation-with-the-power-of-large-language-models-2311.112552024-12-10 https://scifaro.com/en/abs/encoding-performance-data-in-mei-with-the-automatic-music-performance-analysis-and-comparison-toolkit-ampact-2311.113632023-11-21 https://scifaro.com/en/abs/elf-encoding-speaker-specific-latent-speech-feature-for-speech-synthesis-2311.117452024-06-03 https://scifaro.com/en/abs/formal-verification-of-long-short-term-memory-based-audio-classifiers-a-star-based-approach-2311.121302023-11-22 https://scifaro.com/en/abs/improving-label-assignments-learning-by-dynamic-sample-dropout-combined-with-layer-wise-optimization-in-speech-separation-2311.121992023-11-22 https://scifaro.com/en/abs/equipping-pretrained-unconditional-music-transformers-with-instrument-and-genre-controls-2311.122572023-11-22 https://scifaro.com/en/abs/hierspeech-bridging-the-gap-between-semantic-and-acoustic-representation-of-speech-by-hierarchical-variational-inference-for-zero-shot-speech-synthesis-2311.124542023-11-28 https://scifaro.com/en/abs/self-supervised-music-source-separation-using-vector-quantized-source-category-estimates-2311.130582023-11-23 https://scifaro.com/en/abs/learning-to-solve-inverse-problems-for-perceptual-sound-matching-2311.142132024-05-07 https://scifaro.com/en/abs/allpass-impulse-response-modelling-2311.142392023-11-27 https://scifaro.com/en/abs/overview-of-the-2023-icassp-sp-clarity-challenge-speech-enhancement-for-hearing-aids-2311.144902023-11-27 https://scifaro.com/en/abs/tinyclap-distilling-constrastive-language-audio-pretrained-models-2311.145172024-09-25 https://scifaro.com/en/abs/weak-alignment-supervision-from-hybrid-model-improves-end-to-end-asr-2311.148352023-12-04 https://scifaro.com/en/abs/custom-data-augmentation-for-low-resource-asr-using-bark-and-retrieval-based-voice-conversion-2311.148362024-01-11 https://scifaro.com/en/abs/multi-scale-sub-band-constant-q-transform-discriminator-for-high-fidelity-vocoder-2311.149572023-11-28 https://scifaro.com/en/abs/lightly-weighted-automatic-audio-parameter-extraction-for-the-quality-assessment-of-consensus-auditory-perceptual-evaluation-of-voice-2311.155822023-11-28 https://scifaro.com/en/abs/phonetic-aware-speaker-embedding-for-far-field-speaker-verification-2311.156272023-11-28 https://scifaro.com/en/abs/a-jepa-joint-embedding-predictive-architecture-can-listen-2311.158302024-01-12 https://scifaro.com/en/abs/cheapnet-improving-light-weight-speech-enhancement-network-by-projected-loss-function-2311.159592023-11-28 https://scifaro.com/en/abs/d4am-a-general-denoising-framework-for-downstream-acoustic-models-2311.165952023-11-29 https://scifaro.com/en/abs/introducing-strauss-a-flexible-sonification-python-package-2311.168472023-11-29 https://scifaro.com/en/abs/fat-hubert-front-end-adaptive-training-of-hidden-unit-bert-for-distortion-invariant-robust-speech-recognition-2311.177902023-11-30 https://scifaro.com/en/abs/string-sound-synthesizer-on-gpu-accelerated-finite-difference-scheme-2311.185052024-01-09 https://scifaro.com/en/abs/barwise-music-structure-analysis-with-the-correlation-block-matching-segmentation-algorithm-2311.186042023-12-01 https://scifaro.com/en/abs/sound-terminology-describing-production-and-perception-of-sonification-2312.000912024-10-16 https://scifaro.com/en/abs/self-supervised-learning-of-spatial-acoustic-representation-with-cross-channel-signal-reconstruction-and-multi-channel-conformer-2312.004762024-09-10 https://scifaro.com/en/abs/av-rir-audio-visual-room-impulse-response-estimation-2312.008342024-04-25 https://scifaro.com/en/abs/acoustic-signal-analysis-with-deep-neural-network-for-detecting-fault-diagnosis-in-industrial-machines-2312.010622023-12-05 https://scifaro.com/en/abs/a-semi-supervised-deep-learning-approach-to-dataset-collection-for-query-by-humming-task-2312.010922023-12-05 https://scifaro.com/en/abs/openvoice-versatile-instant-voice-cloning-2312.014792024-08-20 https://scifaro.com/en/abs/building-ears-for-robots-machine-hearing-in-the-age-of-autonomy-2312.015542023-12-06 https://scifaro.com/en/abs/a-text-dependent-speaker-verification-application-framework-based-on-chinese-numerical-string-corpus-2312.016452023-12-05 https://scifaro.com/en/abs/exploring-the-viability-of-synthetic-audio-data-for-audio-based-dialogue-state-tracking-2312.018422023-12-05 https://scifaro.com/en/abs/synthetic-data-generation-techniques-for-developing-ai-based-speech-assessments-for-parkinson-s-disease-a-comparative-study-2312.022292023-12-06 https://scifaro.com/en/abs/integrating-plug-and-play-data-priors-with-weighted-prediction-error-for-speech-dereverberation-2312.027732023-12-06 https://scifaro.com/en/abs/detecting-voice-cloning-attacks-via-timbre-watermarking-2312.034102023-12-07 https://scifaro.com/en/abs/data-is-overrated-perceptual-metrics-can-lead-learning-in-the-absence-of-training-data-2312.034552023-12-07 https://scifaro.com/en/abs/jammin-gpt-text-based-improvisation-using-llms-in-ableton-live-2312.034792023-12-07 https://scifaro.com/en/abs/multimodal-data-and-resource-efficient-device-directed-speech-detection-with-large-foundation-models-2312.036322023-12-07 https://scifaro.com/en/abs/towards-small-and-accurate-convolutional-neural-networks-for-acoustic-biodiversity-monitoring-2312.036662023-12-07 https://scifaro.com/en/abs/sound-source-localization-for-a-source-inside-a-structure-using-ac-cyclegan-2312.048462023-12-11 https://scifaro.com/en/abs/neural-concatenative-singing-voice-conversion-rethinking-concatenation-based-approach-for-one-shot-singing-voice-conversion-2312.049192024-01-09 https://scifaro.com/en/abs/an-experimental-study-assessing-the-combined-framework-of-wavlm-and-best-rq-for-text-to-speech-synthesis-2312.054152023-12-12 https://scifaro.com/en/abs/keyword-spotting-detecting-commands-in-speech-using-deep-learning-2312.056402023-12-12 https://scifaro.com/en/abs/voice-activity-detection-vad-in-noisy-environments-2312.058152023-12-12 https://scifaro.com/en/abs/mir-ref-a-representation-evaluation-framework-for-music-information-retrieval-tasks-2312.059942023-12-13 https://scifaro.com/en/abs/speaker-text-retrieval-via-contrastive-learning-2312.060552023-12-12 https://scifaro.com/en/abs/rose-a-recognition-oriented-speech-enhancement-framework-in-air-traffic-control-using-multi-objective-learning-2312.061182024-07-31 https://scifaro.com/en/abs/mart-learning-hierarchical-music-audio-representations-with-part-whole-transformer-2312.061972024-04-22 https://scifaro.com/en/abs/transformer-attractors-for-robust-and-efficient-end-to-end-neural-diarization-2312.062532023-12-12 https://scifaro.com/en/abs/deep-imbalanced-learning-for-multimodal-emotion-recognition-in-conversations-2312.063372023-12-12 https://scifaro.com/en/abs/towards-domain-specific-cross-corpus-speech-emotion-recognition-approach-2312.064662023-12-12 https://scifaro.com/en/abs/lstm-cnn-network-for-audio-signature-analysis-in-noisy-environments-2312.070592024-07-23 https://scifaro.com/en/abs/robust-end-to-end-diarization-with-domain-adaptive-training-and-multi-task-learning-2312.071362023-12-13 https://scifaro.com/en/abs/improving-spatial-resolution-of-first-order-ambisonics-using-sparse-mdct-representation-2312.080692023-12-14 https://scifaro.com/en/abs/permod-perceptually-grounded-voice-modification-with-latent-diffusion-models-2312.084942023-12-15 https://scifaro.com/en/abs/phaseperturbation-speech-data-augmentation-via-phase-perturbation-for-automatic-speech-recognition-2312.085712023-12-15 https://scifaro.com/en/abs/low-rank-constrained-multichannel-signal-denoising-considering-channel-dependent-sensitivity-inspired-by-self-supervised-learning-for-optical-fiber-sensing-2312.086602023-12-19 https://scifaro.com/en/abs/sef-vc-speaker-embedding-free-zero-shot-voice-conversion-with-cross-attention-2312.086762024-01-31 https://scifaro.com/en/abs/stemgen-a-music-generation-model-that-listens-2312.087232024-01-17 https://scifaro.com/en/abs/tia-a-teaching-intonation-assessment-dataset-in-real-teaching-situations-2312.087322023-12-15 https://scifaro.com/en/abs/hourglass-avsr-down-up-sampling-based-computational-efficiency-model-for-audio-visual-speech-recognition-2312.088502023-12-15 https://scifaro.com/en/abs/n-gram-unsupervised-compoundation-and-feature-injection-for-better-symbolic-music-understanding-2312.089312023-12-18 https://scifaro.com/en/abs/multi-cmgan-leveraging-multi-objective-speech-quality-metric-prediction-for-speech-enhancement-2312.089792023-12-15 https://scifaro.com/en/abs/star-distilling-speech-temporal-relation-for-lightweight-speech-self-supervised-learning-models-2312.090402024-04-26 https://scifaro.com/en/abs/f1-ev-score-measuring-the-likelihood-of-estimating-a-good-decision-threshold-for-semi-supervised-anomaly-detection-2312.091432023-12-15 https://scifaro.com/en/abs/acoustic-models-of-brazilian-portuguese-speech-based-on-neural-transformers-2312.092652023-12-18 https://scifaro.com/en/abs/efficient-speech-detection-in-environmental-audio-using-acoustic-recognition-and-knowledge-distillation-2312.092692023-12-18 https://scifaro.com/en/abs/audio-visual-fine-tuning-of-audio-only-asr-models-2312.093692023-12-18 https://scifaro.com/en/abs/a-1-6-mw-sparse-deep-learning-accelerator-for-speech-separation-2312.095802023-12-18 https://scifaro.com/en/abs/stethoscope-guided-supervised-contrastive-learning-for-cross-domain-adaptation-on-respiratory-sound-classification-2312.096032023-12-18 https://scifaro.com/en/abs/what-to-remember-self-adaptive-continual-learning-for-audio-deepfake-detection-2312.096512023-12-18 https://scifaro.com/en/abs/automatic-channel-selection-and-spatial-feature-integration-for-multi-channel-speech-recognition-across-various-array-topologies-2312.097462023-12-18 https://scifaro.com/en/abs/on-the-compression-of-shallow-non-causal-asr-models-using-knowledge-distillation-and-tied-and-reduced-decoder-for-low-latency-on-device-speech-recognition-2312.098422023-12-18 https://scifaro.com/en/abs/amphion-an-open-source-audio-music-and-speech-generation-toolkit-2312.099112024-09-17 https://scifaro.com/en/abs/vocopilot-voice-activated-tracking-of-everyday-interactions-2312.102652023-12-19 https://scifaro.com/en/abs/self-supervised-disentangled-representation-learning-for-robust-target-speech-extraction-2312.103052024-08-27 https://scifaro.com/en/abs/muser-musical-element-based-regularization-for-generating-symbolic-music-with-emotion-2312.103072024-01-03 https://scifaro.com/en/abs/secap-speech-emotion-captioning-with-large-language-model-2312.103812023-12-27 https://scifaro.com/en/abs/annotation-free-automatic-music-transcription-with-scalable-synthetic-data-and-adversarial-domain-confusion-2312.104022024-07-04 https://scifaro.com/en/abs/seq2seq-for-automatic-paraphasia-detection-in-aphasic-speech-2312.105182023-12-19 https://scifaro.com/en/abs/meta-af-echo-cancellation-for-improved-keyword-spotting-2312.106052023-12-19 https://scifaro.com/en/abs/exploring-sound-vs-vibration-for-robust-fault-detection-on-rotating-machinery-2312.107422023-12-19 https://scifaro.com/en/abs/an-extended-variational-mode-decomposition-algorithm-developed-speech-emotion-recognition-performance-2312.109372023-12-19 https://scifaro.com/en/abs/leveraged-mel-spectrograms-using-harmonic-and-percussive-components-in-speech-emotion-recognition-2312.109492023-12-19 https://scifaro.com/en/abs/speaker-mask-transformer-for-multi-talker-overlapped-speech-recognition-2312.109592023-12-19 https://scifaro.com/en/abs/3s-tse-efficient-three-stage-target-speaker-extraction-for-real-time-and-low-resource-applications-2312.109792024-01-08 https://scifaro.com/en/abs/improved-long-form-speech-recognition-by-jointly-modeling-the-primary-and-non-primary-speakers-2312.111232023-12-19 https://scifaro.com/en/abs/perceptual-musical-features-for-interpretable-audio-tagging-2312.112342024-02-26 https://scifaro.com/en/abs/evaluation-of-barlow-twins-and-vicreg-self-supervised-learning-for-sound-patterns-of-bird-and-anuran-species-2312.112402023-12-19 https://scifaro.com/en/abs/a-review-based-study-on-different-text-to-speech-technologies-2312.115632023-12-20 https://scifaro.com/en/abs/mossformer2-combining-transformer-and-rnn-free-recurrent-network-for-enhanced-time-domain-monaural-speech-separation-2312.118252024-12-02 https://scifaro.com/en/abs/ms-senet-enhancing-speech-emotion-recognition-through-multi-scale-feature-fusion-with-squeeze-and-excitation-blocks-2312.119742023-12-29 https://scifaro.com/en/abs/noise-robust-distillation-of-self-supervised-speech-models-via-correlation-metrics-2312.121532023-12-20 https://scifaro.com/en/abs/stylespeech-self-supervised-style-enhancing-with-vq-vae-based-pre-training-for-expressive-audiobook-speech-synthesis-2312.121812023-12-20 https://scifaro.com/en/abs/underwater-acoustic-signal-recognition-based-on-salient-feature-2312.131432024-01-08 https://scifaro.com/en/abs/multi-level-knowledge-distillation-for-speech-emotion-recognition-in-noisy-conditions-2312.135562023-12-22 https://scifaro.com/en/abs/knn-ctc-enhancing-asr-via-retrieval-of-ctc-pseudo-labels-2312.135602024-02-06 https://scifaro.com/en/abs/fine-grained-disentangled-representation-learning-for-multimodal-emotion-recognition-2312.135672023-12-22 https://scifaro.com/en/abs/bae-net-a-low-complexity-and-high-fidelity-bandwidth-adaptive-neural-network-for-speech-super-resolution-2312.137222023-12-22 https://scifaro.com/en/abs/self-supervised-adaptive-av-fusion-module-for-pre-trained-asr-models-2312.138732023-12-22 https://scifaro.com/en/abs/on-the-choice-of-the-optimal-temporal-support-for-audio-classification-with-pre-trained-embeddings-2312.140052023-12-22 https://scifaro.com/en/abs/total-variation-in-popular-rap-vocals-from-2009-2023-extension-of-the-analysis-by-georgieva-ripolles-mcfee-2312.140362023-12-22 https://scifaro.com/en/abs/zmm-tts-zero-shot-multilingual-and-multispeaker-speech-synthesis-conditioned-on-self-supervised-discrete-speech-representations-2312.143982024-08-28 https://scifaro.com/en/abs/unsupervised-harmonic-parameter-estimation-using-differentiable-dsp-and-spectral-optimal-transport-2312.145072024-01-17 https://scifaro.com/en/abs/creating-new-voices-using-normalizing-flows-2312.145692023-12-25 https://scifaro.com/en/abs/room-acoustic-rendering-networks-with-control-of-scattering-and-early-reflections-2312.146582024-07-30 https://scifaro.com/en/abs/the-effects-of-signal-to-noise-ratio-on-generative-adversarial-networks-applied-to-marine-bioacoustic-data-2312.148062023-12-25 https://scifaro.com/en/abs/advancing-vad-systems-based-on-multi-task-learning-with-improved-model-structures-2312.148602023-12-25 https://scifaro.com/en/abs/saic-integration-of-speech-anonymization-and-identity-classification-2312.151902023-12-27 https://scifaro.com/en/abs/transface-unit-based-audio-visual-speech-synthesizer-for-talking-head-translation-2312.151972023-12-27 https://scifaro.com/en/abs/combinatorial-music-generation-model-with-song-structure-graph-analysis-2312.154002023-12-27 https://scifaro.com/en/abs/dsnet-disentangled-siamese-network-with-neutral-calibration-for-speech-emotion-recognition-2312.155932023-12-27 https://scifaro.com/en/abs/uncertainty-as-a-predictor-leveraging-self-supervised-learning-for-zero-shot-mos-prediction-2312.156162023-12-27 https://scifaro.com/en/abs/balanced-snr-aware-distillation-for-guided-text-to-audio-generation-2312.156282023-12-27 https://scifaro.com/en/abs/audiobox-unified-audio-generation-with-natural-language-prompts-2312.158212023-12-27 https://scifaro.com/en/abs/self-supervised-learning-for-few-shot-bird-sound-classification-2312.158242024-02-12 https://scifaro.com/en/abs/enchantdance-unveiling-the-potential-of-music-driven-dance-movement-2312.159462024-11-12 https://scifaro.com/en/abs/soundcount-sound-counting-from-raw-audio-with-dyadic-decomposition-neural-network-2312.161492023-12-27 https://scifaro.com/en/abs/investigating-salient-representations-and-label-variance-in-dimensional-speech-emotion-analysis-2312.161802023-12-29 https://scifaro.com/en/abs/deformable-audio-transformer-for-audio-event-detection-2312.162282024-01-09 https://scifaro.com/en/abs/frame-level-emotional-state-alignment-method-for-speech-emotion-recognition-2312.163832023-12-29 https://scifaro.com/en/abs/ae-flow-autoencoder-normalizing-flow-2312.165522023-12-29 https://scifaro.com/en/abs/self-supervised-pretraining-for-robust-personalized-voice-activity-detection-in-adverse-conditions-2312.166132024-01-24 https://scifaro.com/en/abs/remixed2remixed-domain-adaptation-for-speech-enhancement-by-noise2noise-learning-with-remixing-2312.168362023-12-29 https://scifaro.com/en/abs/accent-vits-accent-transfer-for-end-to-end-tts-2312.168502024-01-01 https://scifaro.com/en/abs/jeffreys-divergence-based-regularization-of-neural-network-output-distribution-applied-to-speaker-recognition-2312.168852023-12-29 https://scifaro.com/en/abs/beast-online-joint-beat-and-downbeat-tracking-based-on-streaming-transformer-2312.171562024-04-24 https://scifaro.com/en/abs/revolutionizing-personalized-voice-synthesis-the-journey-towards-emotional-and-individual-authenticity-with-divse-dynamic-individual-voice-synthesis-engine-2312.172812024-01-01 https://scifaro.com/en/abs/the-arrow-of-time-in-music-revisiting-the-temporal-structure-of-music-with-distinguishability-and-unique-orientability-as-the-anchor-point-2312.176332024-01-01 https://scifaro.com/en/abs/ai-and-tempo-estimation-a-review-2401.002092024-01-02 https://scifaro.com/en/abs/online-symbolic-music-alignment-with-offline-reinforcement-learning-2401.004662024-01-02 https://scifaro.com/en/abs/sounding-out-reconstruction-error-based-evaluation-of-generative-models-of-expressive-performance-2401.004712024-01-02 https://scifaro.com/en/abs/e-chat-emotion-sensitive-spoken-dialogue-system-with-large-language-models-2401.004752024-07-30 https://scifaro.com/en/abs/enhancing-pre-trained-asr-system-fine-tuning-for-dysarthric-speech-recognition-using-adversarial-data-augmentation-2401.006622024-01-02 https://scifaro.com/en/abs/auffusion-leveraging-the-power-of-diffusion-and-large-language-models-for-text-to-audio-generation-2401.010442024-01-03 https://scifaro.com/en/abs/exploring-multi-modal-control-in-music-driven-dance-generation-2401.013822024-03-21 https://scifaro.com/en/abs/incremental-fastpitch-chunk-based-high-quality-text-to-speech-2401.017552024-01-04 https://scifaro.com/en/abs/independent-low-rank-matrix-analysis-based-on-the-sinkhorn-divergence-source-model-for-blind-source-separation-2401.017622024-01-04 https://scifaro.com/en/abs/multichannel-blind-speech-source-separation-with-a-disjoint-constraint-source-model-2401.017632024-01-04 https://scifaro.com/en/abs/generating-rhythm-game-music-with-jukebox-2401.019972024-01-05 https://scifaro.com/en/abs/enhancing-zero-shot-multi-speaker-tts-with-negated-speaker-representations-2401.020142024-03-06 https://scifaro.com/en/abs/poscuda-position-based-convolution-for-unlearnable-audio-datasets-2401.021352024-01-05 https://scifaro.com/en/abs/siamese-residual-neural-network-for-musical-shape-evaluation-in-piano-performance-assessment-2401.025662024-01-08 https://scifaro.com/en/abs/towards-weakly-supervised-text-to-audio-grounding-2401.025842024-07-18 https://scifaro.com/en/abs/gradient-weighting-for-speaker-verification-in-extremely-low-signal-to-noise-ratio-2401.026262024-01-08 https://scifaro.com/en/abs/musicaog-an-energy-based-model-for-learning-and-sampling-a-hierarchical-representation-of-symbolic-music-2401.026782024-01-08 https://scifaro.com/en/abs/an-ai-enabled-bias-free-respiratory-disease-diagnosis-model-using-cough-audio-a-case-study-for-covid-19-2401.029962024-01-09 https://scifaro.com/en/abs/bridging-modalities-knowledge-distillation-and-masked-training-for-translating-multi-modal-emotion-recognition-to-uni-modal-speech-only-emotion-recognition-2401.030002024-01-09 https://scifaro.com/en/abs/mlca-avsr-multi-layer-cross-attention-fusion-based-audio-visual-speech-recognition-2401.034242024-04-09 https://scifaro.com/en/abs/icmc-asr-the-icassp-2024-in-car-multi-channel-automatic-speech-recognition-challenge-2401.034732024-02-22 https://scifaro.com/en/abs/an-audio-quality-based-multi-strategy-approach-for-target-speaker-extraction-in-the-misp-2023-challenge-2401.036972024-03-08 https://scifaro.com/en/abs/djcm-a-deep-joint-cascade-model-for-singing-voice-separation-and-vocal-pitch-estimation-2401.038562024-03-20 https://scifaro.com/en/abs/cross-speaker-encoding-network-for-multi-talker-speech-recognition-2401.041522024-07-23 https://scifaro.com/en/abs/rad-net-a-repairing-and-denoising-network-for-speech-signal-improvement-2401.043892024-01-10 https://scifaro.com/en/abs/hyperganstrument-instrument-sound-synthesis-and-editing-with-pitch-invariant-hypernetworks-2401.045582024-01-10 https://scifaro.com/en/abs/masked-audio-generation-using-a-single-non-autoregressive-transformer-2401.045772024-03-06 https://scifaro.com/en/abs/music-genre-classification-a-comparative-analysis-of-cnn-and-xgboost-approaches-with-mel-frequency-cepstral-coefficients-and-mel-spectrograms-2401.047372024-01-11 https://scifaro.com/en/abs/diffsheg-a-diffusion-based-approach-for-real-time-speech-driven-holistic-3d-expression-and-gesture-generation-2401.047472024-04-09 https://scifaro.com/en/abs/mutox-universal-multilingual-audio-based-toxicity-dataset-and-zero-shot-detector-2401.050602024-06-28 https://scifaro.com/en/abs/singer-identity-representation-learning-using-self-supervised-techniques-2401.050642024-01-11 https://scifaro.com/en/abs/noise-robust-zero-shot-text-to-speech-synthesis-conditioned-on-self-supervised-speech-representation-model-with-adapters-2401.051112024-01-11 https://scifaro.com/en/abs/self-attention-and-hybrid-features-for-replay-and-deep-fake-audio-detection-2401.056142024-01-12 https://scifaro.com/en/abs/intuitive-control-of-scraping-and-rubbing-through-audio-tactile-synthesis-2401.057572024-01-12 https://scifaro.com/en/abs/contrastive-loss-based-frame-wise-feature-disentanglement-for-polyphonic-sound-event-detection-2401.058502024-01-12 https://scifaro.com/en/abs/lcb-net-long-context-biasing-for-audio-visual-speech-recognition-2401.063902024-01-15 https://scifaro.com/en/abs/microphone-conversion-mitigating-device-variability-in-sound-event-classification-2401.069132024-01-17 https://scifaro.com/en/abs/multi-view-midivae-fusing-track-and-bar-view-representations-for-long-multi-track-symbolic-music-generation-2401.075322024-01-17 https://scifaro.com/en/abs/decoupled-spatial-and-temporal-processing-for-resource-efficient-multichannel-speech-enhancement-2401.078792024-01-17 https://scifaro.com/en/abs/on-the-importance-of-neural-wiener-filter-for-resource-efficient-multichannel-speech-enhancement-2401.078822024-01-17 https://scifaro.com/en/abs/mcmchaos-improvising-rap-music-with-mcmc-methods-and-chaos-theory-2401.079672024-01-17 https://scifaro.com/en/abs/durflex-evc-duration-flexible-emotional-voice-conversion-leveraging-discrete-representations-without-text-alignment-2401.080952025-01-22 https://scifaro.com/en/abs/learning-disentangled-speech-representations-with-contrastive-learning-and-time-invariant-retrieval-2401.080962024-01-19 https://scifaro.com/en/abs/diffrent-a-diffusion-model-for-recording-environment-transfer-of-speech-2401.081022024-01-17 https://scifaro.com/en/abs/livescaler-live-control-of-the-harmony-of-an-electronic-music-track-2401.081812024-01-17 https://scifaro.com/en/abs/from-coarse-to-fine-efficient-training-for-audio-spectrogram-transformers-2401.084152024-01-17 https://scifaro.com/en/abs/robust-doa-estimation-using-deep-acoustic-imaging-2401.087172024-01-18 https://scifaro.com/en/abs/notsofar-1-challenge-new-datasets-baseline-and-tasks-for-distant-meeting-transcription-2401.088872024-01-18 https://scifaro.com/en/abs/on-the-effect-of-data-augmentation-on-local-embedding-properties-in-the-contrastive-learning-of-music-audio-representations-2401.088892024-01-18 https://scifaro.com/en/abs/tempo-estimation-as-fully-self-supervised-binary-classification-2401.088912024-01-18 https://scifaro.com/en/abs/similar-but-faster-manipulation-of-tempo-in-music-audio-embeddings-for-tempo-prediction-and-search-2401.089022024-01-18 https://scifaro.com/en/abs/a-real-time-lyrics-alignment-system-using-chroma-and-phonetic-features-for-classical-vocal-performance-2401.092002024-01-18 https://scifaro.com/en/abs/t-foley-a-controllable-waveform-domain-diffusion-model-for-temporal-event-guided-foley-sound-synthesis-2401.092942024-01-18 https://scifaro.com/en/abs/voxceleb-esp-preliminary-experiments-detecting-spanish-celebrities-from-their-voices-2401.094412024-01-19 https://scifaro.com/en/abs/mlaad-the-multi-language-audio-anti-spoofing-dataset-2401.095122026-05-19 https://scifaro.com/en/abs/improving-speaker-independent-speech-emotion-recognition-using-dynamic-joint-distribution-adaptation-2401.097522024-01-19 https://scifaro.com/en/abs/attention-based-recurrent-neural-network-for-automatic-behavior-laying-hen-recognition-2401.098802024-01-19 https://scifaro.com/en/abs/ultra-lightweight-neural-differential-dsp-vocoder-for-high-quality-speech-synthesis-2401.104602024-01-22 https://scifaro.com/en/abs/aat-adapting-audio-transformer-for-various-acoustics-recognition-tasks-2401.105442024-01-22 https://scifaro.com/en/abs/multimodal-sentiment-analysis-with-missing-modality-a-knowledge-transfer-approach-2401.107472026-04-21 https://scifaro.com/en/abs/asm-audio-spectrogram-mixer-2401.111022024-01-23 https://scifaro.com/en/abs/lightweight-protection-for-privacy-in-offloaded-speech-understanding-2401.119832024-02-06 https://scifaro.com/en/abs/resource-constrained-stereo-singing-voice-cancellation-2401.120682024-01-23 https://scifaro.com/en/abs/ditto-diffusion-inference-time-t-optimization-for-music-generation-2401.121792024-06-04 https://scifaro.com/en/abs/an-exploratory-study-of-multimodal-physiological-data-in-jazz-improvisation-using-basic-machine-learning-techniques-2401.122662024-01-24 https://scifaro.com/en/abs/eend-m2f-masked-attention-mask-transformers-for-speaker-diarization-2401.126002024-01-24 https://scifaro.com/en/abs/moodloopgp-generating-emotion-conditioned-loop-tablature-music-with-multi-granular-features-2401.126562024-01-26 https://scifaro.com/en/abs/emotion-aware-contrastive-adaptation-network-for-source-free-cross-corpus-speech-emotion-recognition-2401.129252024-01-24 https://scifaro.com/en/abs/expressive-acoustic-guitar-sound-synthesis-with-an-instrument-specific-input-representation-and-diffusion-outpainting-2401.134982024-01-25 https://scifaro.com/en/abs/a-phoneme-scale-assessment-of-multichannel-speech-enhancement-algorithms-2401.135482024-01-25 https://scifaro.com/en/abs/non-intrusive-speech-intelligibility-prediction-for-hearing-impaired-users-using-intermediate-asr-features-and-human-memory-models-2401.136112024-01-25 https://scifaro.com/en/abs/scaling-nvidia-s-multi-speaker-multi-lingual-tts-systems-with-zero-shot-tts-to-indic-languages-2401.138512024-01-30 https://scifaro.com/en/abs/tdfnet-an-efficient-audio-visual-speech-separation-model-with-top-down-fusion-2401.141852024-01-26 https://scifaro.com/en/abs/speech-foundation-models-on-intelligibility-prediction-for-hearing-impaired-listeners-2401.142892024-09-13 https://scifaro.com/en/abs/icassp-2024-speech-signal-improvement-challenge-2401.144442024-01-29 https://scifaro.com/en/abs/exploring-musical-roots-applying-audio-embeddings-to-empower-influence-attribution-for-a-generative-music-model-2401.145422024-01-29 https://scifaro.com/en/abs/unit-dsr-dysarthric-speech-reconstruction-system-using-speech-unit-normalization-2401.146642024-01-29 https://scifaro.com/en/abs/expressivity-aware-music-performance-retrieval-using-mid-level-perceptual-features-and-emotion-word-embeddings-2401.148262024-01-29 https://scifaro.com/en/abs/comparison-of-parameters-of-vowel-sounds-of-russian-and-english-languages-2401.148902024-01-29 https://scifaro.com/en/abs/amuse-adaptive-multimodal-analysis-for-speaker-emotion-recognition-in-group-conversations-2401.151642024-01-30 https://scifaro.com/en/abs/music-auto-tagging-with-robust-music-representation-learned-via-domain-adversarial-training-2401.153232024-01-30 https://scifaro.com/en/abs/masked-audio-modeling-with-clap-and-multi-objective-learning-2401.159532024-01-30 https://scifaro.com/en/abs/continuous-target-speech-extraction-enhancing-personalized-diarization-and-extraction-on-complex-recordings-2401.159932024-01-30 https://scifaro.com/en/abs/pbscr-the-piano-bootleg-score-composer-recognition-dataset-2401.168032024-08-07 https://scifaro.com/en/abs/speechbertscore-reference-aware-automatic-evaluation-of-speech-generation-leveraging-nlp-evaluation-metrics-2401.168122024-09-04 https://scifaro.com/en/abs/enhanced-sound-event-localization-and-detection-in-real-360-degree-audio-visual-soundscapes-2401.171292024-01-31 https://scifaro.com/en/abs/songbsab-a-dual-prevention-approach-against-singing-voice-conversion-based-illegal-song-covers-2401.171332024-12-03 https://scifaro.com/en/abs/espnet-spk-full-pipeline-speaker-embedding-toolkit-with-reproducible-recipes-self-supervised-front-ends-and-off-the-shelf-models-2401.172302024-06-14 https://scifaro.com/en/abs/proactive-detection-of-voice-cloning-with-localized-watermarking-2401.172642024-06-07 https://scifaro.com/en/abs/singing-voice-data-scaling-up-an-introduction-to-ace-opencpop-and-ace-kising-2401.176192024-06-14 https://scifaro.com/en/abs/harnessing-smartwatch-microphone-sensors-for-cough-detection-and-classification-2401.177382024-04-23 https://scifaro.com/en/abs/exploiting-audio-visual-features-with-pretrained-av-hubert-for-multi-modal-dysarthric-speech-reconstruction-2401.177962024-02-01 https://scifaro.com/en/abs/dance-to-music-generation-with-encoder-based-textual-inversion-2401.178002024-09-16 https://scifaro.com/en/abs/can-you-remove-the-downstream-model-for-speaker-recognition-with-self-supervised-speech-features-2402.003402024-06-14 https://scifaro.com/en/abs/baton-aligning-text-to-audio-model-with-human-preference-feedback-2402.007442024-02-02 https://scifaro.com/en/abs/eva-gan-enhanced-various-audio-generation-via-scalable-generative-adversarial-networks-2402.008922024-02-05 https://scifaro.com/en/abs/screening-method-for-early-dementia-using-sound-objects-as-voice-biomarkers-2402.008972024-02-05 https://scifaro.com/en/abs/staa-net-a-sparse-and-transferable-adversarial-attack-for-speech-emotion-recognition-2402.012272024-02-05 https://scifaro.com/en/abs/on-the-transferability-of-large-scale-self-supervision-to-few-shot-audio-classification-2402.012742024-02-15 https://scifaro.com/en/abs/bass-accompaniment-generation-via-latent-diffusion-2402.014122024-02-05 https://scifaro.com/en/abs/objective-and-subjective-evaluation-of-speech-enhancement-methods-in-the-udase-task-of-the-7th-chime-challenge-2402.014132024-07-11 https://scifaro.com/en/abs/a-data-driven-analysis-of-robust-automatic-piano-transcription-2402.014242024-02-05 https://scifaro.com/en/abs/low-resource-cross-domain-singing-voice-synthesis-via-reduced-self-supervised-speech-representations-2402.015202024-02-05 https://scifaro.com/en/abs/spiking-music-audio-compression-with-event-based-auto-encoders-2402.015712024-02-05 https://scifaro.com/en/abs/specdiff-gan-a-spectrally-shaped-noise-diffusion-gan-for-speech-and-music-synthesis-2402.017532024-02-06 https://scifaro.com/en/abs/creating-a-synthesizer-from-schr-odinger-s-equation-2402.017732024-02-06 https://scifaro.com/en/abs/ks-net-multi-band-joint-speech-restoration-and-enhancement-network-for-2024-icassp-ssi-challenge-2402.018082024-02-06 https://scifaro.com/en/abs/identification-of-cognitive-decline-from-spoken-language-through-feature-selection-and-the-bag-of-acoustic-words-model-2402.018242024-02-08 https://scifaro.com/en/abs/audio-flamingo-a-novel-audio-language-model-with-few-shot-learning-and-dialogue-abilities-2402.018312024-05-29 https://scifaro.com/en/abs/natural-language-guidance-of-high-fidelity-text-to-speech-with-synthetic-annotations-2402.019122024-02-08 https://scifaro.com/en/abs/sentiment-analysis-in-non-fixed-length-audios-using-a-fully-convolutional-neural-network-2402.021842024-02-08 https://scifaro.com/en/abs/adversarial-data-augmentation-for-robust-speaker-verification-2402.026992024-02-07 https://scifaro.com/en/abs/how-phonemes-contribute-to-deep-speaker-models-2402.027302024-02-08 https://scifaro.com/en/abs/focal-modulation-networks-for-interpretable-sound-classification-2402.027542024-02-07 https://scifaro.com/en/abs/dual-knowledge-distillation-for-efficient-sound-event-detection-2402.027812024-02-07 https://scifaro.com/en/abs/exploring-federated-self-supervised-learning-for-general-purpose-audio-understanding-2402.028892024-02-07 https://scifaro.com/en/abs/a-comprehensive-study-of-the-current-state-of-the-art-in-nepali-automatic-speech-recognition-systems-2402.030502024-02-06 https://scifaro.com/en/abs/ispa-inter-species-phonetic-alphabet-for-transcribing-animal-sounds-2402.032692024-02-07 https://scifaro.com/en/abs/binaural-sound-source-localization-using-a-hybrid-time-and-frequency-domain-model-2402.038672024-02-07 https://scifaro.com/en/abs/bidirectional-autoregressive-diffusion-model-for-dance-generation-2402.043562024-06-25 https://scifaro.com/en/abs/review-of-cetacean-s-click-detection-algorithms-2402.047352024-02-08 https://scifaro.com/en/abs/fast-timing-conditioned-latent-audio-diffusion-2402.048252024-05-14 https://scifaro.com/en/abs/multispecies-bird-sound-recognition-using-a-fully-convolutional-neural-network-2402.054892024-02-09 https://scifaro.com/en/abs/listening-between-the-lines-synthetic-speech-detection-disregarding-verbal-content-2402.055672024-02-09 https://scifaro.com/en/abs/musicmagus-zero-shot-text-to-music-editing-via-diffusion-models-2402.061782024-05-29 https://scifaro.com/en/abs/a-new-approach-to-voice-authenticity-2402.063042024-02-12 https://scifaro.com/en/abs/exploiting-spatial-diversity-for-increasing-the-robustness-of-sound-source-localization-systems-against-reverberation-2402.064112024-02-12 https://scifaro.com/en/abs/analytical-model-for-the-relation-between-signal-bandwidth-and-spatial-resolution-in-steered-response-power-phase-transform-srp-phat-maps-2402.065862024-02-12 https://scifaro.com/en/abs/evaluating-co-creativity-using-total-information-flow-2402.068102024-02-13 https://scifaro.com/en/abs/speech-motion-anomaly-detection-via-cross-modal-translation-of-4d-motion-fields-from-tagged-mri-2402.069842024-02-13 https://scifaro.com/en/abs/cacophony-an-improved-contrastive-audio-text-model-2402.069862024-10-01 https://scifaro.com/en/abs/speech-rhythm-based-speaker-embeddings-extraction-from-phonemes-and-phoneme-duration-for-multi-speaker-speech-synthesis-2402.070852024-02-13 https://scifaro.com/en/abs/mint-boosting-audio-language-model-via-multi-target-pre-training-and-instruction-tuning-2402.074852024-06-13 https://scifaro.com/en/abs/developing-a-multi-variate-prediction-model-for-covid-19-from-crowd-sourced-respiratory-voice-data-2402.076192026-05-13 https://scifaro.com/en/abs/leveraging-pre-trained-autoencoders-for-interpretable-prototype-learning-of-music-audio-2402.093182024-02-15 https://scifaro.com/en/abs/arrange-inpaint-and-refine-steerable-long-term-music-audio-generation-and-editing-via-content-based-controls-2402.095082024-10-08 https://scifaro.com/en/abs/domain-adaptation-for-contrastive-audio-language-models-2402.095852024-07-23 https://scifaro.com/en/abs/a-cross-talk-robust-multichannel-vad-model-for-multiparty-agent-interactions-trained-using-synthetic-re-recordings-2402.097972024-02-16 https://scifaro.com/en/abs/muchin-a-chinese-colloquial-description-benchmark-for-evaluating-language-models-in-the-field-of-music-2402.098712024-06-14 https://scifaro.com/en/abs/ml-aspa-a-contemplation-of-machine-learning-based-acoustic-signal-processing-analysis-for-sounds-strains-emerging-technology-2402.100052024-08-31 https://scifaro.com/en/abs/zero-shot-unsupervised-and-text-based-audio-editing-using-ddpm-inversion-2402.100092024-05-30 https://scifaro.com/en/abs/tuning-in-analysis-of-audio-classifier-performance-in-clinical-settings-with-limited-data-2402.101002024-04-09 https://scifaro.com/en/abs/deepsrgm-sequence-classification-and-ranking-in-indian-classical-music-with-deep-learning-2402.101682024-02-16 https://scifaro.com/en/abs/antideepfake-ai-for-deep-fake-speech-recognition-2402.102182024-02-19 https://scifaro.com/en/abs/engraving-oriented-joint-estimation-of-pitch-spelling-and-local-and-global-keys-2402.102472024-02-19 https://scifaro.com/en/abs/apcodec-a-neural-audio-codec-with-parallel-amplitude-and-phase-spectrum-encoding-and-decoding-2402.105332024-09-25 https://scifaro.com/en/abs/learning-disentangled-audio-representations-through-controlled-synthesis-2402.105472024-02-19 https://scifaro.com/en/abs/low-power-snn-based-audio-source-localisation-using-a-hilbert-transform-spike-encoding-scheme-2402.117482025-02-13 https://scifaro.com/en/abs/unraveling-complex-data-diversity-in-underwater-acoustic-target-recognition-through-convolution-based-mixture-of-experts-2402.119192024-05-01 https://scifaro.com/en/abs/soft-weighted-crossentropy-loss-for-continous-alzheimer-s-disease-detection-2402.119312024-02-20 https://scifaro.com/en/abs/multimodal-emotion-recognition-from-raw-audio-with-sinc-convolution-2402.119542024-02-20 https://scifaro.com/en/abs/on-the-semantic-latent-space-of-diffusion-based-text-to-speech-models-2402.124232024-06-05 https://scifaro.com/en/abs/secp-a-speech-enhancement-based-curation-pipeline-for-scalable-acquisition-of-clean-speech-2402.124822024-02-21 https://scifaro.com/en/abs/guiding-the-underwater-acoustic-target-recognition-with-interpretable-contrastive-learning-2402.126582024-02-21 https://scifaro.com/en/abs/singvisio-visual-analytics-of-diffusion-model-for-singing-voice-conversion-2402.126602024-09-20 https://scifaro.com/en/abs/breaking-down-power-barriers-in-on-device-streaming-asr-insights-and-solutions-2402.130762025-02-27 https://scifaro.com/en/abs/structure-informed-positional-encoding-for-music-generation-2402.133012024-02-29 https://scifaro.com/en/abs/the-effect-of-batch-size-on-contrastive-self-supervised-speech-representation-learning-2402.137232024-02-22 https://scifaro.com/en/abs/music-style-transfer-with-time-varying-inversion-of-diffusion-models-2402.137632024-02-22 https://scifaro.com/en/abs/advancing-audio-fingerprinting-accuracy-addressing-background-noise-and-distortion-challenges-2402.139572024-06-04 https://scifaro.com/en/abs/compression-robust-synthetic-speech-detection-using-patched-spectrogram-transformer-2402.142052024-02-23 https://scifaro.com/en/abs/symbolic-music-generation-with-non-differentiable-rule-guided-diffusion-2402.142852024-09-26 https://scifaro.com/en/abs/human-brain-exhibits-distinct-patterns-when-listening-to-fake-versus-real-audio-preliminary-evidence-2402.149822024-07-10 https://scifaro.com/en/abs/a-survey-of-music-generation-in-the-context-of-interaction-2402.152942024-02-26 https://scifaro.com/en/abs/gla-grad-a-griffin-lim-extended-waveform-generation-diffusion-model-2402.155162024-02-27 https://scifaro.com/en/abs/phonetic-and-lexical-discovery-of-a-canine-language-using-hubert-2402.159852024-02-27 https://scifaro.com/en/abs/chatmusician-understanding-and-generating-music-intrinsically-with-llm-2402.161532024-02-27 https://scifaro.com/en/abs/self-supervised-speech-quality-estimation-and-enhancement-using-only-clean-speech-2402.163212024-02-27 https://scifaro.com/en/abs/towards-environmental-preference-based-speech-enhancement-for-individualised-multi-modal-hearing-aids-2402.167572024-02-27 https://scifaro.com/en/abs/the-icassp-2024-audio-deep-packet-loss-concealment-challenge-2402.169272024-02-28 https://scifaro.com/en/abs/experimental-study-enhancing-voice-spoofing-detection-models-with-wav2vec-2-0-2402.171272024-02-28 https://scifaro.com/en/abs/edtc-enhance-depth-of-text-comprehension-in-automated-audio-captioning-2402.172592024-02-28 https://scifaro.com/en/abs/automated-classification-of-phonetic-segments-in-child-speech-using-raw-ultrasound-imaging-2402.174822025-12-10 https://scifaro.com/en/abs/emotional-voice-messages-emovome-database-emotion-recognition-in-spontaneous-voice-messages-2402.174962024-06-14 https://scifaro.com/en/abs/songcomposer-a-large-language-model-for-lyric-and-melody-generation-in-song-composition-2402.176452025-06-03 https://scifaro.com/en/abs/bytecomposer-a-human-like-melody-composition-method-based-on-language-model-agent-2402.177852024-03-08 https://scifaro.com/en/abs/pitch-ai-assisted-tagging-of-deepfake-audio-calls-using-challenge-response-2402.180852025-05-27 https://scifaro.com/en/abs/convdtw-acs-audio-segmentation-for-track-type-detection-during-car-manufacturing-2402.182042024-02-29 https://scifaro.com/en/abs/exploration-of-adapter-for-noise-robust-automatic-speech-recognition-2402.182752024-06-05 https://scifaro.com/en/abs/do-end-to-end-neural-diarization-attractors-need-to-encode-speaker-characteristic-information-2402.193252024-06-21 https://scifaro.com/en/abs/unraveling-adversarial-examples-against-speaker-identification-techniques-for-attack-detection-and-victim-model-classification-2402.193552024-03-01 https://scifaro.com/en/abs/probing-the-information-encoded-in-neural-based-acoustic-models-of-automatic-speech-recognition-systems-2402.194432024-03-01 https://scifaro.com/en/abs/voxgenesis-unsupervised-discovery-of-latent-speaker-manifold-for-speech-synthesis-2403.005292024-03-04 https://scifaro.com/en/abs/structuring-concept-space-with-the-musical-circle-of-fifths-by-utilizing-music-grammar-based-activations-2403.007902026-01-01 https://scifaro.com/en/abs/scaling-up-adaptive-filter-optimizers-2403.009772024-03-05 https://scifaro.com/en/abs/automatic-speech-recognition-using-advanced-deep-learning-approaches-a-survey-2403.012552024-04-19 https://scifaro.com/en/abs/enhancing-audio-generation-diversity-with-visual-information-2403.012782024-03-05 https://scifaro.com/en/abs/robust-wake-word-spotting-with-frame-level-cross-modal-attention-based-audio-visual-conformer-2403.017002024-03-05 https://scifaro.com/en/abs/what-do-neural-networks-listen-to-exploring-the-crucial-bands-in-speech-enhancement-using-sinc-convolution-2403.017852024-03-05 https://scifaro.com/en/abs/consep-a-noise-and-reverberation-robust-speech-separation-framework-by-magnitude-conditioning-2403.017922024-03-05 https://scifaro.com/en/abs/a-robust-audio-deepfake-detection-system-via-multi-view-feature-2403.019602024-03-05 https://scifaro.com/en/abs/fine-grained-quantitative-emotion-editing-for-speech-generation-2403.020022024-10-01 https://scifaro.com/en/abs/sa-sot-speaker-aware-serialized-output-training-for-multi-talker-asr-2403.020102024-03-05 https://scifaro.com/en/abs/fighting-game-adaptive-background-music-for-improved-gameplay-2403.027012024-03-06 https://scifaro.com/en/abs/interactive-melody-generation-system-for-enhancing-the-creativity-of-musicians-2403.033952024-03-07 https://scifaro.com/en/abs/crossnet-leveraging-global-cross-band-narrow-band-and-positional-encoding-for-single-and-multi-channel-speaker-separation-2403.034112024-03-07 https://scifaro.com/en/abs/metamat-01-a-semi-analytic-solution-for-benchmarking-wave-propagation-simulations-of-homogeneous-absorbers-in-1d-3d-and-2d-2403.035102024-03-07 https://scifaro.com/en/abs/non-verbal-information-in-spontaneous-speech-towards-a-new-framework-of-analysis-2403.035222024-03-14 https://scifaro.com/en/abs/radia-radio-advertisement-detection-with-intelligent-analytics-2403.035382024-03-07 https://scifaro.com/en/abs/can-audio-reveal-music-performance-difficulty-insights-from-the-piano-syllabus-dataset-2403.039472025-05-30 https://scifaro.com/en/abs/multi-level-attention-aggregation-for-language-agnostic-speaker-replication-2403.041112024-04-04 https://scifaro.com/en/abs/a-study-of-dropout-induced-modality-bias-on-robustness-to-missing-video-frames-for-audio-visual-speech-recognition-2403.042452024-03-08 https://scifaro.com/en/abs/a-detailed-audio-text-data-simulation-pipeline-using-single-event-sounds-2403.045942024-03-08 https://scifaro.com/en/abs/rfwave-multi-band-rectified-flow-for-audio-waveform-reconstruction-2403.050102024-10-08 https://scifaro.com/en/abs/spectrogram-based-detection-of-auto-tuned-vocals-in-music-recordings-2403.053802024-03-11 https://scifaro.com/en/abs/svad-a-robust-low-power-and-light-weight-voice-activity-detection-with-spiking-neural-networks-2403.057722024-03-12 https://scifaro.com/en/abs/an-audio-textual-diffusion-model-for-converting-speech-signals-into-ultrasound-tongue-imaging-data-2403.058202024-03-13 https://scifaro.com/en/abs/ham-tts-hierarchical-acoustic-modeling-for-token-based-zero-shot-text-to-speech-with-model-and-data-scaling-2403.059892024-03-12 https://scifaro.com/en/abs/towards-decoupling-frontend-enhancement-and-backend-recognition-in-monaural-robust-asr-2403.063872024-03-12 https://scifaro.com/en/abs/cosine-scoring-with-uncertainty-for-neural-speaker-embedding-2403.064042024-03-12 https://scifaro.com/en/abs/multichannel-long-term-streaming-neural-speech-enhancement-for-static-and-moving-speakers-2403.076752024-06-21 https://scifaro.com/en/abs/boosting-keyword-spotting-through-on-device-learnable-user-speech-characteristics-2403.078022024-03-13 https://scifaro.com/en/abs/text-to-audio-generation-synchronized-with-videos-2403.079382024-03-14 https://scifaro.com/en/abs/motifs-phrases-and-beyond-the-modelling-of-structure-in-symbolic-music-generation-2403.079952024-03-14 https://scifaro.com/en/abs/em-tts-efficiently-trained-low-resource-mongolian-lightweight-text-to-speech-2403.081642024-03-19 https://scifaro.com/en/abs/from-weak-to-strong-sound-event-labels-using-adaptive-change-point-detection-and-active-learning-2403.085252024-08-27 https://scifaro.com/en/abs/end-to-end-amp-modeling-from-data-to-controllable-guitar-amplifier-models-2403.085592024-03-14 https://scifaro.com/en/abs/an-ai-driven-approach-to-wind-turbine-bearing-fault-diagnosis-from-acoustic-signals-2403.090302024-03-15 https://scifaro.com/en/abs/more-than-words-advancements-and-challenges-in-speech-recognition-for-singing-2403.092982024-03-15 https://scifaro.com/en/abs/a-practical-guide-to-spectrogram-analysis-for-audio-signal-processing-2403.093212024-03-15 https://scifaro.com/en/abs/lm2d-lyrics-and-music-driven-dance-synthesis-2403.094072024-03-15 https://scifaro.com/en/abs/the-neural-srp-method-for-positional-sound-source-localization-2403.094552024-03-15 https://scifaro.com/en/abs/uamix-mae-efficient-tuning-of-pretrained-audio-transformers-with-unsupervised-audio-mixtures-2403.095792024-03-15 https://scifaro.com/en/abs/mixture-of-mixups-for-multi-label-classification-of-rare-anuran-sounds-2403.095982024-06-25 https://scifaro.com/en/abs/spoken-100-a-cross-lingual-benchmarking-dataset-for-the-classification-of-spoken-numbers-in-different-languages-2403.097532024-03-18 https://scifaro.com/en/abs/mr-mt3-memory-retaining-multi-track-music-transcription-to-mitigate-instrument-leakage-2403.100242024-03-18 https://scifaro.com/en/abs/multiscale-matching-driven-by-cross-modal-similarity-consistency-for-audio-text-retrieval-2403.101462024-03-18 https://scifaro.com/en/abs/birdset-a-large-scale-dataset-for-audio-classification-in-avian-bioacoustics-2403.103802025-05-20 https://scifaro.com/en/abs/musichifi-fast-high-fidelity-stereo-vocoding-2403.104932024-10-08 https://scifaro.com/en/abs/on-device-domain-learning-for-keyword-spotting-on-low-power-extreme-edge-embedded-systems-2403.105492024-03-19 https://scifaro.com/en/abs/coplay-audio-agnostic-cognitive-scaling-for-acoustic-sensing-2403.107962025-09-16 https://scifaro.com/en/abs/speech-driven-personalized-gesture-synthetics-harnessing-automatic-fuzzy-feature-inference-2403.108052024-03-19 https://scifaro.com/en/abs/urban-sound-propagation-a-benchmark-for-1-step-generative-modeling-of-complex-physical-systems-2403.109042024-03-20 https://scifaro.com/en/abs/multitask-frame-level-learning-for-few-shot-sound-event-detection-2403.110912024-03-20 https://scifaro.com/en/abs/generalized-multi-source-inference-for-text-conditioned-music-diffusion-models-2403.117062024-03-19 https://scifaro.com/en/abs/hallucination-in-perceptual-metric-driven-speech-enhancement-networks-2403.117322024-05-27 https://scifaro.com/en/abs/towards-the-development-of-a-real-time-deepfake-audio-detection-system-in-communication-platforms-2403.117782024-03-19 https://scifaro.com/en/abs/prompt-singer-controllable-singing-voice-synthesis-with-natural-language-prompt-2403.117802025-01-07 https://scifaro.com/en/abs/sound-event-detection-and-localization-with-distance-estimation-2403.118272024-06-13 https://scifaro.com/en/abs/unimodal-multi-task-fusion-for-emotional-mimicry-intensity-prediction-2403.118792024-06-18 https://scifaro.com/en/abs/notochord-a-flexible-probabilistic-model-for-real-time-midi-performance-2403.120002024-03-20 https://scifaro.com/en/abs/real-time-speech-extraction-using-spatially-regularized-independent-low-rank-matrix-analysis-and-rank-constrained-spatial-covariance-matrix-estimation-2403.124772024-03-20 https://scifaro.com/en/abs/listenable-maps-for-audio-classifiers-2403.130862024-06-21 https://scifaro.com/en/abs/frequency-aware-convolution-for-sound-event-detection-2403.132522024-10-30 https://scifaro.com/en/abs/onset-and-offset-weighted-loss-function-for-sound-event-detection-2403.132542024-03-21 https://scifaro.com/en/abs/building-speech-corpus-with-diverse-voice-characteristics-for-its-prompt-based-representation-2403.133532024-03-21 https://scifaro.com/en/abs/advanced-long-content-speech-recognition-with-factorized-neural-transducer-2403.134232024-03-21 https://scifaro.com/en/abs/utduss-utokyo-sarulab-system-for-interspeech2024-speech-processing-using-discrete-speech-unit-challenge-2403.137202024-03-21 https://scifaro.com/en/abs/the-neurips-2023-machine-learning-for-audio-workshop-affective-audio-benchmarks-and-novel-data-2403.140482024-03-22 https://scifaro.com/en/abs/emodarts-joint-optimisation-of-cnn-sequential-neural-network-architectures-for-superior-speech-emotion-recognition-2403.140832024-08-09 https://scifaro.com/en/abs/assessing-the-robustness-of-spectral-clustering-for-deep-speaker-diarization-2403.142862024-03-22 https://scifaro.com/en/abs/exploring-green-ai-for-audio-deepfake-detection-2403.142902024-03-22 https://scifaro.com/en/abs/xlavs-r-cross-lingual-audio-visual-speech-representation-learning-for-noise-robust-speech-perception-2403.144022024-08-13 https://scifaro.com/en/abs/music-to-dance-as-language-translation-using-sequence-models-2403.155692024-10-18 https://scifaro.com/en/abs/target-speech-extraction-with-pre-trained-av-hubert-and-mask-and-recover-strategy-2403.160782024-03-26 https://scifaro.com/en/abs/modeling-analog-dynamic-range-compressors-using-deep-learning-and-state-space-models-2403.163312024-03-26 https://scifaro.com/en/abs/training-generative-adversarial-network-based-vocoder-with-limited-data-using-augmentation-conditional-discriminator-2403.164642024-03-26 https://scifaro.com/en/abs/accuracy-enhancement-method-for-speech-emotion-recognition-from-spectrogram-using-temporal-frequency-correlation-and-positional-information-learning-through-knowledge-transfer-2403.173272024-11-05 https://scifaro.com/en/abs/theoretical-analysis-of-quality-of-conventional-beamforming-for-phased-microphone-arrays-2403.173762024-03-27 https://scifaro.com/en/abs/low-latency-neural-speech-phase-prediction-based-on-parallel-estimation-architecture-and-anti-wrapping-losses-for-speech-generation-tasks-2403.173782024-03-27 https://scifaro.com/en/abs/exploring-and-applying-audio-based-sentiment-analysis-in-music-2403.173792024-03-27 https://scifaro.com/en/abs/correlation-of-fr-echet-audio-distance-with-human-perception-of-environmental-audio-is-embedding-dependant-2403.175082024-03-27 https://scifaro.com/en/abs/detection-of-deepfake-environmental-audio-2403.175292024-06-14 https://scifaro.com/en/abs/deep-functional-multiple-index-models-with-an-application-to-ser-2403.175622024-03-27 https://scifaro.com/en/abs/aces-evaluating-automated-audio-captioning-models-on-the-semantics-of-sounds-2403.185722024-03-28 https://scifaro.com/en/abs/real-acoustic-fields-an-audio-visual-room-acoustics-dataset-and-benchmark-2403.188212024-03-28 https://scifaro.com/en/abs/emotion-neural-transducer-for-fine-grained-speech-emotion-recognition-2403.192242024-03-29 https://scifaro.com/en/abs/a-novel-stochastic-transformer-based-approach-for-post-traumatic-stress-disorder-detection-using-audio-recording-of-clinical-interviews-2403.194412024-03-29 https://scifaro.com/en/abs/asymmetric-and-trial-dependent-modeling-the-contribution-of-lia-to-sdsv-challenge-task-2-2403.196342024-03-29 https://scifaro.com/en/abs/creating-aesthetic-sonifications-on-the-web-with-siren-2403.197632024-04-01 https://scifaro.com/en/abs/sound-event-localization-and-classification-using-wasn-in-outdoor-environment-2403.201302026-01-27 https://scifaro.com/en/abs/voice-signal-processing-for-machine-learning-the-case-of-speaker-isolation-2403.202022024-04-01 https://scifaro.com/en/abs/classification-of-short-segment-pediatric-heart-sounds-based-on-a-transformer-based-convolutional-neural-network-2404.004702026-05-19 https://scifaro.com/en/abs/cm-tts-enhancing-real-time-text-to-speech-synthesis-efficiency-through-weighted-samplers-and-consistency-models-2404.005692024-04-02 https://scifaro.com/en/abs/measuring-audio-prompt-adherence-with-distribution-based-embedding-distances-2404.007752024-12-31 https://scifaro.com/en/abs/a-comparative-analysis-of-poetry-reading-audio-singing-narrating-or-somewhere-in-between-2404.007892024-04-02 https://scifaro.com/en/abs/personalized-neural-speech-codec-2404.007912024-04-02 https://scifaro.com/en/abs/removing-speaker-information-from-speech-representation-using-variable-length-soft-pooling-2404.008562024-04-02 https://scifaro.com/en/abs/a-novel-audio-representation-for-music-genre-identification-in-mir-2404.010582024-04-02 https://scifaro.com/en/abs/voice-ehr-introducing-multimodal-audio-data-for-health-2404.016202024-11-12 https://scifaro.com/en/abs/weakly-supervised-audio-separation-via-bi-modal-semantic-similarity-2404.017402024-04-03 https://scifaro.com/en/abs/spmamba-state-space-model-is-all-you-need-in-speech-separation-2404.020632024-09-11 https://scifaro.com/en/abs/smitin-self-monitored-inference-time-intervention-for-generative-music-transformers-2404.022522025-02-04 https://scifaro.com/en/abs/pscodec-a-series-of-high-fidelity-low-bitrate-neural-speech-codecs-leveraging-prompt-encoders-2404.027022024-11-22 https://scifaro.com/en/abs/analyzing-musical-characteristics-of-national-anthems-in-relation-to-global-indices-2404.036062024-04-05 https://scifaro.com/en/abs/holon-a-cybernetic-interface-for-bio-semiotics-2404.038942024-04-08 https://scifaro.com/en/abs/it-is-okay-to-be-uncommon-quantizing-sound-event-detection-networks-on-hardware-accelerators-with-uncommon-sub-byte-support-2404.043862024-04-09 https://scifaro.com/en/abs/the-nes-video-music-database-a-dataset-of-symbolic-video-game-music-paired-with-gameplay-videos-2404.044202024-04-09 https://scifaro.com/en/abs/mathematics-of-the-mml-functional-quantizer-modules-for-vcv-rack-software-synthesizer-2404.047392024-04-30 https://scifaro.com/en/abs/cross-domain-audio-deepfake-detection-dataset-and-analysis-2404.049042024-09-23 https://scifaro.com/en/abs/a-novel-bi-lstm-and-transformer-architecture-for-generating-tabla-music-2404.057652024-04-10 https://scifaro.com/en/abs/exploring-diverse-sounds-identifying-outliers-in-a-music-corpus-2404.061032024-04-10 https://scifaro.com/en/abs/mupt-a-generative-symbolic-music-pretrained-transformer-2404.063932024-11-06 https://scifaro.com/en/abs/voiceshop-a-unified-speech-to-speech-framework-for-identity-preserving-zero-shot-voice-editing-2404.066742024-04-12 https://scifaro.com/en/abs/learning-multidimensional-disentangled-representations-of-instrumental-sounds-for-musical-similarity-assessment-2404.066822024-04-11 https://scifaro.com/en/abs/an-effective-automated-speaking-assessment-approach-to-mitigating-data-scarcity-and-imbalanced-distribution-2404.075752025-03-04 https://scifaro.com/en/abs/a-lightweight-dual-stage-framework-for-personalized-speech-enhancement-based-on-deepfilternet2-2404.080222024-04-15 https://scifaro.com/en/abs/voice-attribute-editing-with-text-prompt-2404.088572024-12-03 https://scifaro.com/en/abs/an-experimental-comparison-of-multi-view-self-supervised-methods-for-music-tagging-2404.091772024-04-16 https://scifaro.com/en/abs/prior-agnostic-multi-scale-contrastive-text-audio-pre-training-for-parallelized-tts-frontend-modeling-2404.091922024-04-16 https://scifaro.com/en/abs/scoring-time-intervals-using-non-hierarchical-transformer-for-automatic-piano-transcription-2404.094662024-11-12 https://scifaro.com/en/abs/tango-2-aligning-diffusion-based-text-to-audio-generations-through-direct-preference-optimization-2404.099562024-07-18 https://scifaro.com/en/abs/long-form-music-generation-with-latent-diffusion-2404.103012024-07-30 https://scifaro.com/en/abs/multiple-mobile-target-detection-and-tracking-in-active-sonar-array-using-a-track-before-detect-approach-2404.103162024-04-19 https://scifaro.com/en/abs/vivo-une-approche-multimodale-de-la-synthese-concatenative-par-corpus-dans-le-cadre-d-une-oeuvre-audiovisuelle-immersive-2404.105782024-04-17 https://scifaro.com/en/abs/unsupervised-speaker-diarization-in-distributed-iot-networks-using-federated-learning-2404.108422024-12-02 https://scifaro.com/en/abs/music-enhancement-with-deep-filters-a-technical-report-for-the-icassp-2024-cadenza-challenge-2404.111162024-04-18 https://scifaro.com/en/abs/jointly-recognizing-speech-and-singing-voices-based-on-multi-task-audio-source-separation-2404.112752024-04-18 https://scifaro.com/en/abs/large-language-models-from-notes-to-musical-form-2404.119762024-04-19 https://scifaro.com/en/abs/midget-music-conditioned-3d-dance-generation-2404.120622024-04-19 https://scifaro.com/en/abs/timit-speaker-profiling-a-comparison-of-multi-task-learning-and-single-task-learning-approaches-2404.120772024-04-19 https://scifaro.com/en/abs/non-invasive-suicide-risk-prediction-through-speech-analysis-2404.121322024-10-31 https://scifaro.com/en/abs/separate-in-the-speech-chain-cross-modal-conditional-audio-visual-target-speech-extraction-2404.127252024-05-07 https://scifaro.com/en/abs/trnet-two-level-refinement-network-leveraging-speech-enhancement-for-noise-robust-speech-emotion-recognition-2404.129792024-09-04 https://scifaro.com/en/abs/enhancing-generalization-in-audio-deepfake-detection-a-neural-collapse-based-sampling-and-training-approach-2404.130082024-04-22 https://scifaro.com/en/abs/track-role-prediction-of-single-instrumental-sequences-2404.132862024-04-23 https://scifaro.com/en/abs/music-consistency-models-2404.133582024-04-23 https://scifaro.com/en/abs/text-dependent-speaker-verification-tdsv-challenge-2024-challenge-evaluation-plan-2404.134282024-04-23 https://scifaro.com/en/abs/mfhca-enhancing-speech-emotion-recognition-via-multi-spatial-fusion-and-hierarchical-cooperative-attention-2404.135092024-04-23 https://scifaro.com/en/abs/audiorepinceptionnext-a-lightweight-single-stream-architecture-for-efficient-audio-recognition-2404.135512024-04-23 https://scifaro.com/en/abs/sparse-direction-of-arrival-estimation-method-based-on-vector-signal-reconstruction-with-a-single-vector-sensor-2404.135682024-04-23 https://scifaro.com/en/abs/musical-word-embedding-for-music-tagging-and-retrieval-2404.135692024-04-24 https://scifaro.com/en/abs/anchor-aware-deep-metric-learning-for-audio-visual-retrieval-2404.137892024-04-24 https://scifaro.com/en/abs/retrieval-augmented-audio-deepfake-detection-2404.138922024-04-24 https://scifaro.com/en/abs/a-survey-on-speech-deepfake-detection-2404.139142025-07-16 https://scifaro.com/en/abs/lvns-rave-diversified-audio-generation-with-rave-and-latent-vector-novelty-search-2404.140632024-04-23 https://scifaro.com/en/abs/music-style-transfer-with-diffusion-model-2404.147712024-04-24 https://scifaro.com/en/abs/storytts-a-highly-expressive-text-to-speech-dataset-with-rich-textual-expressiveness-annotations-2404.149462024-04-24 https://scifaro.com/en/abs/every-breath-you-don-t-take-deepfake-speech-detection-using-breath-2404.151432024-04-30 https://scifaro.com/en/abs/vector-signal-reconstruction-sparse-and-parametric-approach-of-direction-of-arrival-using-single-vector-hydrophone-2404.151602025-12-29 https://scifaro.com/en/abs/tailors-new-music-timbre-visualizer-to-entertain-music-through-imagery-2404.151812024-04-24 https://scifaro.com/en/abs/hybridvc-efficient-voice-style-conversion-with-text-and-audio-prompts-2404.156372024-09-26 https://scifaro.com/en/abs/an-experiment-with-electric-guitar-signals-for-exploring-the-virtuosity-based-on-the-entropy-of-music-2404.162592024-04-26 https://scifaro.com/en/abs/leveraging-tropical-reef-bird-and-unrelated-sounds-for-superior-transfer-learning-in-marine-bioacoustics-2404.164362024-05-08 https://scifaro.com/en/abs/the-thu-hcsi-multi-speaker-multi-lingual-few-shot-voice-cloning-system-for-limmits-24-challenge-2404.166192024-04-26 https://scifaro.com/en/abs/cocola-coherence-oriented-contrastive-learning-of-musical-audio-representations-2404.169692025-01-10 https://scifaro.com/en/abs/investigating-differences-in-lab-quality-and-remote-recording-methods-with-dynamic-acoustic-measures-2404.170222024-10-08 https://scifaro.com/en/abs/an-investigation-of-time-frequency-representation-discriminators-for-high-fidelity-vocoder-2404.171612024-04-29 https://scifaro.com/en/abs/device-feature-based-on-graph-fourier-transformation-with-logarithmic-processing-for-detection-of-replay-speech-attacks-2404.172802024-04-29 https://scifaro.com/en/abs/synthesizing-audio-from-silent-video-using-sequence-to-sequence-modeling-2404.176082024-04-30 https://scifaro.com/en/abs/an-rfp-dataset-for-real-fake-and-partially-fake-audio-detection-2404.177212024-04-30 https://scifaro.com/en/abs/t-clap-temporal-enhanced-contrastive-language-audio-pretraining-2404.178062024-04-30 https://scifaro.com/en/abs/an-automatic-mixing-speech-enhancement-system-for-multi-track-audio-2404.178212024-10-22 https://scifaro.com/en/abs/ti-asu-toward-robust-automatic-speech-understanding-through-text-to-speech-imputation-against-missing-speech-modality-2404.179832024-04-30 https://scifaro.com/en/abs/towards-privacy-preserving-audio-classification-systems-2404.180022024-06-10 https://scifaro.com/en/abs/composerx-multi-agent-symbolic-music-composition-with-llms-2404.180812024-05-01 https://scifaro.com/en/abs/usat-a-universal-speaker-adaptive-text-to-speech-approach-2404.180942024-04-30 https://scifaro.com/en/abs/pi-eces-de-viole-des-cinq-livres-and-their-statistical-signatures-the-musical-work-of-marin-marais-and-jordi-savall-2404.183552025-01-10 https://scifaro.com/en/abs/a-systematic-evaluation-of-adversarial-attacks-against-speech-emotion-recognition-models-2404.185142024-04-30 https://scifaro.com/en/abs/certification-of-speaker-recognition-models-to-additive-perturbations-2404.187912024-12-19 https://scifaro.com/en/abs/contuner-singing-voice-beautifying-with-pitch-and-expressiveness-condition-2404.191872024-05-01 https://scifaro.com/en/abs/ead-vc-enhancing-speech-auto-disentanglement-for-voice-conversion-with-ifub-estimator-and-joint-text-guided-consistent-learning-2404.192122024-05-01 https://scifaro.com/en/abs/efficientasr-speech-recognition-network-compression-via-attention-redundancy-and-chunk-level-ffn-optimization-2404.192142024-05-01 https://scifaro.com/en/abs/esc-efficient-speech-coding-with-cross-scale-residual-vector-quantized-transformers-2404.194412024-10-04 https://scifaro.com/en/abs/semanticodec-an-ultra-low-bitrate-semantic-audio-codec-for-general-sound-2405.002332024-12-02 https://scifaro.com/en/abs/who-is-authentic-speaker-2405.002482024-05-02 https://scifaro.com/en/abs/active-learning-with-task-adaptation-pre-training-for-speech-emotion-recognition-2405.003072024-05-02 https://scifaro.com/en/abs/learning-expressive-disentangled-speech-representations-with-soft-speech-units-and-adversarial-style-augmentation-2405.006032024-05-02 https://scifaro.com/en/abs/main-vc-lightweight-speech-representation-disentanglement-for-one-shot-voice-conversion-2405.009302024-11-26 https://scifaro.com/en/abs/deep-learning-models-in-speech-recognition-measuring-gpu-energy-consumption-impact-of-noise-and-model-quantization-for-edge-deployment-2405.010042024-05-03 https://scifaro.com/en/abs/tramba-a-hybrid-transformer-and-mamba-architecture-for-practical-audio-and-bone-conduction-speech-super-resolution-and-enhancement-on-mobile-and-wearable-platforms-2405.012422024-05-30 https://scifaro.com/en/abs/toward-end-to-end-interpretable-convolutional-neural-networks-for-waveform-signals-2405.018152024-05-06 https://scifaro.com/en/abs/joint-sentiment-analysis-of-lyrics-and-audio-in-music-2405.019882024-05-06 https://scifaro.com/en/abs/envid-a-metric-learning-approach-for-forensic-few-shot-identification-of-unseen-environments-2405.021192025-02-13 https://scifaro.com/en/abs/unveiling-the-potential-of-llm-based-asr-on-chinese-open-source-datasets-2405.021322024-11-06 https://scifaro.com/en/abs/gmp-tl-gender-augmented-multi-scale-pseudo-label-enhanced-transfer-learning-for-speech-emotion-recognition-2405.021512024-09-24 https://scifaro.com/en/abs/training-free-deepfake-voice-recognition-by-leveraging-large-scale-pre-trained-models-2405.021792024-07-02 https://scifaro.com/en/abs/speech-technology-services-for-oral-history-research-2405.023332024-05-07 https://scifaro.com/en/abs/quranic-audio-dataset-crowdsourced-and-labeled-recitation-from-non-arabic-speakers-2405.026752024-05-07 https://scifaro.com/en/abs/mozart-s-touch-a-lightweight-multi-modal-music-generation-framework-based-on-pre-trained-large-models-2405.028012024-11-26 https://scifaro.com/en/abs/sim2real-transfer-for-audio-visual-navigation-with-frequency-adaptive-acoustic-field-prediction-2405.028212024-09-12 https://scifaro.com/en/abs/steered-response-power-for-sound-source-localization-a-tutorial-review-2405.029912024-05-10 https://scifaro.com/en/abs/repaugment-input-agnostic-representation-level-augmentation-for-respiratory-sound-classification-2405.029962024-05-07 https://scifaro.com/en/abs/determined-multichannel-blind-source-separation-with-clustered-source-model-2405.031182024-05-07 https://scifaro.com/en/abs/popdg-popular-3d-dance-generation-with-popdanceset-2405.031782024-12-30 https://scifaro.com/en/abs/enhancing-aeroacoustic-wind-tunnel-studies-through-massive-channel-upscaling-with-mems-microphones-2405.033222024-05-07 https://scifaro.com/en/abs/fully-reversing-the-shoebox-image-source-method-from-impulse-responses-to-room-parameters-2405.033852025-03-11 https://scifaro.com/en/abs/whispy-adapting-stt-whisper-models-to-real-time-environments-2405.034842024-05-07 https://scifaro.com/en/abs/deep-space-separable-distillation-for-lightweight-acoustic-scene-classification-2405.035672024-05-07 https://scifaro.com/en/abs/hafformer-a-hierarchical-attention-free-framework-for-alzheimer-s-disease-detection-from-spontaneous-speech-2405.039522024-05-08 https://scifaro.com/en/abs/intelligent-cardiac-auscultation-for-murmur-detection-via-parallel-attentive-models-with-uncertainty-estimation-2405.039532024-05-08 https://scifaro.com/en/abs/adaptive-speech-emotion-representation-learning-based-on-dynamic-graph-2405.039562024-05-08 https://scifaro.com/en/abs/comparative-study-of-state-based-neural-networks-for-virtual-analog-audio-effects-modeling-2405.041242025-08-07 https://scifaro.com/en/abs/detecting-music-deepfakes-is-easy-but-actually-hard-2405.041812024-05-24 https://scifaro.com/en/abs/universal-spatial-audio-transcoder-2405.044712024-07-08 https://scifaro.com/en/abs/the-codecfake-dataset-and-countermeasures-for-the-universally-detection-of-deepfake-audio-2405.048802024-12-30 https://scifaro.com/en/abs/exploring-speech-pattern-disorders-in-autism-using-machine-learning-2405.051262024-05-09 https://scifaro.com/en/abs/an-lstm-based-chord-generation-system-using-chroma-histogram-representations-2405.052402024-05-09 https://scifaro.com/en/abs/afen-respiratory-disease-classification-using-ensemble-learning-2405.054672024-05-10 https://scifaro.com/en/abs/the-royalflush-automatic-speech-diarization-and-recognition-system-for-in-car-multi-channel-automatic-speech-recognition-challenge-2405.054982024-05-10 https://scifaro.com/en/abs/look-once-to-hear-target-speech-hearing-with-noisy-examples-2405.062892024-05-31 https://scifaro.com/en/abs/an-investigation-of-incorporating-mamba-for-speech-enhancement-2405.065732025-10-08 https://scifaro.com/en/abs/music-emotion-prediction-using-recurrent-neural-networks-2405.067472024-05-14 https://scifaro.com/en/abs/time-of-arrival-estimation-and-phase-unwrapping-of-head-related-transfer-functions-with-integer-linear-programming-2405.068042024-10-22 https://scifaro.com/en/abs/benchmarking-cross-domain-audio-visual-deception-detection-2405.069952025-07-25 https://scifaro.com/en/abs/a-framework-of-text-dependent-speaker-verification-for-chinese-numerical-string-corpus-2405.070292024-05-22 https://scifaro.com/en/abs/towards-an-accessible-and-rapidly-trainable-rhythm-sequencer-using-a-generative-stacked-autoencoder-2405.070342024-05-14 https://scifaro.com/en/abs/soccernet-echoes-a-soccer-game-audio-commentary-dataset-2405.073542025-08-26 https://scifaro.com/en/abs/rene-a-pre-trained-multi-modal-architecture-for-auscultation-of-respiratory-diseases-2405.074422024-06-10 https://scifaro.com/en/abs/fastsag-towards-fast-non-autoregressive-singing-accompaniment-generation-2405.076822024-05-14 https://scifaro.com/en/abs/diff-ets-learning-a-diffusion-probabilistic-model-for-electromyography-to-speech-conversion-2405.080212024-05-15 https://scifaro.com/en/abs/abnormal-respiratory-sound-identification-using-audio-spectrogram-vision-transformer-2405.083422024-05-15 https://scifaro.com/en/abs/towards-robust-audio-deepfake-detection-a-evolving-benchmark-for-continual-learning-2405.085962024-08-14 https://scifaro.com/en/abs/investigating-design-choices-in-joint-embedding-predictive-architectures-for-general-audio-representation-learning-2405.086792024-05-15 https://scifaro.com/en/abs/polyglotfake-a-novel-multilingual-and-multimodal-deepfake-dataset-2405.088382024-05-16 https://scifaro.com/en/abs/naturalistic-music-decoding-from-eeg-data-via-latent-diffusion-models-2405.090622025-01-10 https://scifaro.com/en/abs/hierarchical-emotion-prediction-and-control-in-text-to-speech-synthesis-2405.091712024-05-16 https://scifaro.com/en/abs/perception-inspired-graph-convolution-for-music-understanding-tasks-2405.092242024-05-16 https://scifaro.com/en/abs/smug-explain-a-framework-for-symbolic-music-graph-explanations-2405.092412024-05-16 https://scifaro.com/en/abs/towards-evaluating-the-robustness-of-automatic-speech-recognition-systems-via-audio-style-transfer-2405.094702024-05-16 https://scifaro.com/en/abs/whole-song-hierarchical-generation-of-symbolic-music-using-cascaded-diffusion-models-2405.099012024-05-17 https://scifaro.com/en/abs/building-a-luganda-text-to-speech-model-from-crowdsourced-data-2405.102112024-05-17 https://scifaro.com/en/abs/dac-jax-a-jax-implementation-of-the-descript-audio-codec-2405.115542024-05-21 https://scifaro.com/en/abs/neighborhood-attention-transformer-with-progressive-channel-fusion-for-speaker-verification-2405.120312024-05-31 https://scifaro.com/en/abs/symplex-controllable-symbolic-music-generation-using-simplex-diffusion-with-vocabulary-priors-2405.126662024-05-22 https://scifaro.com/en/abs/enhancing-the-analysis-of-murine-neonatal-ultrasonic-vocalizations-development-evaluation-and-application-of-different-mathematical-models-2405.129572024-10-02 https://scifaro.com/en/abs/non-autoregressive-real-time-accent-conversion-model-with-voice-cloning-2405.131622024-05-24 https://scifaro.com/en/abs/ambisonizer-neural-upmixing-as-spherical-harmonics-generation-2405.134282024-05-24 https://scifaro.com/en/abs/end-to-end-real-world-polyphonic-piano-audio-to-score-transcription-with-hierarchical-decoding-2405.135272024-05-24 https://scifaro.com/en/abs/audio-mamba-pretrained-audio-state-space-model-for-audio-tagging-2405.136362024-05-24 https://scifaro.com/en/abs/timbre-perception-representation-and-its-neuroscientific-exploration-a-comprehensive-review-2405.136612024-05-24 https://scifaro.com/en/abs/frequency-domain-sound-field-from-the-perspective-of-band-limited-functions-2405.142902024-05-24 https://scifaro.com/en/abs/end-to-end-user-defined-keyword-spotting-using-shifted-delta-coefficients-2405.144892024-05-24 https://scifaro.com/en/abs/leveraging-real-electric-guitar-tones-and-effects-to-improve-robustness-in-guitar-tablature-transcription-modeling-2405.146792024-07-16 https://scifaro.com/en/abs/music-genre-classification-training-an-ai-model-2405.150962024-05-27 https://scifaro.com/en/abs/the-rarity-of-musical-audio-signals-within-the-space-of-possible-audio-generation-2405.151032024-05-27 https://scifaro.com/en/abs/soundlocd-an-efficient-conditional-discrete-contrastive-latent-diffusion-model-for-text-to-sound-generation-2405.153382024-05-27 https://scifaro.com/en/abs/hiddenspeaker-generate-imperceptible-unlearnable-audios-for-speaker-verification-system-2405.156552024-09-13 https://scifaro.com/en/abs/quality-aware-masked-diffusion-transformer-for-enhanced-music-generation-2405.158632025-06-18 https://scifaro.com/en/abs/carnatic-raga-identification-system-using-rigorous-time-delay-neural-network-2405.160002024-05-29 https://scifaro.com/en/abs/reconstructing-the-charlie-parker-omnibook-using-an-audio-to-score-automatic-transcription-pipeline-2405.166872024-05-28 https://scifaro.com/en/abs/a-real-time-voice-activity-detection-based-on-lightweight-neural-2405.167972024-05-28 https://scifaro.com/en/abs/rset-remapping-based-sorting-method-for-emotion-transfer-speech-synthesis-2405.170282024-05-28 https://scifaro.com/en/abs/a-novel-fusion-architecture-for-pd-detection-using-semi-supervised-speech-embeddings-2405.172062024-11-20 https://scifaro.com/en/abs/enhancing-music-genre-classification-through-multi-algorithm-analysis-and-user-friendly-visualization-2405.174132024-05-28 https://scifaro.com/en/abs/listenable-maps-for-zero-shot-audio-classifiers-2405.176152025-04-23 https://scifaro.com/en/abs/a-data-centric-framework-for-machine-listening-projects-addressing-large-scale-data-acquisition-and-labeling-through-active-learning-2405.181532024-10-10 https://scifaro.com/en/abs/neraf-3d-scene-infused-neural-radiance-and-acoustic-fields-2405.182132025-10-03 https://scifaro.com/en/abs/instruct-musicgen-unlocking-text-to-music-editing-for-music-language-models-via-instruction-tuning-2405.183862025-07-21 https://scifaro.com/en/abs/soundctm-unifying-score-based-and-consistency-models-for-full-band-text-to-sound-generation-2405.185032025-03-11 https://scifaro.com/en/abs/reverse-the-auditory-processing-pathway-coarse-to-fine-audio-reconstruction-from-fmri-2405.187262024-05-30 https://scifaro.com/en/abs/sonos-voice-control-bias-assessment-dataset-a-methodology-for-demographic-bias-assessment-in-voice-assistants-2405.193422024-05-31 https://scifaro.com/en/abs/luganda-speech-intent-recognition-for-iot-applications-2405.193432024-05-31 https://scifaro.com/en/abs/explainable-attribute-based-speaker-verification-2405.197962024-05-31 https://scifaro.com/en/abs/spectral-mapping-of-singing-voices-u-net-assisted-vocal-segmentation-2405.200592024-05-31 https://scifaro.com/en/abs/is-self-supervised-learning-enough-to-fill-in-the-gap-a-study-on-speech-inpainting-2405.201012025-12-09 https://scifaro.com/en/abs/iterative-feature-boosting-for-explainable-speech-emotion-recognition-2405.201722024-06-07 https://scifaro.com/en/abs/ditto-2-distilled-diffusion-inference-time-t-optimization-for-music-generation-2405.202892024-05-31 https://scifaro.com/en/abs/effects-of-dataset-sampling-rate-for-noise-cancellation-through-deep-learning-2405.208842024-06-03 https://scifaro.com/en/abs/on-the-condition-monitoring-of-bolted-joints-through-acoustic-emission-and-deep-transfer-learning-generalization-ordinal-loss-and-super-convergence-2405.208872024-06-03 https://scifaro.com/en/abs/a-survey-of-deep-learning-audio-generation-methods-2406.001462024-06-04 https://scifaro.com/en/abs/creative-text-to-audio-generation-via-synthesizer-programming-2406.002942024-06-04 https://scifaro.com/en/abs/frieren-efficient-video-to-audio-generation-network-with-rectified-flow-matching-2406.003202025-01-07 https://scifaro.com/en/abs/recent-advances-in-end-to-end-simultaneous-speech-translation-2406.004972024-08-21 https://scifaro.com/en/abs/enhanced-heart-sound-classification-using-mel-frequency-cepstral-coefficients-and-comparative-analysis-of-single-vs-ensemble-classifier-strategies-2406.007022024-07-02 https://scifaro.com/en/abs/phonetic-error-analysis-of-raw-waveform-acoustic-models-with-parametric-and-non-parametric-cnns-2406.008982024-06-04 https://scifaro.com/en/abs/searching-for-music-mixing-graphs-a-pruning-approach-2406.010492024-08-07 https://scifaro.com/en/abs/animal2vec-and-meerkat-a-self-supervised-transformer-for-rare-event-raw-audio-input-and-a-large-scale-reference-dataset-for-bioacoustics-2406.012532026-04-15 https://scifaro.com/en/abs/sequence-to-sequence-multi-modal-speech-in-painting-2406.013212024-06-04 https://scifaro.com/en/abs/tinysv-speaker-verification-in-tinyml-with-on-device-learning-2406.016552024-11-27 https://scifaro.com/en/abs/masksr-masked-language-model-for-full-band-speech-restoration-2406.020922024-06-05 https://scifaro.com/en/abs/whistle-data-efficient-multilingual-and-crosslingual-speech-recognition-via-weakly-phonetic-supervision-2406.021662025-03-28 https://scifaro.com/en/abs/audio-mamba-selective-state-spaces-for-self-supervised-audio-representations-2406.021782024-06-11 https://scifaro.com/en/abs/an-independence-promoting-loss-for-music-generation-with-language-models-2406.023152024-06-11 https://scifaro.com/en/abs/simplespeech-towards-simple-and-efficient-text-to-speech-with-scalar-latent-transformer-diffusion-models-2406.023282024-06-17 https://scifaro.com/en/abs/sequence-to-sequence-models-in-peer-to-peer-learning-a-practical-application-2406.025652024-06-06 https://scifaro.com/en/abs/livespeech-low-latency-zero-shot-text-to-speech-via-autoregressive-modeling-of-audio-discrete-codes-2406.028972024-06-11 https://scifaro.com/en/abs/addressing-index-collapse-of-large-codebook-speech-tokenizer-with-dual-decoding-product-quantized-variational-auto-encoder-2406.029402024-06-06 https://scifaro.com/en/abs/dataset-distillation-generative-model-for-speech-emotion-recognition-2406.029632024-06-06 https://scifaro.com/en/abs/an-interpretable-speech-foundation-model-for-depression-detection-by-revealing-prediction-relevant-acoustic-features-from-long-speech-2406.031382026-03-26 https://scifaro.com/en/abs/generalized-fake-audio-detection-via-deep-stable-learning-2406.032372024-06-06 https://scifaro.com/en/abs/generalized-source-tracing-detecting-novel-audio-deepfake-algorithm-with-real-emphasis-and-fake-dispersion-strategy-2406.032402024-06-11 https://scifaro.com/en/abs/genuine-focused-learning-using-mask-autoencoder-for-generalized-fake-audio-detection-2406.032472024-06-11 https://scifaro.com/en/abs/asobo-attentive-beamformer-selection-for-distant-speaker-diarization-in-meetings-2406.032512024-06-06 https://scifaro.com/en/abs/audio-mamba-bidirectional-state-space-model-for-audio-representation-learning-2406.033442024-06-06 https://scifaro.com/en/abs/speech-based-clinical-depression-screening-an-empirical-study-2406.035102024-06-13 https://scifaro.com/en/abs/harder-or-different-understanding-generalization-of-audio-deepfake-detection-2406.035122024-06-13 https://scifaro.com/en/abs/improving-audio-codec-based-zero-shot-text-to-speech-synthesis-with-multi-modal-context-and-large-language-model-2406.037062024-06-07 https://scifaro.com/en/abs/retrieval-augmented-generation-in-prompt-based-text-to-speech-synthesis-with-context-aware-contrastive-language-audio-pretraining-2406.037142024-06-07 https://scifaro.com/en/abs/silentcipher-deep-audio-watermarking-2406.038222024-11-05 https://scifaro.com/en/abs/strada-a-singer-traits-dataset-2406.041402024-06-07 https://scifaro.com/en/abs/prompt-guided-precise-audio-editing-with-diffusion-models-2406.043502024-06-10 https://scifaro.com/en/abs/muse-flexible-voiceprint-receptive-fields-and-multi-path-fusion-enhanced-taylor-transformer-for-u-net-based-speech-enhancement-2406.045892024-09-18 https://scifaro.com/en/abs/pitch-aware-rnn-t-for-mandarin-chinese-mispronunciation-detection-and-diagnosis-2406.045952024-06-10 https://scifaro.com/en/abs/pppr-portable-plug-in-prompt-refiner-for-text-to-audio-generation-2406.046832024-06-10 https://scifaro.com/en/abs/speaker-smoothed-knn-speaker-adaptation-for-end-to-end-asr-2406.047912024-07-03 https://scifaro.com/en/abs/traceablespeech-towards-proactively-traceable-text-to-speech-with-watermarking-2406.048402024-11-18 https://scifaro.com/en/abs/daisy-data-adaptive-self-supervised-early-exit-for-speech-representation-models-2406.054642024-09-02 https://scifaro.com/en/abs/mmm-whatcha-say-uncovering-distal-and-proximal-context-effects-in-first-and-second-language-word-perception-using-psychophysical-reverse-correlation-2406.055152025-07-31 https://scifaro.com/en/abs/exploring-the-benefits-of-tokenization-of-discrete-acoustic-units-2406.055472024-06-11 https://scifaro.com/en/abs/heart-sound-segmentation-using-deep-learning-techniques-2406.056532024-06-11 https://scifaro.com/en/abs/towards-expressive-zero-shot-speech-synthesis-with-hierarchical-prosody-modeling-2406.056812024-06-12 https://scifaro.com/en/abs/spa-svc-self-supervised-pitch-augmentation-for-singing-voice-conversion-2406.056922024-06-12 https://scifaro.com/en/abs/optimizing-multi-stuttered-speech-classification-leveraging-whisper-s-encoder-for-efficient-parameter-reduction-in-automated-assessment-2406.057842025-02-27 https://scifaro.com/en/abs/source-free-domain-adaptation-for-speaker-verification-in-data-scarce-languages-and-noisy-channels-2406.058632024-06-11 https://scifaro.com/en/abs/contrastive-learning-from-synthetic-audio-doppelg-angers-2406.059232025-03-04 https://scifaro.com/en/abs/rawbmamba-end-to-end-bidirectional-state-space-model-for-audio-deepfake-detection-2406.060862024-06-19 https://scifaro.com/en/abs/streamatt-direct-streaming-speech-to-text-translation-with-attention-based-audio-history-selection-2406.060972024-06-11 https://scifaro.com/en/abs/thunder-unified-regression-diffusion-speech-enhancement-with-a-single-reverse-step-using-brownian-bridge-2406.061392024-06-11 https://scifaro.com/en/abs/quantifying-the-effect-of-speech-pathology-on-automatic-and-human-speaker-verification-2406.062082024-06-11 https://scifaro.com/en/abs/zero-shot-audio-captioning-using-soft-and-hard-prompts-2406.062952024-06-11 https://scifaro.com/en/abs/unsupervised-improved-mvdr-beamforming-for-sound-enhancement-2406.063102024-10-02 https://scifaro.com/en/abs/an-automatic-analysis-of-ultrasound-vocalisations-for-the-prediction-of-interaction-context-in-captive-egyptian-fruit-bats-2406.063322025-04-11 https://scifaro.com/en/abs/audio-based-step-count-estimation-for-running-windowing-and-neural-network-baselines-2406.063392025-04-11 https://scifaro.com/en/abs/predicting-heart-activity-from-speech-using-data-driven-and-knowledge-based-features-2406.063412024-06-11 https://scifaro.com/en/abs/mosa-music-motion-with-semantic-annotation-dataset-for-cross-modal-music-processing-2406.063752024-06-11 https://scifaro.com/en/abs/bts-bridging-text-and-sound-modalities-for-metadata-aided-respiratory-sound-classification-2406.067862024-06-17 https://scifaro.com/en/abs/scaling-up-masked-audio-encoder-learning-for-general-audio-classification-2406.069922024-06-14 https://scifaro.com/en/abs/bridging-language-gaps-in-audio-text-retrieval-2406.070122024-06-18 https://scifaro.com/en/abs/icgan-an-implicit-conditioning-method-for-interpretable-feature-control-of-neural-audio-synthesis-2406.071312024-06-12 https://scifaro.com/en/abs/emobox-multilingual-multi-corpus-speech-emotion-recognition-toolkit-and-benchmark-2406.071622024-06-12 https://scifaro.com/en/abs/paraclap-towards-a-general-language-audio-model-for-computational-paralinguistic-tasks-2406.072032024-06-12 https://scifaro.com/en/abs/src4vc-smartphone-recorded-corpus-for-voice-conversion-benchmark-2406.072542024-06-12 https://scifaro.com/en/abs/as-70-a-mandarin-stuttered-speech-dataset-for-automatic-speech-recognition-and-stuttering-event-detection-2406.072562024-06-12 https://scifaro.com/en/abs/noise-robust-voice-conversion-by-conditional-denoising-training-using-latent-variables-of-recording-quality-and-environment-2406.072802024-06-12 https://scifaro.com/en/abs/a-comprehensive-investigation-on-speaker-augmentation-for-speaker-recognition-2406.074212024-06-12 https://scifaro.com/en/abs/graph-based-multi-feature-fusion-method-for-speech-emotion-recognition-2406.074372024-06-14 https://scifaro.com/en/abs/a-methodological-framework-and-exemplar-protocol-for-the-collection-and-analysis-of-repeated-speech-samples-2406.074972025-08-15 https://scifaro.com/en/abs/rad-net-2-a-causal-two-stage-repairing-and-denoising-speech-enhancement-network-with-knowledge-distillation-and-complex-axial-self-attention-2406.074982024-06-12 https://scifaro.com/en/abs/hearing-anything-anywhere-2406.075322024-06-12 https://scifaro.com/en/abs/pre-training-feature-guided-diffusion-model-for-speech-enhancement-2406.076462024-06-13 https://scifaro.com/en/abs/fastast-accelerating-audio-spectrogram-transformer-via-token-merging-and-cross-model-knowledge-distillation-2406.076762024-06-13 https://scifaro.com/en/abs/the-interspeech-2024-challenge-on-speech-processing-using-discrete-units-2406.077252024-06-13 https://scifaro.com/en/abs/emosphere-tts-emotional-style-and-intensity-modeling-via-spherical-emotion-vector-for-controllable-emotional-text-to-speech-2406.078032024-11-06 https://scifaro.com/en/abs/se-bn-adapter-parametric-efficient-domain-adaptation-for-speaker-recognition-2406.078322024-06-13 https://scifaro.com/en/abs/zero-shot-fake-video-detection-by-audio-visual-consistency-2406.078542024-06-13 https://scifaro.com/en/abs/can-large-language-models-understand-spatial-audio-2406.079142024-06-17 https://scifaro.com/en/abs/ctc-aligned-audio-text-embedding-for-streaming-open-vocabulary-keyword-spotting-2406.079232024-09-27 https://scifaro.com/en/abs/fakesound-deepfake-general-audio-detection-2406.080522024-06-13 https://scifaro.com/en/abs/codecfake-an-initial-dataset-for-detecting-llm-based-deepfake-audio-2406.081122024-06-13 https://scifaro.com/en/abs/freev-free-lunch-for-vocoders-through-pseudo-inversed-mel-filter-2406.081962024-06-13 https://scifaro.com/en/abs/asynchronous-voice-anonymization-using-adversarial-perturbation-on-speaker-embedding-2406.082002024-11-13 https://scifaro.com/en/abs/colm-dsr-leveraging-neural-codec-language-modeling-for-multi-modal-dysarthric-speech-reconstruction-2406.083362024-06-25 https://scifaro.com/en/abs/diff-a-riff-musical-accompaniment-co-creation-via-latent-diffusion-models-2406.083842024-10-31 https://scifaro.com/en/abs/toksing-singing-voice-synthesis-based-on-discrete-tokens-2406.084162024-06-21 https://scifaro.com/en/abs/towards-musically-informed-evaluation-of-piano-transcription-models-2406.084542024-10-10 https://scifaro.com/en/abs/training-data-augmentation-for-dysarthric-automatic-speech-recognition-by-text-to-dysarthric-speech-synthesis-2406.085682024-06-14 https://scifaro.com/en/abs/emotion-manipulation-through-music-a-deep-learning-interactive-visual-approach-2406.086232024-06-14 https://scifaro.com/en/abs/ml-superb-2-0-benchmarking-multilingual-speech-models-across-modeling-constraints-languages-and-datasets-2406.086412024-06-14 https://scifaro.com/en/abs/tse-pi-target-sound-extraction-under-reverberant-environments-with-pitch-information-2406.087162024-06-14 https://scifaro.com/en/abs/visinger2-end-to-end-singing-voice-synthesis-augmented-by-self-supervised-learning-representation-2406.087612024-12-17 https://scifaro.com/en/abs/mff-einv2-multi-scale-feature-fusion-across-spectral-spatial-temporal-domains-for-sound-event-localization-and-detection-2406.087712024-06-18 https://scifaro.com/en/abs/can-synthetic-audio-from-generative-foundation-models-assist-audio-recognition-and-speech-modeling-2406.088002024-08-30 https://scifaro.com/en/abs/are-we-there-yet-a-brief-survey-of-music-emotion-prediction-datasets-models-and-outstanding-challenges-2406.088092025-06-25 https://scifaro.com/en/abs/generating-speakers-by-prompting-listener-impressions-for-pre-trained-multi-speaker-text-to-speech-systems-2406.088122024-06-14 https://scifaro.com/en/abs/interpretable-temporal-class-activation-representation-for-audio-spoofing-detection-2406.088252025-07-28 https://scifaro.com/en/abs/effectiveasr-a-single-step-non-autoregressive-mandarin-speech-recognition-architecture-with-high-accuracy-and-inference-speed-2406.088352025-01-10 https://scifaro.com/en/abs/singomd-singing-oriented-multi-resolution-discrete-representation-construction-from-speech-models-2406.089052024-06-21 https://scifaro.com/en/abs/transcription-free-fine-tuning-of-speech-separation-models-for-noisy-and-reverberant-multi-speaker-automatic-speech-recognition-2406.089142024-06-14 https://scifaro.com/en/abs/av-gs-learning-material-and-geometry-aware-priors-for-novel-view-acoustic-synthesis-2406.089202025-03-18 https://scifaro.com/en/abs/diffusion-gaussian-mixture-audio-denoise-2406.091542024-06-14 https://scifaro.com/en/abs/complex-image-generative-diffusion-transformer-for-audio-denoising-2406.091612024-06-14 https://scifaro.com/en/abs/vision-transformer-segmentation-for-visual-bird-sound-denoising-2406.091672024-06-14 https://scifaro.com/en/abs/pianomotion10m-dataset-and-benchmark-for-hand-motion-generation-in-piano-performance-2406.093262025-02-26 https://scifaro.com/en/abs/analyzing-phonetic-structure-of-mandarin-using-audacity-2406.094262024-06-17 https://scifaro.com/en/abs/frequency-mix-knowledge-distillation-for-fake-speech-detection-2406.096642024-06-17 https://scifaro.com/en/abs/vec-tok-vc-residual-enhanced-robust-zero-shot-voice-conversion-with-progressive-constraints-in-a-dual-mode-training-strategy-2406.098442024-06-17 https://scifaro.com/en/abs/mmm-multi-layer-multi-residual-multi-stream-discrete-speech-representation-from-self-supervised-learning-model-2406.098692024-06-17 https://scifaro.com/en/abs/personalized-speech-enhancement-without-a-separate-speaker-embedding-model-2406.099282024-06-17 https://scifaro.com/en/abs/what-does-it-take-to-generalize-ser-model-across-datasets-a-comprehensive-benchmark-2406.099332024-06-17 https://scifaro.com/en/abs/an-efficient-text-augmentation-approach-for-contextualized-mandarin-speech-recognition-2406.099502024-06-17 https://scifaro.com/en/abs/towards-effective-and-efficient-non-autoregressive-decoding-using-block-based-attention-mask-2406.100342024-09-02 https://scifaro.com/en/abs/simul-whisper-attention-guided-streaming-whisper-with-truncation-detection-2406.100522025-05-06 https://scifaro.com/en/abs/uniaudio-1-5-large-language-model-driven-audio-codec-is-a-few-shot-audio-task-learner-2406.100562024-06-17 https://scifaro.com/en/abs/joint-speaker-features-learning-for-audio-visual-multichannel-speech-separation-and-recognition-2406.101522024-06-17 https://scifaro.com/en/abs/one-pass-multiple-conformer-and-foundation-speech-systems-compression-and-quantization-using-an-all-in-one-neural-model-2406.101602024-06-17 https://scifaro.com/en/abs/how-should-we-extract-discrete-audio-tokens-from-self-supervised-models-2406.107352024-06-18 https://scifaro.com/en/abs/speech-emotion-recognition-using-cnn-and-its-use-case-in-digital-healthcare-2406.107412024-06-18 https://scifaro.com/en/abs/optimizing-automatic-speech-assessment-w-ranksim-regularization-and-hybrid-feature-fusion-strategies-2406.108732024-06-18 https://scifaro.com/en/abs/singmos-an-extensive-open-source-singing-voice-dataset-for-mos-prediction-2406.109112024-06-21 https://scifaro.com/en/abs/imperceptible-rhythm-backdoor-attacks-exploring-rhythm-transformation-for-embedding-undetectable-vulnerabilities-on-speech-recognition-2406.109322024-10-21 https://scifaro.com/en/abs/robust-channel-learning-for-large-scale-radio-speaker-verification-2406.109562024-06-18 https://scifaro.com/en/abs/joint-audio-and-symbolic-conditioning-for-temporally-controlled-text-to-music-generation-2406.109702024-06-18 https://scifaro.com/en/abs/spear-receiver-to-receiver-acoustic-neural-warping-field-2406.110062024-06-18 https://scifaro.com/en/abs/outlier-reduction-with-gated-attention-for-improved-post-training-quantization-in-large-sequence-to-sequence-speech-foundation-models-2406.110222024-06-18 https://scifaro.com/en/abs/large-language-models-for-dysfluency-detection-in-stuttered-speech-2406.110252024-06-18 https://scifaro.com/en/abs/nast-noise-aware-speech-tokenization-for-speech-language-models-2406.110372024-06-18 https://scifaro.com/en/abs/identification-of-physical-properties-in-acoustic-tubes-using-physics-informed-neural-networks-2406.111192024-06-18 https://scifaro.com/en/abs/smru-split-and-merge-recurrent-based-unet-for-acoustic-echo-cancellation-and-noise-suppression-2406.111752025-01-27 https://scifaro.com/en/abs/anopatch-towards-better-consistency-in-machine-anomalous-sound-detection-2406.113642024-06-18 https://scifaro.com/en/abs/gama-a-large-audio-language-model-with-advanced-audio-understanding-and-complex-reasoning-abilities-2406.117682024-06-18 https://scifaro.com/en/abs/a-mel-spectrogram-enhancement-paradigm-based-on-cwt-in-speech-synthesis-2406.121642024-07-11 https://scifaro.com/en/abs/interface-design-for-self-supervised-speech-models-2406.122092024-06-19 https://scifaro.com/en/abs/jen-1-dreamstyler-customized-musical-concept-learning-via-pivotal-parameters-tuning-2406.122922024-06-19 https://scifaro.com/en/abs/towards-audio-codec-based-speech-separation-2406.124342024-07-08 https://scifaro.com/en/abs/rapid-language-adaptation-for-multilingual-e2e-speech-recognition-using-encoder-prompting-2406.126112024-06-19 https://scifaro.com/en/abs/bridging-the-gap-integrating-pre-trained-speech-enhancement-and-recognition-models-for-robust-speech-recognition-2406.126992024-06-19 https://scifaro.com/en/abs/ed-skws-early-decision-spiking-neural-networks-for-rapid-and-energy-efficient-keyword-spotting-2406.127262024-06-19 https://scifaro.com/en/abs/global-local-convolution-with-spiking-neural-networks-for-energy-efficient-keyword-spotting-2406.131792024-06-21 https://scifaro.com/en/abs/enhancing-automated-audio-captioning-via-large-language-models-with-optimized-audio-encoding-2406.132752024-06-26 https://scifaro.com/en/abs/straight-through-gumbel-softmax-estimator-based-bimodal-neural-architecture-search-for-audio-visual-deepfake-detection-2406.133842024-06-21 https://scifaro.com/en/abs/automated-bioacoustic-monitoring-for-south-african-bird-species-on-unlabeled-data-2406.135792024-06-21 https://scifaro.com/en/abs/improved-remixing-process-for-domain-adaptation-based-speech-enhancement-by-mitigating-data-imbalance-in-signal-to-noise-ratio-2406.139822024-06-21 https://scifaro.com/en/abs/a-multi-stream-fusion-approach-with-one-class-learning-for-audio-visual-deepfake-detection-2406.141762024-08-20 https://scifaro.com/en/abs/dasb-discrete-audio-and-speech-benchmark-2406.142942026-04-22 https://scifaro.com/en/abs/a-review-of-common-online-speaker-diarization-methods-2406.144642024-06-21 https://scifaro.com/en/abs/disentangled-representation-learning-for-environment-agnostic-speaker-recognition-2406.145592024-06-21 https://scifaro.com/en/abs/globe-a-high-quality-english-corpus-with-global-accents-for-zero-shot-speaker-adaptive-text-to-speech-2406.148752024-06-24 https://scifaro.com/en/abs/breaking-resource-barriers-in-speech-emotion-recognition-via-data-distillation-2406.151192025-06-02 https://scifaro.com/en/abs/machine-learning-techniques-in-automatic-music-transcription-a-systematic-survey-2406.152492024-06-24 https://scifaro.com/en/abs/generating-music-with-structure-using-self-similarity-as-attention-2406.156472024-06-27 https://scifaro.com/en/abs/improving-unsupervised-clean-to-rendered-guitar-tone-transformation-using-gans-and-integrated-unaligned-clean-data-2406.157512024-06-25 https://scifaro.com/en/abs/ai-based-drone-assisted-human-rescue-in-disaster-environments-challenges-and-opportunities-2406.158752024-07-16 https://scifaro.com/en/abs/the-music-maestro-or-the-musically-challenged-a-massive-music-evaluation-benchmark-for-large-language-models-2406.158852024-06-25 https://scifaro.com/en/abs/predicting-individual-depression-symptoms-from-acoustic-features-during-speech-2406.160002024-06-25 https://scifaro.com/en/abs/audiobench-a-universal-benchmark-for-audio-large-language-models-2406.160202025-05-07 https://scifaro.com/en/abs/speech-representation-analysis-based-on-inter-and-intra-model-similarities-2406.160992024-06-25 https://scifaro.com/en/abs/towards-open-respiratory-acoustic-foundation-models-pretraining-and-benchmarking-2406.161482024-11-08 https://scifaro.com/en/abs/listen-and-move-improving-gans-coherency-in-agnostic-sound-to-video-generation-2406.161552024-06-25 https://scifaro.com/en/abs/snr-progressive-model-with-harmonic-compensation-for-low-snr-speech-enhancement-2406.163172024-08-20 https://scifaro.com/en/abs/exploring-the-capability-of-mamba-in-speech-applications-2406.168082024-06-25 https://scifaro.com/en/abs/and-audio-network-dissection-for-interpreting-deep-acoustic-models-2406.169902024-07-12 https://scifaro.com/en/abs/maximum-likelihood-estimation-of-the-direction-of-sound-in-a-reverberant-noisy-environment-2406.171032024-07-16 https://scifaro.com/en/abs/sound-field-synthesis-with-acoustic-waves-2406.171112024-07-16 https://scifaro.com/en/abs/investigating-confidence-estimation-measures-for-speaker-diarization-2406.171242024-06-26 https://scifaro.com/en/abs/sound-tagging-in-infant-centric-home-soundscapes-2406.171902024-06-26 https://scifaro.com/en/abs/self-supervised-embeddings-for-detecting-individual-symptoms-of-depression-2406.172292024-06-26 https://scifaro.com/en/abs/beyond-silence-bias-analysis-through-loss-and-asymmetric-approach-in-audio-anti-spoofing-2406.172462024-08-27 https://scifaro.com/en/abs/temporal-channel-modeling-in-multi-head-self-attention-for-synthetic-speech-detection-2406.173762024-09-10 https://scifaro.com/en/abs/this-paper-had-the-smartest-reviewers-flattery-detection-utilising-an-audio-textual-transformer-based-approach-2406.176672024-06-26 https://scifaro.com/en/abs/specmaskgit-masked-generative-modeling-of-audio-spectrograms-for-efficient-audio-synthesis-and-beyond-2406.176722024-06-27 https://scifaro.com/en/abs/spatial-voice-conversion-voice-conversion-preserving-spatial-information-and-non-target-signals-2406.177222024-06-26 https://scifaro.com/en/abs/emvd-dataset-a-dataset-of-extreme-vocal-distortion-techniques-used-in-heavy-metal-2406.177322024-06-26 https://scifaro.com/en/abs/a-multi-speaker-multi-lingual-voice-cloning-system-based-on-vits2-for-limmits-2024-challenge-2406.178012024-06-27 https://scifaro.com/en/abs/improving-robustness-of-llm-based-speech-synthesis-by-learning-monotonic-alignment-2406.179572024-06-27 https://scifaro.com/en/abs/sc-moe-switch-conformer-mixture-of-experts-for-unified-streaming-and-non-streaming-code-switching-asr-2406.180212024-06-27 https://scifaro.com/en/abs/a-study-on-synthesizing-expressive-violin-performances-approaches-and-comparisons-2406.180892024-06-27 https://scifaro.com/en/abs/advancing-airport-tower-command-recognition-integrating-squeeze-and-excitation-and-broadcasted-residual-learning-2406.183132024-07-01 https://scifaro.com/en/abs/towards-deep-active-learning-in-avian-bioacoustics-2406.186212024-11-06 https://scifaro.com/en/abs/automatic-prediction-of-amyotrophic-lateral-sclerosis-progression-using-longitudinal-speech-transformer-2406.186252024-06-28 https://scifaro.com/en/abs/a-stem-agnostic-single-decoder-system-for-music-source-separation-beyond-four-stems-2406.187472024-08-27 https://scifaro.com/en/abs/streaming-decoder-only-automatic-speech-recognition-with-discrete-speech-units-a-pilot-study-2406.188622024-06-28 https://scifaro.com/en/abs/enhanced-asr-robustness-to-packet-loss-with-a-front-end-adaptation-network-2406.189282024-06-28 https://scifaro.com/en/abs/application-of-asv-for-voice-identification-after-vc-and-duration-predictor-improvement-in-tts-models-2406.192432024-06-28 https://scifaro.com/en/abs/subtractive-training-for-music-stem-insertion-using-latent-diffusion-models-2406.193282025-01-22 https://scifaro.com/en/abs/taming-data-and-transformers-for-audio-generation-2406.193882025-04-17 https://scifaro.com/en/abs/network-bending-of-diffusion-models-for-audio-visual-generation-2406.195892024-07-01 https://scifaro.com/en/abs/saml-speaker-adaptive-mixture-of-lora-experts-for-end-to-end-asr-2406.197062024-07-01 https://scifaro.com/en/abs/realman-a-real-recorded-and-annotated-microphone-array-dataset-for-dynamic-speech-enhancement-and-localization-2406.199592024-10-02 https://scifaro.com/en/abs/a-novel-labeled-human-voice-signal-dataset-for-misbehavior-detection-2407.001882024-07-08 https://scifaro.com/en/abs/characterizing-continual-learning-scenarios-and-strategies-for-audio-analysis-2407.004652024-07-29 https://scifaro.com/en/abs/interpreting-pretrained-speech-models-for-automatic-speech-assessment-of-voice-disorders-2407.005312024-07-02 https://scifaro.com/en/abs/improving-real-time-music-accompaniment-separation-with-mmdensenet-2407.006572024-07-02 https://scifaro.com/en/abs/an-attribute-interpolation-method-in-speech-synthesis-by-model-merging-2407.007662024-07-02 https://scifaro.com/en/abs/papez-resource-efficient-speech-separation-with-auditory-working-memory-2407.008882024-07-02 https://scifaro.com/en/abs/are-you-sure-analysing-uncertainty-quantification-approaches-for-real-world-speech-emotion-recognition-2407.011432024-07-02 https://scifaro.com/en/abs/lightweight-zero-shot-text-to-speech-with-mixture-of-adapters-2407.012912024-07-02 https://scifaro.com/en/abs/leveraging-speaker-embeddings-in-end-to-end-neural-diarization-for-two-speaker-scenarios-2407.013172024-07-02 https://scifaro.com/en/abs/on-feature-learning-for-titi-monkey-activity-detection-2407.014522024-07-02 https://scifaro.com/en/abs/pictures-of-midi-controlled-music-generation-via-graphical-prompts-for-image-based-diffusion-inpainting-2407.014992024-07-02 https://scifaro.com/en/abs/deepfake-audio-detection-using-spectrogram-based-feature-and-ensemble-of-deep-learning-models-2407.017772024-07-03 https://scifaro.com/en/abs/constant-directivity-loudspeaker-beamforming-2407.018602024-11-26 https://scifaro.com/en/abs/towards-training-music-taggers-on-synthetic-data-2407.021562024-07-03 https://scifaro.com/en/abs/gmm-resnet2-ensemble-of-group-resnet-networks-for-synthetic-speech-detection-2407.021702024-07-03 https://scifaro.com/en/abs/melodyt5-a-unified-score-to-score-transformer-for-symbolic-music-processing-2407.022772024-07-04 https://scifaro.com/en/abs/the-solution-for-temporal-sound-localisation-task-of-iccv-1st-perception-test-challenge-2023-2407.023182024-07-03 https://scifaro.com/en/abs/audiotime-a-temporally-aligned-audio-text-benchmark-dataset-2407.028572024-07-04 https://scifaro.com/en/abs/picoaudio-enabling-precise-timestamp-and-frequency-controllability-of-audio-events-in-text-to-audio-generation-2407.028692024-07-18 https://scifaro.com/en/abs/qifusion-net-layer-adapted-stream-non-stream-model-for-end-to-end-multi-accent-speech-recognition-2407.030262024-07-04 https://scifaro.com/en/abs/a-toolchain-for-comprehensive-audio-video-analysis-using-deep-learning-based-multimodal-approach-a-use-case-of-riot-or-violent-context-detection-2407.031102024-07-04 https://scifaro.com/en/abs/speaker-and-text-independent-estimation-of-articulatory-movements-and-phoneme-alignments-from-speech-2407.031322024-07-04 https://scifaro.com/en/abs/gmm-resnext-combining-generative-and-discriminative-models-for-speaker-verification-2407.031352024-07-04 https://scifaro.com/en/abs/mudit-musit-alignment-with-colloquial-expression-in-description-to-song-generation-2407.031882024-07-12 https://scifaro.com/en/abs/pianobart-symbolic-piano-music-generation-and-understanding-with-large-scale-pre-training-2407.033612024-12-10 https://scifaro.com/en/abs/advanced-framework-for-animal-sound-classification-with-features-optimization-2407.034402024-07-08 https://scifaro.com/en/abs/prosody-driven-privacy-preserving-dementia-detection-2407.034702024-07-08 https://scifaro.com/en/abs/towards-attention-based-contrastive-learning-for-audio-spoof-detection-2407.035142024-07-08 https://scifaro.com/en/abs/semantic-grouping-network-for-audio-source-separation-2407.037362024-07-08 https://scifaro.com/en/abs/unsupervised-speech-enhancement-with-spectral-kurtosis-and-double-deep-priors-2407.038872024-07-08 https://scifaro.com/en/abs/on-the-effectiveness-of-acoustic-bpe-in-decoder-only-tts-2407.038922024-10-30 https://scifaro.com/en/abs/serialized-output-training-by-learned-dominance-2407.039662024-07-08 https://scifaro.com/en/abs/funaudiollm-voice-understanding-and-generation-foundation-models-for-natural-interaction-between-humans-and-llms-2407.040512024-07-12 https://scifaro.com/en/abs/musebarcontrol-enhancing-fine-grained-control-in-symbolic-music-generation-through-pre-training-and-counterfactual-loss-2407.043312024-07-08 https://scifaro.com/en/abs/paguri-a-user-experience-study-of-creative-interaction-with-text-to-music-models-2407.043332025-10-06 https://scifaro.com/en/abs/a-mapping-strategy-for-interacting-with-latent-audio-synthesis-using-artistic-materials-2407.043792024-07-22 https://scifaro.com/en/abs/sound-vecaps-improving-audio-generation-with-visual-enhanced-captions-2407.044162025-01-03 https://scifaro.com/en/abs/controlling-whisper-universal-acoustic-adversarial-attacks-to-control-speech-foundation-models-2407.044822024-10-14 https://scifaro.com/en/abs/real-time-timbre-remapping-with-differentiable-dsp-2407.045472024-07-08 https://scifaro.com/en/abs/resource-efficient-speech-quality-prediction-through-quantization-aware-training-and-binary-activation-maps-2407.045782024-09-30 https://scifaro.com/en/abs/all-neural-low-latency-directional-speech-extraction-2407.048792024-07-09 https://scifaro.com/en/abs/a-reference-free-metric-for-language-queried-audio-source-separation-using-contrastive-language-audio-pretraining-2407.049362025-01-07 https://scifaro.com/en/abs/a-layer-anchoring-strategy-for-enhancing-cross-lingual-speech-emotion-recognition-2407.049662024-07-09 https://scifaro.com/en/abs/music-era-recognition-using-supervised-contrastive-learning-and-artist-information-2407.053682024-07-09 https://scifaro.com/en/abs/research-on-the-acoustic-emission-source-localization-methodology-in-composite-materials-based-on-artificial-intelligence-2407.054052024-07-09 https://scifaro.com/en/abs/cosyvoice-a-scalable-multilingual-zero-shot-text-to-speech-synthesizer-based-on-supervised-semantic-tokens-2407.054072024-07-10 https://scifaro.com/en/abs/two-path-gmm-resnet-and-gmm-senet-for-asv-spoofing-detection-2407.056052024-07-09 https://scifaro.com/en/abs/a-benchmark-for-multi-speaker-anonymization-2407.056082025-03-28 https://scifaro.com/en/abs/sequential-contrastive-audio-visual-learning-2407.057822025-03-18 https://scifaro.com/en/abs/cervical-auscultation-machine-learning-for-dysphagia-assessment-2407.058702024-07-09 https://scifaro.com/en/abs/merge-a-bimodal-audio-lyrics-dataset-for-static-music-emotion-recognition-2407.060602025-06-19 https://scifaro.com/en/abs/few-shot-keyword-spotting-from-mixed-speech-2407.060782024-07-09 https://scifaro.com/en/abs/transfer-learning-with-pseudo-multi-label-birdcall-classification-for-ds-gt-birdclef-2024-2407.062912024-07-10 https://scifaro.com/en/abs/homogeneous-speaker-features-for-on-the-fly-dysarthric-and-elderly-speaker-adaptation-2407.063102024-07-10 https://scifaro.com/en/abs/improving-speech-enhancement-by-integrating-inter-channel-and-band-features-with-dual-branch-conformer-2407.065242024-07-16 https://scifaro.com/en/abs/audio-language-datasets-of-scenes-and-events-a-survey-2407.069472025-02-10 https://scifaro.com/en/abs/speech-after-gender-a-trans-feminine-perspective-on-next-steps-for-speech-science-and-technology-2407.072352024-07-11 https://scifaro.com/en/abs/simusoe-a-simulated-snoring-dataset-for-obstructive-sleep-apnea-hypopnea-syndrome-evaluation-during-wakefulness-2407.073972024-07-11 https://scifaro.com/en/abs/stone-self-supervised-tonality-estimator-2407.074082025-04-02 https://scifaro.com/en/abs/video-to-audio-generation-with-hidden-alignment-2407.074642025-03-12 https://scifaro.com/en/abs/targeted-augmented-data-for-audio-deepfake-detection-2407.075982024-07-11 https://scifaro.com/en/abs/samoye-zero-shot-singing-voice-conversion-model-based-on-feature-disentanglement-and-enhancement-2407.077282024-11-18 https://scifaro.com/en/abs/rt-la-voce-real-time-low-snr-audio-visual-speech-enhancement-2407.078252024-07-11 https://scifaro.com/en/abs/an-unsupervised-domain-adaptation-method-for-locating-manipulated-region-in-partially-fake-audio-2407.082392024-07-12 https://scifaro.com/en/abs/let-network-decide-what-to-learn-symbolic-music-understanding-model-based-on-large-scale-adversarial-pre-training-2407.083062025-06-27 https://scifaro.com/en/abs/from-real-to-cloned-singer-identification-2407.086472024-07-12 https://scifaro.com/en/abs/speech-dereverberation-constrained-on-room-impulse-response-characteristics-2407.086572024-07-12 https://scifaro.com/en/abs/evaluating-voice-command-pipelines-for-drone-control-from-stt-and-llm-to-direct-classification-and-siamese-networks-2407.086582024-07-12 https://scifaro.com/en/abs/elasticast-an-audio-spectrogram-transformer-for-all-length-and-resolutions-2407.086912024-07-12 https://scifaro.com/en/abs/audio-spotforming-using-nonnegative-tensor-factorization-with-attractor-based-regularization-2407.089512024-07-15 https://scifaro.com/en/abs/music-proofreading-with-refinpaint-where-and-how-to-modify-compositions-given-context-2407.090992024-11-12 https://scifaro.com/en/abs/a-preliminary-investigation-on-flexible-singing-voice-synthesis-through-decomposed-framework-with-inferrable-features-2407.093462024-07-15 https://scifaro.com/en/abs/ecvoice-audio-text-extraction-and-optimization-of-video-based-on-idioms-similarity-replacement-2407.094892024-07-16 https://scifaro.com/en/abs/empowering-whisper-as-a-joint-multi-talker-and-target-talker-speech-recognition-system-2407.098172024-08-27 https://scifaro.com/en/abs/whisper-sv-adapting-whisper-for-low-data-resource-speaker-verification-2407.100482024-07-16 https://scifaro.com/en/abs/few-shot-bioacoustic-event-detection-with-frame-level-embedding-learning-system-2407.101822024-07-16 https://scifaro.com/en/abs/cuside-t-chunking-simulating-future-and-decoding-for-transducer-based-streaming-asr-2407.102552024-09-17 https://scifaro.com/en/abs/the-interpretation-gap-in-text-to-music-generation-models-2407.103282024-07-16 https://scifaro.com/en/abs/mutual-learning-for-acoustic-matching-and-dereverberation-via-visual-scene-driven-diffusion-2407.103732024-07-16 https://scifaro.com/en/abs/masked-generative-video-to-audio-transformers-with-enhanced-synchronicity-2407.103872024-07-16 https://scifaro.com/en/abs/ddfad-dataset-distillation-framework-for-audio-data-2407.104462024-07-23 https://scifaro.com/en/abs/bandcondinet-parallel-transformers-based-conditional-popular-music-generation-with-multi-view-features-2407.104622025-10-27 https://scifaro.com/en/abs/litefocus-accelerated-diffusion-inference-for-long-audio-synthesis-2407.104682024-07-16 https://scifaro.com/en/abs/towards-zero-shot-amplifier-modeling-one-to-many-amplifier-modeling-via-tone-embedding-control-2407.106462024-07-16 https://scifaro.com/en/abs/towards-enhanced-classification-of-abnormal-lung-sound-in-multi-breath-a-light-weight-multi-label-and-multi-head-attention-classification-method-2407.108282024-07-16 https://scifaro.com/en/abs/a-pilot-study-of-gslm-based-simulation-of-foreign-accentuation-only-using-native-speech-corpora-2407.113702024-07-17 https://scifaro.com/en/abs/mmsd-net-towards-multi-modal-stuttering-detection-2407.114922024-07-17 https://scifaro.com/en/abs/investigating-the-effect-of-label-topology-and-training-criterion-on-asr-performance-and-alignment-quality-2407.116412024-07-17 https://scifaro.com/en/abs/audio-conditioning-for-music-generation-via-discrete-bottleneck-features-2407.125632024-07-31 https://scifaro.com/en/abs/graphmuse-a-library-for-symbolic-music-graph-processing-2407.126712024-07-18 https://scifaro.com/en/abs/pre-trained-foundation-model-representations-to-uncover-breathing-patterns-in-speech-2407.130352024-07-19 https://scifaro.com/en/abs/modeling-and-driving-human-body-soundfields-through-acoustic-primitives-2407.130832024-07-23 https://scifaro.com/en/abs/divesound-llm-assisted-automatic-taxonomy-construction-for-diverse-audio-generation-2407.131982024-07-19 https://scifaro.com/en/abs/underwater-acoustic-signal-denoising-algorithms-a-survey-of-the-state-of-the-art-2407.132642024-07-19 https://scifaro.com/en/abs/how-private-is-low-frequency-speech-audio-in-the-wild-an-analysis-of-verbal-intelligibility-by-humans-and-machines-2407.132662024-07-19 https://scifaro.com/en/abs/low-resourced-speech-recognition-for-iu-mien-language-via-weakly-supervised-phoneme-based-multilingual-pre-training-2407.132922024-09-17 https://scifaro.com/en/abs/using-speech-foundational-models-in-loss-functions-for-hearing-aid-speech-enhancement-2407.133332024-07-19 https://scifaro.com/en/abs/reducing-barriers-to-the-use-of-marginalised-music-genres-in-ai-2407.134392024-07-19 https://scifaro.com/en/abs/spontaneous-style-text-to-speech-synthesis-with-controllable-spontaneous-behaviors-based-on-language-models-2407.135092024-07-19 https://scifaro.com/en/abs/braille-to-speech-generator-audio-generation-based-on-joint-fine-tuning-of-clip-and-fastspeech2-2407.142122024-07-22 https://scifaro.com/en/abs/guitar-chord-diagram-suggestion-for-western-popular-music-2407.142602024-07-22 https://scifaro.com/en/abs/efficient-audio-captioning-with-encoder-level-knowledge-distillation-2407.143292024-07-22 https://scifaro.com/en/abs/enhancing-zero-shot-audio-classification-using-sound-attribute-knowledge-from-large-language-models-2407.143552024-07-22 https://scifaro.com/en/abs/stable-audio-open-2407.143582024-08-01 https://scifaro.com/en/abs/towards-assessing-data-replication-in-music-generation-with-music-similarity-metrics-on-raw-audio-2407.143642025-07-07 https://scifaro.com/en/abs/morse-code-enabled-speech-recognition-for-individuals-with-visual-and-hearing-impairments-2407.145252024-07-23 https://scifaro.com/en/abs/composer-s-assistant-2-interactive-multi-track-midi-infilling-with-fine-grained-user-control-2407.147002024-07-23 https://scifaro.com/en/abs/musicongen-rhythm-and-chord-control-for-transformer-based-text-to-music-generation-2407.150602024-07-23 https://scifaro.com/en/abs/explainability-paths-for-sustained-artistic-practice-with-ai-2407.152162024-07-23 https://scifaro.com/en/abs/selm-enhancing-speech-emotion-recognition-for-out-of-domain-scenarios-2407.153002024-07-23 https://scifaro.com/en/abs/computer-audition-from-task-specific-machine-learning-to-foundation-models-2407.156722025-07-29 https://scifaro.com/en/abs/on-the-utility-of-speech-and-audio-foundation-models-for-marmoset-call-analysis-2407.164172024-07-25 https://scifaro.com/en/abs/audio-prompt-adapter-unleashing-music-editing-abilities-for-text-to-music-with-lightweight-finetuning-2407.165642024-07-25 https://scifaro.com/en/abs/distortion-recovery-a-two-stage-method-for-guitar-effect-removal-2407.166392024-07-24 https://scifaro.com/en/abs/zero-shot-vs-few-shot-multi-speaker-tts-using-pre-trained-czech-speecht5-model-2407.171672024-09-26 https://scifaro.com/en/abs/speech-editing-a-summary-2407.171722024-07-25 https://scifaro.com/en/abs/improved-symbolic-drum-style-classification-with-grammar-based-hierarchical-representations-2407.175362024-07-26 https://scifaro.com/en/abs/describe-where-you-are-improving-noise-robustness-for-speech-emotion-recognition-with-text-description-of-the-environment-2407.177162025-11-11 https://scifaro.com/en/abs/innovative-speech-based-deep-learning-approaches-for-parkinson-s-disease-classification-a-systematic-review-2407.178442024-09-25 https://scifaro.com/en/abs/i-can-listen-but-cannot-read-an-evaluation-of-two-tower-multimodal-systems-for-instrument-recognition-2407.180582024-07-26 https://scifaro.com/en/abs/audio-entailment-assessing-deductive-reasoning-for-audio-understanding-2407.180622024-07-26 https://scifaro.com/en/abs/model-driven-heart-rate-estimation-and-heart-murmur-detection-based-on-phonocardiogram-2407.184242024-07-29 https://scifaro.com/en/abs/enhancing-dysarthric-speech-recognition-for-unseen-speakers-via-prototype-based-adaptation-2407.184612024-09-25 https://scifaro.com/en/abs/slim-style-linguistics-mismatch-model-for-generalized-audio-deepfake-detection-2407.185172024-07-29 https://scifaro.com/en/abs/towards-improving-nam-to-speech-synthesis-intelligibility-using-self-supervised-speech-models-2407.185412024-07-29 https://scifaro.com/en/abs/speech-bandwidth-expansion-via-high-fidelity-generative-adversarial-networks-2407.185712024-07-30 https://scifaro.com/en/abs/utilizing-tts-synthesized-data-for-efficient-development-of-keyword-spotting-model-2407.188792026-02-06 https://scifaro.com/en/abs/implementation-and-applications-of-wakewords-integrated-with-speaker-recognition-a-case-study-2407.189852024-07-30 https://scifaro.com/en/abs/ravss-robust-audio-visual-speech-separation-in-multi-speaker-scenarios-with-missing-visual-cues-2407.192242024-07-31 https://scifaro.com/en/abs/towards-robust-few-shot-class-incremental-learning-in-audio-classification-using-contrastive-representation-2407.192652024-08-08 https://scifaro.com/en/abs/analyzing-and-reducing-the-synthetic-to-real-transfer-gap-in-music-information-retrieval-the-task-of-automatic-drum-transcription-2407.198232024-07-30 https://scifaro.com/en/abs/wavespace-a-highly-explorable-wavetable-generator-2407.198622024-07-30 https://scifaro.com/en/abs/practical-and-reproducible-symbolic-music-generation-by-large-language-models-with-structural-embeddings-2407.199002024-07-30 https://scifaro.com/en/abs/enhancing-anti-spoofing-countermeasures-robustness-through-joint-optimization-and-transfer-learning-2407.201112024-07-30 https://scifaro.com/en/abs/emotion-driven-melody-harmonization-via-melodic-variation-and-functional-representation-2407.201762024-09-26 https://scifaro.com/en/abs/futga-towards-fine-grained-music-understanding-through-temporally-enhanced-generative-augmentation-2407.204452024-07-31 https://scifaro.com/en/abs/supercodec-a-neural-speech-codec-with-selective-back-projection-network-2407.205302024-07-31 https://scifaro.com/en/abs/abusive-speech-detection-in-indic-languages-using-acoustic-features-2407.208082024-07-31 https://scifaro.com/en/abs/picogen-generate-piano-covers-with-a-two-stage-approach-2407.208832024-07-31 https://scifaro.com/en/abs/emotion-driven-piano-music-generation-via-two-stage-disentanglement-and-functional-representation-2407.209552024-07-31 https://scifaro.com/en/abs/contrasting-deep-learning-models-for-direct-respiratory-insufficiency-detection-versus-blood-oxygen-saturation-estimation-2407.209892024-08-06 https://scifaro.com/en/abs/design-and-development-of-laughter-recognition-system-based-on-multimodal-fusion-and-deep-learning-2407.213912024-08-01 https://scifaro.com/en/abs/can-llms-reason-in-music-an-evaluation-of-llms-capability-of-music-understanding-and-generation-2407.215312024-08-01 https://scifaro.com/en/abs/robust-lossy-audio-compression-identification-2407.215452024-08-01 https://scifaro.com/en/abs/enhancing-partially-spoofed-audio-localization-with-boundary-aware-attention-mechanism-2407.216112024-08-20 https://scifaro.com/en/abs/between-the-ai-and-me-analysing-listeners-perspectives-on-ai-and-human-composed-progressive-metal-music-2407.216152024-08-01 https://scifaro.com/en/abs/beat-this-accurate-beat-tracking-without-dbn-postprocessing-2407.216582024-08-01 https://scifaro.com/en/abs/combining-audio-control-and-style-transfer-using-latent-diffusion-2408.001962024-08-02 https://scifaro.com/en/abs/iterative-prototype-refinement-for-ambiguous-speech-emotion-recognition-2408.003252024-08-02 https://scifaro.com/en/abs/interaural-time-difference-loss-for-binaural-target-sound-extraction-2408.003442024-08-02 https://scifaro.com/en/abs/towards-explainable-and-interpretable-musical-difficulty-estimation-a-parameter-efficient-approach-2408.004732024-08-02 https://scifaro.com/en/abs/chordsync-conformer-based-alignment-of-chord-annotations-to-music-audio-2408.006742024-08-02 https://scifaro.com/en/abs/expressive-midi-format-piano-performance-generation-2408.009002024-12-17 https://scifaro.com/en/abs/six-dragons-fly-again-reviving-15th-century-korean-court-music-with-transformers-and-novel-encoding-2408.010962024-08-05 https://scifaro.com/en/abs/nested-music-transformer-sequentially-decoding-compound-tokens-in-symbolic-music-and-audio-generation-2408.011802026-03-17 https://scifaro.com/en/abs/muchomusic-evaluating-music-understanding-in-multimodal-audio-language-models-2408.013372024-08-05 https://scifaro.com/en/abs/contextual-cross-modal-attention-for-audio-visual-deepfake-detection-and-localization-2408.015322024-08-08 https://scifaro.com/en/abs/picogen2-piano-cover-generation-with-transfer-learning-approach-and-weakly-aligned-data-2408.015512024-08-06 https://scifaro.com/en/abs/generating-high-quality-symbolic-music-using-fine-grained-discriminators-2408.016962024-08-06 https://scifaro.com/en/abs/why-perturbing-symbolic-music-is-necessary-fitting-the-distribution-of-never-used-notes-through-a-joint-probabilistic-diffusion-model-2408.019502024-08-06 https://scifaro.com/en/abs/joint-learning-of-emotions-in-music-and-generalized-sounds-2408.020092024-08-15 https://scifaro.com/en/abs/contrastive-learning-based-chaining-cluster-for-multilingual-voice-face-association-2408.020252024-08-20 https://scifaro.com/en/abs/dise-no-de-sonido-para-producciones-audiovisuales-e-historias-sonoras-en-el-aula-hacia-una-docencia-creativa-mediante-el-uso-de-herramientas-inteligentes-2408.021132024-08-13 https://scifaro.com/en/abs/an-approach-to-optimize-inference-of-the-diart-speaker-diarization-pipeline-2408.023412024-08-06 https://scifaro.com/en/abs/steer-by-prior-editing-of-symbolic-music-loops-2408.024342024-08-06 https://scifaro.com/en/abs/stem-jepa-a-joint-embedding-predictive-architecture-for-musical-stem-compatibility-estimation-2408.025142024-08-06 https://scifaro.com/en/abs/clustering-and-mining-accented-speech-for-inclusive-and-fair-speech-recognition-2408.025822024-08-06 https://scifaro.com/en/abs/text-conditioned-symbolic-drumbeat-generation-using-latent-diffusion-models-2408.027112024-08-07 https://scifaro.com/en/abs/automatic-voice-identification-after-speech-resynthesis-using-ppg-2408.027122024-08-07 https://scifaro.com/en/abs/grafx-an-open-source-library-for-audio-processing-graphs-in-pytorch-2408.032042024-08-07 https://scifaro.com/en/abs/central-kurdish-text-to-speech-synthesis-with-novel-end-to-end-transformer-training-2408.038872024-08-08 https://scifaro.com/en/abs/speaker-adaptation-for-quantised-end-to-end-asr-models-2408.039792024-08-09 https://scifaro.com/en/abs/distil-dccrn-a-small-footprint-dccrn-leveraging-feature-based-knowledge-distillation-in-speech-enhancement-2408.042672024-08-09 https://scifaro.com/en/abs/thegluenote-learned-representations-for-robust-and-flexible-note-alignment-2408.043092024-08-09 https://scifaro.com/en/abs/neuralmultiling-a-novel-neural-architecture-search-for-smartphone-based-multilingual-speaker-verification-2408.043622024-08-09 https://scifaro.com/en/abs/mullivc-multi-lingual-voice-conversion-with-cycle-consistency-2408.047082024-08-12 https://scifaro.com/en/abs/quantifying-the-corpus-bias-problem-in-automatic-music-transcription-systems-2408.047372024-08-12 https://scifaro.com/en/abs/exploiting-consistency-preserving-loss-and-perceptual-contrast-stretching-to-boost-ssl-based-speech-enhancement-2408.047732024-08-12 https://scifaro.com/en/abs/hyper-recurrent-neural-network-condition-mechanisms-for-black-box-audio-effect-modeling-2408.048292024-08-12 https://scifaro.com/en/abs/teadapter-supply-abundant-guidance-for-controllable-text-to-music-generation-2408.048652024-08-12 https://scifaro.com/en/abs/acousaf-acoustic-sensing-based-atrial-fibrillation-detection-system-for-mobile-phones-2408.049122024-08-12 https://scifaro.com/en/abs/midi-to-tab-guitar-tablature-inference-via-masked-language-modeling-2408.050242024-08-12 https://scifaro.com/en/abs/seld-mamba-selective-state-space-model-for-sound-event-localization-and-detection-with-source-distance-estimation-2408.050572024-08-12 https://scifaro.com/en/abs/stream-based-active-learning-for-anomalous-sound-detection-in-machine-condition-monitoring-2408.054932024-08-13 https://scifaro.com/en/abs/adapting-general-disentanglement-based-speaker-anonymization-for-enhanced-emotion-preservation-2408.059282025-04-24 https://scifaro.com/en/abs/controlling-surprisal-in-music-generation-via-information-content-curve-matching-2408.060222024-08-13 https://scifaro.com/en/abs/pyneuralfx-a-python-package-for-neural-audio-effect-modeling-2408.060532024-08-13 https://scifaro.com/en/abs/audio-enhancement-for-computer-audition-an-iterative-training-paradigm-using-sample-importance-2408.062642024-08-13 https://scifaro.com/en/abs/fovnet-configurable-field-of-view-speech-enhancement-with-low-computation-and-distortion-for-smart-glasses-2408.064682024-08-14 https://scifaro.com/en/abs/music2latent-consistency-autoencoders-for-latent-audio-compression-2408.065002024-08-14 https://scifaro.com/en/abs/deep-learning-for-speaker-identification-architectural-insights-from-ab-1-corpus-analysis-and-performance-evaluation-2408.068042024-10-29 https://scifaro.com/en/abs/temporal-variability-and-multi-viewed-self-supervised-representations-to-tackle-the-asvspoof5-deepfake-challenge-2408.069222024-08-14 https://scifaro.com/en/abs/neural-speech-and-audio-coding-modern-ai-technology-meets-traditional-codecs-2408.069542025-01-08 https://scifaro.com/en/abs/content-and-style-aware-audio-driven-facial-animation-2408.070052024-08-15 https://scifaro.com/en/abs/source-separation-of-multi-source-raw-music-using-a-residual-quantized-variational-autoencoder-2408.070202024-08-14 https://scifaro.com/en/abs/psm-learning-probabilistic-embeddings-for-multi-scale-zero-shot-soundscape-mapping-2408.070502024-08-14 https://scifaro.com/en/abs/a-theory-based-explainable-deep-learning-architecture-for-music-emotion-2408.071132024-08-15 https://scifaro.com/en/abs/a-new-dataset-notation-software-and-representation-for-computational-schenkerian-analysis-2408.071842024-08-15 https://scifaro.com/en/abs/play-me-something-icy-practical-challenges-explainability-and-the-semantic-gap-in-generative-ai-music-2408.072242024-08-15 https://scifaro.com/en/abs/dpsnn-spiking-neural-network-for-low-latency-streaming-speech-enhancement-2408.073882024-08-15 https://scifaro.com/en/abs/optimising-mfcc-parameters-for-the-automatic-detection-of-respiratory-diseases-2408.075222026-05-11 https://scifaro.com/en/abs/periodwave-multi-period-flow-matching-for-high-fidelity-waveform-generation-2408.075472024-08-15 https://scifaro.com/en/abs/accelerating-high-fidelity-waveform-generation-via-adversarial-flow-matching-optimization-2408.080192024-08-16 https://scifaro.com/en/abs/the-evolution-of-inharmonicity-and-noisiness-in-contemporary-popular-music-2408.081272024-12-09 https://scifaro.com/en/abs/gaps-a-large-and-diverse-classical-guitar-dataset-and-benchmark-transcription-model-2408.086532024-09-02 https://scifaro.com/en/abs/hsdreport-heart-sound-diagnosis-with-echocardiography-reports-2408.086692024-08-19 https://scifaro.com/en/abs/mat-sed-a-masked-audio-transformer-with-masked-reconstruction-based-pre-training-for-sound-event-detection-2408.086732024-08-20 https://scifaro.com/en/abs/efficient-autoregressive-audio-modeling-via-next-scale-prediction-2408.090272024-12-18 https://scifaro.com/en/abs/enhancing-audio-language-models-through-self-supervised-post-training-with-text-audio-pairs-2408.092692025-04-22 https://scifaro.com/en/abs/a-transcription-prompt-based-efficient-audio-large-language-model-for-robust-speech-recognition-2408.094912024-08-20 https://scifaro.com/en/abs/hear-your-face-face-based-voice-conversion-with-f0-estimation-2408.098022024-08-20 https://scifaro.com/en/abs/szu-afs-antispoofing-system-for-the-asvspoof-5-challenge-2408.099332024-08-20 https://scifaro.com/en/abs/convert-and-speak-zero-shot-accent-conversion-with-minimum-supervision-2408.100962024-08-23 https://scifaro.com/en/abs/advancing-voice-cloning-for-nepali-leveraging-transfer-learning-in-a-low-resource-language-2408.101282024-08-26 https://scifaro.com/en/abs/meta-learning-in-audio-and-speech-processing-an-end-to-end-comprehensive-review-2408.103302025-03-14 https://scifaro.com/en/abs/brewclip-a-bifurcated-representation-learning-framework-for-audio-visual-retrieval-2408.103832024-08-21 https://scifaro.com/en/abs/adversarial-training-of-keyword-spotting-to-minimize-tts-data-overfitting-2408.104632026-02-06 https://scifaro.com/en/abs/icsd-an-open-source-dataset-for-infant-cry-and-snoring-detection-2408.105612025-04-03 https://scifaro.com/en/abs/dismix-disentangling-mixtures-of-musical-instruments-for-source-level-pitch-and-timbre-manipulation-2408.108072024-08-21 https://scifaro.com/en/abs/a-noval-feature-via-color-quantisation-for-fake-audio-detection-2408.108492024-08-21 https://scifaro.com/en/abs/eele-exploring-efficient-and-extensible-lora-integration-in-emotional-text-to-speech-2408.108522024-08-21 https://scifaro.com/en/abs/does-current-deepfake-audio-detection-model-effectively-detect-alm-based-deepfake-audio-2408.108532024-08-21 https://scifaro.com/en/abs/rage-music-classification-and-analysis-using-k-nearest-neighbour-random-forest-support-vector-machine-convolutional-neural-networks-and-gradient-boosting-2408.108642024-08-21 https://scifaro.com/en/abs/audio-match-cutting-finding-and-creating-matching-audio-transitions-in-movies-and-videos-2408.109982024-08-21 https://scifaro.com/en/abs/but-systems-and-analyses-for-the-asvspoof-5-challenge-2408.111522024-08-22 https://scifaro.com/en/abs/ddsp-guitar-amp-interpretable-guitar-amplifier-modeling-2408.114052024-08-22 https://scifaro.com/en/abs/improvement-speaker-similarity-for-zero-shot-any-to-any-voice-conversion-of-whispered-and-regular-speech-2408.115282024-08-22 https://scifaro.com/en/abs/a-joint-noise-disentanglement-and-adversarial-training-framework-for-robust-speaker-verification-2408.115622024-09-27 https://scifaro.com/en/abs/video-foley-two-stage-video-to-sound-generation-via-temporal-event-condition-for-foley-sound-2408.119152025-09-18 https://scifaro.com/en/abs/developing-vocal-system-impaired-patient-aimed-voice-quality-assessment-approach-using-asr-representation-included-multiple-features-2408.122792024-08-23 https://scifaro.com/en/abs/self-learning-for-personalized-keyword-spotting-on-ultra-low-power-audio-sensors-2408.124812025-03-10 https://scifaro.com/en/abs/modeling-time-variant-responses-of-optical-compressors-with-selective-state-space-models-2408.125492025-01-17 https://scifaro.com/en/abs/melody-predominates-over-harmony-in-the-evolution-of-musical-scales-across-96-countries-2408.126332025-07-03 https://scifaro.com/en/abs/information-and-motor-constraints-shape-melodic-diversity-across-cultures-2408.126352025-07-25 https://scifaro.com/en/abs/hierarchical-generative-modeling-of-melodic-vocal-contours-in-hindustani-classical-music-2408.126582024-08-27 https://scifaro.com/en/abs/on-class-separability-pitfalls-in-audio-text-contrastive-zero-shot-learning-2408.130682025-09-29 https://scifaro.com/en/abs/nest-self-supervised-fast-conformer-as-all-purpose-seasoning-to-speech-processing-tasks-2408.131062025-01-22 https://scifaro.com/en/abs/eavit-external-attention-vision-transformer-for-audio-classification-2408.132012024-08-26 https://scifaro.com/en/abs/toward-improving-synthetic-audio-spoofing-detection-robustness-via-meta-learning-and-disentangled-training-with-adversarial-examples-2408.133412024-08-27 https://scifaro.com/en/abs/disentangled-training-with-adversarial-examples-for-robust-small-footprint-keyword-spotting-2408.133552024-08-27 https://scifaro.com/en/abs/streamaad-decoding-spatial-auditory-attention-with-a-streaming-architecture-2408.135222024-08-28 https://scifaro.com/en/abs/studying-the-effect-of-audio-filters-in-pre-trained-models-for-environmental-sound-classification-2408.136442024-08-27 https://scifaro.com/en/abs/analyzing-the-impact-of-splicing-artifacts-in-partially-fake-speech-signals-2408.137842024-08-27 https://scifaro.com/en/abs/simplespeech-2-towards-simple-and-efficient-text-to-speech-with-flow-based-scalar-latent-transformer-diffusion-models-2408.138932024-08-29 https://scifaro.com/en/abs/the-effect-of-self-motion-and-room-familiarity-on-sound-source-localization-in-virtual-environments-2408.139042024-08-27 https://scifaro.com/en/abs/wav2small-distilling-wav2vec2-to-72k-parameters-for-low-resource-speech-emotion-recognition-2408.139202024-11-25 https://scifaro.com/en/abs/a-preliminary-case-study-on-long-form-in-the-wild-audio-spoofing-detection-2408.140662024-08-27 https://scifaro.com/en/abs/sonics-synthetic-or-not-identifying-counterfeit-songs-2408.140802025-02-26 https://scifaro.com/en/abs/diminishing-domain-mismatch-for-dnn-based-acoustic-distance-estimation-via-stochastic-room-reverberation-models-2408.142132024-08-27 https://scifaro.com/en/abs/foundation-models-for-music-a-survey-2408.143402024-09-04 https://scifaro.com/en/abs/stylespeech-parameter-efficient-fine-tuning-for-pre-trained-controllable-text-to-speech-2408.147132024-12-31 https://scifaro.com/en/abs/physics-informed-machine-learning-for-sound-field-estimation-2408.147312024-08-28 https://scifaro.com/en/abs/voicetailor-lightweight-plug-in-adapter-for-diffusion-based-personalized-text-to-speech-2408.147392024-08-29 https://scifaro.com/en/abs/coopasd-cooperative-machine-anomalous-sound-detection-with-privacy-concerns-2408.147532024-08-28 https://scifaro.com/en/abs/leveraging-self-supervised-audio-representations-for-data-efficient-acoustic-scene-classification-2408.148622024-08-28 https://scifaro.com/en/abs/the-voxceleb-speaker-recognition-challenge-a-retrospective-2408.148862024-08-28 https://scifaro.com/en/abs/deep-learning-classification-system-for-coconut-maturity-levels-based-on-acoustic-signals-2408.149102024-08-28 https://scifaro.com/en/abs/morphogenesis-of-sound-creates-acoustic-rainbows-2408.149532024-08-28 https://scifaro.com/en/abs/unifying-symbolic-music-arrangement-track-aware-reconstruction-and-structured-tokenization-2408.151762025-11-06 https://scifaro.com/en/abs/emoattack-utilizing-emotional-voice-conversion-for-speech-backdoor-attacks-on-deep-speech-classification-models-2408.155082024-09-09 https://scifaro.com/en/abs/whisper-pmfa-partial-multi-scale-feature-aggregation-for-speaker-verification-using-whisper-models-2408.155852024-08-29 https://scifaro.com/en/abs/voxinstruct-expressive-human-instruction-to-speech-generation-with-unified-multilingual-codec-language-modelling-2408.156762024-08-29 https://scifaro.com/en/abs/deep-learning-based-automatic-multi-level-airway-collapse-monitoring-on-obstructive-sleep-apnea-patients-2408.160302025-01-10 https://scifaro.com/en/abs/improving-generalization-of-speech-separation-in-real-world-scenarios-strategies-in-simulation-optimization-and-evaluation-2408.161262024-08-30 https://scifaro.com/en/abs/enabling-beam-search-for-language-model-based-text-to-speech-synthesis-2408.163732024-08-30 https://scifaro.com/en/abs/rave-for-speech-efficient-voice-conversion-at-high-sampling-rates-2408.165462024-08-30 https://scifaro.com/en/abs/axlstms-learning-self-supervised-audio-representations-with-xlstms-2408.165682025-08-20 https://scifaro.com/en/abs/towards-efficient-modelling-of-string-dynamics-a-comparison-of-state-space-and-koopman-based-deep-learning-methods-2408.166502024-08-30 https://scifaro.com/en/abs/utilizing-speaker-profiles-for-impersonation-audio-detection-2408.170092024-09-02 https://scifaro.com/en/abs/aasist3-kan-enhanced-aasist-speech-deepfake-detection-using-ssl-features-and-additional-regularization-for-the-asvspoof-2024-challenge-2408.173522026-05-19 https://scifaro.com/en/abs/hold-me-tight-stable-encoder-decoder-design-for-speech-enhancement-2408.173582024-09-02 https://scifaro.com/en/abs/audio-enhancement-from-multiple-crowdsourced-recordings-a-simple-and-effective-baseline-2408.174342024-09-02 https://scifaro.com/en/abs/contrastive-augmentation-an-unsupervised-learning-approach-for-keyword-spotting-in-speech-technology-2409.003562024-09-04 https://scifaro.com/en/abs/density-adaptive-attention-based-speech-network-enhancing-feature-understanding-for-mental-health-disorders-2409.003912024-09-04 https://scifaro.com/en/abs/multi-label-zero-shot-audio-classification-with-temporal-attention-2409.004082024-09-04 https://scifaro.com/en/abs/flux-that-plays-music-2409.005872024-12-23 https://scifaro.com/en/abs/seeing-your-speech-style-a-novel-zero-shot-identity-disentanglement-face-based-voice-conversion-2409.007002024-09-05 https://scifaro.com/en/abs/maskgct-zero-shot-text-to-speech-with-masked-generative-codec-transformer-2409.007502024-10-22 https://scifaro.com/en/abs/serialized-speech-information-guidance-with-overlapped-encoding-separation-for-multi-speaker-automatic-speech-recognition-2409.008152024-09-12 https://scifaro.com/en/abs/libriheavymix-a-20-000-hour-dataset-for-single-channel-reverberant-multi-talker-speech-separation-asr-and-speaker-diarization-2409.008192024-09-04 https://scifaro.com/en/abs/mmt-bert-chord-aware-symbolic-music-generation-based-on-multitrack-music-transformer-and-musicbert-2409.009192024-09-04 https://scifaro.com/en/abs/socodec-a-semantic-ordered-multi-stream-speech-codec-for-efficient-language-model-based-text-to-speech-synthesis-2409.009332024-09-04 https://scifaro.com/en/abs/a-framework-for-synthetic-audio-conversations-generation-using-large-language-models-2409.009462025-07-08 https://scifaro.com/en/abs/spectron-target-speaker-extraction-using-conditional-transformer-with-adversarial-refinement-2409.013522024-09-04 https://scifaro.com/en/abs/effective-noise-aware-data-simulation-for-domain-adaptive-speech-enhancement-leveraging-dynamic-stochastic-perturbation-2409.015452024-09-04 https://scifaro.com/en/abs/voxhakka-a-dialectally-diverse-multi-speaker-text-to-speech-system-for-taiwanese-hakka-2409.015482024-10-03 https://scifaro.com/en/abs/pureformer-vc-non-parallel-one-shot-voice-conversion-with-pure-transformer-blocks-and-triplet-discriminative-training-2409.016682024-11-26 https://scifaro.com/en/abs/ustc-kxdigit-system-description-for-asvspoof5-challenge-2409.016952024-09-04 https://scifaro.com/en/abs/the-role-of-large-language-models-in-musicology-are-we-ready-to-trust-the-machines-2409.018642024-09-04 https://scifaro.com/en/abs/activity-guided-industrial-anomalous-sound-detection-against-interferences-2409.018852024-09-04 https://scifaro.com/en/abs/temporal-order-preserved-optimal-transport-based-cross-modal-knowledge-transfer-learning-for-asr-2409.022392024-09-06 https://scifaro.com/en/abs/fastvoicegrad-one-step-diffusion-based-voice-conversion-with-adversarial-conditional-diffusion-distillation-2409.022452024-09-05 https://scifaro.com/en/abs/lstmse-net-long-short-term-speech-enhancement-network-for-audio-visual-speech-enhancement-2409.022662025-02-12 https://scifaro.com/en/abs/musicmamba-a-dual-feature-modeling-approach-for-generating-chinese-traditional-music-with-modal-precision-2409.024212025-03-07 https://scifaro.com/en/abs/neurospex-neuro-guided-speaker-extraction-with-cross-modal-attention-2409.024892024-09-17 https://scifaro.com/en/abs/training-universal-vocoders-with-feature-smoothing-based-augmentation-methods-for-high-quality-tts-systems-2409.025172024-09-05 https://scifaro.com/en/abs/effects-of-recording-condition-and-number-of-monitored-days-on-discriminative-power-of-the-daily-phonotrauma-index-2409.028002024-09-05 https://scifaro.com/en/abs/multi-track-musicldm-towards-versatile-music-generation-with-latent-diffusion-model-2409.028452024-10-24 https://scifaro.com/en/abs/latent-watermarking-of-audio-generative-models-2409.029152024-09-05 https://scifaro.com/en/abs/sympac-scalable-symbolic-music-generation-with-prompts-and-constraints-2409.030552024-09-11 https://scifaro.com/en/abs/fireredtts-a-foundation-text-to-speech-framework-for-industry-level-generative-speech-applications-2409.032832025-04-14 https://scifaro.com/en/abs/estimating-indoor-scene-depth-maps-from-ultrasonic-echoes-2409.033362024-09-10 https://scifaro.com/en/abs/atennuate-optimized-real-time-speech-enhancement-with-deep-ssms-on-raw-audio-2409.033772025-06-17 https://scifaro.com/en/abs/multimodal-laryngoscopic-video-analysis-for-assisted-diagnosis-of-vocal-fold-paralysis-2409.035972026-03-10 https://scifaro.com/en/abs/clustering-of-indonesian-and-western-gamelan-orchestras-through-machine-learning-of-performance-parameters-2409.037132024-09-06 https://scifaro.com/en/abs/applications-and-advances-of-artificial-intelligence-in-music-generation-a-review-2409.037152024-09-06 https://scifaro.com/en/abs/sample-efficient-diffusion-for-text-to-speech-synthesis-2409.037172024-09-06 https://scifaro.com/en/abs/metabgm-dynamic-soundtrack-transformation-for-continuous-multi-scene-experiences-with-ambient-awareness-and-personalization-2409.038442024-09-09 https://scifaro.com/en/abs/searching-for-effective-preprocessing-method-and-cnn-based-architecture-with-efficient-channel-attention-on-speech-emotion-recognition-2409.040072024-09-09 https://scifaro.com/en/abs/investigating-neural-audio-codecs-for-speech-language-model-based-speech-generation-2409.040162024-09-09 https://scifaro.com/en/abs/leveraging-contrastive-learning-and-self-training-for-multimodal-emotion-recognition-with-limited-labeled-samples-2409.044472024-09-10 https://scifaro.com/en/abs/mel-roformer-for-vocal-separation-and-vocal-melody-transcription-2409.047022024-09-10 https://scifaro.com/en/abs/pb-lrdwws-system-for-the-slt-2024-low-resource-dysarthria-wake-up-word-spotting-challenge-2409.047992024-12-09 https://scifaro.com/en/abs/flow-tsvad-target-speaker-voice-activity-detection-via-latent-flow-matching-2409.048592024-09-20 https://scifaro.com/en/abs/attention-based-efficient-breath-sound-removal-in-studio-audio-recordings-2409.049492024-09-10 https://scifaro.com/en/abs/evaluating-neural-networks-architectures-for-spring-reverb-modelling-2409.049532024-09-10 https://scifaro.com/en/abs/disentangling-the-prosody-and-semantic-information-with-pre-trained-model-for-in-context-learning-based-zero-shot-voice-conversion-2409.050042024-09-11 https://scifaro.com/en/abs/audio-guided-fusion-techniques-for-multimodal-emotion-analysis-2409.050072024-09-10 https://scifaro.com/en/abs/deep-generic-representations-for-domain-generalized-anomalous-sound-detection-2409.050352024-09-10 https://scifaro.com/en/abs/the-first-cadenza-challenges-using-machine-learning-competitions-to-improve-music-for-listeners-with-a-hearing-loss-2409.050952024-09-10 https://scifaro.com/en/abs/better-spanish-emotion-recognition-in-the-wild-bringing-attention-to-deep-spectrum-voice-analysis-2409.051482024-09-10 https://scifaro.com/en/abs/machine-anomalous-sound-detection-using-spectral-temporal-modulation-representations-derived-from-machine-specific-filterbanks-2409.053192024-09-10 https://scifaro.com/en/abs/audio-visual-speaker-diarization-current-databases-approaches-and-challenges-2409.056592024-09-10 https://scifaro.com/en/abs/assessing-latency-in-asr-systems-a-methodological-perspective-for-real-time-use-2409.056742025-10-15 https://scifaro.com/en/abs/vector-quantized-diffusion-model-based-speech-bandwidth-extension-2409.057842024-09-17 https://scifaro.com/en/abs/pdaf-a-phonetic-debiasing-attention-framework-for-speaker-verification-2409.057992024-09-10 https://scifaro.com/en/abs/continuous-learning-of-transformer-based-audio-deepfake-detection-2409.059242024-09-11 https://scifaro.com/en/abs/musical-chords-a-novel-java-algorithm-and-app-utility-to-enumerate-chord-progressions-adhering-to-music-theory-guidelines-2409.060242024-09-11 https://scifaro.com/en/abs/songcreator-lyrics-based-universal-song-generation-2409.060292024-11-01 https://scifaro.com/en/abs/investigating-causal-cues-strengthening-spoofed-audio-detection-with-human-discernible-linguistic-features-2409.060332024-09-11 https://scifaro.com/en/abs/latent-diffusion-bridges-for-unsupervised-musical-audio-timbre-transfer-2409.060962025-01-08 https://scifaro.com/en/abs/draw-an-audio-leveraging-multi-instruction-for-video-to-audio-synthesis-2409.061352024-09-12 https://scifaro.com/en/abs/dense-dynamic-embedding-causal-target-speech-extraction-2409.061362024-12-11 https://scifaro.com/en/abs/mtda-hsed-mutual-assistance-tuning-and-dual-branch-aggregating-for-heterogeneous-sound-event-detection-2409.061962024-09-12 https://scifaro.com/en/abs/enhancing-temporal-understanding-in-audio-question-answering-for-large-audio-language-models-2409.062232024-12-16 https://scifaro.com/en/abs/robustsvc-hubert-based-melody-extractor-and-adversarial-learning-for-robust-singing-voice-conversion-2409.062372024-09-11 https://scifaro.com/en/abs/a-two-stage-band-split-mamba-2-network-for-music-separation-2409.062452024-09-16 https://scifaro.com/en/abs/an-end-to-end-approach-for-chord-conditioned-song-generation-2409.063072024-09-11 https://scifaro.com/en/abs/voicewukong-benchmarking-deepfake-voice-detection-2409.063482024-09-11 https://scifaro.com/en/abs/soft-acoustic-curvature-sensor-design-and-development-2409.063952024-09-30 https://scifaro.com/en/abs/enhancing-emotional-text-to-speech-controllability-with-natural-language-guidance-through-contrastive-learning-and-diffusion-models-2409.064512024-09-11 https://scifaro.com/en/abs/attention-based-beamformer-for-multi-channel-speech-enhancement-2409.064562024-09-16 https://scifaro.com/en/abs/sines-transient-noise-neural-modeling-of-piano-notes-2409.065132025-02-04 https://scifaro.com/en/abs/mowe-audio-multitask-audiollms-with-mixture-of-weak-encoders-2409.066352025-04-22 https://scifaro.com/en/abs/benchmarking-sub-genre-classification-for-mainstage-dance-music-2409.066902025-08-05 https://scifaro.com/en/abs/the-voicemos-challenge-2024-beyond-speech-quality-prediction-2409.070012024-09-12 https://scifaro.com/en/abs/improving-anomalous-sound-detection-via-low-rank-adaptation-fine-tuning-of-pre-trained-audio-models-2409.070162025-05-08 https://scifaro.com/en/abs/developing-a-framework-for-sonifying-variational-quantum-algorithms-implications-for-music-composition-2409.071042024-09-13 https://scifaro.com/en/abs/linear-time-complexity-conformers-with-summarymixing-for-streaming-speech-recognition-2409.071652024-09-12 https://scifaro.com/en/abs/analytic-class-incremental-learning-for-sound-source-localization-with-privacy-protection-2409.072242024-09-12 https://scifaro.com/en/abs/muskits-espnet-a-comprehensive-toolkit-for-singing-voice-synthesis-in-new-paradigm-2409.072262024-10-14 https://scifaro.com/en/abs/manatts-persian-a-recipe-for-creating-tts-datasets-for-lower-resource-languages-2409.072592024-09-12 https://scifaro.com/en/abs/cross-dialect-text-to-speech-in-pitch-accent-language-incorporating-multi-dialect-phoneme-level-bert-2409.072652024-09-12 https://scifaro.com/en/abs/salmon-a-suite-for-acoustic-language-model-evaluation-2409.074372025-01-16 https://scifaro.com/en/abs/flexible-control-in-symbolic-music-generation-via-musical-metadata-2409.074672024-09-13 https://scifaro.com/en/abs/flowsep-language-queried-sound-separation-with-rectified-flow-matching-2409.076142025-01-10 https://scifaro.com/en/abs/bridging-paintings-and-music-exploring-emotion-based-music-generation-through-paintings-2409.078272024-09-13 https://scifaro.com/en/abs/tselm-target-speaker-extraction-using-discrete-tokens-and-language-models-2409.078412024-09-18 https://scifaro.com/en/abs/zero-shot-sing-voice-conversion-built-upon-clustering-based-phoneme-representations-2409.080392024-10-15 https://scifaro.com/en/abs/apollo-band-sequence-modeling-for-high-quality-audio-restoration-2409.085142025-01-08 https://scifaro.com/en/abs/lhq-svc-lightweight-and-high-quality-singing-voice-conversion-modeling-2409.085832025-01-22 https://scifaro.com/en/abs/domain-invariant-representation-learning-of-bird-sounds-2409.085892026-01-29 https://scifaro.com/en/abs/la-rag-enhancing-llm-based-asr-accuracy-with-retrieval-augmented-generation-2409.085972024-09-16 https://scifaro.com/en/abs/sta-v2a-video-to-audio-generation-with-semantic-and-temporal-alignment-2409.086012025-03-25 https://scifaro.com/en/abs/taptotab-video-based-guitar-tabs-generation-using-ai-and-audio-analysis-2409.086182024-09-16 https://scifaro.com/en/abs/rhythmic-foley-a-framework-for-seamless-audio-visual-alignment-in-video-to-audio-synthesis-2409.086282024-09-16 https://scifaro.com/en/abs/lmac-td-producing-time-domain-explanations-for-audio-classifiers-2409.086552024-09-16 https://scifaro.com/en/abs/investigating-disentanglement-in-a-phoneme-level-speech-codec-for-prosody-modeling-2409.086642024-09-16 https://scifaro.com/en/abs/acoustic-identification-of-individual-animals-with-hierarchical-contrastive-learning-2409.086732024-09-16 https://scifaro.com/en/abs/dfadd-the-diffusion-and-flow-matching-based-audio-deepfake-dataset-2409.087312024-09-16 https://scifaro.com/en/abs/energy-consumption-trends-in-sound-event-detection-systems-2409.087632024-09-16 https://scifaro.com/en/abs/biomimetic-frontend-for-differentiable-audio-processing-2409.089972024-09-16 https://scifaro.com/en/abs/towards-leveraging-contrastively-pretrained-neural-audio-embeddings-for-recommender-tasks-2409.090262024-09-16 https://scifaro.com/en/abs/accentbox-towards-high-fidelity-zero-shot-accent-generation-2409.090982026-02-06 https://scifaro.com/en/abs/seed-music-a-unified-framework-for-high-quality-and-controlled-music-generation-2409.092142024-09-20 https://scifaro.com/en/abs/audio-text-retrieval-with-transformer-based-hierarchical-alignment-and-disentangled-cross-modal-representation-2409.092562025-05-06 https://scifaro.com/en/abs/m-3-v-a-multi-modal-multi-view-approach-for-device-directed-speech-detection-2409.092842024-09-17 https://scifaro.com/en/abs/dsclap-domain-specific-contrastive-language-audio-pre-training-2409.092892024-09-17 https://scifaro.com/en/abs/subband-splitting-simple-efficient-and-effective-technique-for-solving-block-permutation-problem-in-determined-blind-source-separation-2409.092942025-03-17 https://scifaro.com/en/abs/the-t05-system-for-the-voicemos-challenge-2024-transfer-learning-from-deep-image-classifier-to-naturalness-mos-prediction-of-high-quality-synthetic-speech-2409.093052024-09-17 https://scifaro.com/en/abs/egocentric-speaker-classification-in-child-adult-dyadic-interactions-from-sensing-to-computational-modeling-2409.093402025-06-03 https://scifaro.com/en/abs/macst-multi-accent-speech-synthesis-via-text-transliteration-for-accent-conversion-2409.093522025-01-13 https://scifaro.com/en/abs/joint-semantic-knowledge-distillation-and-masked-acoustic-modeling-for-full-band-speech-restoration-with-improved-intelligibility-2409.093572024-09-17 https://scifaro.com/en/abs/prevailing-research-areas-for-music-ai-in-the-era-of-foundation-models-2409.093782026-02-13 https://scifaro.com/en/abs/espnet-ez-python-only-espnet-for-easy-fine-tuning-and-integration-2409.095062024-09-17 https://scifaro.com/en/abs/explaining-deep-learning-embeddings-for-speech-emotion-recognition-by-predicting-interpretable-acoustic-features-2409.095112024-09-17 https://scifaro.com/en/abs/multi-microphone-and-multi-modal-emotion-recognition-in-reverberant-environment-2409.095452025-07-30 https://scifaro.com/en/abs/on-the-effectiveness-of-enrollment-speech-augmentation-for-target-speaker-extraction-2409.095892024-09-17 https://scifaro.com/en/abs/a-survey-of-foundation-models-for-music-understanding-2409.096012024-09-17 https://scifaro.com/en/abs/compositional-audio-representation-learning-2409.096192025-03-04 https://scifaro.com/en/abs/self-supervised-learning-for-acoustic-few-shot-classification-2409.096472025-05-16 https://scifaro.com/en/abs/efficient-video-to-audio-mapper-with-visual-scene-detection-2409.098232024-09-17 https://scifaro.com/en/abs/diffatr-diffusion-based-generative-modeling-for-audio-text-retrieval-2409.100252024-10-18 https://scifaro.com/en/abs/audio-driven-reinforcement-learning-for-head-orientation-in-naturalistic-environments-2409.100482025-06-24 https://scifaro.com/en/abs/speaker-contrastive-learning-for-source-speaker-tracing-2409.100722024-09-17 https://scifaro.com/en/abs/optimizing-dysarthria-wake-up-word-spotting-an-end-to-end-approach-for-slt-2024-lrdwws-challenge-2409.100762024-09-17 https://scifaro.com/en/abs/musiclime-explainable-multimodal-music-understanding-2409.104962025-03-19 https://scifaro.com/en/abs/pdmx-a-large-scale-public-domain-musicxml-dataset-for-symbolic-music-processing-2409.108312025-03-18 https://scifaro.com/en/abs/speech-recognition-for-analysis-of-police-radio-communication-2409.108582024-09-18 https://scifaro.com/en/abs/single-stage-tts-with-masked-audio-token-modeling-and-semantic-knowledge-distillation-2409.110032024-09-18 https://scifaro.com/en/abs/high-resolution-speech-restoration-with-latent-diffusion-model-2409.111452025-02-11 https://scifaro.com/en/abs/learning-source-disentanglement-in-neural-audio-codec-2409.112282025-02-12 https://scifaro.com/en/abs/the-sounds-of-home-a-speech-removed-residential-audio-dataset-for-sound-event-detection-2409.112622024-10-07 https://scifaro.com/en/abs/lc-protonets-multi-label-few-shot-learning-for-world-music-audio-tagging-2409.112642025-02-11 https://scifaro.com/en/abs/learning-spatially-aware-language-and-audio-embeddings-2409.113692024-11-27 https://scifaro.com/en/abs/machine-listening-in-a-neonatal-intensive-care-unit-2409.114392024-10-08 https://scifaro.com/en/abs/augment-drop-swap-improving-diversity-in-llm-captions-for-efficient-music-text-representation-learning-2409.114982024-09-19 https://scifaro.com/en/abs/speaking-from-coarse-to-fine-improving-neural-codec-language-model-via-multi-scale-speech-coding-and-generation-2409.116302024-09-19 https://scifaro.com/en/abs/simulating-native-speaker-shadowing-for-nonnative-speech-assessment-with-latent-speech-representations-2409.117422024-09-20 https://scifaro.com/en/abs/salt-standardized-audio-event-label-taxonomy-2409.117462024-09-19 https://scifaro.com/en/abs/meteor-melody-aware-texture-controllable-symbolic-orchestral-music-generation-via-transformer-vae-2409.117532025-07-01 https://scifaro.com/en/abs/sound-based-spin-estimation-in-table-tennis-dataset-and-real-time-classification-pipeline-2409.117602025-09-22 https://scifaro.com/en/abs/dpi-tts-directional-patch-interaction-for-fast-converging-and-style-temporal-modeling-in-text-to-speech-2409.118352024-09-19 https://scifaro.com/en/abs/m2r-whisper-multi-stage-and-multi-scale-retrieval-augmentation-for-enhancing-whisper-2409.118892025-03-13 https://scifaro.com/en/abs/mixture-of-experts-fusion-for-fake-audio-detection-using-frozen-wav2vec-2-0-2409.119092024-09-19 https://scifaro.com/en/abs/data-efficient-acoustic-scene-classification-using-teacher-informed-confusing-class-instruction-2409.119642024-09-19 https://scifaro.com/en/abs/wmcodec-end-to-end-neural-speech-codec-with-deep-watermarking-for-authenticity-verification-2409.121212024-12-30 https://scifaro.com/en/abs/takin-a-cohort-of-superior-quality-zero-shot-speech-generation-models-2409.121392024-09-25 https://scifaro.com/en/abs/the-unreliability-of-acoustic-systems-in-alzheimer-s-speech-datasets-with-heterogeneous-recording-conditions-2409.121702024-09-19 https://scifaro.com/en/abs/prosodic-parameter-manipulation-in-tts-generated-speech-for-controlled-speech-generation-2409.121762024-10-03 https://scifaro.com/en/abs/simultaneous-music-separation-and-generation-using-multi-track-latent-diffusion-models-2409.123462024-12-31 https://scifaro.com/en/abs/channel-aware-domain-adaptive-generative-adversarial-network-for-robust-speech-recognition-2409.123862025-01-09 https://scifaro.com/en/abs/a-lightweight-and-real-time-binaural-speech-enhancement-model-with-spatial-cues-preservation-2409.124442025-01-09 https://scifaro.com/en/abs/audioeditor-a-training-free-diffusion-based-audio-editing-framework-2409.124662024-10-01 https://scifaro.com/en/abs/violindiff-enhancing-expressive-violin-synthesis-with-pitch-bend-conditioning-2409.124772025-02-05 https://scifaro.com/en/abs/soundbeam-meets-m2d-target-sound-extraction-with-audio-foundation-model-2409.125282024-09-20 https://scifaro.com/en/abs/fruitsmusic-a-real-world-corpus-of-japanese-idol-group-songs-2409.125492024-09-20 https://scifaro.com/en/abs/exploring-bat-song-syllable-representations-in-self-supervised-audio-encoders-2409.126342024-09-20 https://scifaro.com/en/abs/m6-gpt-3-generating-multitrack-modifiable-multi-minute-midi-music-from-text-using-genetic-algorithms-probabilistic-methods-and-gpt-models-in-any-progression-and-time-signature-2409.126382025-09-30 https://scifaro.com/en/abs/enhancing-synthetic-training-data-for-speech-commands-from-asr-based-filtering-to-domain-adaptation-in-ssl-latent-space-2409.127452024-09-20 https://scifaro.com/en/abs/diffeditor-enhancing-speech-editing-with-semantic-enrichment-and-acoustic-consistency-2409.129922024-09-23 https://scifaro.com/en/abs/mucodec-ultra-low-bitrate-music-codec-2409.132162025-07-14 https://scifaro.com/en/abs/audio-codec-augmentation-for-robust-collaborative-watermarking-of-speech-synthesis-2409.133822024-09-23 https://scifaro.com/en/abs/diffsound-differentiable-modal-sound-rendering-and-inverse-rendering-for-diverse-inference-tasks-2409.134862024-09-23 https://scifaro.com/en/abs/a-sound-description-exploring-prompt-templates-and-class-descriptions-to-enhance-zero-shot-audio-classification-2409.136762024-09-23 https://scifaro.com/en/abs/a-microscopic-investigation-of-the-effect-of-random-envelope-fluctuations-on-phoneme-in-noise-perception-2409.137652024-09-24 https://scifaro.com/en/abs/cross-domain-knowledge-transfer-for-underwater-acoustic-classification-using-pre-trained-models-2409.138782025-03-19 https://scifaro.com/en/abs/investigation-of-time-frequency-feature-combinations-with-histogram-layer-time-delay-neural-networks-2409.138812025-03-19 https://scifaro.com/en/abs/ptq4adm-post-training-quantization-for-efficient-text-conditional-audio-diffusion-models-2409.138942024-09-24 https://scifaro.com/en/abs/training-large-asr-encoders-with-differential-privacy-2409.139532024-09-24 https://scifaro.com/en/abs/echo-environmental-sound-classification-with-hierarchical-ontology-guided-semi-supervised-learning-2409.140432024-09-24 https://scifaro.com/en/abs/amt-apc-automatic-piano-cover-by-fine-tuning-an-automatic-music-transcription-model-2409.140862024-09-24 https://scifaro.com/en/abs/what-are-they-doing-joint-audio-speech-co-reasoning-2409.145262025-01-14 https://scifaro.com/en/abs/songtrans-an-unified-song-transcription-and-alignment-method-for-lyrics-and-notes-2409.146192024-10-11 https://scifaro.com/en/abs/hifi-glot-high-fidelity-neural-formant-synthesis-with-differentiable-resonant-filters-2409.148232026-02-17 https://scifaro.com/en/abs/voice-conversion-based-privacy-through-adversarial-information-hiding-2409.149192024-09-24 https://scifaro.com/en/abs/blind-spatial-impulse-response-generation-from-separate-room-and-scene-specific-information-2409.149712024-09-24 https://scifaro.com/en/abs/gald-se-guided-anisotropic-lightweight-diffusion-for-efficient-speech-enhancement-2409.151012025-01-23 https://scifaro.com/en/abs/lova-long-form-video-to-audio-generation-2409.151572024-12-31 https://scifaro.com/en/abs/adaptive-learning-via-a-negative-selection-strategy-for-few-shot-bioacoustic-event-detection-2409.151682024-09-24 https://scifaro.com/en/abs/a-comprehensive-survey-with-critical-analysis-for-deepfake-speech-detection-2409.151802025-03-26 https://scifaro.com/en/abs/efficient-learning-based-sound-propagation-for-virtual-and-real-world-audio-processing-applications-2409.153352024-09-25 https://scifaro.com/en/abs/generalization-in-birdsong-classification-impact-of-transfer-learning-methods-and-dataset-characteristics-2409.153832024-09-25 https://scifaro.com/en/abs/voiceguider-enhancing-out-of-domain-performance-in-parameter-efficient-speaker-adaptive-text-to-speech-via-autoguidance-2409.157592024-12-24 https://scifaro.com/en/abs/nanovoice-efficient-speaker-adaptive-text-to-speech-for-multiple-speakers-2409.157602024-12-24 https://scifaro.com/en/abs/on-the-calibration-of-powerset-speaker-diarization-models-2409.158852024-09-25 https://scifaro.com/en/abs/boosting-code-switching-asr-with-mixture-of-experts-enhanced-speech-conditioned-llm-2409.159052024-11-01 https://scifaro.com/en/abs/asd-diffusion-anomalous-sound-detection-with-diffusion-models-2409.159572024-09-25 https://scifaro.com/en/abs/disentangling-age-and-identity-with-a-mutual-information-minimization-approach-for-cross-age-speaker-verification-2409.159742024-09-25 https://scifaro.com/en/abs/leveraging-mixture-of-experts-for-improved-speech-deepfake-detection-2409.160772024-09-25 https://scifaro.com/en/abs/facial-expression-enhanced-tts-combining-face-representation-and-emotion-intensity-for-adaptive-speech-2409.162032024-09-25 https://scifaro.com/en/abs/revisiting-acoustic-features-for-robust-asr-2409.163992024-09-26 https://scifaro.com/en/abs/the-effect-of-perceptual-metrics-on-music-representation-learning-for-genre-classification-2409.170692024-09-26 https://scifaro.com/en/abs/spoofceleb-speech-deepfake-detection-and-sasv-in-the-wild-2409.172852025-04-16 https://scifaro.com/en/abs/enhancing-polyglot-voices-by-leveraging-cross-lingual-fine-tuning-in-any-to-one-voice-conversion-2409.173872024-09-27 https://scifaro.com/en/abs/freeze-and-learn-continual-learning-with-selective-freezing-for-speech-deepfake-detection-2409.175982024-09-27 https://scifaro.com/en/abs/prototype-based-masked-audio-model-for-self-supervised-learning-of-sound-event-detection-2409.176562024-09-27 https://scifaro.com/en/abs/a-fly-on-the-wall-exploiting-acoustic-side-channels-in-differential-pressure-sensors-2409.182132024-10-10 https://scifaro.com/en/abs/towards-sub-millisecond-latency-real-time-speech-enhancement-models-on-hearables-2409.182392025-03-11 https://scifaro.com/en/abs/expressive-prompting-improving-emotion-intensity-and-speaker-consistency-in-zero-shot-tts-2409.185122026-04-06 https://scifaro.com/en/abs/xwsb-a-blend-system-utilizing-xls-r-and-wavlm-with-sls-classifier-detection-system-for-svdd-2024-challenge-2409.185582024-10-03 https://scifaro.com/en/abs/childmandarin-a-comprehensive-mandarin-speech-dataset-for-young-children-aged-3-5-2409.185842025-03-20 https://scifaro.com/en/abs/audio-based-linguistic-feature-extraction-for-enhancing-multi-lingual-and-low-resource-text-to-speech-2409.186222024-09-30 https://scifaro.com/en/abs/beyond-single-audio-advancing-multi-audio-processing-in-audio-large-language-models-2409.186802024-11-07 https://scifaro.com/en/abs/opensep-leveraging-large-language-models-with-textual-inversion-for-open-world-audio-separation-2409.192702024-10-01 https://scifaro.com/en/abs/sustaining-model-performance-for-covid-19-detection-from-dynamic-audio-data-development-and-evaluation-of-a-comprehensive-drift-adaptive-framework-2409.193002024-10-01 https://scifaro.com/en/abs/advanced-clustering-techniques-for-speech-signal-enhancement-a-review-and-metanalysis-of-fuzzy-c-means-k-means-and-kernel-fuzzy-c-means-methods-2409.194482025-10-07 https://scifaro.com/en/abs/learning-frame-wise-emotion-intensity-for-audio-driven-talking-head-generation-2409.195012024-10-01 https://scifaro.com/en/abs/quantitative-analysis-of-audio-visual-tasks-an-information-theoretic-perspective-2409.195752024-10-01 https://scifaro.com/en/abs/two-stage-framework-for-robust-speech-emotion-recognition-using-target-speaker-extraction-in-human-speech-noise-conditions-2409.195852024-12-18 https://scifaro.com/en/abs/solution-for-temporal-sound-localisation-task-of-eccv-second-perception-test-challenge-2024-2409.195952024-10-01 https://scifaro.com/en/abs/improved-architecture-for-high-resolution-piano-transcription-to-efficiently-capture-acoustic-characteristics-of-music-signals-2409.196142024-10-01 https://scifaro.com/en/abs/infantcrynet-a-data-driven-framework-for-intelligent-analysis-of-infant-cries-2409.196892025-02-05 https://scifaro.com/en/abs/palm-few-shot-prompt-learning-for-audio-language-models-2409.198062024-10-01 https://scifaro.com/en/abs/hdmole-mixture-of-lora-experts-with-hierarchical-routing-and-dynamic-thresholds-for-fine-tuning-llm-based-asr-models-2409.198782025-01-06 https://scifaro.com/en/abs/adaptive-high-precision-sound-source-localization-at-low-frequencies-based-on-convolutional-neural-network-2409.200312024-10-01 https://scifaro.com/en/abs/melody-guided-music-generation-2409.201962024-12-31 https://scifaro.com/en/abs/end-to-end-piano-performance-midi-to-score-conversion-with-transformers-2410.002102024-10-02 https://scifaro.com/en/abs/integrating-text-to-music-models-with-language-models-composing-long-structured-music-pieces-2410.003442024-10-08 https://scifaro.com/en/abs/contribution-of-soundscape-appropriateness-to-soundscape-quality-assessment-in-space-a-mediating-variable-affecting-acoustic-comfort-2410.006672024-11-20 https://scifaro.com/en/abs/zero-shot-text-to-speech-from-continuous-text-streams-2410.007672024-10-02 https://scifaro.com/en/abs/improving-curriculum-learning-for-target-speaker-extraction-with-synthetic-speakers-2410.008112024-10-08 https://scifaro.com/en/abs/vhasr-a-multimodal-speech-recognition-system-with-vision-hotwords-2410.008222024-10-08 https://scifaro.com/en/abs/do-music-generation-models-encode-music-theory-2410.008722024-10-02 https://scifaro.com/en/abs/heterogeneous-sound-classification-with-the-broad-sound-taxonomy-and-dataset-2410.009802024-10-03 https://scifaro.com/en/abs/takin-vc-expressive-zero-shot-voice-conversion-via-adaptive-hybrid-content-encoding-and-enhanced-timbre-modeling-2410.013502025-01-13 https://scifaro.com/en/abs/tiger-time-frequency-interleaved-gain-extraction-and-reconstruction-for-efficient-speech-separation-2410.014692026-03-02 https://scifaro.com/en/abs/sonicsim-a-customizable-simulation-platform-for-speech-processing-in-moving-sound-source-scenarios-2410.014812025-03-07 https://scifaro.com/en/abs/pertok-expressive-encoding-and-modeling-of-symbolic-musical-ideas-and-variations-2410.020602024-10-04 https://scifaro.com/en/abs/generating-symbolic-music-from-natural-language-prompts-using-an-llm-enhanced-dataset-2410.020842025-06-17 https://scifaro.com/en/abs/mdsgen-fast-and-efficient-masked-diffusion-temporal-aware-transformers-for-open-domain-sound-generation-2410.021302025-02-14 https://scifaro.com/en/abs/soundmorpher-perceptually-uniform-sound-morphing-with-diffusion-model-2410.021442024-12-17 https://scifaro.com/en/abs/a-pilot-study-of-applying-sequence-to-sequence-voice-conversion-to-evaluate-the-intelligibility-of-l2-speech-using-a-native-speaker-s-shadowings-2410.022392024-10-04 https://scifaro.com/en/abs/collap-contrastive-long-form-language-audio-pretraining-with-musical-temporal-structure-augmentation-2410.022712024-10-04 https://scifaro.com/en/abs/convolutional-variational-autoencoders-for-spectrogram-compression-in-automatic-speech-recognition-2410.025602024-10-07 https://scifaro.com/en/abs/enriching-music-descriptions-with-a-finetuned-llm-and-metadata-for-text-to-music-retrieval-2410.032642024-10-07 https://scifaro.com/en/abs/audio-agent-leveraging-llms-for-audio-generation-editing-and-composition-2410.033352025-01-15 https://scifaro.com/en/abs/soundsignature-what-type-of-music-do-you-like-2410.033752024-10-07 https://scifaro.com/en/abs/biodenoising-animal-vocalization-denoising-without-access-to-clean-data-2410.034272025-03-11 https://scifaro.com/en/abs/generative-semantic-communication-for-text-to-speech-synthesis-2410.034592024-10-07 https://scifaro.com/en/abs/a-quest-through-interconnected-datasets-lessons-from-highly-cited-icassp-papers-2410.036762024-10-08 https://scifaro.com/en/abs/accent-conversion-using-discrete-units-with-parallel-data-synthesized-from-controllable-accented-tts-2410.037342024-10-08 https://scifaro.com/en/abs/efficient-streaming-llm-for-speech-recognition-2410.037522024-10-08 https://scifaro.com/en/abs/sonique-video-background-music-generation-using-unpaired-audio-visual-data-2410.038792025-02-27 https://scifaro.com/en/abs/did-you-hear-that-introducing-aadg-a-framework-for-generating-benchmark-data-in-audio-anomaly-detection-2410.039042024-10-08 https://scifaro.com/en/abs/the-ocon-model-an-old-but-green-solution-for-distributable-supervised-classification-for-acoustic-monitoring-in-smart-cities-2410.040982025-07-01 https://scifaro.com/en/abs/efficient-and-robust-long-form-speech-recognition-with-hybrid-h3-conformer-2410.041592024-10-08 https://scifaro.com/en/abs/where-are-we-in-audio-deepfake-detection-a-systematic-analysis-over-generative-and-detection-models-2410.043242025-03-25 https://scifaro.com/en/abs/configurable-multilingual-asr-with-speech-summary-representations-2410.044782024-10-08 https://scifaro.com/en/abs/unimumo-unified-text-music-and-motion-generation-2410.045342024-10-08 https://scifaro.com/en/abs/demo-of-zero-shot-guitar-amplifier-modelling-enhancing-modeling-with-hyper-neural-networks-2410.047022024-10-08 https://scifaro.com/en/abs/modeling-and-estimation-of-vocal-tract-and-glottal-source-parameters-using-armax-lf-model-2410.047042024-10-08 https://scifaro.com/en/abs/attentive-based-multi-level-feature-fusion-for-voice-disorder-diagnosis-2410.047972024-10-08 https://scifaro.com/en/abs/stage-wise-and-prior-aware-neural-speech-phase-prediction-2410.049902024-10-08 https://scifaro.com/en/abs/relunet-relative-channel-fusion-u-net-for-multichannel-speech-enhancement-2410.050192024-10-08 https://scifaro.com/en/abs/improving-speaker-representations-using-contrastive-losses-on-multi-scale-features-2410.050372024-10-08 https://scifaro.com/en/abs/presto-distilling-steps-and-layers-for-accelerating-music-generation-2410.051672025-04-18 https://scifaro.com/en/abs/diffusion-based-unsupervised-audio-visual-speech-enhancement-2410.053012025-01-16 https://scifaro.com/en/abs/incorporating-talker-identity-aids-with-improving-speech-recognition-in-adversarial-environments-2410.054232024-10-10 https://scifaro.com/en/abs/fgcl-fine-grained-contrastive-learning-for-mandarin-stuttering-event-detection-2410.056472024-10-10 https://scifaro.com/en/abs/end-to-end-multi-channel-speaker-extraction-and-binaural-speech-synthesis-2410.057392025-07-14 https://scifaro.com/en/abs/finally-fast-and-universal-speech-enhancement-with-studio-like-quality-2410.059202024-11-01 https://scifaro.com/en/abs/variable-bitrate-residual-vector-quantization-for-audio-coding-2410.060162025-04-29 https://scifaro.com/en/abs/poliphone-a-dataset-for-smartphone-model-identification-from-audio-recordings-2410.062212024-10-10 https://scifaro.com/en/abs/mamba-based-segmentation-model-for-speaker-diarization-2410.064592024-10-11 https://scifaro.com/en/abs/src-gaudio-sampling-rate-controlled-audio-generation-2410.065442024-10-10 https://scifaro.com/en/abs/can-deepfake-speech-be-reliably-detected-2410.065722024-10-10 https://scifaro.com/en/abs/bahasa-harmony-a-comprehensive-dataset-for-bahasa-text-to-speech-synthesis-with-discrete-codec-modeling-of-engen-tts-2410.066082024-10-10 https://scifaro.com/en/abs/scoreq-speech-quality-assessment-with-contrastive-regression-2410.066752025-01-16 https://scifaro.com/en/abs/spectral-and-rhythm-features-for-audio-classification-with-deep-convolutional-neural-networks-2410.069272025-09-16 https://scifaro.com/en/abs/audio-explanation-synthesis-with-generative-foundation-models-2410.075302024-10-11 https://scifaro.com/en/abs/full-rank-no-more-low-rank-weight-training-for-modern-speech-recognition-models-2410.077712024-10-11 https://scifaro.com/en/abs/intrinsicvoice-empowering-llms-with-intrinsic-real-time-voice-interaction-abilities-2410.080352024-10-15 https://scifaro.com/en/abs/a-recurrent-neural-network-approach-to-the-answering-machine-detection-problem-2410.082352024-10-14 https://scifaro.com/en/abs/music-genre-classification-using-large-language-models-2410.083212024-10-14 https://scifaro.com/en/abs/efficient-fine-grained-guidance-for-diffusion-model-based-symbolic-music-generation-2410.084352025-06-09 https://scifaro.com/en/abs/small-tunes-transformer-exploring-macro-micro-level-hierarchies-for-skeleton-conditioned-melody-generation-2410.086262024-10-16 https://scifaro.com/en/abs/quantum-trained-convolutional-neural-network-for-deepfake-audio-detection-2410.092502024-10-15 https://scifaro.com/en/abs/multimodal-audio-based-disease-prediction-with-transformer-based-hierarchical-fusion-network-2410.092892024-12-17 https://scifaro.com/en/abs/towards-the-synthesis-of-non-speech-vocalizations-2410.093602024-10-15 https://scifaro.com/en/abs/expgest-expressive-speaker-generation-using-diffusion-model-and-hybrid-audio-text-guidance-2410.093962026-03-10 https://scifaro.com/en/abs/drcap-decoding-clap-latents-with-retrieval-augmented-generation-for-zero-shot-audio-captioning-2410.094722025-01-07 https://scifaro.com/en/abs/objective-measurements-of-voice-quality-2410.095782024-10-15 https://scifaro.com/en/abs/lead-dataset-how-can-labels-for-sound-event-detection-vary-depending-on-annotators-2410.097782024-10-15 https://scifaro.com/en/abs/prompt-tuning-for-audio-deepfake-detection-computationally-efficient-test-time-domain-adaptation-with-limited-target-dataset-2410.098692024-10-15 https://scifaro.com/en/abs/m2m-gen-a-multimodal-framework-for-automated-background-music-generation-in-japanese-manga-using-large-language-models-2410.099282024-10-15 https://scifaro.com/en/abs/generative-deep-learning-and-signal-processing-for-data-augmentation-of-cardiac-auscultation-signals-improving-model-robustness-using-synthetic-audio-2410.101252025-06-18 https://scifaro.com/en/abs/do-we-need-more-complex-representations-for-structure-a-comparison-of-note-duration-representation-for-music-transformers-2410.105152024-10-15 https://scifaro.com/en/abs/reproducible-machine-learning-based-voice-pathology-detection-introducing-the-pitch-difference-feature-2410.105372025-04-15 https://scifaro.com/en/abs/both-ears-wide-open-towards-language-driven-spatial-audio-generation-2410.106762025-02-26 https://scifaro.com/en/abs/enhancing-retrieval-augmented-audio-captioning-with-generation-assisted-multimodal-querying-and-progressive-learning-2410.109132025-06-11 https://scifaro.com/en/abs/grafprint-a-gnn-based-approach-for-audio-identification-2410.109942025-01-27 https://scifaro.com/en/abs/cleanumamba-a-compact-mamba-network-for-speech-denoising-using-channel-pruning-2410.110622025-07-03 https://scifaro.com/en/abs/audio-based-kinship-verification-using-age-domain-conversion-2410.111202024-10-16 https://scifaro.com/en/abs/investigation-of-speaker-representation-for-target-speaker-speech-processing-2410.112432024-10-16 https://scifaro.com/en/abs/diff-sage-end-to-end-spatial-audio-generation-using-diffusion-models-2410.112992025-07-16 https://scifaro.com/en/abs/leveraging-llm-embeddings-for-cross-dataset-label-alignment-and-zero-shot-music-emotion-prediction-2410.115222024-10-18 https://scifaro.com/en/abs/emotioncaps-enhancing-audio-captioning-through-emotion-augmented-data-generation-2410.120282024-10-17 https://scifaro.com/en/abs/learning-to-rumble-automated-elephant-call-classification-detection-and-endpointing-using-deep-architectures-2410.120822025-04-03 https://scifaro.com/en/abs/sf-speech-straightened-flow-for-zero-shot-voice-clone-2410.123992025-03-28 https://scifaro.com/en/abs/enhancing-speech-emotion-recognition-through-segmental-average-pooling-of-self-supervised-learning-features-2410.124162024-10-17 https://scifaro.com/en/abs/heightceleb-an-enrichment-of-voxceleb-dataset-with-speaker-height-information-2410.126682025-01-22 https://scifaro.com/en/abs/towards-computational-analysis-of-pansori-singing-2410.129562024-10-18 https://scifaro.com/en/abs/muvi-video-to-music-generation-with-semantic-alignment-and-rhythmic-synchronization-2410.129572024-10-18 https://scifaro.com/en/abs/aadnet-an-end-to-end-deep-learning-model-for-auditory-attention-decoding-2410.130592025-07-08 https://scifaro.com/en/abs/sound-check-auditing-audio-datasets-2410.131142024-10-18 https://scifaro.com/en/abs/eh-mam-easy-to-hard-masked-acoustic-modeling-for-self-supervised-speech-representation-learning-2410.131792024-10-18 https://scifaro.com/en/abs/clamp-2-multimodal-music-information-retrieval-across-101-languages-using-large-language-models-2410.132672025-01-27 https://scifaro.com/en/abs/end-to-end-integration-of-speech-emotion-recognition-with-voice-activity-detection-using-self-supervised-learning-features-2410.132822024-10-18 https://scifaro.com/en/abs/enhancing-1-second-3d-seld-performance-with-filter-bank-analysis-and-scconv-integration-in-cst-former-2410.133282024-10-18 https://scifaro.com/en/abs/melotrans-a-text-to-symbolic-music-generation-model-following-human-composition-habit-2410.134192024-10-18 https://scifaro.com/en/abs/dynamic-range-compression-and-its-effect-on-music-genre-classification-2410.135812024-10-18 https://scifaro.com/en/abs/accelerating-codec-based-speech-synthesis-with-multi-token-prediction-and-speculative-decoding-2410.138392024-10-18 https://scifaro.com/en/abs/multi-source-spatial-knowledge-understanding-for-immersive-visual-text-to-speech-2410.141012024-12-24 https://scifaro.com/en/abs/towards-robust-transcription-exploring-noise-injection-strategies-for-training-data-augmentation-2410.141222024-10-21 https://scifaro.com/en/abs/snac-multi-scale-neural-audio-codec-2410.144112024-10-21 https://scifaro.com/en/abs/embodied-exploration-of-latent-spaces-and-explainable-ai-2410.145902024-10-21 https://scifaro.com/en/abs/immersediffusion-a-generative-spatial-audio-latent-diffusion-model-2410.149452025-02-11 https://scifaro.com/en/abs/audio-processing-using-pattern-recognition-for-music-genre-classification-2410.149902024-10-22 https://scifaro.com/en/abs/improving-pronunciation-and-accent-conversion-through-knowledge-distillation-and-synthetic-ground-truth-from-native-tts-2410.149972025-03-05 https://scifaro.com/en/abs/pat-parameter-free-audio-text-aligner-to-boost-zero-shot-audio-classification-2410.150622024-10-22 https://scifaro.com/en/abs/consinger-efficient-high-fidelity-singing-voice-generation-with-minimal-steps-2410.153422025-03-10 https://scifaro.com/en/abs/construction-and-analysis-of-impression-caption-dataset-for-environmental-sounds-2410.155322024-10-22 https://scifaro.com/en/abs/openmu-your-swiss-army-knife-for-music-understanding-2410.155732024-11-28 https://scifaro.com/en/abs/aldas-audio-linguistic-data-augmentation-for-spoofed-audio-detection-2410.155772024-10-22 https://scifaro.com/en/abs/moonshine-speech-recognition-for-live-transcription-and-voice-commands-2410.156082024-10-23 https://scifaro.com/en/abs/acoustic-model-optimization-over-multiple-data-sources-merging-and-valuation-2410.156202024-10-22 https://scifaro.com/en/abs/optimizing-neural-speech-codec-for-low-bitrate-compression-via-multi-scale-encoding-2410.157492024-10-22 https://scifaro.com/en/abs/neural-scoring-a-refreshed-end-to-end-approach-for-speaker-recognition-in-complex-conditions-2410.164282025-07-04 https://scifaro.com/en/abs/alignvsr-audio-visual-cross-modal-alignment-for-visual-speech-recognition-2410.164382024-10-23 https://scifaro.com/en/abs/do-audio-language-models-understand-linguistic-variations-2410.165052025-02-21 https://scifaro.com/en/abs/denoasr-debiasing-asrs-through-selective-denoising-2410.167122024-10-23 https://scifaro.com/en/abs/annotation-free-midi-to-audio-synthesis-via-concatenative-synthesis-and-generative-refinement-2410.167852025-06-12 https://scifaro.com/en/abs/temporal-feature-learning-in-weakly-labelled-bioacoustic-cetacean-datasets-via-a-variational-autoencoder-and-temporal-convolutional-network-an-interdisciplinary-approach-2410.170062025-11-04 https://scifaro.com/en/abs/continuous-speech-tokenizer-in-text-to-speech-2410.170812025-04-01 https://scifaro.com/en/abs/audio-to-score-conversion-model-based-on-whisper-methodology-2410.172092024-10-23 https://scifaro.com/en/abs/discogs-vi-a-musical-version-identification-dataset-based-on-public-editorial-metadata-2410.174002024-10-24 https://scifaro.com/en/abs/mmwave-whisper-phone-call-eavesdropping-and-transcription-using-millimeter-wave-radar-2410.174572024-10-24 https://scifaro.com/en/abs/exploring-tokenization-methods-for-multitrack-sheet-music-generation-2410.175842024-10-24 https://scifaro.com/en/abs/challenge-on-sound-scene-synthesis-evaluating-text-to-audio-generation-2410.175892024-10-24 https://scifaro.com/en/abs/music102-an-d-12-equivariant-transformer-for-chord-progression-accompaniment-2410.181512026-05-22 https://scifaro.com/en/abs/vocal-melody-construction-for-persian-lyrics-using-lstm-recurrent-neural-networks-2410.182032024-10-29 https://scifaro.com/en/abs/unified-microphone-conversion-many-to-many-device-mapping-via-feature-wise-linear-modulation-2410.183222025-05-22 https://scifaro.com/en/abs/gibberish-is-all-you-need-for-membership-inference-detection-in-contrastive-language-audio-pretraining-2410.183712024-11-05 https://scifaro.com/en/abs/wavetable-synthesis-using-cvae-for-timbre-control-based-on-semantic-label-2410.186282024-10-25 https://scifaro.com/en/abs/closermusicdb-a-modern-multipurpose-dataset-of-high-quality-music-2410.195402024-10-28 https://scifaro.com/en/abs/arabic-music-classification-and-generation-using-deep-learning-2410.197192024-10-28 https://scifaro.com/en/abs/temporal-convolution-based-hybrid-model-approach-with-representation-learning-for-real-time-acoustic-anomaly-detection-2410.197222024-10-28 https://scifaro.com/en/abs/an-approach-to-hummed-tune-and-song-sequences-matching-2410.203522024-10-29 https://scifaro.com/en/abs/conditional-gan-for-enhancing-diffusion-models-in-efficient-and-authentic-global-gesture-generation-from-audios-2410.203592024-11-04 https://scifaro.com/en/abs/musicflow-cascaded-flow-matching-for-text-guided-music-generation-2410.204782024-10-29 https://scifaro.com/en/abs/symbotunes-unified-hub-for-symbolic-music-generative-models-2410.205152024-10-29 https://scifaro.com/en/abs/miditok-visualizer-a-tool-for-visualization-and-analysis-of-tokenized-midi-symbolic-music-2410.205182024-10-29 https://scifaro.com/en/abs/automatic-estimation-of-singing-voice-musical-dynamics-2410.205402024-10-29 https://scifaro.com/en/abs/mitigating-unauthorized-speech-synthesis-for-voice-protection-2410.207422024-10-29 https://scifaro.com/en/abs/an-ensemble-approach-to-music-source-separation-a-comparative-analysis-of-conventional-and-hierarchical-stem-separation-2410.207732024-10-29 https://scifaro.com/en/abs/data-efficient-low-complexity-acoustic-scene-classification-via-distilling-and-progressive-pruning-2410.207752025-05-08 https://scifaro.com/en/abs/atrial-fibrillation-detection-system-via-acoustic-sensing-for-mobile-phones-2410.208522024-10-29 https://scifaro.com/en/abs/sepmamba-state-space-models-for-speaker-separation-using-mamba-2410.209972024-10-29 https://scifaro.com/en/abs/st-ito-controlling-audio-effects-for-style-transfer-with-inference-time-optimization-2410.212332024-10-29 https://scifaro.com/en/abs/omnisep-unified-omni-modality-sound-separation-with-query-mixup-2410.212692024-10-29 https://scifaro.com/en/abs/producer-vs-rapper-who-dominates-the-hip-hop-sound-a-case-study-2410.212972025-12-29 https://scifaro.com/en/abs/knowledge-distillation-for-real-time-classification-of-early-media-in-voice-communications-2410.214782025-07-28 https://scifaro.com/en/abs/enhancing-tts-stability-in-hebrew-using-discrete-semantic-units-2410.215022024-10-30 https://scifaro.com/en/abs/a-novel-score-cam-based-denoiser-for-spectrographic-signature-extraction-without-ground-truth-2410.215572024-10-31 https://scifaro.com/en/abs/audio-classification-of-low-feature-spectrograms-utilizing-convolutional-neural-networks-2410.215612024-10-30 https://scifaro.com/en/abs/rdsinger-reference-based-diffusion-network-for-singing-voice-synthesis-2410.216412024-10-30 https://scifaro.com/en/abs/semi-supervised-self-learning-enhanced-music-emotion-recognition-2410.218972025-04-23 https://scifaro.com/en/abs/chordonomicon-a-dataset-of-666-000-songs-and-their-chord-progressions-2410.220462024-12-12 https://scifaro.com/en/abs/uspeech-ultrasound-enhanced-speech-with-minimal-human-effort-via-cross-modal-synthesis-2410.220762025-05-20 https://scifaro.com/en/abs/emotion-guided-image-to-music-generation-2410.222992024-10-30 https://scifaro.com/en/abs/doa-aware-audio-visual-self-supervised-learning-for-sound-event-localization-and-detection-2410.228032024-10-31 https://scifaro.com/en/abs/run-time-adaptation-of-neural-beamforming-for-robust-speech-dereverberation-and-denoising-2410.228052024-10-31 https://scifaro.com/en/abs/improving-musical-accompaniment-co-creation-via-diffusion-transformers-2410.230052024-10-31 https://scifaro.com/en/abs/soundcollage-automated-discovery-of-new-classes-in-audio-datasets-2410.230082025-01-22 https://scifaro.com/en/abs/learning-marmoset-vocal-patterns-with-a-masked-autoencoder-for-robust-call-segmentation-classification-and-caller-identification-2410.232792025-08-13 https://scifaro.com/en/abs/neurobench-dcase-2020-acoustic-scene-classification-benchmark-on-xyloaudio-2-2410.237762024-11-01 https://scifaro.com/en/abs/improving-snore-detection-under-limited-dataset-through-harmonic-percussive-source-separation-and-convolutional-neural-networks-2410.237962024-11-01 https://scifaro.com/en/abs/the-npu-hwc-system-for-the-iscslp-2024-inspirational-and-convincing-audio-generation-challenge-2410.238152024-11-01 https://scifaro.com/en/abs/the-iscslp-2024-conversational-voice-clone-covoc-challenge-tasks-results-and-findings-2411.000642024-11-04 https://scifaro.com/en/abs/i-can-hear-you-selective-robust-training-for-deepfake-audio-detection-2411.001212024-11-04 https://scifaro.com/en/abs/angular-distance-distribution-loss-for-audio-classification-2411.001532024-11-04 https://scifaro.com/en/abs/machine-learning-framework-for-audio-based-content-evaluation-using-mfcc-chroma-spectral-contrast-and-temporal-feature-engineering-2411.001952024-11-04 https://scifaro.com/en/abs/improving-musical-instrument-classification-with-advanced-machine-learning-techniques-2411.002752024-11-04 https://scifaro.com/en/abs/mace-leveraging-audio-for-evaluating-audio-captioning-systems-2411.003212024-11-06 https://scifaro.com/en/abs/mdctcodec-a-lightweight-mdct-based-neural-audio-codec-towards-high-sampling-rate-and-low-bitrate-scenarios-2411.004642024-11-04 https://scifaro.com/en/abs/mirflex-music-information-retrieval-feature-library-for-extraction-2411.004692025-08-08 https://scifaro.com/en/abs/multi-modal-information-fusion-of-acoustic-and-linguistic-data-for-decoding-dairy-cow-vocalizations-in-animal-welfare-assessment-2411.004772024-11-04 https://scifaro.com/en/abs/freeze-omni-a-smart-and-low-latency-speech-to-speech-dialogue-model-with-frozen-llm-2411.007742024-12-10 https://scifaro.com/en/abs/music-foundation-model-as-generic-booster-for-music-downstream-tasks-2411.011352025-05-28 https://scifaro.com/en/abs/fish-speech-leveraging-large-language-models-for-advanced-multilingual-text-to-speech-synthesis-2411.011562024-11-12 https://scifaro.com/en/abs/sing-on-your-beat-simple-text-controllable-accompaniment-generations-2411.016612024-11-14 https://scifaro.com/en/abs/momu-diffusion-on-learning-long-term-motion-music-synchronization-and-correspondence-2411.018052024-11-05 https://scifaro.com/en/abs/zero-shot-voice-conversion-via-content-aware-timbre-ensemble-and-conditional-flow-matching-2411.020262025-08-12 https://scifaro.com/en/abs/optimal-transport-maps-are-good-voice-converters-2411.024022024-11-06 https://scifaro.com/en/abs/piast-a-multimodal-piano-dataset-with-audio-symbolic-and-text-2411.025512024-11-08 https://scifaro.com/en/abs/estimating-the-number-and-locations-of-boundaries-in-reverberant-environments-with-deep-learning-2411.026092024-11-06 https://scifaro.com/en/abs/emosphere-emotion-controllable-zero-shot-text-to-speech-via-emotion-adaptive-spherical-vector-2411.026252025-04-18 https://scifaro.com/en/abs/self-supervised-multi-view-learning-for-disentangled-music-audio-representations-2411.027112024-11-06 https://scifaro.com/en/abs/demonet-underwater-acoustic-target-recognition-based-on-multi-expert-network-and-cross-temporal-variational-autoencoder-2411.027582024-11-06 https://scifaro.com/en/abs/advancing-robust-underwater-acoustic-target-recognition-through-multi-task-learning-and-multi-gate-mixture-of-experts-2411.027872024-11-06 https://scifaro.com/en/abs/adversarial-multi-task-underwater-acoustic-target-recognition-towards-robustness-against-various-influential-factors-2411.028482024-11-06 https://scifaro.com/en/abs/speaker-emotion-recognition-leveraging-self-supervised-models-for-feature-extraction-using-wav2vec2-and-hubert-2411.029642024-11-07 https://scifaro.com/en/abs/real-time-scream-detection-and-position-estimation-for-worker-safety-in-construction-sites-2411.030162024-11-06 https://scifaro.com/en/abs/speech-separation-with-pretrained-frontend-to-minimize-domain-mismatch-2411.030852024-11-06 https://scifaro.com/en/abs/ptse-t-presentation-target-speaker-extraction-using-unaligned-text-cues-2411.031092026-04-28 https://scifaro.com/en/abs/mobile-recording-device-recognition-based-cross-scale-and-multi-level-representation-learning-2411.036682024-11-07 https://scifaro.com/en/abs/mos-bench-benchmarking-generalization-abilities-of-subjective-speech-quality-assessment-models-2411.037152026-04-27 https://scifaro.com/en/abs/long-form-text-to-music-generation-with-adaptive-prompts-a-case-study-in-tabletop-role-playing-games-soundtracks-2411.039482025-05-23 https://scifaro.com/en/abs/neural-enhanced-dynamic-range-compression-inversion-a-hybrid-approach-for-restoring-audio-dynamics-2411.043372025-09-11 https://scifaro.com/en/abs/the-concatenator-a-bayesian-approach-to-real-time-concatenative-musaicing-2411.043662024-11-08 https://scifaro.com/en/abs/artificial-neural-networks-trained-on-noisy-speech-exhibit-the-mcgurk-effect-2411.057152025-10-30 https://scifaro.com/en/abs/toward-transdisciplinary-approaches-to-audio-deepfake-discernment-2411.059692024-11-12 https://scifaro.com/en/abs/acoustic-volume-rendering-for-neural-impulse-response-fields-2411.063072024-11-12 https://scifaro.com/en/abs/wavehax-aliasing-free-neural-waveform-synthesis-based-on-2d-convolution-and-harmonic-prior-for-reliable-complex-spectrogram-estimation-2411.068072025-12-08 https://scifaro.com/en/abs/timing-and-dynamics-of-the-rosanna-shuffle-2411.068922024-11-13 https://scifaro.com/en/abs/multi-class-decoding-of-attended-speaker-direction-using-electroencephalogram-and-audio-spatial-spectrum-2411.069282025-10-23 https://scifaro.com/en/abs/mamba-based-decoder-only-approach-with-bidirectional-speech-modeling-for-speech-recognition-2411.069682024-11-12 https://scifaro.com/en/abs/acoustic-based-3d-human-pose-estimation-robust-to-human-position-2411.071652024-11-12 https://scifaro.com/en/abs/naturelm-audio-an-audio-language-foundation-model-for-bioacoustics-2411.071862025-07-01 https://scifaro.com/en/abs/just-label-the-repeats-for-in-the-wild-audio-to-score-alignment-2411.074282024-11-13 https://scifaro.com/en/abs/music-discovery-dialogue-generation-using-human-intent-analysis-and-large-language-models-2411.074392024-11-13 https://scifaro.com/en/abs/a-generalist-audio-foundation-model-for-comprehensive-body-sound-auscultation-2411.075472025-03-26 https://scifaro.com/en/abs/sav-se-scene-aware-audio-visual-speech-enhancement-with-selective-state-space-model-2411.077512025-04-03 https://scifaro.com/en/abs/investigating-the-effectiveness-of-explainability-methods-in-parkinson-s-detection-from-speech-2411.080132024-11-14 https://scifaro.com/en/abs/analyzing-pitch-content-in-traditional-ghanaian-seperewa-songs-2411.082342024-11-14 https://scifaro.com/en/abs/developing-an-effective-training-dataset-to-enhance-the-performance-of-ai-based-speaker-separation-systems-2411.083752024-11-14 https://scifaro.com/en/abs/language-models-for-music-medicine-generation-2411.090802024-11-15 https://scifaro.com/en/abs/robust-ai-synthesized-speech-detection-using-feature-decomposition-learning-and-synthesizer-feature-augmentation-2411.091672024-11-15 https://scifaro.com/en/abs/eeg-based-speech-decoding-a-novel-approach-using-multi-kernel-ensemble-diffusion-models-2411.093022024-11-15 https://scifaro.com/en/abs/re-parameterization-of-lightweight-transformer-for-on-device-speech-emotion-recognition-2411.093392024-11-15 https://scifaro.com/en/abs/paralbench-a-large-scale-benchmark-for-computational-paralinguistics-over-acoustic-foundation-models-2411.093492024-11-15 https://scifaro.com/en/abs/local-deployment-of-large-scale-music-ai-models-on-commodity-hardware-2411.096252024-11-15 https://scifaro.com/en/abs/zero-shot-voice-conversion-with-diffusion-transformers-2411.099432024-11-18 https://scifaro.com/en/abs/pitch-and-spectrum-aware-singing-quality-assessment-with-bias-correction-and-model-fusion-2411.111232024-12-24 https://scifaro.com/en/abs/samos-a-neural-mos-prediction-model-leveraging-semantic-representations-and-acoustic-features-2411.112322024-11-19 https://scifaro.com/en/abs/estvocoder-an-excitation-spectral-transformed-neural-vocoder-conditioned-on-mel-spectrogram-2411.112582024-11-19 https://scifaro.com/en/abs/study-of-the-performance-of-ceemdan-in-underdetermined-speech-separation-2411.113122024-11-19 https://scifaro.com/en/abs/using-voice-analysis-as-an-early-indicator-of-risk-for-depression-in-young-adults-2411.115412024-11-19 https://scifaro.com/en/abs/do-captioning-metrics-reflect-music-semantic-alignment-2411.116922024-11-19 https://scifaro.com/en/abs/compression-of-higher-order-ambisonics-with-multichannel-rvqgan-2411.120082024-12-13 https://scifaro.com/en/abs/vision-language-models-are-few-shot-audio-spectrogram-classifiers-2411.120582024-11-20 https://scifaro.com/en/abs/zero-shot-crate-digging-dj-tool-retrieval-using-speech-activity-music-structure-and-clap-embeddings-2411.122092024-11-20 https://scifaro.com/en/abs/dgsna-dynamic-generative-scene-based-noise-addition-method-2411.123632026-04-21 https://scifaro.com/en/abs/improving-controllability-and-editability-for-pretrained-text-to-music-generation-models-2411.126412024-11-22 https://scifaro.com/en/abs/sonnet-enhancing-time-delay-estimation-by-leveraging-simulated-audio-2411.131792024-11-21 https://scifaro.com/en/abs/comparative-analysis-of-audio-feature-extraction-for-real-time-talking-portrait-synthesis-2411.132092024-11-21 https://scifaro.com/en/abs/i2tts-image-indicated-immersive-text-to-speech-synthesis-with-spatial-perception-2411.133142025-09-04 https://scifaro.com/en/abs/cafe-a-novel-code-switching-dataset-for-algerian-dialect-french-and-english-2411.134242024-11-22 https://scifaro.com/en/abs/a-novel-speech-analysis-and-correction-tool-for-arabic-speaking-children-2411.135922024-11-22 https://scifaro.com/en/abs/tiny-align-bridging-automatic-speech-recognition-and-large-language-model-on-the-edge-2411.137662025-07-15 https://scifaro.com/en/abs/x-crossnet-a-complex-spectral-mapping-approach-to-target-speaker-extraction-with-cross-attention-speaker-embedding-fusion-2411.138112024-11-26 https://scifaro.com/en/abs/harp-a-large-scale-higher-order-ambisonic-room-impulse-response-dataset-2411.142072025-06-02 https://scifaro.com/en/abs/attention-guided-spectrogram-sequence-modeling-with-cnns-for-music-genre-classification-2411.144742024-11-25 https://scifaro.com/en/abs/listening-for-expert-identified-linguistic-features-assessment-of-audio-deepfake-discernment-among-undergraduate-students-2411.145862024-11-25 https://scifaro.com/en/abs/generative-ai-for-music-and-audio-2411.146272024-11-25 https://scifaro.com/en/abs/mode-conditioned-music-learning-and-composition-a-spiking-neural-network-inspired-by-neuroscience-and-psychology-2411.147732025-01-15 https://scifaro.com/en/abs/who-can-withstand-chat-audio-attacks-an-evaluation-benchmark-for-large-audio-language-models-2411.148422025-06-09 https://scifaro.com/en/abs/dairhum-a-platform-for-directly-aligning-ai-representations-with-human-musical-judgments-applied-to-carnatic-music-2411.149072024-11-25 https://scifaro.com/en/abs/towards-speaker-identification-with-minimal-dataset-and-constrained-resources-using-1d-convolution-neural-network-2411.150822024-11-25 https://scifaro.com/en/abs/hindi-audio-video-deepfake-hav-df-a-hindi-language-based-audio-video-deepfake-dataset-2411.154572024-11-26 https://scifaro.com/en/abs/repurposing-image-diffusion-models-for-training-free-music-style-transfer-on-mel-spectrograms-2411.159132026-05-14 https://scifaro.com/en/abs/qr-vc-leveraging-quantization-residuals-for-linear-disentanglement-in-zero-shot-voice-conversion-2411.161472025-09-11 https://scifaro.com/en/abs/the-svasr-system-for-text-dependent-speaker-verification-tdsv-aaic-challenge-2024-2411.162762024-11-26 https://scifaro.com/en/abs/dim-gestor-co-speech-gesture-generation-with-adaptive-layer-normalization-mamba-2-2411.167292024-11-28 https://scifaro.com/en/abs/comparative-analysis-of-asr-methods-for-speech-deepfake-detection-2411.173492024-11-28 https://scifaro.com/en/abs/music2fail-transfer-music-to-failed-recorder-style-2411.180752024-11-28 https://scifaro.com/en/abs/fusion-of-discrete-representations-and-self-augmented-representations-for-multilingual-automatic-speech-recognition-2411.181072024-11-28 https://scifaro.com/en/abs/how-to-learn-a-new-language-an-efficient-solution-for-self-supervised-learning-models-unseen-languages-adaption-in-low-resource-scenario-2411.182172025-01-07 https://scifaro.com/en/abs/multiple-choice-learning-for-efficient-speech-separation-with-many-speakers-2411.184972024-11-28 https://scifaro.com/en/abs/towards-advanced-speech-signal-processing-a-statistical-perspective-on-convolution-based-architectures-and-its-applications-2411.186362024-12-02 https://scifaro.com/en/abs/codiff-vc-a-codec-assisted-diffusion-model-for-zero-shot-voice-conversion-2411.189182024-12-04 https://scifaro.com/en/abs/a-voice-based-triage-for-type-2-diabetes-using-a-conversational-virtual-assistant-in-the-home-environment-2411.192042025-07-11 https://scifaro.com/en/abs/parameter-efficient-transfer-learning-for-music-foundation-models-2411.193712024-12-02 https://scifaro.com/en/abs/memristive-nanowire-network-for-energy-efficient-audio-classification-pre-processing-free-reservoir-computing-with-reduced-latency-2411.196112025-10-28 https://scifaro.com/en/abs/noro-noise-robust-one-shot-voice-conversion-with-hidden-speaker-representation-learning-2411.197702025-08-29 https://scifaro.com/en/abs/voice-communication-analysis-in-esports-2411.197932024-12-02 https://scifaro.com/en/abs/a-cross-corpus-speech-emotion-recognition-method-based-on-supervised-contrastive-learning-2411.198032024-12-02 https://scifaro.com/en/abs/zero-shot-musical-stem-retrieval-with-joint-embedding-predictive-architectures-2411.198062025-02-25 https://scifaro.com/en/abs/parallel-stacked-aggregated-network-for-voice-authentication-in-iot-enabled-smart-devices-2411.198412024-12-02 https://scifaro.com/en/abs/musical-composition-and-2d-cellular-automata-based-on-music-intervals-2411.198442024-12-03 https://scifaro.com/en/abs/raw-audio-classification-with-cosine-convolutional-neural-network-coscovnn-2412.003122024-12-03 https://scifaro.com/en/abs/improving-speaker-verification-robustness-with-synthetic-emotional-utterances-2412.003192024-12-03 https://scifaro.com/en/abs/musicgen-chord-advancing-music-generation-through-chord-progressions-and-interactive-web-ui-2412.003252024-12-03 https://scifaro.com/en/abs/sample-adaptive-data-augmentation-with-progressive-scheduling-2412.004152024-12-03 https://scifaro.com/en/abs/personal-sound-zones-and-shielded-localized-communication-through-active-acoustic-control-2412.004562024-12-03 https://scifaro.com/en/abs/from-audio-deepfake-detection-to-ai-generated-music-detection-a-pathway-and-overview-2412.005712024-12-11 https://scifaro.com/en/abs/audio-atlas-visualizing-and-exploring-audio-datasets-2412.005912024-12-03 https://scifaro.com/en/abs/complexity-boosted-adaptive-training-for-better-low-resource-asr-performance-2412.008772024-12-03 https://scifaro.com/en/abs/freecodec-a-disentangled-neural-speech-codec-with-fewer-tokens-2412.010532025-07-01 https://scifaro.com/en/abs/the-codec-language-model-based-zero-shot-spontaneous-style-tts-system-for-covoc-challenge-2024-2412.011002025-02-05 https://scifaro.com/en/abs/reject-threshold-adaptation-for-open-set-model-attribution-of-deepfake-audio-2412.014252024-12-03 https://scifaro.com/en/abs/generative-ai-based-data-augmentation-for-improved-bioacoustic-classification-in-noisy-environments-2412.015302025-12-16 https://scifaro.com/en/abs/it-takes-two-real-time-co-speech-two-person-s-interaction-generation-via-reactive-auto-regressive-diffusion-model-2412.024192024-12-04 https://scifaro.com/en/abs/detecting-abnormal-heart-sound-using-mobile-phones-and-on-device-iconnet-2412.032672024-12-05 https://scifaro.com/en/abs/exploring-trends-in-audio-mixes-and-masters-insights-from-a-dataset-analysis-2412.033732024-12-05 https://scifaro.com/en/abs/diffstyletts-diffusion-based-hierarchical-prosody-modeling-for-text-to-speech-with-diverse-and-controllable-styles-2412.033882024-12-05 https://scifaro.com/en/abs/nbm-an-open-dataset-for-the-acoustic-monitoring-of-nocturnal-migratory-birds-in-europe-2412.036332025-05-26 https://scifaro.com/en/abs/embedding-space-diffusion-for-zero-shot-environmental-sound-classification-2412.037712025-07-03 https://scifaro.com/en/abs/speech-recognition-based-feature-extraction-for-enhanced-automatic-severity-classification-in-dysarthric-speech-2412.037842024-12-06 https://scifaro.com/en/abs/missing-melodies-ai-music-generation-and-its-nearly-complete-omission-of-the-global-south-2412.041002025-08-26 https://scifaro.com/en/abs/relationships-between-keywords-and-strong-beats-in-lyrical-music-2412.042022025-07-10 https://scifaro.com/en/abs/modeling-nonuniform-energy-decay-through-the-modal-decomposition-of-acoustic-radiance-transfer-mod-art-2412.045342025-10-14 https://scifaro.com/en/abs/exploring-transformer-based-music-overpainting-for-jazz-piano-variations-2412.046102024-12-09 https://scifaro.com/en/abs/diff4steer-steerable-diffusion-prior-for-generative-music-retrieval-with-semantic-guidance-2412.047462025-04-25 https://scifaro.com/en/abs/continuous-speech-tokens-makes-llms-robust-multi-modality-learners-2412.049172024-12-09 https://scifaro.com/en/abs/applying-automatic-differentiation-to-optimize-differential-microphone-array-designs-2412.051232024-12-09 https://scifaro.com/en/abs/pyampact-a-score-audio-alignment-toolkit-for-performance-data-estimation-and-multi-modal-processing-2412.054362026-01-06 https://scifaro.com/en/abs/wavfusion-towards-wav2vec-2-0-multimodal-speech-emotion-recognition-2412.055582024-12-10 https://scifaro.com/en/abs/when-vision-models-meet-parameter-efficient-look-aside-adapters-without-large-scale-audio-pretraining-2412.059512024-12-10 https://scifaro.com/en/abs/m6-multi-generator-multi-domain-multi-lingual-and-cultural-multi-genres-multi-instrument-machine-generated-music-detection-databases-2412.060012026-02-16 https://scifaro.com/en/abs/pilot-guided-multimodal-semantic-communication-for-audio-visual-event-localization-2412.062082024-12-10 https://scifaro.com/en/abs/vidmusician-video-to-music-generation-with-semantic-rhythmic-alignment-via-hierarchical-visual-features-2412.062962024-12-10 https://scifaro.com/en/abs/emospeech-a-corpus-of-emotionally-rich-and-contextually-detailed-speech-annotations-2412.065812024-12-13 https://scifaro.com/en/abs/ai-trackmate-finally-someone-who-will-give-your-music-more-than-just-sounds-great-2412.066172024-12-10 https://scifaro.com/en/abs/mumu-llama-multi-modal-music-understanding-and-generation-via-large-language-models-2412.066602024-12-10 https://scifaro.com/en/abs/source-separation-automatic-transcription-for-music-2412.067032024-12-10 https://scifaro.com/en/abs/improving-music-source-separation-with-diffusion-and-consistency-refinement-2412.069652026-04-28 https://scifaro.com/en/abs/preserving-speaker-information-in-direct-speech-to-speech-translation-with-non-autoregressive-generation-and-pretraining-2412.073162025-11-10 https://scifaro.com/en/abs/frechet-music-distance-a-metric-for-generative-symbolic-music-evaluation-2412.079482025-01-17 https://scifaro.com/en/abs/aligner-guided-training-paradigm-advancing-text-to-speech-models-with-aligner-guided-duration-2412.081122024-12-12 https://scifaro.com/en/abs/latentspeech-latent-diffusion-for-text-to-speech-generation-2412.081172024-12-12 https://scifaro.com/en/abs/touchtts-an-embarrassingly-simple-tts-framework-that-everyone-can-touch-2412.082372024-12-13 https://scifaro.com/en/abs/momuse-momentum-multi-modal-target-speaker-extraction-for-real-time-scenarios-with-impaired-visual-cues-2412.082472025-04-01 https://scifaro.com/en/abs/a-unified-model-for-voice-and-accent-conversion-in-speech-and-singing-using-self-supervised-learning-and-feature-extraction-2412.083122024-12-12 https://scifaro.com/en/abs/zero-shot-mono-to-binaural-speech-synthesis-2412.083562025-05-29 https://scifaro.com/en/abs/pointtalk-audio-driven-dynamic-lip-point-cloud-for-3d-gaussian-based-talking-head-synthesis-2412.085042024-12-12 https://scifaro.com/en/abs/sketch2sound-controllable-audio-generation-via-time-varying-signals-and-sonic-imitations-2412.085502025-04-15 https://scifaro.com/en/abs/mel-refine-a-plug-and-play-approach-to-refine-mel-spectrogram-in-audio-generation-2412.085772024-12-12 https://scifaro.com/en/abs/advwave-stealthy-adversarial-jailbreak-attack-against-large-audio-language-models-2412.086082024-12-12 https://scifaro.com/en/abs/emotional-vietnamese-speech-based-depression-diagnosis-using-dynamic-attention-mechanism-2412.086832024-12-13 https://scifaro.com/en/abs/complex-cycle-consistent-diffusion-model-for-monaural-speech-enhancement-2412.088562024-12-13 https://scifaro.com/en/abs/interpreting-graphic-notation-with-musicldm-an-ai-improvisation-of-cornelius-cardew-s-treatise-2412.089442024-12-13 https://scifaro.com/en/abs/emodubber-towards-high-quality-and-emotion-controllable-movie-dubbing-2412.089882025-04-28 https://scifaro.com/en/abs/speech-forensics-towards-comprehensive-synthetic-speech-dataset-establishment-and-analysis-2412.090322025-07-18 https://scifaro.com/en/abs/yingsound-video-guided-sound-effects-generation-with-multi-modal-chain-of-thought-controls-2412.091682024-12-13 https://scifaro.com/en/abs/on-the-generation-and-removal-of-speaker-adversarial-perturbation-for-voice-privacy-protection-2412.091952024-12-13 https://scifaro.com/en/abs/multimodal-sentiment-analysis-based-on-video-and-audio-inputs-2412.093172024-12-13 https://scifaro.com/en/abs/audios-don-t-lie-multi-frequency-channel-attention-mechanism-for-audio-deepfake-detection-2412.094672024-12-13 https://scifaro.com/en/abs/sila-signal-to-language-augmentation-for-enhanced-control-in-text-to-audio-generation-2412.097892024-12-16 https://scifaro.com/en/abs/leveraging-multimodal-methods-and-spontaneous-speech-for-alzheimer-s-disease-identification-2412.099282025-02-19 https://scifaro.com/en/abs/enhanced-speech-emotion-recognition-with-efficient-channel-attention-guided-deep-cnn-bilstm-framework-2412.100112024-12-16 https://scifaro.com/en/abs/cosyvoice-2-scalable-streaming-speech-synthesis-with-large-language-models-2412.101172024-12-30 https://scifaro.com/en/abs/comparative-analysis-of-mel-frequency-cepstral-coefficients-and-wavelet-based-audio-signal-processing-for-emotion-detection-and-mental-health-assessment-in-spoken-speech-2412.104692024-12-17 https://scifaro.com/en/abs/tipping-points-pulse-elasticity-and-tonal-tension-an-empirical-study-on-what-generates-tipping-points-2412.104812024-12-17 https://scifaro.com/en/abs/hidden-echoes-survive-training-in-audio-to-audio-generative-instrument-models-2412.106492024-12-17 https://scifaro.com/en/abs/audio-based-anomaly-detection-in-industrial-machines-using-deep-one-class-support-vector-data-description-2412.107922025-05-28 https://scifaro.com/en/abs/robust-persian-digit-recognition-in-noisy-environments-using-hybrid-cnn-bigru-model-2412.108572025-02-12 https://scifaro.com/en/abs/composers-evaluations-of-an-ai-music-tool-insights-for-human-centred-design-2412.109682024-12-17 https://scifaro.com/en/abs/whisperflow-speech-foundation-models-in-real-time-2412.112722025-04-23 https://scifaro.com/en/abs/whisper-gpt-a-hybrid-representation-audio-large-language-model-2412.114492024-12-20 https://scifaro.com/en/abs/region-based-optimization-in-continual-learning-for-audio-deepfake-detection-2412.115512024-12-17 https://scifaro.com/en/abs/does-it-chug-towards-a-data-driven-understanding-of-guitar-tone-description-2412.117692024-12-17 https://scifaro.com/en/abs/audiocil-a-python-toolbox-for-audio-class-incremental-learning-with-multiple-scenes-2412.119072024-12-19 https://scifaro.com/en/abs/autrainer-a-modular-and-extensible-deep-learning-toolkit-for-computer-audition-tasks-2412.119432025-04-11 https://scifaro.com/en/abs/voice-biomarker-analysis-and-automated-severity-classification-of-dysarthric-speech-in-a-multilingual-context-2412.121112024-12-18 https://scifaro.com/en/abs/sound-classification-of-four-insect-classes-2412.123952024-12-18 https://scifaro.com/en/abs/hierarchical-control-of-emotion-rendering-in-speech-synthesis-2412.124982025-06-24 https://scifaro.com/en/abs/libri2vox-dataset-target-speaker-extraction-with-diverse-speaker-conditions-and-synthetic-data-2412.125122024-12-18 https://scifaro.com/en/abs/phoneme-level-feature-discrepancies-a-key-to-detecting-sophisticated-speech-deepfakes-2412.126192024-12-18 https://scifaro.com/en/abs/camel-cross-attention-enhanced-mixture-of-experts-and-language-bias-for-code-switching-speech-recognition-2412.127602025-01-10 https://scifaro.com/en/abs/tame-temporal-audio-based-mamba-for-enhanced-drone-trajectory-estimation-and-classification-2412.130372025-03-04 https://scifaro.com/en/abs/synthetic-speech-classification-ieee-signal-processing-cup-2022-challenge-2412.132792024-12-19 https://scifaro.com/en/abs/explainable-detection-of-machine-generated-music-and-early-systematic-evaluation-2412.134212026-04-30 https://scifaro.com/en/abs/savgbench-benchmarking-spatially-aligned-audio-video-generation-2412.134622026-02-05 https://scifaro.com/en/abs/tuning-music-education-ai-powered-personalization-in-learning-music-2412.135142024-12-19 https://scifaro.com/en/abs/folai-synchronized-foley-sound-generation-with-semantic-and-temporal-alignment-2412.150232025-05-06 https://scifaro.com/en/abs/early-dementia-detection-using-multiple-spontaneous-speech-prompts-the-process-challenge-2412.152302024-12-23 https://scifaro.com/en/abs/music-genre-classification-ensemble-learning-with-subcomponents-level-attention-2412.156022024-12-23 https://scifaro.com/en/abs/efficient-voip-communications-through-llm-based-real-time-speech-reconstruction-and-call-prioritization-for-emergency-services-2412.161762024-12-24 https://scifaro.com/en/abs/decoding-poultry-vocalizations-natural-language-processing-and-transformer-models-for-semantic-and-emotional-analysis-2412.161822024-12-24 https://scifaro.com/en/abs/a-classification-benchmark-for-artificial-intelligence-detection-of-laryngeal-cancer-from-patient-voice-2412.162672025-05-14 https://scifaro.com/en/abs/text2midi-generating-symbolic-music-from-captions-2412.165262025-06-18 https://scifaro.com/en/abs/improving-lip-synchrony-in-direct-audio-visual-speech-to-speech-translation-2412.165302024-12-24 https://scifaro.com/en/abs/mamba-seunet-mamba-unet-for-monaural-speech-enhancement-2412.166262025-01-03 https://scifaro.com/en/abs/soundloc3d-invisible-3d-sound-source-localization-and-classification-using-a-multimodal-rgb-d-acoustic-camera-2412.168612024-12-31 https://scifaro.com/en/abs/temporal-frequency-state-space-duality-an-efficient-paradigm-for-speech-emotion-recognition-2412.169042024-12-24 https://scifaro.com/en/abs/av-dtec-self-supervised-audio-visual-fusion-for-drone-trajectory-estimation-and-classification-2412.169282024-12-24 https://scifaro.com/en/abs/trainingless-adaptation-of-pretrained-models-for-environmental-sound-classification-2412.172122024-12-24 https://scifaro.com/en/abs/multiple-consistency-guided-test-time-adaptation-for-contrastive-audio-language-models-with-unlabeled-audio-2412.173062024-12-24 https://scifaro.com/en/abs/versa-a-versatile-evaluation-toolkit-for-speech-audio-and-music-2412.176672025-03-28 https://scifaro.com/en/abs/are-audio-deepfake-detection-models-polyglots-2412.179242025-08-07 https://scifaro.com/en/abs/lla-vap-lstm-ensemble-of-llama-and-vap-for-turn-taking-prediction-2412.180612024-12-25 https://scifaro.com/en/abs/smooth-foley-creating-continuous-sound-for-video-to-audio-generation-under-semantic-guidance-2412.181572024-12-25 https://scifaro.com/en/abs/explaining-speaker-and-spoof-embeddings-via-probing-2412.181912024-12-25 https://scifaro.com/en/abs/u-mamba-net-a-highly-efficient-mamba-based-u-net-style-network-for-noisy-and-reverberant-speech-separation-2412.182172024-12-25 https://scifaro.com/en/abs/simi-sfx-a-similarity-based-conditioning-method-for-controllable-sound-effect-synthesis-2412.187102024-12-30 https://scifaro.com/en/abs/mri2speech-speech-synthesis-from-articulatory-movements-recorded-by-real-time-mri-2412.188362025-01-20 https://scifaro.com/en/abs/advancing-nam-to-speech-conversion-with-novel-methods-and-the-multinam-dataset-2412.188392025-01-24 https://scifaro.com/en/abs/attention-enhanced-short-time-wiener-solution-for-acoustic-echo-cancellation-2412.188512024-12-30 https://scifaro.com/en/abs/robust-target-speaker-direction-of-arrival-estimation-2412.189132024-12-30 https://scifaro.com/en/abs/leave-one-equivariant-alleviating-invariance-related-information-loss-in-contrastive-music-representations-2412.189552024-12-30 https://scifaro.com/en/abs/bsdb-net-band-split-dual-branch-network-with-selective-state-spaces-mechanism-for-monaural-speech-enhancement-2412.190992024-12-30 https://scifaro.com/en/abs/cohedancers-enhancing-interactive-group-dance-generation-through-music-driven-coherence-decomposition-2412.191232024-12-30 https://scifaro.com/en/abs/personalized-dynamic-music-emotion-recognition-with-dual-scale-attention-based-meta-learning-2412.192002024-12-30 https://scifaro.com/en/abs/improving-generalization-for-ai-synthesized-voice-detection-2412.192792024-12-31 https://scifaro.com/en/abs/etta-elucidating-the-design-space-of-text-to-audio-models-2412.193512025-07-02 https://scifaro.com/en/abs/mouth-articulation-based-anchoring-for-improved-cross-corpus-speech-emotion-recognition-2412.199092024-12-31 https://scifaro.com/en/abs/stable-tts-stable-speaker-adaptive-text-to-speech-synthesis-via-prosody-prompting-2412.201552024-12-31 https://scifaro.com/en/abs/language-based-audio-retrieval-with-co-attention-networks-2412.209142024-12-31 https://scifaro.com/en/abs/tangoflux-super-fast-and-faithful-text-to-audio-generation-with-flow-matching-and-clap-ranked-preference-optimization-2412.210372025-04-11 https://scifaro.com/en/abs/secodec-structural-entropy-based-compressive-speech-representation-codec-for-speech-language-models-2501.000182025-01-03 https://scifaro.com/en/abs/lungmix-a-mixup-based-strategy-for-generalization-in-respiratory-sound-classification-2501.000642025-01-03 https://scifaro.com/en/abs/ensemble-of-classifiers-for-speech-evaluation-2501.000672025-01-03 https://scifaro.com/en/abs/voxvietnam-a-large-scale-multi-genre-dataset-for-vietnamese-speaker-recognition-2501.003282025-01-03 https://scifaro.com/en/abs/temporal-information-reconstruction-and-non-aligned-residual-in-spiking-neural-networks-for-speech-classification-2501.003482025-01-03 https://scifaro.com/en/abs/tspe-task-specific-prompt-ensemble-for-improved-zero-shot-audio-classification-2501.003982025-04-04 https://scifaro.com/en/abs/unrolled-creative-adversarial-network-for-generating-novel-musical-pieces-2501.004522025-12-30 https://scifaro.com/en/abs/u-gift-uncertainty-guided-firewall-for-toxic-speech-in-few-shot-scenario-2501.009072025-01-03 https://scifaro.com/en/abs/mmva-multimodal-matching-based-on-valence-and-arousal-across-images-music-and-musical-captions-2501.010942025-11-21 https://scifaro.com/en/abs/fast-fast-audio-spectrogram-transformer-2501.011042025-04-21 https://scifaro.com/en/abs/muq-self-supervised-music-representation-learning-with-mel-residual-vector-quantization-2501.011082025-01-06 https://scifaro.com/en/abs/robust-covid-19-detection-from-cough-sounds-using-deep-neural-decision-tree-and-forest-a-comprehensive-cross-datasets-evaluation-2501.011172025-01-03 https://scifaro.com/en/abs/ringformer-a-neural-vocoder-with-ring-attention-and-convolution-augmented-transformer-2501.011822025-12-30 https://scifaro.com/en/abs/adaptvc-high-quality-voice-conversion-with-adaptive-learning-2501.013472025-01-15 https://scifaro.com/en/abs/disentangling-hierarchical-features-for-anomalous-sound-detection-under-domain-shift-2501.016042025-01-06 https://scifaro.com/en/abs/a-speech-enhancement-method-using-fast-fourier-transform-and-convolutional-autoencoder-2501.016502025-11-14 https://scifaro.com/en/abs/improved-feature-extraction-network-for-neuro-oriented-target-speaker-extraction-2501.016732025-01-06 https://scifaro.com/en/abs/controlling-your-attributes-in-voice-2501.016742025-01-06 https://scifaro.com/en/abs/musicgen-stem-multi-stem-music-generation-and-edition-through-autoregressive-modeling-2501.017572025-01-08 https://scifaro.com/en/abs/cycleflow-leveraging-cycle-consistency-in-flow-matching-for-speaker-style-adaptation-2501.018612025-01-06 https://scifaro.com/en/abs/structural-and-statistical-audio-texture-knowledge-distillation-for-acoustic-classification-2501.019212026-03-25 https://scifaro.com/en/abs/detecting-music-performance-errors-with-transformers-2501.020302025-01-07 https://scifaro.com/en/abs/reducing-the-gap-between-pretrained-speech-enhancement-and-recognition-models-using-a-real-speech-trained-bridging-module-2501.024522025-01-07 https://scifaro.com/en/abs/a-system-for-melodic-harmonization-using-schoenberg-regions-giant-steps-and-church-modes-2501.026422025-01-07 https://scifaro.com/en/abs/ccstereo-audio-visual-contextual-and-contrastive-learning-for-binaural-audio-generation-2501.027862025-08-07 https://scifaro.com/en/abs/towards-hrtf-personalization-using-denoising-diffusion-models-2501.028712025-12-02 https://scifaro.com/en/abs/syki-svc-advancing-singing-voice-conversion-with-post-processing-innovations-and-an-open-source-professional-testset-2501.029532025-01-07 https://scifaro.com/en/abs/piano-transcription-by-hierarchical-language-modeling-with-pretrained-roll-based-encoders-2501.030382025-01-08 https://scifaro.com/en/abs/facespeak-expressive-and-high-quality-speech-synthesis-from-human-portraits-of-different-styles-2501.031812025-04-17 https://scifaro.com/en/abs/lhgnn-local-higher-order-graph-neural-networks-for-audio-classification-and-tagging-2501.034642025-01-30 https://scifaro.com/en/abs/vocal-tract-length-warped-features-for-spoken-keyword-spotting-2501.035232025-01-08 https://scifaro.com/en/abs/effective-and-efficient-mixed-precision-quantization-of-speech-foundation-models-2501.036432025-01-14 https://scifaro.com/en/abs/majl-a-model-agnostic-joint-learning-framework-for-music-source-separation-and-pitch-estimation-2501.036892025-01-08 https://scifaro.com/en/abs/guitar-techs-an-electric-guitar-dataset-covering-techniques-musical-excerpts-chords-and-scales-using-a-diverse-array-of-hardware-2501.037202025-01-08 https://scifaro.com/en/abs/neuroincept-decoder-for-high-fidelity-speech-reconstruction-from-neural-activity-2501.037572025-05-21 https://scifaro.com/en/abs/detecting-the-undetectable-assessing-the-efficacy-of-current-spoof-detection-methods-against-seamless-speech-edits-2501.038052025-01-08 https://scifaro.com/en/abs/drawspeech-expressive-speech-synthesis-using-prosodic-sketches-as-control-conditions-2501.042562025-01-09 https://scifaro.com/en/abs/maduv-the-1st-interspeech-mice-autism-detection-via-ultrasound-vocalization-challenge-2501.042922025-06-03 https://scifaro.com/en/abs/phone-purity-guided-discrete-tokens-for-dysarthric-speech-recognition-2501.043792025-01-09 https://scifaro.com/en/abs/right-label-context-in-end-to-end-training-of-time-synchronous-asr-models-2501.045212025-01-10 https://scifaro.com/en/abs/planing-it-by-ear-convolutional-neural-networks-for-acoustic-anomaly-detection-in-industrial-wood-planers-2501.048192025-01-10 https://scifaro.com/en/abs/signl-a-label-efficient-audio-deepfake-detection-system-via-spectral-temporal-graph-non-contrastive-learning-2501.049422026-01-13 https://scifaro.com/en/abs/music-tagging-with-classifier-group-chains-2501.050502025-01-20 https://scifaro.com/en/abs/d3rm-a-discrete-denoising-diffusion-refinement-model-for-piano-transcription-2501.050682025-01-14 https://scifaro.com/en/abs/diffattack-diffusion-based-timbre-reserved-adversarial-attack-in-speaker-identification-2501.051272025-01-10 https://scifaro.com/en/abs/zipenhancer-dual-path-down-up-sampling-based-zipformer-for-monaural-speech-enhancement-2501.051832025-01-10 https://scifaro.com/en/abs/ancogen-analysis-control-and-generation-of-speech-with-a-masked-autoencoder-2501.053322025-01-10 https://scifaro.com/en/abs/seeing-sound-assembling-sounds-from-visuals-for-audio-to-image-generation-2501.054132025-01-10 https://scifaro.com/en/abs/unmasking-deepfakes-leveraging-augmentations-and-features-variability-for-deepfake-speech-detection-2501.055452025-11-14 https://scifaro.com/en/abs/freesvc-towards-zero-shot-multilingual-singing-voice-conversion-2501.055862025-03-18 https://scifaro.com/en/abs/expo-explainable-phonetic-trait-oriented-network-for-speaker-verification-2501.057292025-01-15 https://scifaro.com/en/abs/cognospeak-an-automatic-remote-assessment-of-early-cognitive-decline-in-real-world-conversational-speech-2501.057552025-05-12 https://scifaro.com/en/abs/towards-early-prediction-of-self-supervised-speech-model-performance-2501.059662025-06-03 https://scifaro.com/en/abs/xlstm-senet-xlstm-for-single-channel-speech-enhancement-2501.061462025-05-21 https://scifaro.com/en/abs/proemo-prompt-driven-text-to-speech-synthesis-based-on-emotion-and-intensity-control-2501.062762025-01-14 https://scifaro.com/en/abs/unispeaker-a-unified-approach-for-multimodality-driven-speaker-generation-2501.063942025-01-14 https://scifaro.com/en/abs/neural-codec-source-tracing-toward-comprehensive-attribution-in-open-set-condition-2501.065142025-01-14 https://scifaro.com/en/abs/sanidha-a-studio-quality-multi-modal-dataset-for-carnatic-music-2501.069592025-07-22 https://scifaro.com/en/abs/audio-cot-exploring-chain-of-thought-reasoning-in-large-audio-language-model-2501.072462025-01-14 https://scifaro.com/en/abs/joint-automatic-speech-recognition-and-structure-learning-for-better-speech-understanding-2501.073292025-01-20 https://scifaro.com/en/abs/estimating-musical-surprisal-in-audio-2501.074742025-01-14 https://scifaro.com/en/abs/decoding-musical-evolution-through-network-science-2501.075572026-04-27 https://scifaro.com/en/abs/bridge-sr-schr-odinger-bridge-for-efficient-sr-2501.078972025-01-15 https://scifaro.com/en/abs/codecfake-a-large-scale-neural-audio-codec-based-deepfake-speech-dataset-2501.082382025-03-19 https://scifaro.com/en/abs/towards-lightweight-and-stable-zero-shot-tts-with-self-distilled-representation-disentanglement-2501.085662025-01-16 https://scifaro.com/en/abs/adaptive-data-augmentation-with-naturalspeech3-for-far-field-speaker-verification-2501.086912025-01-16 https://scifaro.com/en/abs/xmusic-towards-a-generalized-and-controllable-symbolic-music-generation-framework-2501.088092025-01-16 https://scifaro.com/en/abs/discrimination-loss-vs-srt-a-model-based-approach-towards-harmonizing-speech-test-interpretations-2501.089212025-01-16 https://scifaro.com/en/abs/a-non-autoregressive-model-for-joint-stt-and-tts-2501.091042025-01-22 https://scifaro.com/en/abs/metric-learning-with-progressive-self-distillation-for-audio-visual-embedding-learning-2501.096082025-01-17 https://scifaro.com/en/abs/gvmgen-a-general-video-to-music-generation-model-with-hierarchical-attentions-2501.099722025-04-21 https://scifaro.com/en/abs/hifi-sr-a-unified-generative-transformer-convolutional-adversarial-network-for-high-fidelity-speech-super-resolution-2501.100452025-01-20 https://scifaro.com/en/abs/conditional-latent-diffusion-based-speech-enhancement-via-dual-context-learning-2501.100522025-01-20 https://scifaro.com/en/abs/ai-generated-music-detection-and-its-challenges-2501.101112025-01-20 https://scifaro.com/en/abs/towards-an-integrated-approach-for-expressive-piano-performance-synthesis-from-music-scores-2501.102222025-01-20 https://scifaro.com/en/abs/dfingernet-noise-adaptive-speech-enhancement-for-hearing-aids-2501.105252025-01-24 https://scifaro.com/en/abs/speech-emotion-detection-based-on-mfcc-and-cnn-lstm-architecture-2501.106662025-01-22 https://scifaro.com/en/abs/an-experimental-study-on-joint-modeling-for-sound-event-localization-and-detection-with-source-distance-estimation-2501.107552025-01-22 https://scifaro.com/en/abs/musiceval-a-generative-music-dataset-with-expert-ratings-for-automatic-text-to-music-evaluation-2501.108112025-03-25 https://scifaro.com/en/abs/enhancing-neural-spoken-language-recognition-an-exploration-with-multilingual-datasets-2501.110652025-01-22 https://scifaro.com/en/abs/water-flow-detection-device-based-on-sound-data-analysis-and-machine-learning-to-detect-water-leakage-2501.111512025-01-22 https://scifaro.com/en/abs/a2sb-audio-to-audio-schrodinger-bridges-2501.113112025-08-14 https://scifaro.com/en/abs/investigation-of-whisper-asr-hallucinations-induced-by-non-speech-audio-2501.113782025-03-18 https://scifaro.com/en/abs/uncertainty-estimation-in-the-real-world-a-study-on-music-emotion-recognition-2501.115702025-01-22 https://scifaro.com/en/abs/noise-agnostic-multitask-whisper-training-for-reducing-false-alarm-errors-in-call-for-help-detection-2501.116312025-01-22 https://scifaro.com/en/abs/transferable-adversarial-attacks-on-audio-deepfake-detection-2501.119022025-01-22 https://scifaro.com/en/abs/dota-me-cs-daily-oriented-text-audio-mandarin-english-code-switching-dataset-2501.121222025-11-14 https://scifaro.com/en/abs/an-end-to-end-approach-for-korean-wakeword-systems-with-speaker-authentication-2501.121942025-01-22 https://scifaro.com/en/abs/audio-texture-manipulation-by-exemplar-based-analogy-2501.123852025-01-22 https://scifaro.com/en/abs/hybrid-losses-for-hierarchical-embedding-learning-2501.127962025-01-23 https://scifaro.com/en/abs/s-key-self-supervised-learning-of-major-and-minor-keys-from-audio-2501.129072025-06-24 https://scifaro.com/en/abs/osum-advancing-open-speech-understanding-models-with-limited-resources-in-academia-2501.133062025-02-18 https://scifaro.com/en/abs/bridging-the-multi-modality-gaps-of-audio-visual-and-linguistic-for-speech-enhancement-2501.133752025-05-27 https://scifaro.com/en/abs/neural-vocoders-as-speech-enhancers-2501.134652025-01-24 https://scifaro.com/en/abs/dq-data2vec-decoupling-quantization-for-multilingual-speech-recognition-2501.134972025-01-24 https://scifaro.com/en/abs/jailbreak-audiobench-in-depth-evaluation-and-analysis-of-jailbreak-threats-for-large-audio-language-models-2501.137722026-01-13 https://scifaro.com/en/abs/everyone-can-sing-zero-shot-singing-voice-synthesis-and-conversion-with-speech-reference-2501.138702025-01-24 https://scifaro.com/en/abs/leveraging-spatial-cues-from-cochlear-implant-microphones-to-efficiently-enhance-speech-separation-in-real-world-listening-scenes-2501.146102025-01-27 https://scifaro.com/en/abs/methods-to-increase-the-amount-of-data-for-speech-recognition-for-low-resource-languages-2501.147882025-02-10 https://scifaro.com/en/abs/robust-cross-etiology-and-speaker-independent-dysarthric-speech-recognition-2501.149942025-01-28 https://scifaro.com/en/abs/superear-eavesdropping-on-mobile-voice-calls-via-stealthy-acoustic-metamaterials-2501.150322026-01-19 https://scifaro.com/en/abs/audio-language-models-for-audio-centric-tasks-a-systematic-survey-2501.151772026-03-13 https://scifaro.com/en/abs/the-icme-2025-audio-encoder-capability-challenge-2501.153022025-01-28 https://scifaro.com/en/abs/music-generation-using-human-in-the-loop-reinforcement-learning-2501.153042025-01-28 https://scifaro.com/en/abs/anyenhance-a-unified-generative-model-with-prompt-guidance-and-self-critic-for-voice-enhancement-2501.154172025-11-04 https://scifaro.com/en/abs/overview-of-the-amphion-toolkit-v0-2-2501.154422025-02-12 https://scifaro.com/en/abs/stepback-enhanced-disentanglement-for-voice-conversion-via-multi-task-learning-2501.156132025-01-28 https://scifaro.com/en/abs/emilia-a-large-scale-extensive-multilingual-and-diverse-dataset-for-speech-generation-2501.159072025-10-09 https://scifaro.com/en/abs/optimized-self-supervised-training-with-best-rq-for-speech-recognition-2501.161312025-01-28 https://scifaro.com/en/abs/ave-speech-a-comprehensive-multi-modal-dataset-for-speech-recognition-integrating-audio-visual-and-electromyographic-signals-2501.167802025-07-08 https://scifaro.com/en/abs/midi-gpt-a-controllable-generative-model-for-computer-assisted-multitrack-music-composition-2501.170112025-02-05 https://scifaro.com/en/abs/6ksfx-synth-dataset-2501.171982025-01-30 https://scifaro.com/en/abs/audio-large-language-models-can-be-descriptive-speech-quality-evaluators-2501.172022025-03-13 https://scifaro.com/en/abs/summary-of-the-notsofar-1-challenge-highlights-and-learnings-2501.173042025-03-11 https://scifaro.com/en/abs/compact-neural-tts-voices-for-accessibility-2501.173322025-01-30 https://scifaro.com/en/abs/music2latent2-audio-compression-with-summary-embeddings-and-autoregressive-decoding-2501.175782025-01-30 https://scifaro.com/en/abs/voiceprompter-robust-zero-shot-voice-conversion-with-voice-prompt-and-conditional-flow-matching-2501.176122025-01-30 https://scifaro.com/en/abs/yin-yang-developing-motifs-with-long-term-structure-and-controllability-2501.177592025-01-30 https://scifaro.com/en/abs/acoupi-an-open-source-python-framework-for-deploying-bioacoustic-ai-models-on-edge-devices-2501.178412026-01-23 https://scifaro.com/en/abs/efficient-audiovisual-speech-processing-via-mutud-multimodal-training-and-unimodal-deployment-2501.181572025-01-31 https://scifaro.com/en/abs/deepfake-detection-of-singing-voices-with-whisper-encodings-2501.189192025-02-03 https://scifaro.com/en/abs/selma-a-speech-enabled-language-model-for-virtual-assistant-interactions-2501.193772025-02-04 https://scifaro.com/en/abs/evolving-performance-practices-in-beethoven-s-cello-sonatas-tempo-portamento-and-historical-interpretation-of-the-first-movements-2502.000302025-02-04 https://scifaro.com/en/abs/sigwavnet-learning-multiresolution-signal-wavelet-network-for-speech-emotion-recognition-2502.003102025-02-04 https://scifaro.com/en/abs/do-audio-visual-segmentation-models-truly-segment-sounding-objects-2502.003582025-02-24 https://scifaro.com/en/abs/audiogenx-explainability-on-text-to-audio-generative-models-2502.004592025-10-20 https://scifaro.com/en/abs/cycleguardian-a-framework-for-automatic-respiratorysound-classification-based-on-improved-deep-clustering-and-contrastive-learning-2502.007342025-03-04 https://scifaro.com/en/abs/emotional-face-to-speech-2502.010462025-02-04 https://scifaro.com/en/abs/gradient-norm-based-fine-tuning-for-backdoor-defense-in-automatic-speech-recognition-2502.011522025-02-04 https://scifaro.com/en/abs/deep-active-speech-cancellation-with-mamba-masking-network-2502.011852025-05-27 https://scifaro.com/en/abs/adapter-based-multi-agent-avsr-extension-for-pre-trained-asr-models-2502.017092025-02-05 https://scifaro.com/en/abs/investigation-of-perceptual-music-similarity-focusing-on-each-instrumental-part-2502.021382025-02-05 https://scifaro.com/en/abs/pruning-aware-loss-functions-for-stoi-optimized-pruned-recurrent-autoencoders-for-the-compression-of-the-stimulation-patterns-of-cochlear-implants-at-zero-delay-2502.024242025-06-03 https://scifaro.com/en/abs/streaming-speaker-change-detection-and-gender-classification-for-transducer-based-multi-talker-speech-translation-2502.026832025-02-06 https://scifaro.com/en/abs/metis-a-foundation-speech-generation-model-with-masked-generative-pre-training-2502.031282025-02-06 https://scifaro.com/en/abs/towards-unified-music-emotion-recognition-across-dimensional-and-categorical-models-2502.039792025-04-14 https://scifaro.com/en/abs/a-data-driven-two-microphone-method-for-in-situ-sound-absorption-measurements-2502.041432025-02-07 https://scifaro.com/en/abs/xattnmark-learning-robust-audio-watermarking-with-cross-attention-2502.042302026-05-25 https://scifaro.com/en/abs/adiff-explaining-audio-difference-using-natural-language-2502.044762025-02-10 https://scifaro.com/en/abs/improvnet-generating-controllable-musical-improvisations-with-iterative-corruption-refinement-2502.045222025-05-19 https://scifaro.com/en/abs/dynamic-frequency-adaptive-knowledge-distillation-for-speech-enhancement-2502.047112025-02-10 https://scifaro.com/en/abs/singing-voice-conversion-with-accompaniment-using-self-supervised-representation-based-melody-features-2502.047222025-02-10 https://scifaro.com/en/abs/latent-swap-joint-diffusion-for-2d-long-form-latent-generation-2502.051302025-07-30 https://scifaro.com/en/abs/meta-audiobox-aesthetics-unified-automatic-quality-assessment-for-speech-music-and-sound-2502.051392025-02-10 https://scifaro.com/en/abs/aligner-encoders-self-attention-transformers-can-be-self-transducers-2502.052322025-02-11 https://scifaro.com/en/abs/koel-tts-enhancing-llm-based-speech-generation-with-preference-alignment-and-classifier-free-guidance-2502.052362025-07-24 https://scifaro.com/en/abs/enhancing-expressive-voice-conversion-with-discrete-pitch-conditioned-flow-matching-model-2502.054712025-02-11 https://scifaro.com/en/abs/indextts-an-industrial-level-controllable-and-efficient-zero-shot-text-to-speech-system-2502.055122025-02-11 https://scifaro.com/en/abs/large-language-model-based-nonnegative-matrix-factorization-for-cardiorespiratory-sound-separation-2502.057572025-02-11 https://scifaro.com/en/abs/an-adaptive-filter-bank-based-neural-network-approach-for-time-delay-estimation-and-speech-enhancement-2502.060982025-02-11 https://scifaro.com/en/abs/calibration-of-multiple-asynchronous-microphone-arrays-using-hybrid-tdoa-2502.061952025-02-11 https://scifaro.com/en/abs/end-to-end-multi-microphone-speaker-extraction-using-relative-transfer-functions-2502.062852025-02-11 https://scifaro.com/en/abs/automatic-identification-of-samples-in-hip-hop-music-via-multi-loss-training-and-an-artificial-dataset-2502.063642025-02-11 https://scifaro.com/en/abs/evaluation-of-deep-audio-representations-for-hearables-2502.066642025-02-25 https://scifaro.com/en/abs/synthetic-audio-helps-for-cognitive-state-tasks-2502.069222025-02-12 https://scifaro.com/en/abs/adaptive-central-frequencies-locally-competitive-algorithm-for-speech-2502.069892025-09-01 https://scifaro.com/en/abs/vevo-controllable-zero-shot-voice-imitation-with-self-supervised-disentanglement-2502.072432025-03-30 https://scifaro.com/en/abs/music-for-all-representational-bias-and-cross-cultural-adaptability-of-music-generation-models-2502.073282025-05-07 https://scifaro.com/en/abs/advanced-zero-shot-text-to-speech-for-background-removal-and-preservation-with-controllable-masked-speech-prediction-2502.073452025-02-12 https://scifaro.com/en/abs/jamendomaxcaps-a-large-scale-music-caption-dataset-with-imputed-metadata-2502.074612025-05-19 https://scifaro.com/en/abs/harmonic-and-transposition-constraints-arising-from-the-use-of-the-roland-tr-808-bass-drum-2502.075242025-02-12 https://scifaro.com/en/abs/lorp-tts-low-rank-personalized-text-to-speech-2502.075622025-02-12 https://scifaro.com/en/abs/hookpad-aria-a-copilot-for-songwriters-2502.081222025-02-13 https://scifaro.com/en/abs/methods-for-pitch-analysis-in-contemporary-popular-music-highlighting-pitch-uncertainty-in-primaal-s-commercial-works-2502.081312025-02-13 https://scifaro.com/en/abs/dualstream-contextual-fusion-network-efficient-target-speaker-extraction-by-leveraging-mixture-and-enrollment-interactions-2502.081912025-02-13 https://scifaro.com/en/abs/enhanced-lstm-by-attention-mechanism-for-early-detection-of-parkinson-s-disease-through-voice-signals-2502.086722025-02-14 https://scifaro.com/en/abs/tokensynth-a-token-based-neural-synthesizer-for-instrument-cloning-and-text-to-instrument-2502.089392025-02-14 https://scifaro.com/en/abs/balancing-physical-modeling-and-musical-requirements-algorithmically-simulating-the-calls-of-hyalessa-maculaticollis-for-real-time-instrumental-control-2502.094592025-02-14 https://scifaro.com/en/abs/autoprosody-a-prosodic-feature-extraction-tool-for-indian-languages-2502.096612026-02-20 https://scifaro.com/en/abs/intergridnet-an-electric-network-frequency-approach-for-audio-source-location-classification-using-convolutional-neural-networks-2502.100112025-02-17 https://scifaro.com/en/abs/video-soundtrack-generation-by-aligning-emotions-and-temporal-boundaries-2502.101542026-02-06 https://scifaro.com/en/abs/vocalcrypt-novel-active-defense-against-deepfake-voice-based-on-masking-effect-2502.103292025-02-17 https://scifaro.com/en/abs/clamp-3-universal-music-information-retrieval-across-unaligned-modalities-and-unseen-languages-2502.103622025-05-20 https://scifaro.com/en/abs/ynote-a-novel-music-notation-for-fine-tuning-llms-in-music-generation-2502.104672025-02-18 https://scifaro.com/en/abs/f-stripe-fast-structure-informed-positional-encoding-for-symbolic-music-generation-2502.104912025-02-18 https://scifaro.com/en/abs/hyperdimensional-intelligent-sensing-for-efficient-real-time-audio-processing-on-extreme-edge-2502.107182025-02-18 https://scifaro.com/en/abs/syncspeech-efficient-and-low-latency-text-to-speech-based-on-temporal-masked-transformer-2502.110942026-03-17 https://scifaro.com/en/abs/throat-and-acoustic-paired-speech-dataset-for-deep-learning-based-speech-enhancement-2502.114782026-04-23 https://scifaro.com/en/abs/nablafx-a-framework-for-differentiable-black-box-and-gray-box-modeling-of-audio-effects-2502.116682025-02-26 https://scifaro.com/en/abs/chordformer-a-conformer-based-architecture-for-large-vocabulary-audio-chord-recognition-2502.118402025-02-18 https://scifaro.com/en/abs/rethinking-audio-visual-adversarial-vulnerability-from-temporal-and-modality-perspectives-2502.118582025-03-04 https://scifaro.com/en/abs/naturall2s-end-to-end-high-quality-multispeaker-lip-to-speech-synthesis-with-differential-digital-signal-processing-2502.120022025-02-18 https://scifaro.com/en/abs/masked-latent-prediction-and-classification-for-self-supervised-audio-representation-learning-2502.120312025-06-05 https://scifaro.com/en/abs/note-level-singing-melody-transcription-for-time-aligned-musical-score-generation-2502.124382025-02-19 https://scifaro.com/en/abs/myna-masking-based-contrastive-learning-of-musical-representations-2502.125112025-02-20 https://scifaro.com/en/abs/techsinger-technique-controllable-multilingual-singing-voice-synthesis-via-flow-matching-2502.125722025-04-22 https://scifaro.com/en/abs/deepresonance-enhancing-multimodal-music-understanding-via-music-centric-multi-way-instruction-tuning-2502.126232025-09-24 https://scifaro.com/en/abs/high-fidelity-music-vocoder-using-neural-audio-codecs-2502.127592025-02-19 https://scifaro.com/en/abs/keep-what-you-need-extracting-efficient-subnetworks-from-large-audio-representation-models-2502.129252025-02-19 https://scifaro.com/en/abs/skip-that-beat-augmenting-meter-tracking-models-for-underrepresented-time-signatures-2502.129722025-09-26 https://scifaro.com/en/abs/a-dual-stage-time-context-network-for-speech-based-alzheimer-s-disease-detection-2502.130642026-02-09 https://scifaro.com/en/abs/songgen-a-single-stage-auto-regressive-transformer-for-text-to-song-generation-2502.131282025-06-02 https://scifaro.com/en/abs/unsupervised-cp-unet-framework-for-denoising-das-data-with-decay-noise-2502.133952025-02-20 https://scifaro.com/en/abs/mats-an-audio-language-model-under-text-only-supervision-2502.134332026-01-15 https://scifaro.com/en/abs/semi-supervised-classification-of-bird-vocalizations-2502.134402025-02-20 https://scifaro.com/en/abs/audio-based-classification-of-insect-species-using-machine-learning-models-cicada-beetle-termite-and-cricket-2502.138932025-02-20 https://scifaro.com/en/abs/on-the-application-of-visibility-graphs-in-the-spectral-domain-for-speaker-recognition-2502.141102025-02-21 https://scifaro.com/en/abs/differentiable-black-box-and-gray-box-modeling-of-nonlinear-audio-effects-2502.144052025-02-21 https://scifaro.com/en/abs/atri-mitigating-multilingual-audio-text-retrieval-inconsistencies-by-reducing-data-distribution-errors-2502.146272025-06-05 https://scifaro.com/en/abs/chunkformer-masked-chunking-conformer-for-long-form-speech-transcription-2502.146732025-02-21 https://scifaro.com/en/abs/segaug-ctc-aligned-segmented-augmentation-for-robust-rnn-transducer-based-speech-recognition-2502.146852025-02-21 https://scifaro.com/en/abs/pitch-imperfect-detecting-audio-deepfakes-through-acoustic-prosodic-analysis-2502.147262025-02-21 https://scifaro.com/en/abs/wavrag-audio-integrated-retrieval-augmented-generation-for-spoken-dialogue-models-2502.147272025-02-21 https://scifaro.com/en/abs/fundamental-survey-on-neuromorphic-based-audio-classification-2502.150562025-02-24 https://scifaro.com/en/abs/improving-streaming-speech-recognition-with-time-shifted-contextual-attention-and-dynamic-right-context-masking-2502.151582025-02-24 https://scifaro.com/en/abs/offload-rethinking-by-cloud-assistance-for-efficient-environmental-sound-recognition-on-lpwans-2502.152852025-03-24 https://scifaro.com/en/abs/kad-no-more-fad-an-effective-and-efficient-evaluation-metric-for-audio-generation-2502.156022025-03-11 https://scifaro.com/en/abs/benchmarking-machine-learning-for-bowel-sound-pattern-classification-from-tabular-features-to-pretrained-models-2502.156072025-02-25 https://scifaro.com/en/abs/improving-speech-enhancement-by-cross-and-sub-band-processing-with-state-space-model-2502.162072025-02-25 https://scifaro.com/en/abs/audio-flan-a-preliminary-release-2502.165842025-02-25 https://scifaro.com/en/abs/target-speaker-extraction-through-comparing-noisy-positive-and-negative-audio-enrollments-2502.166112025-12-09 https://scifaro.com/en/abs/aad-llm-neural-attention-driven-auditory-scene-understanding-2502.167942025-06-12 https://scifaro.com/en/abs/enact-heart-ensemble-based-assessment-using-cnn-and-transformer-on-heart-sounds-2502.169142025-02-25 https://scifaro.com/en/abs/supervised-contrastive-learning-from-weakly-labeled-audio-segments-for-musical-version-matching-2502.169362025-05-19 https://scifaro.com/en/abs/low-rank-and-sparse-model-merging-for-multi-lingual-speech-recognition-and-translation-2502.173802025-07-09 https://scifaro.com/en/abs/perceptual-noise-masking-with-music-through-deep-spectral-envelope-shaping-2502.175272025-02-26 https://scifaro.com/en/abs/vanpy-voice-analysis-framework-2502.175792025-05-06 https://scifaro.com/en/abs/the-gigamidi-dataset-with-features-for-expressive-music-performance-detection-2502.177262025-02-26 https://scifaro.com/en/abs/enhancing-speech-quality-through-the-integration-of-bgru-and-transformer-architectures-2502.179112025-02-26 https://scifaro.com/en/abs/notagen-advancing-musicality-in-symbolic-music-generation-with-large-language-model-training-paradigms-2502.180082025-03-24 https://scifaro.com/en/abs/determined-blind-source-separation-with-sinkhorn-divergence-based-optimal-allocation-of-the-source-power-2502.181822025-11-11 https://scifaro.com/en/abs/steering-language-model-to-stable-speech-emotion-recognition-via-contextual-perception-and-chain-of-thought-2502.181862025-12-30 https://scifaro.com/en/abs/from-vision-to-sound-advancing-audio-anomaly-detection-with-vision-based-algorithms-2502.183282025-02-26 https://scifaro.com/en/abs/clip-tts-contrastive-text-content-and-mel-spectrogram-a-high-quality-text-to-speech-method-based-on-contextual-semantic-understanding-2502.188892025-03-11 https://scifaro.com/en/abs/dualspec-text-to-spatial-audio-generation-via-dual-spectrogram-guided-diffusion-model-2502.189522025-06-09 https://scifaro.com/en/abs/filtro-adaptativo-y-modulo-de-grabacion-en-dispositivo-para-mejora-en-la-calidad-de-audicion-2502.194442025-02-28 https://scifaro.com/en/abs/does-your-voice-assistant-remember-analyzing-conversational-context-recall-and-utilization-in-voice-interaction-models-2502.197592025-05-26 https://scifaro.com/en/abs/diffcss-diverse-and-expressive-conversational-speech-synthesis-with-diffusion-models-2502.199242025-02-28 https://scifaro.com/en/abs/dgfm-full-body-dance-generation-driven-by-music-foundation-models-2502.201762025-02-28 https://scifaro.com/en/abs/din-cts-low-complexity-depthwise-inception-neural-network-with-contrastive-training-strategy-for-deepfake-speech-detection-2502.202252025-04-01 https://scifaro.com/en/abs/on-adversarial-attacks-in-acoustic-drone-localization-2502.203252026-03-04 https://scifaro.com/en/abs/weakly-supervised-detection-and-temporal-localization-of-whale-calls-in-long-duration-bioacoustic-data-2502.208382026-05-29 https://scifaro.com/en/abs/deep-learning-based-filtering-of-cross-spectral-matrices-using-generative-adversarial-networks-2502.210972025-03-03 https://scifaro.com/en/abs/inspiremusic-integrating-super-resolution-and-large-language-model-for-high-fidelity-long-form-music-generation-2503.000842025-03-04 https://scifaro.com/en/abs/synthetic-data-enables-context-aware-bioacoustic-sound-event-detection-2503.002962025-09-09 https://scifaro.com/en/abs/language-model-mapping-in-multimodal-music-learning-a-grand-challenge-proposal-2503.004272025-03-04 https://scifaro.com/en/abs/podagent-a-comprehensive-framework-for-podcast-generation-2503.004552025-03-04 https://scifaro.com/en/abs/acoustic-anomaly-detection-on-uam-propeller-defect-with-acoustic-dataset-for-crack-of-drone-propeller-adcp-2503.007902025-03-04 https://scifaro.com/en/abs/exploiting-vulnerabilities-in-speech-translation-systems-through-targeted-adversarial-attacks-2503.009572025-03-06 https://scifaro.com/en/abs/voice-cloning-for-dysarthric-speech-synthesis-addressing-data-scarcity-in-speech-language-pathology-2503.012662025-03-04 https://scifaro.com/en/abs/streaming-piano-transcription-based-on-consistent-onset-and-offset-decoding-with-sustain-pedal-detection-2503.013622025-03-04 https://scifaro.com/en/abs/flowdec-a-flow-based-full-band-general-audio-codec-with-high-perceptual-quality-2503.014852025-03-04 https://scifaro.com/en/abs/spark-tts-an-efficient-llm-based-text-to-speech-model-with-single-stream-decoupled-speech-tokens-2503.017102025-03-04 https://scifaro.com/en/abs/audio-reasoner-improving-reasoning-capability-in-large-audio-language-models-2503.023182025-09-23 https://scifaro.com/en/abs/robust-detection-of-overlapping-bioacoustic-sound-events-2503.023892025-09-09 https://scifaro.com/en/abs/aggregation-strategies-for-efficient-annotation-of-bioacoustic-sound-events-using-active-learning-2503.024222025-03-05 https://scifaro.com/en/abs/as-good-as-it-kan-get-high-fidelity-audio-representation-2503.025852025-11-04 https://scifaro.com/en/abs/inserter-speech-instruction-following-with-unsupervised-interleaved-pre-training-2503.027692025-06-05 https://scifaro.com/en/abs/a-multimodal-symphony-integrating-taste-and-sound-through-generative-ai-2503.028232025-09-01 https://scifaro.com/en/abs/fine-tuning-whisper-for-inclusive-prosodic-stress-analysis-2503.029072025-03-06 https://scifaro.com/en/abs/lead-instrument-detection-from-multitrack-music-2503.032322025-03-06 https://scifaro.com/en/abs/efficient-finetuning-for-dimensional-speech-emotion-recognition-in-the-age-of-transformers-2503.037562025-03-07 https://scifaro.com/en/abs/voicegrpo-modern-moe-transformers-with-group-relative-policy-optimization-grpo-for-ai-voice-health-care-applications-on-voice-pathology-detection-2503.037972025-03-07 https://scifaro.com/en/abs/audio-flamingo-2-an-audio-language-model-with-long-audio-understanding-and-expert-reasoning-abilities-2503.039832025-03-07 https://scifaro.com/en/abs/tail-text-audio-incremental-learning-2503.042582025-07-29 https://scifaro.com/en/abs/self-supervised-models-for-phoneme-recognition-applications-in-children-s-speech-for-reading-learning-2503.047102025-03-07 https://scifaro.com/en/abs/uniarray-unified-spectral-spatial-modeling-for-array-geometry-agnostic-speech-separation-2503.051102025-03-10 https://scifaro.com/en/abs/divise-direct-visual-input-speech-synthesis-preserving-speaker-characteristics-and-intelligibility-2503.052232025-03-10 https://scifaro.com/en/abs/bimodal-connection-attention-fusion-for-speech-emotion-recognition-2503.058582025-03-25 https://scifaro.com/en/abs/audio-to-image-encoding-for-improved-voice-characteristic-detection-using-deep-convolutional-neural-networks-2503.059292025-03-11 https://scifaro.com/en/abs/multi-modal-expressive-personality-recognition-in-data-non-ideal-audiovisual-based-on-multi-scale-feature-enhancement-and-modal-augment-2503.061082025-03-11 https://scifaro.com/en/abs/infant-cry-detection-using-causal-temporal-representation-2503.062472025-03-11 https://scifaro.com/en/abs/accompaniment-prompt-adherence-a-measure-for-evaluating-music-accompaniment-systems-2503.063462025-04-09 https://scifaro.com/en/abs/a-neural-score-follower-for-computer-accompaniment-of-polyphonic-musical-instruments-2503.063482025-03-11 https://scifaro.com/en/abs/heterogeneous-bimodal-attention-fusion-for-speech-emotion-recognition-2503.064052025-04-02 https://scifaro.com/en/abs/speech-audio-generation-from-dynamic-mri-via-a-knowledge-enhanced-conditional-variational-autoencoder-2503.065882025-12-02 https://scifaro.com/en/abs/synchronized-video-to-audio-generation-via-mel-quantization-continuum-decomposition-2503.069842025-03-11 https://scifaro.com/en/abs/reelwave-multi-agentic-movie-sound-generation-through-multimodal-llm-conversation-2503.072172025-06-03 https://scifaro.com/en/abs/boundary-regression-for-leitmotif-detection-in-music-audio-2503.079772025-03-12 https://scifaro.com/en/abs/mellow-a-small-audio-language-model-for-reasoning-2503.085402025-03-12 https://scifaro.com/en/abs/contextual-speech-extraction-leveraging-textual-history-as-an-implicit-cue-for-target-speech-extraction-2503.087982025-03-13 https://scifaro.com/en/abs/learning-control-of-neural-sound-effects-synthesis-from-physically-inspired-models-2503.088062025-03-13 https://scifaro.com/en/abs/control-surfaces-using-the-commodore-64-and-analog-synthesizer-to-expand-musical-boundaries-2503.090532025-03-13 https://scifaro.com/en/abs/zero-to-16383-through-the-wire-transmitting-high-resolution-midi-with-websockets-and-the-browser-2503.090552025-03-13 https://scifaro.com/en/abs/quantization-for-openai-s-whisper-models-a-comparative-analysis-2503.099052025-03-14 https://scifaro.com/en/abs/efficient-adapter-tuning-for-joint-singing-voice-beat-and-downbeat-tracking-with-self-supervised-learning-features-2503.100862025-03-14 https://scifaro.com/en/abs/macs-multi-source-audio-to-image-generation-with-contextual-significance-and-semantic-alignment-2503.102872025-12-11 https://scifaro.com/en/abs/whisper-speaker-identification-leveraging-pre-trained-multilingual-transformers-for-robust-speaker-embeddings-2503.104462025-03-14 https://scifaro.com/en/abs/cross-modal-learning-for-music-to-music-video-description-generation-2503.111902025-03-17 https://scifaro.com/en/abs/reinforcement-learning-outperforms-supervised-fine-tuning-a-case-study-on-audio-question-answering-2503.111972025-05-15 https://scifaro.com/en/abs/spike-encoding-for-environmental-sound-a-comparative-benchmark-2503.112062025-11-27 https://scifaro.com/en/abs/exploring-the-potential-of-large-multimodal-models-as-effective-alternatives-for-pronunciation-assessment-2503.112292025-03-17 https://scifaro.com/en/abs/creating-a-good-teacher-for-knowledge-distillation-in-acoustic-scene-classification-2503.113632025-03-17 https://scifaro.com/en/abs/exploring-performance-complexity-trade-offs-in-sound-event-detection-models-2503.113732025-06-13 https://scifaro.com/en/abs/designing-neural-synthesizers-for-low-latency-interaction-2503.115622025-04-15 https://scifaro.com/en/abs/are-deep-speech-denoising-models-robust-to-adversarial-noise-2503.116272026-03-12 https://scifaro.com/en/abs/expressive-music-data-processing-and-generation-2503.118962025-03-18 https://scifaro.com/en/abs/computational-extraction-of-intonation-and-tuning-systems-from-multiple-microtonal-monophonic-vocal-recordings-with-diverse-modes-2503.119562025-08-29 https://scifaro.com/en/abs/prosody-enhanced-acoustic-pre-training-and-acoustic-disentangled-prosody-adapting-for-movie-dubbing-2503.120422025-03-19 https://scifaro.com/en/abs/universal-speech-token-learning-via-low-bitrate-neural-codec-and-pretrained-representations-2503.121152025-10-16 https://scifaro.com/en/abs/serenade-a-singing-style-conversion-framework-based-on-audio-infilling-2503.123882025-07-08 https://scifaro.com/en/abs/a-general-close-loop-predictive-coding-framework-for-auditory-working-memory-2503.125062025-03-18 https://scifaro.com/en/abs/context-aware-two-step-training-scheme-for-domain-invariant-speech-separation-2503.125892025-03-18 https://scifaro.com/en/abs/dynamic-derivation-and-elimination-audio-visual-segmentation-with-enhanced-audio-semantics-2503.128402025-03-18 https://scifaro.com/en/abs/robust-audio-visual-segmentation-via-audio-guided-visual-convergent-alignment-2503.128472025-03-18 https://scifaro.com/en/abs/insectset459-an-open-dataset-of-insect-sounds-for-bioacoustic-machine-learning-2503.150742025-03-20 https://scifaro.com/en/abs/a-bird-song-detector-for-improving-bird-identification-through-deep-learning-a-case-study-from-do-nana-2503.155762025-07-03 https://scifaro.com/en/abs/aligning-text-to-music-evaluation-with-human-preferences-2503.166692025-03-24 https://scifaro.com/en/abs/wavefm-a-high-fidelity-and-efficient-vocoder-based-on-flow-matching-2503.166892025-03-24 https://scifaro.com/en/abs/caarma-class-augmentation-with-adversarial-mixup-regularization-2503.167182026-02-03 https://scifaro.com/en/abs/the-model-hears-you-audio-language-model-deployments-should-consider-the-principle-of-least-privilege-2503.168332025-09-10 https://scifaro.com/en/abs/improving-acoustic-scene-classification-with-city-features-2503.168622025-06-16 https://scifaro.com/en/abs/stftcodec-high-fidelity-audio-compression-through-time-frequency-domain-representation-2503.169892025-03-24 https://scifaro.com/en/abs/symbolic-audio-classification-via-modal-decision-tree-learning-2503.170182025-03-24 https://scifaro.com/en/abs/hifi-stream-streaming-speech-enhancement-with-generative-adversarial-networks-2503.171412025-07-24 https://scifaro.com/en/abs/learning-separated-representations-for-instrument-based-music-similarity-2503.172812025-07-18 https://scifaro.com/en/abs/leveraging-audio-representations-for-vibration-based-crowd-monitoring-in-stadiums-2503.176462025-03-25 https://scifaro.com/en/abs/lzmidi-compression-based-symbolic-music-generation-2503.176542025-03-25 https://scifaro.com/en/abs/gsound-sir-a-spatial-impulse-response-ray-tracing-and-high-order-ambisonic-auralization-python-toolkit-2503.178662025-03-25 https://scifaro.com/en/abs/elevating-robust-multi-talker-asr-by-decoupling-speaker-separation-and-speech-recognition-2503.178862025-03-25 https://scifaro.com/en/abs/anomaly-detection-and-localization-for-speech-deepfakes-via-feature-pyramid-matching-2503.180322025-03-25 https://scifaro.com/en/abs/machine-learning-based-animal-emotion-classification-using-audio-signals-2503.181382025-03-25 https://scifaro.com/en/abs/music-similarity-representation-learning-focusing-on-individual-instruments-with-source-separation-and-human-preference-2503.184862025-03-25 https://scifaro.com/en/abs/wireless-hearables-with-programmable-speech-ai-accelerators-2503.186982025-10-23 https://scifaro.com/en/abs/a-reliable-and-efficient-detection-pipeline-for-rodent-ultrasonic-vocalizations-2503.189282025-03-25 https://scifaro.com/en/abs/unifying-eeg-and-speech-for-emotion-recognition-a-two-step-joint-learning-framework-for-handling-missing-eeg-data-during-inference-2503.189642025-03-26 https://scifaro.com/en/abs/boosting-the-transferability-of-audio-adversarial-examples-with-acoustic-representation-optimization-2503.195912025-03-26 https://scifaro.com/en/abs/qincodec-neural-audio-compression-with-implicit-neural-codebooks-2503.195972025-03-26 https://scifaro.com/en/abs/analyzable-chain-of-musical-thought-prompting-for-high-fidelity-music-generation-2503.196112025-03-26 https://scifaro.com/en/abs/deep-learning-for-speech-emotion-recognition-a-cnn-approach-utilizing-mel-spectrograms-2503.196772025-03-26 https://scifaro.com/en/abs/fireredtts-1s-an-upgraded-streamable-foundation-text-to-speech-system-2503.204992025-05-27 https://scifaro.com/en/abs/text-driven-voice-conversion-via-latent-state-space-modeling-2503.209992025-07-31 https://scifaro.com/en/abs/improving-speech-recognition-accuracy-using-custom-language-models-with-the-vosk-toolkit-2503.210252025-03-31 https://scifaro.com/en/abs/magnitude-phase-dual-path-speech-enhancement-network-based-on-self-supervised-embedding-and-perceptual-contrast-stretch-boosting-2503.215712025-03-28 https://scifaro.com/en/abs/hierarchical-label-propagation-a-model-size-dependent-performance-booster-for-audioset-tagging-2503.218262025-03-31 https://scifaro.com/en/abs/tune-it-up-music-genre-transfer-and-prediction-2503.220082025-03-31 https://scifaro.com/en/abs/enhancing-dance-to-music-generation-via-negative-conditioning-latent-diffusion-model-2503.221382025-03-31 https://scifaro.com/en/abs/enhance-generation-quality-of-flow-matching-v2a-model-via-multi-step-cot-like-guidance-and-combined-preference-optimization-2503.222002025-03-31 https://scifaro.com/en/abs/deepsound-v1-start-to-think-step-by-step-in-the-audio-generation-from-videos-2503.222082025-03-31 https://scifaro.com/en/abs/cross-technology-generalization-in-synthesized-speech-detection-evaluating-ast-models-with-modern-voice-generators-2503.225032025-03-31 https://scifaro.com/en/abs/modeling-speech-emotion-with-label-variance-and-analyzing-performance-across-speakers-and-unseen-acoustic-conditions-2503.227112025-04-01 https://scifaro.com/en/abs/coverage-guaranteed-speech-emotion-recognition-via-calibrated-uncertainty-adaptive-prediction-sets-2503.227122025-05-08 https://scifaro.com/en/abs/dual-audio-centric-modality-coupling-for-talking-head-generation-2503.227282025-04-01 https://scifaro.com/en/abs/teaching-llms-music-theory-with-in-context-learning-and-chain-of-thought-prompting-pedagogical-strategies-for-machines-2503.228532025-04-01 https://scifaro.com/en/abs/crossmusim-a-cross-modal-framework-for-music-similarity-retrieval-with-llm-powered-text-description-sourcing-and-mining-2503.231282025-05-26 https://scifaro.com/en/abs/joint-source-environment-adaptation-of-data-driven-underwater-acoustic-source-ranging-based-on-model-uncertainty-2503.232582025-10-14 https://scifaro.com/en/abs/mismatch-robust-underwater-acoustic-localization-using-a-differentiable-modular-forward-model-2503.232602025-04-01 https://scifaro.com/en/abs/joint-source-environment-adaptation-for-deep-learning-based-underwater-acoustic-source-ranging-2503.232622025-04-01 https://scifaro.com/en/abs/hearfit-personalized-fitness-monitoring-via-audio-signals-on-smart-speakers-2503.233872025-04-01 https://scifaro.com/en/abs/hearsmoking-smoking-detection-in-driving-environment-via-acoustic-sensing-on-smartphones-2503.233912025-04-01 https://scifaro.com/en/abs/d3-guard-acoustic-based-drowsy-driving-detection-using-smartphones-2503.233932025-04-01 https://scifaro.com/en/abs/scaling-auditory-cognition-via-test-time-compute-in-audio-language-models-2503.233952025-04-01 https://scifaro.com/en/abs/evaluation-of-the-pronunciation-of-tajweed-rules-based-on-dnn-as-a-step-towards-interactive-recitation-learning-2503.234702025-09-22 https://scifaro.com/en/abs/unisep-universal-target-audio-separation-with-language-models-at-scale-2503.237622025-04-01 https://scifaro.com/en/abs/music-information-retrieval-on-representative-mexican-folk-vocal-melodies-through-midi-feature-extraction-2503.242432025-04-01 https://scifaro.com/en/abs/are-you-really-listening-boosting-perceptual-awareness-in-music-qa-benchmarks-2504.003692025-06-11 https://scifaro.com/en/abs/user-authentication-on-earable-devices-via-bone-conducted-occlusion-sounds-2504.004352025-04-02 https://scifaro.com/en/abs/c-2-av-tse-context-and-confidence-aware-audio-visual-target-speaker-extraction-2504.007502025-04-02 https://scifaro.com/en/abs/a-survey-on-music-generation-from-single-modal-cross-modal-and-multi-modal-perspectives-2504.008372026-03-09 https://scifaro.com/en/abs/multilingual-and-multi-accent-jailbreaking-of-audio-llms-2504.010942025-04-03 https://scifaro.com/en/abs/token-pruning-in-audio-transformers-optimizing-performance-and-decoding-patch-importance-2504.016902025-10-27 https://scifaro.com/en/abs/causal-self-supervised-pretrained-frontend-with-predictive-code-for-speech-separation-2504.023022025-04-04 https://scifaro.com/en/abs/evmic-event-based-non-contact-sound-recovery-from-effective-spatial-temporal-modeling-2504.024022025-04-04 https://scifaro.com/en/abs/f5r-tts-improving-flow-matching-based-text-to-speech-with-group-relative-policy-optimization-2504.024072025-04-23 https://scifaro.com/en/abs/deep-learning-for-music-generation-four-approaches-and-their-comparative-evaluation-2504.025862025-04-04 https://scifaro.com/en/abs/generating-diverse-audio-visual-360-soundscapes-for-sound-event-localization-and-detection-2504.029882025-04-07 https://scifaro.com/en/abs/rwkvtts-yet-another-tts-based-on-rwkv-7-2504.032892025-04-07 https://scifaro.com/en/abs/an-efficient-gpu-based-implementation-for-noise-robust-sound-source-localization-2504.033732025-05-09 https://scifaro.com/en/abs/determined-blind-source-separation-via-modeling-adjacent-frequency-band-correlations-in-speech-signals-2504.039982025-04-08 https://scifaro.com/en/abs/formula-supervised-sound-event-detection-pre-training-without-real-data-2504.044282025-04-08 https://scifaro.com/en/abs/loopgen-training-free-loopable-music-generation-2504.044662025-06-30 https://scifaro.com/en/abs/activation-patching-for-interpretable-steering-in-music-generation-2504.044792025-04-08 https://scifaro.com/en/abs/solid-state-bus-comp-a-large-scale-and-diverse-dataset-for-dynamic-range-compressor-virtual-analog-modeling-2504.045892025-05-29 https://scifaro.com/en/abs/l3ac-towards-a-lightweight-and-lossless-audio-codec-2504.049492025-08-18 https://scifaro.com/en/abs/deconstructing-jazz-piano-style-using-machine-learning-2504.050092025-05-15 https://scifaro.com/en/abs/leveraging-label-potential-for-enhanced-multimodal-emotion-recognition-2504.051582025-04-08 https://scifaro.com/en/abs/p2mark-plug-and-play-parameter-level-watermarking-for-neural-speech-generation-2504.051972025-05-06 https://scifaro.com/en/abs/of-all-stripes-investigating-structure-informed-positional-encoding-for-efficient-music-generation-2504.053642025-04-09 https://scifaro.com/en/abs/exploring-local-interpretable-model-agnostic-explanations-for-speech-emotion-recognition-with-distribution-shift-2504.053682025-04-09 https://scifaro.com/en/abs/soundvista-novel-view-ambient-sound-synthesis-via-visual-acoustic-binding-2504.055762025-04-09 https://scifaro.com/en/abs/taro-timestep-adaptive-representation-alignment-with-onset-aware-conditioning-for-synchronized-video-to-audio-synthesis-2504.056842025-10-13 https://scifaro.com/en/abs/knn-svc-robust-zero-shot-singing-voice-conversion-with-additive-synthesis-and-concatenation-smoothness-optimization-2504.056862025-04-09 https://scifaro.com/en/abs/stage-stemmed-accompaniment-generation-through-prefix-based-conditioning-2504.056902025-04-10 https://scifaro.com/en/abs/mass-spring-models-for-passive-keyword-spotting-a-springtronics-approach-2504.058022025-04-09 https://scifaro.com/en/abs/avenet-disentangling-features-by-approximating-average-features-for-voice-conversion-2504.058332025-04-09 https://scifaro.com/en/abs/r-eduire-le-bruit-gr-ace-a-la-r-ealit-e-augment-ee-sonore-auditory-concealer-2504.058472025-04-09 https://scifaro.com/en/abs/real-time-pitch-f0-detection-using-spectrogram-images-and-convolutional-neural-networks-2504.061652025-04-09 https://scifaro.com/en/abs/a-streamable-neural-audio-codec-with-residual-scalar-vector-quantization-for-real-time-communication-2504.065612025-04-10 https://scifaro.com/en/abs/detect-all-type-deepfake-audio-wavelet-prompt-tuning-for-enhanced-auditory-perception-2504.067532026-01-12 https://scifaro.com/en/abs/cafa-a-controllable-automatic-foley-artist-2504.067782025-04-18 https://scifaro.com/en/abs/artificial-intelligence-in-creating-representing-or-expressing-an-immersive-soundscape-2504.071532025-04-11 https://scifaro.com/en/abs/quantum-inspired-genetic-algorithm-for-robust-source-separation-in-smart-city-acoustics-2504.073452025-04-11 https://scifaro.com/en/abs/towards-generalizability-to-tone-and-content-variations-in-the-transcription-of-amplifier-rendered-electric-guitar-audio-2504.074062025-04-11 https://scifaro.com/en/abs/slimspeech-lightweight-and-efficient-text-to-speech-with-slim-rectified-flow-2504.077762025-05-19 https://scifaro.com/en/abs/empowering-global-voices-a-data-efficient-phoneme-tone-adaptive-approach-to-high-fidelity-speech-synthesis-2504.078582025-04-11 https://scifaro.com/en/abs/generalized-multilingual-text-to-speech-generation-with-language-aware-style-adaptation-2504.082742025-04-14 https://scifaro.com/en/abs/location-oriented-sound-event-localization-and-detection-with-spatial-mapping-and-regression-localization-2504.083652026-02-02 https://scifaro.com/en/abs/passive-underwater-acoustic-signal-separation-based-on-feature-decoupling-dual-path-network-2504.083712025-04-14 https://scifaro.com/en/abs/on-the-design-of-diffusion-based-neural-speech-codecs-2504.084702025-04-14 https://scifaro.com/en/abs/bowelrcnn-region-based-convolutional-neural-network-system-for-bowel-sound-auscultation-2504.086592025-04-14 https://scifaro.com/en/abs/spatial-audio-processing-with-large-language-model-on-wearable-devices-2504.089072025-04-28 https://scifaro.com/en/abs/generation-of-musical-timbres-using-a-text-guided-diffusion-model-2504.092192025-04-15 https://scifaro.com/en/abs/amnet-an-acoustic-model-network-for-enhanced-mandarin-speech-synthesis-2504.092252025-04-15 https://scifaro.com/en/abs/fssuavl-a-discriminative-framework-using-vision-models-for-federated-self-supervised-audio-and-image-understanding-2504.095162025-04-15 https://scifaro.com/en/abs/safespeech-robust-and-universal-voice-protection-against-malicious-speech-synthesis-2504.098392025-04-15 https://scifaro.com/en/abs/separate-to-collaborate-dual-stream-diffusion-model-for-coordinated-piano-hand-motion-synthesis-2504.098852025-09-05 https://scifaro.com/en/abs/autostyle-tts-retrieval-augmented-generation-based-automatic-style-matching-text-to-speech-synthesis-2504.103092025-04-15 https://scifaro.com/en/abs/almtokenizer-a-low-bitrate-and-semantic-rich-audio-codec-tokenizer-for-audio-language-modeling-2504.103442025-04-15 https://scifaro.com/en/abs/deep-audio-watermarks-are-shallow-limitations-of-post-hoc-watermarking-techniques-for-speech-2504.107822025-04-16 https://scifaro.com/en/abs/sonicsieve-bringing-directional-speech-extraction-to-smartphones-using-acoustic-microstructures-2504.107932026-02-13 https://scifaro.com/en/abs/generalized-audio-deepfake-detection-using-frame-level-latent-information-entropy-2504.108192025-04-16 https://scifaro.com/en/abs/progressive-rock-music-classification-2504.108212025-04-16 https://scifaro.com/en/abs/steermusic-enhanced-musical-consistency-for-zero-shot-text-guided-and-personalized-music-editing-2504.108262025-12-09 https://scifaro.com/en/abs/dopamine-audiobook-a-training-free-mllm-agent-for-emotional-and-immersive-audiobook-generation-2504.110022025-08-13 https://scifaro.com/en/abs/voice-conversion-with-diverse-intonation-using-conditional-variational-auto-encoder-2504.120052025-04-17 https://scifaro.com/en/abs/edge-intelligence-for-wildlife-conservation-real-time-hornbill-call-classification-using-tinyml-2504.122722025-04-17 https://scifaro.com/en/abs/dysarthria-normalization-via-local-lie-group-transformations-for-robust-asr-2504.122792025-05-06 https://scifaro.com/en/abs/an-accurate-measurement-of-parametric-array-using-a-spurious-sound-filter-topologically-equivalent-to-a-half-wavelength-resonator-2504.123982025-09-29 https://scifaro.com/en/abs/a-multi-task-learning-balanced-attention-convolutional-neural-network-model-for-few-shot-underwater-acoustic-target-recognition-2504.131022026-04-10 https://scifaro.com/en/abs/acoustic-to-articulatory-inversion-of-speech-data-driven-approaches-challenges-applications-and-future-scope-2504.133082025-04-21 https://scifaro.com/en/abs/musflow-multimodal-music-generation-via-conditional-flow-matching-2504.135352025-04-21 https://scifaro.com/en/abs/collective-learning-mechanism-based-optimal-transport-generative-adversarial-network-for-non-parallel-voice-conversion-2504.137912025-04-21 https://scifaro.com/en/abs/transformation-of-audio-embeddings-into-interpretable-concept-based-representations-2504.140762025-04-22 https://scifaro.com/en/abs/diffvox-a-differentiable-model-for-capturing-and-analysing-vocal-effects-distributions-2504.147352025-08-19 https://scifaro.com/en/abs/aria-midi-a-dataset-of-piano-midi-files-for-symbolic-music-modeling-2504.150712025-07-01 https://scifaro.com/en/abs/dragon-distributional-rewards-optimize-diffusion-generative-models-2504.152172025-11-18 https://scifaro.com/en/abs/quantifying-source-speaker-leakage-in-one-to-one-voice-conversion-2504.158222025-04-23 https://scifaro.com/en/abs/tinyml-for-speech-recognition-2504.162132025-12-03 https://scifaro.com/en/abs/smart-tuning-a-symbolic-music-generation-system-with-an-audio-domain-aesthetic-reward-2504.168392025-04-24 https://scifaro.com/en/abs/waveform-logmel-audio-neural-networks-for-respiratory-sound-classification-2504.171562025-04-25 https://scifaro.com/en/abs/a-machine-learning-approach-for-denoising-and-upsampling-hrtfs-2504.175862026-01-26 https://scifaro.com/en/abs/unleashing-the-power-of-natural-audio-featuring-multiple-sound-sources-2504.177822025-04-25 https://scifaro.com/en/abs/stnet-prediction-of-underwater-sound-speed-profiles-with-an-advanced-semi-transformer-neural-network-2504.179122025-09-09 https://scifaro.com/en/abs/tracking-articulatory-dynamics-in-speech-with-a-fixed-weight-bilstm-cnn-architecture-2504.180992025-04-28 https://scifaro.com/en/abs/speaker-diarization-for-low-resource-languages-through-wav2vec-fine-tuning-2504.185822025-04-29 https://scifaro.com/en/abs/speaker-retrieval-in-the-wild-challenges-effectiveness-and-robustness-2504.189502025-04-30 https://scifaro.com/en/abs/improving-pretrained-yamnet-for-enhanced-speech-command-detection-via-transfer-learning-2504.190302025-04-29 https://scifaro.com/en/abs/muyan-tts-a-trainable-text-to-speech-model-optimized-for-podcast-scenarios-with-a-50k-budget-2504.191462025-04-29 https://scifaro.com/en/abs/generative-adversarial-network-based-voice-conversion-techniques-challenges-and-recent-advancements-2504.191972025-04-29 https://scifaro.com/en/abs/pediatric-asthma-detection-with-googles-hear-model-an-ai-driven-respiratory-sound-classifier-2504.201242025-04-30 https://scifaro.com/en/abs/apg-mos-auditory-perception-guided-mos-predictor-for-synthetic-speech-2504.204472025-04-30 https://scifaro.com/en/abs/diffusionrir-room-impulse-response-interpolation-using-diffusion-models-2504.206252025-04-30 https://scifaro.com/en/abs/ecosoundset-a-finely-annotated-dataset-for-the-automated-acoustic-identification-of-orthoptera-and-cicadidae-in-north-central-and-temperate-western-europe-2504.207762025-04-30 https://scifaro.com/en/abs/enhancing-non-core-language-instruction-following-in-speech-llms-via-semi-implicit-cross-lingual-cot-reasoning-2504.208352025-04-30 https://scifaro.com/en/abs/end-to-end-audio-deepfake-detection-from-raw-waveforms-a-rawnet-based-approach-with-cross-dataset-evaluation-2504.209232025-05-01 https://scifaro.com/en/abs/design-analysis-and-experimental-validation-of-a-stepped-plate-parametric-array-loudspeaker-2504.211712025-09-29 https://scifaro.com/en/abs/dgfnet-end-to-end-audio-visual-source-separation-based-on-dynamic-gating-fusion-2504.213662025-05-01 https://scifaro.com/en/abs/bridging-cultural-and-digital-divides-a-low-latency-jacktrip-framework-for-equitable-music-education-in-the-global-south-2505.005502025-05-02 https://scifaro.com/en/abs/voice-cloning-comprehensive-survey-2505.005792025-05-02 https://scifaro.com/en/abs/gvpt-a-software-for-guided-visual-pitch-tracking-2505.007502025-05-05 https://scifaro.com/en/abs/smsat-a-multimodal-acoustic-dataset-and-deep-contrastive-learning-framework-for-affective-and-physiological-modeling-of-spiritual-meditation-2505.008392025-05-05 https://scifaro.com/en/abs/binamix-a-python-library-for-generating-binaural-audio-datasets-2505.013692025-05-05 https://scifaro.com/en/abs/weakly-supervised-audio-temporal-forgery-localization-via-progressive-audio-language-co-learning-network-2505.018802025-05-08 https://scifaro.com/en/abs/maskclip-detachable-clip-on-piezoelectric-sensing-of-mask-surface-vibrations-for-real-time-noise-robust-speech-input-2505.021802025-05-06 https://scifaro.com/en/abs/cogenav-versatile-audio-visual-representation-learning-via-contrastive-generative-synchronization-2505.031862025-05-16 https://scifaro.com/en/abs/a-study-on-audio-synchronous-steganography-detection-and-distributed-guide-inference-model-based-on-sliding-spectral-features-and-intelligent-inference-drive-2505.031932025-05-07 https://scifaro.com/en/abs/mgff-tdnn-a-multi-granularity-feature-fusion-tdnn-model-with-depth-wise-separable-module-for-speaker-verification-2505.032282025-05-07 https://scifaro.com/en/abs/sonicrag-high-fidelity-sound-effects-synthesis-based-on-retrival-augmented-generation-2505.032442025-05-14 https://scifaro.com/en/abs/sepalm-audio-language-models-are-error-correctors-for-robust-speech-separation-2505.032732025-05-27 https://scifaro.com/en/abs/mamba-diffusion-model-with-learnable-wavelet-for-controllable-symbolic-music-generation-2505.033142025-05-07 https://scifaro.com/en/abs/the-inverse-drum-machine-source-separation-through-joint-transcription-and-analysis-by-synthesis-2505.033372025-10-01 https://scifaro.com/en/abs/knowledge-distillation-for-speech-denoising-by-latent-representation-alignment-with-cosine-distance-2505.034422025-05-07 https://scifaro.com/en/abs/advancing-zero-shot-text-to-speech-intelligibility-across-diverse-domains-via-preference-alignment-2505.041132025-06-09 https://scifaro.com/en/abs/automatic-music-transcription-using-convolutional-neural-networks-and-constant-q-transform-2505.044512025-05-08 https://scifaro.com/en/abs/miipher-2-a-universal-speech-restoration-model-for-million-hour-scale-data-restoration-2505.044572025-07-24 https://scifaro.com/en/abs/score-distillation-sampling-for-audio-source-separation-synthesis-and-beyond-2505.046212025-05-08 https://scifaro.com/en/abs/data-standards-in-audiology-a-mixed-methods-exploration-of-community-perspectives-and-implementation-considerations-2505.047282026-01-19 https://scifaro.com/en/abs/a-multi-agent-ai-framework-for-immersive-audiobook-production-through-spatial-audio-and-neural-narration-2505.048852025-05-09 https://scifaro.com/en/abs/how-to-infer-repeat-structures-in-midi-performances-2505.050552025-05-09 https://scifaro.com/en/abs/reverbmiipher-generative-speech-restoration-meets-reverberation-characteristics-controllability-2505.050772025-07-16 https://scifaro.com/en/abs/pairing-real-time-piano-transcription-with-symbol-level-tracking-for-precise-and-robust-score-following-2505.050782025-05-09 https://scifaro.com/en/abs/flam-frame-wise-language-audio-modeling-2505.053352025-06-10 https://scifaro.com/en/abs/toward-a-sparse-and-interpretable-audio-codec-2505.056542025-05-12 https://scifaro.com/en/abs/fast-differentiable-modal-simulation-of-non-linear-strings-membranes-and-plates-2505.059402025-05-27 https://scifaro.com/en/abs/learning-music-audio-representations-with-limited-data-2505.060422025-05-12 https://scifaro.com/en/abs/beyond-identity-a-generalizable-approach-for-deepfake-audio-detection-2505.067662025-05-13 https://scifaro.com/en/abs/bridging-ears-and-eyes-analyzing-audio-and-visual-large-language-models-to-humans-in-visible-sound-recognition-and-reducing-their-sensory-gap-via-cross-modal-distillation-2505.068032025-05-13 https://scifaro.com/en/abs/multi-band-frequency-reconstruction-for-neural-psychoacoustic-coding-2505.072352025-05-13 https://scifaro.com/en/abs/predicting-music-track-popularity-by-convolutional-neural-networks-on-spotify-features-and-spectrogram-of-audio-waveform-2505.072802025-05-13 https://scifaro.com/en/abs/multi-domain-audio-question-answering-benchmark-toward-acoustic-content-reasoning-2505.073652026-03-10 https://scifaro.com/en/abs/lightweight-end-to-end-text-to-speech-synthesis-for-low-resource-on-device-applications-2505.077012025-11-25 https://scifaro.com/en/abs/isac-an-invertible-and-stable-auditory-filter-bank-with-customizable-kernels-for-ml-integration-2505.077092025-05-13 https://scifaro.com/en/abs/fast-text-to-audio-generation-with-adversarial-post-training-2505.081752025-05-21 https://scifaro.com/en/abs/not-that-groove-zero-shot-symbolic-music-editing-2505.082032026-05-06 https://scifaro.com/en/abs/a-mamba-based-network-for-semi-supervised-singing-melody-extraction-using-confidence-binary-regularization-2505.086812025-05-14 https://scifaro.com/en/abs/dpn-gan-inducing-periodic-activations-in-generative-adversarial-networks-for-high-fidelity-audio-synthesis-2505.090912025-05-15 https://scifaro.com/en/abs/adaptive-noise-resilient-keyword-spotting-using-one-shot-learning-2505.093042025-08-19 https://scifaro.com/en/abs/singnet-towards-a-large-scale-diverse-and-in-the-wild-singing-voice-dataset-2505.093252025-05-15 https://scifaro.com/en/abs/the-voice-timbre-attribute-detection-2025-challenge-evaluation-plan-2505.093822025-06-24 https://scifaro.com/en/abs/specwav-attack-leveraging-spectrogram-resizing-and-wav2vec-2-0-for-attacking-anonymized-speech-2505.096162025-05-16 https://scifaro.com/en/abs/detecting-musical-deepfakes-2505.096332025-05-16 https://scifaro.com/en/abs/introducing-voice-timbre-attribute-detection-2505.096612025-06-24 https://scifaro.com/en/abs/theoretical-model-of-acoustic-power-transfer-through-solids-2505.097842025-05-16 https://scifaro.com/en/abs/lav-audio-driven-dynamic-visual-generation-with-neural-compression-and-stylegan2-2505.101012026-04-16 https://scifaro.com/en/abs/learning-nonlinear-dynamics-in-physical-modelling-synthesis-using-neural-ordinary-differential-equations-2505.105112025-05-16 https://scifaro.com/en/abs/t2a-feedback-improving-basic-capabilities-of-text-to-audio-generation-via-fine-grained-ai-feedback-2505.105612025-05-16 https://scifaro.com/en/abs/multi-stage-speaker-diarization-for-noisy-classrooms-2505.108792025-05-28 https://scifaro.com/en/abs/banglafake-constructing-and-evaluating-a-specialized-bengali-deepfake-audio-dataset-2505.108852025-05-19 https://scifaro.com/en/abs/allm4add-unlocking-the-capabilities-of-audio-large-language-models-for-audio-deepfake-detection-2505.110792025-07-09 https://scifaro.com/en/abs/audio-turing-test-benchmarking-the-human-likeness-of-large-language-model-based-text-to-speech-systems-in-chinese-2505.112002025-05-19 https://scifaro.com/en/abs/seeing-sound-hearing-sight-uncovering-modality-bias-and-conflict-of-ai-models-in-sound-localization-2505.112172025-10-27 https://scifaro.com/en/abs/improving-inference-time-optimisation-for-vocal-effects-style-transfer-with-a-gaussian-prior-2505.113152025-10-20 https://scifaro.com/en/abs/machine-learning-approaches-to-vocal-register-classification-in-contemporary-male-pop-music-2505.113782025-08-22 https://scifaro.com/en/abs/asr-fairbench-measuring-and-benchmarking-equity-across-speech-recognition-systems-2505.115722025-05-20