stepfun-ai
/

Step-Audio-AQAA

Model card Files Files and versions Community

buyun commited on 18 days ago

Commit

34a727e

·

verified ·

1 Parent(s): 854d06b

Update README.md

Files changed (1) hide show

README.md +4 -0

README.md CHANGED Viewed

@@ -2,6 +2,9 @@
 license: apache-2.0
 ---
 # Step-Audio-AQAA: A Fully End-to-End Expressive Large Audio Language Model
 ## Model Overview
 Step-Audio-AQAA is a fully end-to-end Large Audio-Language Model (LALM) designed for Audio Query-Audio Answer (AQAA) tasks. It directly processes audio inputs and generates natural, accurate speech responses without relying on traditional ASR and TTS modules, eliminating cascading errors and simplifying the system architecture.
@@ -43,6 +46,7 @@ Step-Audio-AQAA consists of three core modules:
 - **AQTA Dataset**: Audio query-text answer pairs.
 - **AQTAA Dataset**: Audio query-text answer-audio answer triplets generated from AQTA.
 ## Citation
 ```bibtex
 @misc{huang2025stepaudioaqaa,

 license: apache-2.0
 ---
 # Step-Audio-AQAA: A Fully End-to-End Expressive Large Audio Language Model
+**📚 Paper:** [Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model](https://arxiv.org/abs/2506.08967)
+**🚀 Live Demo:** [![Try the Demo](https://img.shields.io/badge/StepFun-Audio-AQAA)](https://www.stepfun.com/docs/zh/step-audio-aqaa?studio_code=step-audio-aqaa&studio_id=121368403356246016&studio_type=1)
 ## Model Overview
 Step-Audio-AQAA is a fully end-to-end Large Audio-Language Model (LALM) designed for Audio Query-Audio Answer (AQAA) tasks. It directly processes audio inputs and generates natural, accurate speech responses without relying on traditional ASR and TTS modules, eliminating cascading errors and simplifying the system architecture.
 - **AQTA Dataset**: Audio query-text answer pairs.
 - **AQTAA Dataset**: Audio query-text answer-audio answer triplets generated from AQTA.
 ## Citation
 ```bibtex
 @misc{huang2025stepaudioaqaa,