Canopy-Orpheus / app.py
Kingpin0509's picture
Update app.py
734d34c verified
from datasets import load_dataset
from datasets import load_dataset_builder
from datasets import get_dataset_config_names
# Get a list of available configs/subsets of Thorsten-Voice dataset
configs_subsets = get_dataset_config_names("Thorsten-Voice/TV-44kHz-Full")
print(configs_subsets)
['TV-2021.02-Neutral', 'TV-2021.06-Emotional', 'TV-2022.10-Neutral', 'TV-2023.09-Hessisch', 'all']
# Get some dataset information
ds_builder = load_dataset_builder("Thorsten-Voice/TV-44kHz-Full", "TV-2022.10-Neutral")
print("Desciption: " + ds_builder.info.description)
print("Homepage: " + ds_builder.info.homepage)
print("License: " + ds_builder.info.license)
Desciption: Single german male speaker, neutral speech, very clear, high class quality, natural speech flow
Homepage: https://www.Thorsten-Voice.de
License: CC0
# Load "Hessisch" subset
ds = load_dataset("Thorsten-Voice/TV-44kHz-Full", "TV-2022.10-Neutral", split="train")
# Return first row of "Hessisch" subset
print(ds[0])
# Get first three rows, limited to "text" column
print(ds[:3]["text"])
['Woran kannst du erkennen, ob etwas qualitativ gut oder schlecht ist.', 'Diese heiße Schokolade ist nichts für Kinder und perfekt, um am Wochenende oder nach einem langen Tag zu entspannen.', 'Aus den Untersuchungen kam heraus, dass diese Kinder aufmerksamer waren, emotional stabiler und ausgeglichener im Vergleich zu den Kindern die später ins Bett gingen.']