Keskustelu: Ohjelmointikysymykset: Ohjelman kontrolloiminen äänen avulla [VB.NET]

NanoSoft [29.12.2005 21:39:51]

Onko kellään teistä kokemusta tuosta? Jos on niin voisitteko antaa esimerkin sen käytöstä ja jos tiedätte, että kuinka tekstiä saa muutettua puheeksi niin antakaa siitäkin esimerkki(-i +ejä)!

Draiz [29.12.2005 21:49:22]

NanoSoft kirjoitti:

kuinka tekstiä saa muutettua puheeksi

http://www.codeproject.com/vbscript/texttospeech.asp

Metabolix [29.12.2005 21:55:31]

2. Ensin muutat tekstin sopiviksi "ääntämysmerkeiksi", mikä ei suomeksi ole koivinkaan hankalaa; lähinnä np (enpä, onpa), nk, ng ja gn kaipaavat käsittelyä. Nauhoitat ja analysoit ääntä, teet sopivia sampleja ja sulautat kirjainten välit kauniisti.

1. Analysoit nauhoitetun äänen ja yrität löytää samoja piirteitä kuin aiemmasta aallosta. Luulen, että paras tapa on ensin erottaa äänestä kirjainten rajat ja suhteelliset pituudet. Sitten voi venyttää pätkät samalle taajuudelle kuin alkuperäisessä äänessä ja vertailla aaltojen muotoja. Varmaankin neuroverkkojen tunteminen tulisi tuon toteutuksessa tarpeeseen.

Äänen tuottaminen on paljon helpompaa kuin sen analysoiminen. Jos nuo selostukset vaikuttavat hankalilta, suosittelen jättämään asian kaapin päälle hetkeksi. En minäkään ole noita koskaan yrittänyt. Vaikeudesta kertoo ehkä jotakin se, että niin harvasta ohjelmasta löytyy ääniohjaus.

thefox [29.12.2005 22:34:39]

IIRC tuolla Microsoftin Speech API:lla (SAPI), johon Draiz viittasi, onnistuu myös puheen tunnistaminen. Eli Google laulamaan.

NanoSoft [29.12.2005 23:39:38]

saako tuota puhujaa naiseksi?

tejeez [31.12.2005 16:23:40]

Metabolix kirjoitti:

2. Ensin muutat tekstin sopiviksi "ääntämysmerkeiksi", mikä ei suomeksi ole koivinkaan hankalaa; lähinnä np (enpä, onpa), nk, ng ja gn kaipaavat käsittelyä. Nauhoitat ja analysoit ääntä, teet sopivia sampleja ja sulautat kirjainten välit kauniisti.

1. Analysoit nauhoitetun äänen ja yrität löytää samoja piirteitä kuin aiemmasta aallosta. Luulen, että paras tapa on ensin erottaa äänestä kirjainten rajat ja suhteelliset pituudet. Sitten voi venyttää pätkät samalle taajuudelle kuin alkuperäisessä äänessä ja vertailla aaltojen muotoja. Varmaankin neuroverkkojen tunteminen tulisi tuon toteutuksessa tarpeeseen.

Tuo voi muuten kuulostaa kuitenkin aika hirveältä.. ehkä selvää saa mutta onpahan tosiaan aika höpöä "robottipuhetta". Kunnollinen puhesynteesi on paljon vaikeampi.

Äänen analysointi tosiaan on sitten myöskin paljon vaikeampaa (puheesta tekstiksi). Ei voi esimerkiksi vertailla valmiisiin äännepätkiin mikrofonilta tullutta, koska se on kuitenkin eri vaiheessa, eri taajuudella ja kohinaa ja taustameluakin on. Varmaankin pitäisi ottaa äänen spektri ja etsiä siitä voimakkaampia kohtia ja niiden perusteella tutkia mikä äänne on kyseessä.. tai sitten ei. en tiiä.

Vastaus

Aihe on jo aika vanha, joten et voi enää vastata siihen.

Kirjautuminen

Haku

Tehtävät